depto. estatísticamrubens/cursos/... · 2015-04-01 · sistema de equações normais a solução...
TRANSCRIPT
Modelos de regressão linear: abordagem clModelos de regressão linear: abordagem cl áássicassica
Prof. Marcelo [email protected]
Depto. Estatística
Análise de Regressão
Objetivo: Determinar uma fun ção matem ática que descreva a relação entre uma variável contínua (variável explicada ou dependente) e uma ou mais variáveis explicativas ou independentes.
y = f(x 1,x2,...,xK) + εεεε
� y denota a variável dependente.� x1,x2,...,xK denotam as variáveis independentes.� f(x1,x2,...,xK) descreve a variação sistem ática (determinística)� εεεε representa a variação não sistem ática (erro aleatório)
Modelos de regressão (fun ção f) podem ser lineares ou não lineares.
Exemplo 1O gerente de vendas de uma empresa varejista está interessado em obter uma equação que sintetize a relação existente entre o investimento em propaganda e o volume de vendas da empresa com o objetivo de realizar projeções do volume de vendas.
Amostra de tamanho n=10 obtida no
departamento de vendas (milhões de R$)
Diagrama de dispersão representação gráfica que permite visualizar a
relação/associação entre duas variáveis
0
10
20
30
40
50
60
0 10 20 30 40 50
Investimento em propaganda (X)
Vol
ume
de v
enda
s (Y
)
Um incremento no investimento em propaganda produz um
aumento nas vendas
A relação entre as variáveis não é precisa (estocástica)
Exemplo 1A boa aderência da nuvem de pontos ao redor de um reta imaginária indica que a relação entre as duas variáveis pode ser aproximada por uma relação linear.
0
10
20
30
40
50
60
0 5 10 15 20 25 30 35 40 45
Investimento em propaganda (X)
Vol
ume
de v
enda
s (Y
)
A essência da relação entre o investimento em propaganda e o volume de vendas pode ser expressa por uma reta.
A identificação desta reta pode ser efetuada por meio de um modelo de regressão linear simples.
Exemplo 1
0
10
20
30
40
50
60
0 5 10 15 20 25 30 35 40 45
Investimento em propaganda (X)
Vol
ume
de v
enda
s (Y
)
Para um investimento de R$ 25 milhões em propaganda espera-se um volume de vendas da ordem de R$ 37 milhões (valor a justado)
Exemplo 1
Neste caso o nível de vendas (y) é explicado pelo investimento em propaganda (x), então, y=f(x):
x = nível de vendas = variável dependentey = investimento em propaganda = variável independente
A relação estocástica entre as duas variáveis pode ser modelada da seguinte forma:
y = β0 + β1x + ε
Onde:� β0 e β1 são coeficientes desconhecidos da reta que relaciona as variáveis x e y (estimados a partir dos dados da amostra).� ε é um termo aleatório (erro) que representa a imprecisão na relação entre x e y.
Modelos de regressão linear
Modelo de regressão linear simples: uma variável dependente explicada por uma variável independente.
yi = β0 + β1xi + εi
Modelo de regressão linear m últipla:Uma variável dependente explicada por pelo menos duas variáveis independentes.
yi = β0 + β1x1, i + ... + βKxK, i + εi (K≥2)
Objetivo : Identificar uma função y=f(x) que permita explicar uma variável dependente (y) em função das variáveis explicativas (x), ou seja, como y varia de acordo com mudanças em x.
Significado do erro εεεε
O erro ε representa:
� Todos os outros fatores que afetam a variável dependente Y, mas que não estão contempladas nas variáveis explicativas X.
� Erros de medição.
� Forma funcional inadequada, por exemplo,
y = β0 + β1x ou y = β0 + β1x + β1x2 ?
� Inerente variabilidade no comportamento dos agentes econômicos.
Modelo de Regressão Linear Simples
Equação de regressão populacional:
yi = β0 + β1xi + εi (apenas uma variável independente)
Os coeficientes ββββ0 e ββββ1 não são conhecidos e devem ser estimados a partir de uma amostra aleatória de tama nho n da população:
Amostra aleatória ⇒ (xi , yi), i=1,n
Em cada unidade amostrada tem -se que
yi = β0 + β1xi + εi i=1,n
Variável aleatória não-observável
Componente determínistica
Hipóteses assumidas pelo modelo
H1) A relação entre as variáveis é linear yi = β0 + β1xi + εi i=1,n:
H2) Média nula: E(εi|xi) = 0 para todo i=1,n
H3) Variância constante: V(εi) = σ2 para todo i=1,n
H4) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k
H5) Distribuição Normal: εi ~ N(0,σ2) para todo i=1,n
εi são independentes e identicamente distribuídos N(0, σσσσ2)
H6) A variável explicativa X é fixa, i.e., não é estocástica
Modelo de Regressão Linear Simples
( ) 2x|yV σ=
ε+β+β= xy 10
Como o valor esperado do erro é zero E( εεεε)=0, o valor esperado de y condicionado ao valor de x é igual a:
( ) ( )x|xEx|yE 10 εββ ++=
( ) ( )x|Exx|yE 10 εββ ++=
( ) xxyE 10| β+β=Por hipótese a variável independente não é aleatória , assim tem-se:
( )210 ,~ σβ+β xNy
Como o erro tem distribuição Normal com média 0 e v ariância σσσσ2
Modelo de Regressão Linear Simples
( ) xyE 10 β+β=
Modelo de Regressão Linear Simples
Reta de regressão
Modelo de Regressão Linear Simples
Estimador de m ínimos quadradosModelo de Regressão Linear Simples
yi = β0 + β1xi + εi ⇒ εi = yi - β0 - β1xi
( )[ ]∑∑==
β+β−=ε=n
iii
n
ii xyf
1
210
1
2
( )[ ]∑=ββ
β+β−=n
iii xyfMin
1
210
, 10
Soma dos quadrados dos erros
As estimativas de ββββ0 e ββββ1 devem minimizar a soma sos quadrados dos desvios
No ponto de mínimo as derivadas parciais são nulas
Sistema de equações normaisA solução deste sistema fornece os estimadores de ββββ0 e ββββ1
( ) 0ˆˆ0ˆ
1ˆ
100
=
β+β−⇒=β∂∂
∑=
ε
n
iii
i
xyf
44 344 21
( ) 0ˆˆ0ˆ
1ˆ
101
=
β+β−⇒=β∂
∂∑=
εi
n
iii
xxyf
i
44 344 21
∑∑==
=β+βn
ii
n
ii
yxn11
10ˆˆ
∑∑∑===
=β+βn
iii
n
ii
n
ii
yxxx11
21
10
ˆˆ
Estimador de m ínimos quadrados
Modelo de Regressão Linear Simples
Solução do sistema de equações normais
xy 10ˆˆ β−=β
( )( )( )∑
∑
=
=
−
−−=β
n
ii
n
iii
xx
yyxx
1
2
11
ˆ
Sistema de equações normais
Estimadores de mínimos quadrados
∑∑∑===
=β+βn
iii
n
ii
n
ii
yxxx11
21
10
ˆˆ
∑∑==
=β+βn
ii
n
ii
yxn11
10ˆˆ
Estimador de m ínimos quadrados
Modelo de Regressão Linear Simples
ii xy 10ˆˆˆ β+β=Valor estimado da variável dependente
y dado que x é igual a x i
Resíduo da i-ésima observação é igual a diferença entre o valor observado e o valor estimado da variável y i ( )iii
iii
xy
yy
10ˆˆˆ
ˆˆ
β+β−=ε
−=ε
Equação de regressão estimada ( ) xxyEy 10ˆˆ|ˆ β+β==
( )∑
∑
=
=β
−
σ=σ
n
ii
n
ii
xxn
x
1
2
1
22
2ˆ
0
∑=
β
−
σ=σn
ii xx
1
22
22ˆ
1
Se as hipóteses H1 até H6 forem satisfeitas, os estimad ores de m ínimos quadrados são estimadores lineares não tendenciosos de variância mínima (Teorema de Gauss Markov)
( ) 00ˆ β=βE
( ) 11ˆ β=βE
( )2ˆ00
0,~ˆ
βσββ N
( )2ˆ11
1,~ˆ
βσββ N
( )2n
xˆˆy
2n
ˆˆ
n
1i
2
i10i
n
1i
2i
2
−
−−=
−=
∑∑==
ββεσ
Modelo de regressão linear simples
Estimador da variância do
erro
Modelo de regressão linear simplesDecomposição do erro:
y
x
y
y = b0 + b1x^
*yi (valor observado)
yi - y yi (valor estimado)^
yi - y^
yi - yi^
Decomposição da soma de quadrados total
SQT = SQE + SQR
SQT = Soma dos Quadrados TotalSQE = Soma dos Quadrados dos ErrosSQR = Soma dos Quadrados da Regressão
Modelo de regressão linear simples
( ) ( ) ( )∑∑ ∑== =
−+−=−n
ii
n
i
n
iiii yyyyyy
1
2
1 1
22 ˆˆ
( )
( ) SQT
SQE1
yy
yy
SQT
SQRR
n
1i
2i
n
1i
2i
2 −=−
−==∑
∑
=
=
Coeficiente de determinação
Modelo de regressão linear simples
10 2 ≤≤ R
� Se R estiver próximo de 1, a variável x explica a maior parte das variações de y. Neste caso, a variável x é uma boa preditora da variável y.
� Se R estiver próximo de 0, a variável x explica muito pouco das variaçães de y.Neste caso, a variável x não é uma boa preditora da variável y.
Análise da variância (ANOVA)
Modelo de regressão linear simplesInferência Estatística no Modelo de Regressão Linear
2σ Estimador da variância do erro
SQT
SQRR =2
( )2nSQE
SQRF
−=
Causas de Variação Graus de Liberdade Soma dos Quadrados Quadrados Médios
Regressão 1 ( )∑=
−=n
ii xxSQR
1
221β QMR=SQR/1
Erros n-2 ( )∑=
−=n
iii yySQE
1
2ˆ QME=SQE/(n-2)
Total n-1 ( )∑=
−=n
ii yySQT
1
2
2n,1F~
2n
SQE1
SQR
F −
−
=
Testa o efeito conjunto das variáveis explicativas s obre a variável dependente, No caso do modelo linear simples testa o efeito de Xsobre YH0 : ββββ1 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )
F > Ftabeladorejeita H0F < Ftabelado aceita H0
Modelo de regressão linear simples
Teste F
Inferência Estatística no Modelo de Regressão Linear
Sob H 0
2nˆ
1 t~ˆ
ˆt
1
−=βσ
β
H0 : ββββ1 = 0H1 : ββββ1 ≠≠≠≠ 0
Testa o efeito individual de X e do termo constante
Modelo de regressão linear simplesInferência Estatística no Modelo de Regressão Linear
Teste t
Testa a significância do coeficiente de regressão li near associado com uma determinada variável explicativa.
Sob H 0
t > ttabeladorejeita H0t < ttabelado aceita H0
21
ˆ11
211
ˆ1 tˆˆtˆˆ1
αβαβ σββσβ−−
⋅+≤≤⋅−
Modelo de regressão linear simplesInferência Estatística no Modelo de Regressão Linear
Intervalo de confiança 100(1- αααα)%
Previsor ( ) hhh xxyE 10ˆˆ|ˆ ββ +=
Erro de previsão ( ) ( ) ( ) ( ) hhhhhh xxyExyEe 1100ˆˆ|ˆ| ββββ −+−=−=
( ) ( )( )
−
−+=∑
=
n
ii
hh
xx
xx
neV
1
2
22 1
ˆˆ σ
Intervalo de previsão
( ) ( ) ( ) ( )
+−
hchhhchheVtxyEeVtxyE |ˆ,|ˆ
Modelo de regressão linear simples
Previsão do valor esperado
Dado xT+h prever yT+h
Previsorhh xy 1
ˆˆˆ0
ββ +=
Erro de previsão ( ) ( ) hhhhh xyye εββββ +−+−=−= 1100ˆˆˆ
( ) ( )( )
−
−++=∑
=
n
1i
2i
2h2
h
xx
xx
n
11ˆeV σ
Intervalo de previsão
( ) ( )
+−
hchhcheVtyeVty ˆ,ˆ
Modelo de regressão linear simplesPrevisão de uma observação
Exemplo modelo de regressão linear simplesO gerente de uma empresa varejista está interessado em ob ter uma equação que sintetize a relação entre o investimento em propaganda (X) e o volume de vendas (Y) da empresa, com a finalidade de projetar o nível de vendas em função do investimento no programa de ma rketing da empresa.
Histórico (dados anuais) Diagrama de dispersão
Relação linear entre as variáveis
N = 10 observações
Exemplo modelo de regressão linear simplesεββ ++= yy 10Modelo de regressão linear
Estimação dos coeficientes por mínimos quadrados
03823,125,26975916,09,37ˆˆ10 =⋅−=β−=β XY
97916,0265801910
3792651101610
XXn
YXYXnˆ
22n
1ii
n
1i
2i
n
1i
n
1ii
n
1iiii
1 =−⋅
⋅−⋅=
−
−=
∑∑
∑ ∑∑
==
= ==β Equação de projeção
XY 9792,00382,12ˆ +=
Exemplo modelo de regressão linear simplesConstrução da ANOVA
Soma dos quadrados dos resíduos SQE
Soma dos quadrados explicados pela regressão SQR
Soma dos quadrados totais SQT
resíduos
XY 9792,00382,12ˆ +=
> regressao <- lm(Y~X,data=dados_venda_propaganda)Código R:
Exemplo modelo de regressão linear simplesConstrução da ANOVA
Fonte de variação
Soma dos quadrados
(A)
Graus de liberdade
(B)
Quadrado médio
(C=A/B)F
Regressão SQR 949,08
1 949,08 949,08 / 38,98=24,35
Resíduo SQE311,82
n-2=8 38,98
Total SQT1260,90
n-1=9
ANOVA
1 variável explicativa 2 coeficientes
estimados α e βPor isso n - 2
O quadrado médio do resíduo é uma estimativa da variância do erro
2σCoeficiente de determinação R2
75,090.1260
08.949
SQT
SQRR2 === > anova(regressao)Código R:
Exemplo modelo de regressão linear simples
Estimativas dos erros padrão de e
( )3661,31
5,26108019
5,269778,38
10
1
XXn
Xˆˆ
2
2
n
1i
2
i
n
1i
2i
2
2ˆ
0=
⋅−⋅⋅=
−=∑
∑
=
=
σσ β
0391,05,26108019
9778,38ˆˆ 22
1
2
22ˆ
1=
⋅−=
−
σ=σ∑
=
β
XNXN
ii
0β1β
6,53661,31ˆˆ 2ˆˆ
00==σ=σ ββ
1978,00391,0ˆˆ 2ˆˆ
1==σ=σ ββ
Erro padrão
Erro padrão
Exemplo modelo de regressão linear simplesInferência no modelo
H0 : ββββ1 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )
2n,1F~
2n
SQE1
SQR
F −
−
=
F > Ftabeladorejeita H0
Sob H 0
35.24=F
Ao nível de significância de 5% o valor tabelado (Ftabelado) de uma F com 1 grau de liberdade no numerador e 8 graus de liberdade no denominador é 5,3177. No R:> qf(0.95,1,8)[1] 5.317655
Distribuição F
Testes de hipóteses
Teste F: Testa o efeito conjunto das variáveis expl icativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y
Exemplo modelo de regressão linear simplesInferência no modelo
H0 : ββββ0 = 0 ( ausência do efeito )H1 : ββββ0 ≠≠≠≠ 0 ( presença do efeito )
t < ttabeladonão rejeita H0
Sob H 0
1495,23661,31
0382.12 ==t
Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 8 graus de liberdade no numerador é2,31. No R:> qt(0.975,8)[1] 2.306004
Distribuição t
2nˆ
0 t~ˆ
ˆt
0
−=βσ
β
Testes de hipóteses
Teste t: Testa a significância do coeficiente de re gressão linear associado com uma determinada variável explicativa.
Exemplo modelo de regressão linear simplesInferência no modelo
H0 : ββββ1 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )
t > ttabeladorejeita H0
Sob H 0
9354,40391,0
9792.0 ==t
Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 8 graus de liberdade no numerador é2,31. No R:> qt(0.975,8)[1] 2.306004
Distribuição t
2nˆ
1 t~ˆ
ˆt
1
−=βσ
β
Testes de hipóteses
Teste t: Testa a significância do coeficiente de re gressão linear associado com uma determinada variável explicativa.
9531,248766,031,26,5
0382,1231,2 0
0 ≤β≤−⇒≤β−≤−
Exemplo modelo de regressão linear simplesInferência no modelo
Intervalos de confiança com 95% de confiança
2n00 t~
ˆ
ˆ
0
−−
βσββ
2nˆ
11 t~ˆ
ˆ
1
−−
βσββ
95,031,2ˆ
ˆ31,2
0
00 =
≤
σβ−β≤−
β
P Distribuição t
95%95,031,2ˆ
ˆ31,2
1ˆ
11 =
≤
σβ−β≤−
β
P
4320,15198,031,21978,0
9792,031,2 1
1 ≤β≤⇒≤β−≤−
Exemplo modelo de regressão linear simples no R> (dados_venda_propaganda <- data.frame(cbind("X"=c(3 0,20,35,40,38,18,10,15,35,24),"Y"=c(40,34,52,49,47, 21,20,27,41,48))))
X Y1 30 402 20 343 35 524 40 495 38 476 18 217 10 208 15 279 35 4110 24 48
> regressao <- lm(Y~X,data=dados_venda_propaganda)> summary(regressao)
Call:lm(formula = Y ~ X, data = Gujarati_C3)
Residuals:Min 1Q Median 3Q Max
-8.605 -2.111 -1.556 1.913 12.540
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 12.0382 5.6005 2.149 0.0 6383 . X 0.9759 0.1978 4.934 0.00114 **---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1
Residual standard error: 6.243 on 8 degrees of freedomMultiple R-squared: 0.7527, Adjusted R-squared: 0.7218 F-statistic: 24.35 on 1 and 8 DF, p-value: 0.001143
Exemplo modelo de regressão linear simples no RAlguns gráficos para diagnósticos
Útil na verificação da hipótese de variância constante do erro:
Útil na verificação da hipótese de normalidade do erro (valores ao redor de
uma reta imaginária indicam que a hipótese de normalidade não foi violada):
Útil na avaliação da qualidade do ajuste:
> plot(dados_venda_propaganda$X,regressao$resid,typ e="p" ,main="Gráfico dos resíduos",xlab="X - Investimento em propaganda", yla b="Resíduos",xlim=c(-0,50),bty="n",col.main="blue",xaxp=c(0,50,11),xaxs= "i",xaxt="n",ylim=c(-10,15),yaxp=c(-10,15,5),yaxs="i",cex.axis=.8,pch=16)> axis(1,at=seq(0,50,5),pos=c(0,0),cex.axis=.8)> plot(dados_venda_propaganda$X, dados_venda_propag anda$Y,type="p" ,main="Plotagem do ajuste",xlab="X - Investimento em propaganda", ylab= "Y -Vendas",xlim=c(0,45),bty="n",col.main="blue",xaxp=c (0,45,10),xaxs="i",xaxt="n",ylim=c(0,55),yaxp=c(0,55,11),yaxs="i",cex.axis=.8,pch=16)> axis(1,at=seq(0,45,5),pos=c(0,0),cex.axis=.8,xaxs ="r")> abline(regressao)> text(14,11,expression(hat(Y)),adj=0)>text(15,10.5,paste("=",as.character(round(data.fra me(regressao$coeff)[1,1],4)),"+",as.character(round(data.frame(regressao$coeff)[2,1],4)),"X"),adj= 0)> text(14,6.5,expression(R^2),adj=0)> text(15.5,6,paste("=",as.character(round(summary( regressao)$r.squared,4))),adj=0)> plot(regressao)
A variável dependente é uma função linear de duas ou m ais variáveis independentes
ikikiii xxxy εββββ +++++= K22110
Notação matricial
i=1,...,n
εβ += XY
=
ny
y
y
YM
2
1
=
knn1
2k12
1k11
xx1
xx1
xx1
X
L
MOMM
L
L
=
kβ
ββ
βM
1
0
=
nε
εε
εM
2
1
Modelo de regressão linear m últipla
K variáveis explicativas
ββββ1, ββββ2, ββββ3,...,ββββk, σσσσ2 são parâmetros do modelo que devem ser estimados
Hipóteses
H1 - E(ε)=0H2 – H3 E(ε ε’)=σσσσ2I, I matriz identidade
V(ε)= σσσσ2 e COV(εi, εj)=0H4 - Os erros tem distribuição normal εi~N(0, σσσσ2)H5 - A matriz X é não aleatóriaH6 - O posto de X é k+1<n
Problemas de especificação
� Escolher o tipo de função matem ática � Determinar que variáveis independentes devem ser consideradas no modelo
Modelo de regressão linear m últipla
( ) YXXX ''ˆ 1−=β
=
∑∑∑∑
∑∑∑∑
∑∑∑∑
∑∑∑
====
====
====
===
n
1i
2ki
n
1ikii2
n
1ikii1
n
1iKi
n
1ikii2
n
1i
2i2
n
1ii2i1
n
1ii2
n
1ikii1
n
1ii2i1
n
1i
2i1
n
1ii1
n
1iki
n
1ii2
n
1ii1
xxxxxx
xxxxxx
xxxxxx
xxxn
X'X
L
MOMMM
L
L
L
Estimador de M ínimos Quadrados (MQ)
Modelo de regressão linear m últipla
=
∑
∑
∑
∑
=
=
=
=
n
1iiki
n
1iii2
n
1iii1
n
1ii
yx
yx
yx
y
Y'X
M
( ) ( ) 21'ˆ σβ −= XXV
)1k(n
'ˆ 2
+−= εεσ
( )jjjj aN 2,~ˆ σββajj elemento da diagonal principal da inversa de X’X
Modelo de regressão linear m últipla
Estimador de M ínimos Quadrados (MQ)
Teste t H0 : ββββ j = 0H1 : ββββ j ≠≠≠≠ 0
( )1knj t~
ˆ
ˆt
j
+−=βσ
β
( )1knE.Q.S
kR.Q.SF
+−=
H0 : ββββ 1 = ββββ 2 = ββββ 3 =...= ββββ k =0H1 : pelo menos um ββββj ≠≠≠≠ 0
Teste F
t t rejeita Htabelado≥ ⇒ 0
F F rejeita Htabelado≥ ⇒ 0
Modelo de regressão linear m últiplaInferência Estatística no Modelo de Regressão Linear
Análise da variância
2
22
ynY'Y
ynY'X'ˆ
SQT
SQRR
−−== β
( ))1k(n
1nR11R 22
+−−−−=
( )[ ]1knSQE
kSQR
QME
QMRF
+−==
Modelo de regressão linear m últiplaInferência Estatística no Modelo de Regressão Linear
Causas de variação
Graus de liberdade (A)
Soma dos quadrados(B)
Quadrados médios (C=B/A)
F
Regressão k QMR=SQR/k F=QMR/QME
Erros n–(k+1) QME=SQE/[n–(k+1)]
Total n–1
2ynY'X'ˆSQR −= β
Y'X'ˆY'YSQE β−=
2ynY'YSQT −=
Análise da variância – contribuições das variáveis independentes ao modelo global – função Anova() do pacote “car” do R
Modelo de regressão linear m últiplaInferência Estatística no Modelo de Regressão Linear
1
Causas de variação
Graus de liberdade (A)
Soma dos quadrados(B)
Quadrados médios (C=B/A)
F
1
Erros n–(k+1) QME=SQE/[n–(k+1)]
Total n–1
Y'X'ˆY'YSQE β−=
2ynY'YSQT −=
1x
kx
M M M
( )( ) ( )( ) ∑∑∑===
=−−++−−=−=n
1ix
n
1iikkik
n
1ii1i11
2
iSQRyyxxˆyyxxˆynY'X'ˆSQR βββ L
( )( )∑=
−−=n
1ii1i11x yyxxˆSQR
1β
( )( )∑=
−−=n
1iikkikx yyxxˆSQR
kβ
1xSQR
kxSQR
M
QMESQEF11 xx =
QMESQEFkk xx =
M
Fórmula (C.3.17) do Gujarati com a notação adaptada:
[ ]khh2h1h xxx1'x L=
Previsão
Dado
b'xy hh = estima ( ) khkh110h xxyE βββ +++= K
( ) ( ) 2h
1hh ˆxX'X'xyV σ−=
b'xy hh = estima hkhkh110h xxy εβββ ++++= K
( ) ( )[ ] 2h
1hh ˆxX'X'x1yV σ−+=
Modelo de regressão linear m últipla
Exemplo modelo de regressão linear m últipla
X1 X2 Y68,5 16,7 174,445,2 16,8 164,491,3 18,2 244,247,8 16,3 154,646,9 17,3 181,666,1 18,2 207,549,5 15,9 152,8
52 17,2 163,248,9 16,6 145,438,4 16 137,287,9 18,3 241,972,8 17,1 191,188,4 17,4 23242,9 15,8 145,352,5 17,8 161,185,7 18,4 209,741,3 16,5 146,451,7 16,3 14489,6 18,1 232,682,7 19,1 224,152,3 16 166,5
Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa está analisando a possibilidade de expansão em outra s cidades de médio porte e para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas com base no número de pessoas com até 16 anos de ida des (X1) e a renda per capita na localidade (X 2).
Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são apresentados na tabela abaixo:
ii2i10i xxy εβββ +++=Modelo de regressão linear múltipla a ser estimado
> (exemplo <-data.frame(cbind("X1"=c(68.5,45.2,91.3,47.8,46.9,66 .1,49.5,52,48.9,38.4,87.9,72.8,88.4,42.9,52.5,85.7,41.3,51.7,89.6,82.7,52.3),"X2"=c(16.7,16.8,18.2,16.3,17.3,18.2,15.9,17.2,16.6,16,18.3,17.1,17.4,15.8,17.8,18.4,16.5,16.3,18.1,19.1,16),"Y"=c(174.4,164.4,244.2,154.6,181.6,207.5,152.8,163.2,145.4,137.2,241.9,191.1,232,145.3,161.1,209.7,146.4,144,232.6,224.1,166.5))))
Exemplo modelo de regressão linear m últiplaModelo de regressão linear
Estimação dos coeficientes de regressão por mínimos quadrados
ii2i10i xxy εβββ +++=
1 68,5 16,71 45,2 16,81 91,3 18,21 47,8 16,31 46,9 17,31 66,1 18,21 49,5 15,91 52 17,21 48,9 16,61 38,4 161 87,9 18,31 72,8 17,11 88,4 17,41 42,9 15,81 52,5 17,81 85,7 18,41 41,3 16,51 51,7 16,31 89,6 18,11 82,7 19,11 52,3 16
X =
174,4164,4244,2154,6181,6207,5152,8163,2145,4137,2241,9191,1
232145,3161,1209,7146,4
144232,6224,1166,5
Y =
21,00 1.302,40 360,001.302,40 87.707,94 22.609,19
360,00 22.609,19 6.190,26=XX T
3.820,00249.643,35
66.072,75=YX T
29,7289 0,0722 -1,99260,0722 0,0004 -0,0055
-1,9926 -0,0055 0,1363( ) =−1
XX T
( ) YXXX TT 1ˆ −=β
−=
3655,9
4546,1
8571,68
ˆ
ˆ
ˆ
2
1
0
βββ
> regressao2 <- lm(Y~X1+X2,data=exemplo)> summary(regressao2)
Código R:
Exemplo modelo de regressão linear m últiplaConstrução da ANOVA
i2i1i x3655,9x4546,18571,68y ++−= SQR SQE SQT
Exemplo modelo de regressão linear m últiplaConstrução da ANOVA
Fonte de variação
Soma dos quadrados
(A)
Graus de liberdade
(B)
Quadrado médio
(C=A/B)F
Regressão SQE 24015,28
2 12007,64 12007,64 / 121.1626 = 99,1035
Resíduo SQR2180,93
N-3=18 121,1626
Total SQT26196,21
N-1=20
ANOVA
2 variáveis explicativas 3 coeficientes
estimadosPor isso N – 3
O quadrado médio do resíduo é uma estimativa da variância do erro
2σCoeficiente de determinação R2
917,021,26196
28.24015
SQT
SQRR2 === > anova(lm(Y~1,data=exemplo),regressao2)Código R:
Exemplo modelo de regressão linear m últiplaModelo de regressão linear
Estimativas dos erros padrão dos coeficientes de re gressão
( ) 12
2ˆˆˆˆˆ
ˆˆ2ˆˆˆ
ˆˆˆˆ2ˆ
ˆ
ˆˆˆ
ˆˆˆ
ˆˆˆ
22120
21110
20100−⋅=
=Σ XX Tσσσσ
σσσσσσ
βββββ
βββββ
βββββ
β
0170,600347,3602ˆˆ 2ˆˆ00
=== ββ σσ
Erro padrão
Resultado na ANOVA = 121,1626
29,7289 0,0722 -1,99260,0722 0,0004 -0,0055
-1,9926 -0,0055 0,1363
=Σβ3.602,0347 8,7459 -241,4230
8,7459 0,0449 -0,6724-241,4230 -0,6724 16,5158
2118,00449,0ˆˆ 2ˆˆ11
=== ββ σσ
0640,45158,16ˆˆ 2ˆˆ22
=== ββ σσ
Variâncias na diagonal principalCovariâncias fora da diagonal principal
ii2i10i xxy εβββ +++=
> vcov(regressao2)Código R:
Exemplo modelo de regressão linear m últiplaInferência no modelo
H0 : ββββ1 = ββββ2 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ou ββββ2 ≠≠≠≠ 0 ( presença do efeito )
3n,2F~
3N
SQE2
SQR
F −
−
=
F > Ftabeladorejeita H0
Sob H 0
1035,99=F
Ao nível de significância de 5% o valor tabelado (Ftabelado) de uma F com 2 graus de liberdade no numerador e 18 graus de liberdade no denominador é3,5546. No R:> qf(0.95,2,18)[1] 3.554557
Distribuição F
Testes de hipóteses
Teste F: Testa o efeito conjunto das variáveis expl icativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y
Exemplo modelo de regressão linear m últiplaInferência no modelo
H0 : ββββ0 = 0 ( ausência do efeito )H1 : ββββ0 ≠≠≠≠ 0 ( presença do efeito )
t < ttabeladonão rejeita H0
Sob H 0
1473,10170,60
8571,68 −=−=t
Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 18 graus de liberdade no numerador é2,1009. No R:> qt(.975,18)[1] 2.100922
Distribuição t
3nˆ
0 t~ˆ
ˆt
0
−=βσ
β
Testes de hipóteses
Teste t: Testa a significância do coeficiente de re gressão linear associado com uma determinada variável explicativa.
Exemplo modelo de regressão linear m últiplaInferência no modelo
t > ttabeladorejeita H0
Sob H 0
Distribuição t
Testes de hipóteses
Teste t: Testa a significância do coeficiente de re gressão linear associado com uma determinada variável explicativa.
H0 : ββββ1 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )
3nˆ
1 t~ˆ
ˆt
1
−=βσ
β
8682,62118,0
4546,1 ==t
Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 18 graus de liberdade no numerador é2,1009. No R:> qt(.975,18)[1] 2.100922
Exemplo modelo de regressão linear m últiplaInferência no modelo
t > ttabeladorejeita H0
Sob H 0
Distribuição t
Testes de hipóteses
Teste t: Testa a significância do coeficiente de re gressão linear associado com uma determinada variável explicativa.
H0 : ββββ2 = 0 ( ausência do efeito )H1 : ββββ2 ≠≠≠≠ 0 ( presença do efeito )
3nˆ
2 t~ˆ
ˆt
2
−=βσ
β
3045,20640,4
3655,9 ==t
Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 18 graus de liberdade no numerador é2,1009. No R:> qt(.975,18)[1] 2.100922
Exemplo modelo de regressão linear m últiplaInferência no modelo
Intervalos de confiança com 95% de confiança
3n00 t~
ˆ
ˆ
0
−−
βσββ&&
95,01,2ˆ
ˆ1,2
0ˆ
00 =
≤−≤−
βσββ
P Distribuição t
95%
2339,57948,1941,20170,60
8571,681,2 0
0 ≤≤−⇒≤−−≤− ββ
3n11 t~
ˆ
ˆ
1
−−
βσββ&&
95,01,2ˆ
ˆ1,2
1ˆ
11 =
≤−≤−
βσββ
P
3n22 t~
ˆ
ˆ
2
−−
βσββ&&
95,01,2ˆ
ˆ1,2
2ˆ
22 =
≤−≤−
βσββ
P
8995,10096,11,22118,0
4546,11,2 1
1 ≤≤⇒≤−≤− ββ
9036,178274,01,20640,4
3655,91,2 2
2 ≤≤⇒≤−≤− ββ
Exemplo modelo de regressão linear múltipla no R> (exemplo <-data.frame(cbind("X1"=c(68.5,45.2,91.3,47.8,46.9,66 .1,49.5,52,48.9,38.4,87.9,72.8,88.4,42.9,52.5,85.7,41.3,51.7,89.6,82.7,52.3),"X2"=c(16.7,16.8,18.2,16. 3,17.3,18.2,15.9,17.2,16.6,16,18.3,17.1,17.4,15.8,17.8,18.4,16.5,16.3,18.1,19.1,16),"Y"=c (174.4,164.4,244.2,154.6,181.6,207.5,152.8,163.2,145.4,137.2,241.9,191.1,232,145.3,161.1,209.7,146.4,144,232.6,224.1,166.5))))
X1 X2 Y1 68.5 16.7 174.42 45.2 16.8 164.43 91.3 18.2 244.24 47.8 16.3 154.65 46.9 17.3 181.66 66.1 18.2 207.57 49.5 15.9 152.88 52.0 17.2 163.29 48.9 16.6 145.410 38.4 16.0 137.211 87.9 18.3 241.912 72.8 17.1 191.113 88.4 17.4 232.014 42.9 15.8 145.315 52.5 17.8 161.116 85.7 18.4 209.717 41.3 16.5 146.418 51.7 16.3 144.019 89.6 18.1 232.620 82.7 19.1 224.121 52.3 16.0 166.5
> regressao2 <- lm(Y~X1+X2,data=exemplo)> summary(regressao2)
Call:lm(formula = Y ~ X1 + X2, data = exemplo)
Residuals:Min 1Q Median 3Q Max
-18.4239 -6.2161 0.7449 9.4356 20.2151
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) -68.8571 60.0170 -1.147 0.2663 X1 1.4546 0.2118 6.868 2e-06 ***X2 9.3655 4.0640 2.305 0.0333 * ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1
Residual standard error: 11.01 on 18 degrees of freedo mMultiple R-squared: 0.9167, Adjusted R-squared: 0.9075 F-statistic: 99.1 on 2 and 18 DF, p-value: 1.921e-1 0
Exemplo modelo de regressão linear múltipla no R
Exemplo modelo de regressão linear múltipla no R
> plot(exemplo$X1,regressao2$resid,type="p" ,main=" Gráfico dos resíduos x X1",xlab="X1 - Qtd. pessoas co m até 16 anos de idade", ylab="Resíduos",xlim=c(0,100),bty="n",col.main="blu e",xaxp=c(0,100,11),xaxs="i",xaxt="n",ylim=c(-30,30 ),yaxp=c(-30,30,6),yaxs="i",cex.axis=.8,pch=16)> axis(1,at=seq(0,100,10),pos=c(0,0),cex.axis=.8)> plot(exemplo$X2,regressao2$resid,type="p" ,main=" Gráfico dos resíduos x X2",xlab="X2 - Renda per capit a na localidade", ylab="Resíduos",xlim=c(14.8,20),bty="n",col.main="b lue",xaxp=c(15,20,6),xaxs="i",xaxt="n",ylim=c(-40,4 0),yaxp=c(-40,40,8),yaxs="i",cex.axis=.8,pch=16)> axis(1,at=seq(15,20,1),pos=c(0,0),cex.axis=.8)> library(rgl, pos=4)> library(mgcv, pos=4)> scatter3d(exemplo$X1, exemplo$Y, exemplo$X2, fit= "linear", residuals=TRUE, bg="white", axis.scales=TRUE, grid=TRUE, ellipsoid=FALSE, xlab= "X1", ylab="Y", zlab="X2")> plot(regressao2)
Código R para os gráficos: