depto. estatísticamrubens/cursos/... · 2015-04-01 · sistema de equações normais a solução...

Modelos de regressão linear: abordagem clModelos de regressão linear: abordagem cl áássicassica

Prof. Marcelo [email protected]

Depto. Estatística

Análise de Regressão

Objetivo: Determinar uma fun ção matem ática que descreva a relação entre uma variável contínua (variável explicada ou dependente) e uma ou mais variáveis explicativas ou independentes.

y = f(x 1,x2,...,xK) + εεεε

� y denota a variável dependente.� x1,x2,...,xK denotam as variáveis independentes.� f(x1,x2,...,xK) descreve a variação sistem ática (determinística)� εεεε representa a variação não sistem ática (erro aleatório)

Modelos de regressão (fun ção f) podem ser lineares ou não lineares.

Exemplo 1O gerente de vendas de uma empresa varejista está interessado em obter uma equação que sintetize a relação existente entre o investimento em propaganda e o volume de vendas da empresa com o objetivo de realizar projeções do volume de vendas.

Amostra de tamanho n=10 obtida no

departamento de vendas (milhões de R$)

Diagrama de dispersão representação gráfica que permite visualizar a

relação/associação entre duas variáveis

0

10

20

30

40

50

60

0 10 20 30 40 50

Investimento em propaganda (X)

Vol

ume

de v

enda

s (Y

)

Um incremento no investimento em propaganda produz um

aumento nas vendas

A relação entre as variáveis não é precisa (estocástica)

Exemplo 1A boa aderência da nuvem de pontos ao redor de um reta imaginária indica que a relação entre as duas variáveis pode ser aproximada por uma relação linear.

0

10

20

30

40

50

60

0 5 10 15 20 25 30 35 40 45


Vol

ume

de v

enda

s (Y

)

A essência da relação entre o investimento em propaganda e o volume de vendas pode ser expressa por uma reta.

A identificação desta reta pode ser efetuada por meio de um modelo de regressão linear simples.

Exemplo 1

0

10

20

30

40

50

60

0 5 10 15 20 25 30 35 40 45


Vol

ume

de v

enda

s (Y

)

Para um investimento de R$ 25 milhões em propaganda espera-se um volume de vendas da ordem de R$ 37 milhões (valor a justado)

Exemplo 1

Neste caso o nível de vendas (y) é explicado pelo investimento em propaganda (x), então, y=f(x):

x = nível de vendas = variável dependentey = investimento em propaganda = variável independente

A relação estocástica entre as duas variáveis pode ser modelada da seguinte forma:

y = β0 + β1x + ε

Onde:� β0 e β1 são coeficientes desconhecidos da reta que relaciona as variáveis x e y (estimados a partir dos dados da amostra).� ε é um termo aleatório (erro) que representa a imprecisão na relação entre x e y.

Modelos de regressão linear

Modelo de regressão linear simples: uma variável dependente explicada por uma variável independente.

yi = β0 + β1xi + εi

Modelo de regressão linear m últipla:Uma variável dependente explicada por pelo menos duas variáveis independentes.

yi = β0 + β1x1, i + ... + βKxK, i + εi (K≥2)

Objetivo : Identificar uma função y=f(x) que permita explicar uma variável dependente (y) em função das variáveis explicativas (x), ou seja, como y varia de acordo com mudanças em x.

Significado do erro εεεε

O erro ε representa:

� Todos os outros fatores que afetam a variável dependente Y, mas que não estão contempladas nas variáveis explicativas X.

� Erros de medição.

� Forma funcional inadequada, por exemplo,

y = β0 + β1x ou y = β0 + β1x + β1x2 ?

� Inerente variabilidade no comportamento dos agentes econômicos.

Modelo de Regressão Linear Simples

Equação de regressão populacional:

yi = β0 + β1xi + εi (apenas uma variável independente)

Os coeficientes ββββ0 e ββββ1 não são conhecidos e devem ser estimados a partir de uma amostra aleatória de tama nho n da população:

Amostra aleatória ⇒ (xi , yi), i=1,n

Em cada unidade amostrada tem -se que

yi = β0 + β1xi + εi i=1,n

Variável aleatória não-observável

Componente determínistica

Hipóteses assumidas pelo modelo

H1) A relação entre as variáveis é linear yi = β0 + β1xi + εi i=1,n:

H2) Média nula: E(εi|xi) = 0 para todo i=1,n

H3) Variância constante: V(εi) = σ2 para todo i=1,n

H4) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k

H5) Distribuição Normal: εi ~ N(0,σ2) para todo i=1,n

εi são independentes e identicamente distribuídos N(0, σσσσ2)

H6) A variável explicativa X é fixa, i.e., não é estocástica


( ) 2x|yV σ=

ε+β+β= xy 10

Como o valor esperado do erro é zero E( εεεε)=0, o valor esperado de y condicionado ao valor de x é igual a:

( ) ( )x|xEx|yE 10 εββ ++=

( ) ( )x|Exx|yE 10 εββ ++=

( ) xxyE 10| β+β=Por hipótese a variável independente não é aleatória , assim tem-se:

( )210 ,~ σβ+β xNy

Como o erro tem distribuição Normal com média 0 e v ariância σσσσ2


( ) xyE 10 β+β=


Reta de regressão

Estimador de m ínimos quadradosModelo de Regressão Linear Simples

yi = β0 + β1xi + εi ⇒ εi = yi - β0 - β1xi

( )[ ]∑∑==

β+β−=ε=n

iii

n

ii xyf

1

210

1

2

( )[ ]∑=ββ

β+β−=n

iii xyfMin

1

210

, 10

Soma dos quadrados dos erros

As estimativas de ββββ0 e ββββ1 devem minimizar a soma sos quadrados dos desvios

No ponto de mínimo as derivadas parciais são nulas

Sistema de equações normaisA solução deste sistema fornece os estimadores de ββββ0 e ββββ1

( ) 0ˆˆ0ˆ

1ˆ

100

=

β+β−⇒=β∂∂

∑=

ε

n

iii

i

xyf

44 344 21

( ) 0ˆˆ0ˆ

1ˆ

101

=

β+β−⇒=β∂

∂∑=

εi

n

iii

xxyf

i

44 344 21

∑∑==

=β+βn

ii

n

ii

yxn11

10ˆˆ

∑∑∑===

=β+βn

iii

n

ii

n

ii

yxxx11

21

10

ˆˆ

Estimador de m ínimos quadrados


Solução do sistema de equações normais

xy 10ˆˆ β−=β

( )( )( )∑

∑

=

=

−

−−=β

n

ii

n

iii

xx

yyxx

1

2

11

ˆ

Sistema de equações normais

Estimadores de mínimos quadrados

∑∑∑===

=β+βn

iii

n

ii

n

ii

yxxx11

21

10

ˆˆ

∑∑==

=β+βn

ii

n

ii

yxn11

10ˆˆ

Estimador de m ínimos quadrados


ii xy 10ˆˆˆ β+β=Valor estimado da variável dependente

y dado que x é igual a x i

Resíduo da i-ésima observação é igual a diferença entre o valor observado e o valor estimado da variável y i ( )iii

iii

xy

yy

10ˆˆˆ

ˆˆ

β+β−=ε

−=ε

Equação de regressão estimada ( ) xxyEy 10ˆˆ|ˆ β+β==

( )∑

∑

=

=β

−

σ=σ

n

ii

n

ii

xxn

x

1

2

1

22

2ˆ

0

∑=

β

−

σ=σn

ii xx

1

22

22ˆ

1

Se as hipóteses H1 até H6 forem satisfeitas, os estimad ores de m ínimos quadrados são estimadores lineares não tendenciosos de variância mínima (Teorema de Gauss Markov)

( ) 00ˆ β=βE

( ) 11ˆ β=βE

( )2ˆ00

0,~ˆ

βσββ N

( )2ˆ11

1,~ˆ

βσββ N

( )2n

xˆˆy

2n

ˆˆ

n

1i

2

i10i

n

1i

2i

2

−

−−=

−=

∑∑==

ββεσ

Modelo de regressão linear simples

Estimador da variância do

erro

Modelo de regressão linear simplesDecomposição do erro:

y

x

y

y = b0 + b1x^

*yi (valor observado)

yi - y yi (valor estimado)^

yi - y^

yi - yi^

Decomposição da soma de quadrados total

SQT = SQE + SQR

SQT = Soma dos Quadrados TotalSQE = Soma dos Quadrados dos ErrosSQR = Soma dos Quadrados da Regressão


( ) ( ) ( )∑∑ ∑== =

−+−=−n

ii

n

i

n

iiii yyyyyy

1

2

1 1

22 ˆˆ

( )

( ) SQT

SQE1

yy

yy

SQT

SQRR

n

1i

2i

n

1i

2i

2 −=−

−==∑

∑

=

=

Coeficiente de determinação


10 2 ≤≤ R

� Se R estiver próximo de 1, a variável x explica a maior parte das variações de y. Neste caso, a variável x é uma boa preditora da variável y.

� Se R estiver próximo de 0, a variável x explica muito pouco das variaçães de y.Neste caso, a variável x não é uma boa preditora da variável y.

Análise da variância (ANOVA)

Modelo de regressão linear simplesInferência Estatística no Modelo de Regressão Linear

2σ Estimador da variância do erro

SQT

SQRR =2

( )2nSQE

SQRF

−=

Causas de Variação Graus de Liberdade Soma dos Quadrados Quadrados Médios

Regressão 1 ( )∑=

−=n

ii xxSQR

1

221β QMR=SQR/1

Erros n-2 ( )∑=

−=n

iii yySQE

1

2ˆ QME=SQE/(n-2)

Total n-1 ( )∑=

−=n

ii yySQT

1

2

2n,1F~

2n

SQE1

SQR

F −

−

=

Testa o efeito conjunto das variáveis explicativas s obre a variável dependente, No caso do modelo linear simples testa o efeito de Xsobre YH0 : ββββ1 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )

F > Ftabeladorejeita H0F < Ftabelado aceita H0


Teste F

Inferência Estatística no Modelo de Regressão Linear

Sob H 0

2nˆ

1 t~ˆ

ˆt

1

−=βσ

β

H0 : ββββ1 = 0H1 : ββββ1 ≠≠≠≠ 0

Testa o efeito individual de X e do termo constante


Teste t

Testa a significância do coeficiente de regressão li near associado com uma determinada variável explicativa.

Sob H 0

t > ttabeladorejeita H0t < ttabelado aceita H0

21

ˆ11

211

ˆ1 tˆˆtˆˆ1

αβαβ σββσβ−−

⋅+≤≤⋅−


Intervalo de confiança 100(1- αααα)%

Previsor ( ) hhh xxyE 10ˆˆ|ˆ ββ +=

Erro de previsão ( ) ( ) ( ) ( ) hhhhhh xxyExyEe 1100ˆˆ|ˆ| ββββ −+−=−=

( ) ( )( )

−

−+=∑

=

n

ii

hh

xx

xx

neV

1

2

22 1

ˆˆ σ

Intervalo de previsão

( ) ( ) ( ) ( )

+−

hchhhchheVtxyEeVtxyE |ˆ,|ˆ


Previsão do valor esperado

Dado xT+h prever yT+h

Previsorhh xy 1

ˆˆˆ0

ββ +=

Erro de previsão ( ) ( ) hhhhh xyye εββββ +−+−=−= 1100ˆˆˆ

( ) ( )( )

−

−++=∑

=

n

1i

2i

2h2

h

xx

xx

n

11ˆeV σ

Intervalo de previsão

( ) ( )

+−

hchhcheVtyeVty ˆ,ˆ

Modelo de regressão linear simplesPrevisão de uma observação

Exemplo modelo de regressão linear simplesO gerente de uma empresa varejista está interessado em ob ter uma equação que sintetize a relação entre o investimento em propaganda (X) e o volume de vendas (Y) da empresa, com a finalidade de projetar o nível de vendas em função do investimento no programa de ma rketing da empresa.

Histórico (dados anuais) Diagrama de dispersão

Relação linear entre as variáveis

N = 10 observações

Exemplo modelo de regressão linear simplesεββ ++= yy 10Modelo de regressão linear

Estimação dos coeficientes por mínimos quadrados

03823,125,26975916,09,37ˆˆ10 =⋅−=β−=β XY

97916,0265801910

3792651101610

XXn

YXYXnˆ

22n

1ii

n

1i

2i

n

1i

n

1ii

n

1iiii

1 =−⋅

⋅−⋅=

−

−=

∑∑

∑ ∑∑

==

= ==β Equação de projeção

XY 9792,00382,12ˆ +=

Exemplo modelo de regressão linear simplesConstrução da ANOVA

Soma dos quadrados dos resíduos SQE

Soma dos quadrados explicados pela regressão SQR

Soma dos quadrados totais SQT

resíduos

XY 9792,00382,12ˆ +=

> regressao <- lm(Y~X,data=dados_venda_propaganda)Código R:

Exemplo modelo de regressão linear simplesConstrução da ANOVA

Fonte de variação

Soma dos quadrados

(A)

Graus de liberdade

(B)

Quadrado médio

(C=A/B)F

Regressão SQR 949,08

1 949,08 949,08 / 38,98=24,35

Resíduo SQE311,82

n-2=8 38,98

Total SQT1260,90

n-1=9

ANOVA

1 variável explicativa 2 coeficientes

estimados α e βPor isso n - 2

O quadrado médio do resíduo é uma estimativa da variância do erro

2σCoeficiente de determinação R2

75,090.1260

08.949

SQT

SQRR2 === > anova(regressao)Código R:

Exemplo modelo de regressão linear simples

Estimativas dos erros padrão de e

( )3661,31

5,26108019

5,269778,38

10

1

XXn

Xˆˆ

2

2

n

1i

2

i

n

1i

2i

2

2ˆ

0=

⋅−⋅⋅=

−=∑

∑

=

=

σσ β

0391,05,26108019

9778,38ˆˆ 22

1

2

22ˆ

1=

⋅−=

−

σ=σ∑

=

β

XNXN

ii

0β1β

6,53661,31ˆˆ 2ˆˆ

00==σ=σ ββ

1978,00391,0ˆˆ 2ˆˆ

1==σ=σ ββ

Erro padrão

Erro padrão

Exemplo modelo de regressão linear simplesInferência no modelo

H0 : ββββ1 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )

2n,1F~

2n

SQE1

SQR

F −

−

=

F > Ftabeladorejeita H0

Sob H 0

35.24=F

Ao nível de significância de 5% o valor tabelado (Ftabelado) de uma F com 1 grau de liberdade no numerador e 8 graus de liberdade no denominador é 5,3177. No R:> qf(0.95,1,8)[1] 5.317655

Distribuição F

Testes de hipóteses

Teste F: Testa o efeito conjunto das variáveis expl icativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y



t < ttabeladonão rejeita H0

Sob H 0

1495,23661,31

0382.12 ==t

Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 8 graus de liberdade no numerador é2,31. No R:> qt(0.975,8)[1] 2.306004

Distribuição t

2nˆ

0 t~ˆ

ˆt

0

−=βσ

β


Teste t: Testa a significância do coeficiente de re gressão linear associado com uma determinada variável explicativa.



t > ttabeladorejeita H0

Sob H 0

9354,40391,0

9792.0 ==t

Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 8 graus de liberdade no numerador é2,31. No R:> qt(0.975,8)[1] 2.306004

Distribuição t

2nˆ

1 t~ˆ

ˆt

1

−=βσ

β



9531,248766,031,26,5

0382,1231,2 0

0 ≤β≤−⇒≤β−≤−


Intervalos de confiança com 95% de confiança

2n00 t~

ˆ

ˆ

0

−−

βσββ

2nˆ

11 t~ˆ

ˆ

1

−−

βσββ

95,031,2ˆ

ˆ31,2

0

00 =

≤

σβ−β≤−

β

P Distribuição t

95%95,031,2ˆ

ˆ31,2

1ˆ

11 =

≤

σβ−β≤−

β

P

4320,15198,031,21978,0

9792,031,2 1

1 ≤β≤⇒≤β−≤−

Exemplo modelo de regressão linear simples no R> (dados_venda_propaganda <- data.frame(cbind("X"=c(3 0,20,35,40,38,18,10,15,35,24),"Y"=c(40,34,52,49,47, 21,20,27,41,48))))

X Y1 30 402 20 343 35 524 40 495 38 476 18 217 10 208 15 279 35 4110 24 48

> regressao <- lm(Y~X,data=dados_venda_propaganda)> summary(regressao)

Call:lm(formula = Y ~ X, data = Gujarati_C3)

Residuals:Min 1Q Median 3Q Max

-8.605 -2.111 -1.556 1.913 12.540

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 12.0382 5.6005 2.149 0.0 6383 . X 0.9759 0.1978 4.934 0.00114 **---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Residual standard error: 6.243 on 8 degrees of freedomMultiple R-squared: 0.7527, Adjusted R-squared: 0.7218 F-statistic: 24.35 on 1 and 8 DF, p-value: 0.001143

Exemplo modelo de regressão linear simples no RAlguns gráficos para diagnósticos

Útil na verificação da hipótese de variância constante do erro:

Útil na verificação da hipótese de normalidade do erro (valores ao redor de

uma reta imaginária indicam que a hipótese de normalidade não foi violada):

Útil na avaliação da qualidade do ajuste:

> plot(dados_venda_propaganda$X,regressao$resid,typ e="p" ,main="Gráfico dos resíduos",xlab="X - Investimento em propaganda", yla b="Resíduos",xlim=c(-0,50),bty="n",col.main="blue",xaxp=c(0,50,11),xaxs= "i",xaxt="n",ylim=c(-10,15),yaxp=c(-10,15,5),yaxs="i",cex.axis=.8,pch=16)> axis(1,at=seq(0,50,5),pos=c(0,0),cex.axis=.8)> plot(dados_venda_propaganda$X, dados_venda_propag anda$Y,type="p" ,main="Plotagem do ajuste",xlab="X - Investimento em propaganda", ylab= "Y -Vendas",xlim=c(0,45),bty="n",col.main="blue",xaxp=c (0,45,10),xaxs="i",xaxt="n",ylim=c(0,55),yaxp=c(0,55,11),yaxs="i",cex.axis=.8,pch=16)> axis(1,at=seq(0,45,5),pos=c(0,0),cex.axis=.8,xaxs ="r")> abline(regressao)> text(14,11,expression(hat(Y)),adj=0)>text(15,10.5,paste("=",as.character(round(data.fra me(regressao$coeff)[1,1],4)),"+",as.character(round(data.frame(regressao$coeff)[2,1],4)),"X"),adj= 0)> text(14,6.5,expression(R^2),adj=0)> text(15.5,6,paste("=",as.character(round(summary( regressao)$r.squared,4))),adj=0)> plot(regressao)

A variável dependente é uma função linear de duas ou m ais variáveis independentes

ikikiii xxxy εββββ +++++= K22110

Notação matricial

i=1,...,n

εβ += XY

=

ny

y

y

YM

2

1

=

knn1

2k12

1k11

xx1

xx1

xx1

X

L

MOMM

L

L

=

kβ

ββ

βM

1

0

=

nε

εε

εM

2

1

Modelo de regressão linear m últipla

K variáveis explicativas

ββββ1, ββββ2, ββββ3,...,ββββk, σσσσ2 são parâmetros do modelo que devem ser estimados

Hipóteses

H1 - E(ε)=0H2 – H3 E(ε ε’)=σσσσ2I, I matriz identidade

V(ε)= σσσσ2 e COV(εi, εj)=0H4 - Os erros tem distribuição normal εi~N(0, σσσσ2)H5 - A matriz X é não aleatóriaH6 - O posto de X é k+1<n

Problemas de especificação

� Escolher o tipo de função matem ática � Determinar que variáveis independentes devem ser consideradas no modelo


( ) YXXX ''ˆ 1−=β

=

∑∑∑∑

∑∑∑∑

∑∑∑∑

∑∑∑

====

====

====

===

n

1i

2ki

n

1ikii2

n

1ikii1

n

1iKi

n

1ikii2

n

1i

2i2

n

1ii2i1

n

1ii2

n

1ikii1

n

1ii2i1

n

1i

2i1

n

1ii1

n

1iki

n

1ii2

n

1ii1

xxxxxx

xxxxxx

xxxxxx

xxxn

X'X

L

MOMMM

L

L

L

Estimador de M ínimos Quadrados (MQ)


=

∑

∑

∑

∑

=

=

=

=

n

1iiki

n

1iii2

n

1iii1

n

1ii

yx

yx

yx

y

Y'X

M

( ) ( ) 21'ˆ σβ −= XXV

)1k(n

'ˆ 2

+−= εεσ

( )jjjj aN 2,~ˆ σββajj elemento da diagonal principal da inversa de X’X


Estimador de M ínimos Quadrados (MQ)

Teste t H0 : ββββ j = 0H1 : ββββ j ≠≠≠≠ 0

( )1knj t~

ˆ

ˆt

j

+−=βσ

β

( )1knE.Q.S

kR.Q.SF

+−=

H0 : ββββ 1 = ββββ 2 = ββββ 3 =...= ββββ k =0H1 : pelo menos um ββββj ≠≠≠≠ 0

Teste F

t t rejeita Htabelado≥ ⇒ 0

F F rejeita Htabelado≥ ⇒ 0

Modelo de regressão linear m últiplaInferência Estatística no Modelo de Regressão Linear

Análise da variância

2

22

ynY'Y

ynY'X'ˆ

SQT

SQRR

−−== β

( ))1k(n

1nR11R 22

+−−−−=

( )[ ]1knSQE

kSQR

QME

QMRF

+−==


Causas de variação

Graus de liberdade (A)

Soma dos quadrados(B)

Quadrados médios (C=B/A)

F

Regressão k QMR=SQR/k F=QMR/QME

Erros n–(k+1) QME=SQE/[n–(k+1)]

Total n–1

2ynY'X'ˆSQR −= β

Y'X'ˆY'YSQE β−=

2ynY'YSQT −=

Análise da variância – contribuições das variáveis independentes ao modelo global – função Anova() do pacote “car” do R


1

Causas de variação

Graus de liberdade (A)

Soma dos quadrados(B)

Quadrados médios (C=B/A)

F

1

Erros n–(k+1) QME=SQE/[n–(k+1)]

Total n–1

Y'X'ˆY'YSQE β−=

2ynY'YSQT −=

1x

kx

M M M

( )( ) ( )( ) ∑∑∑===

=−−++−−=−=n

1ix

n

1iikkik

n

1ii1i11

2

iSQRyyxxˆyyxxˆynY'X'ˆSQR βββ L

( )( )∑=

−−=n

1ii1i11x yyxxˆSQR

1β

( )( )∑=

−−=n

1iikkikx yyxxˆSQR

kβ

1xSQR

kxSQR

M

QMESQEF11 xx =

QMESQEFkk xx =

M

Fórmula (C.3.17) do Gujarati com a notação adaptada:

[ ]khh2h1h xxx1'x L=

Previsão

Dado

b'xy hh = estima ( ) khkh110h xxyE βββ +++= K

( ) ( ) 2h

1hh ˆxX'X'xyV σ−=

b'xy hh = estima hkhkh110h xxy εβββ ++++= K

( ) ( )[ ] 2h

1hh ˆxX'X'x1yV σ−+=


Exemplo modelo de regressão linear m últipla

X1 X2 Y68,5 16,7 174,445,2 16,8 164,491,3 18,2 244,247,8 16,3 154,646,9 17,3 181,666,1 18,2 207,549,5 15,9 152,8

52 17,2 163,248,9 16,6 145,438,4 16 137,287,9 18,3 241,972,8 17,1 191,188,4 17,4 23242,9 15,8 145,352,5 17,8 161,185,7 18,4 209,741,3 16,5 146,451,7 16,3 14489,6 18,1 232,682,7 19,1 224,152,3 16 166,5

Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa está analisando a possibilidade de expansão em outra s cidades de médio porte e para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas com base no número de pessoas com até 16 anos de ida des (X1) e a renda per capita na localidade (X 2).

Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são apresentados na tabela abaixo:

ii2i10i xxy εβββ +++=Modelo de regressão linear múltipla a ser estimado

> (exemplo <-data.frame(cbind("X1"=c(68.5,45.2,91.3,47.8,46.9,66 .1,49.5,52,48.9,38.4,87.9,72.8,88.4,42.9,52.5,85.7,41.3,51.7,89.6,82.7,52.3),"X2"=c(16.7,16.8,18.2,16.3,17.3,18.2,15.9,17.2,16.6,16,18.3,17.1,17.4,15.8,17.8,18.4,16.5,16.3,18.1,19.1,16),"Y"=c(174.4,164.4,244.2,154.6,181.6,207.5,152.8,163.2,145.4,137.2,241.9,191.1,232,145.3,161.1,209.7,146.4,144,232.6,224.1,166.5))))

Exemplo modelo de regressão linear m últiplaModelo de regressão linear

Estimação dos coeficientes de regressão por mínimos quadrados

ii2i10i xxy εβββ +++=

1 68,5 16,71 45,2 16,81 91,3 18,21 47,8 16,31 46,9 17,31 66,1 18,21 49,5 15,91 52 17,21 48,9 16,61 38,4 161 87,9 18,31 72,8 17,11 88,4 17,41 42,9 15,81 52,5 17,81 85,7 18,41 41,3 16,51 51,7 16,31 89,6 18,11 82,7 19,11 52,3 16

X =

174,4164,4244,2154,6181,6207,5152,8163,2145,4137,2241,9191,1

232145,3161,1209,7146,4

144232,6224,1166,5

Y =

21,00 1.302,40 360,001.302,40 87.707,94 22.609,19

360,00 22.609,19 6.190,26=XX T

3.820,00249.643,35

66.072,75=YX T

29,7289 0,0722 -1,99260,0722 0,0004 -0,0055

-1,9926 -0,0055 0,1363( ) =−1

XX T

( ) YXXX TT 1ˆ −=β

−=

3655,9

4546,1

8571,68

ˆ

ˆ

ˆ

2

1

0

βββ

> regressao2 <- lm(Y~X1+X2,data=exemplo)> summary(regressao2)

Código R:

Exemplo modelo de regressão linear m últiplaConstrução da ANOVA

i2i1i x3655,9x4546,18571,68y ++−= SQR SQE SQT

Exemplo modelo de regressão linear m últiplaConstrução da ANOVA

Fonte de variação

Soma dos quadrados

(A)

Graus de liberdade

(B)

Quadrado médio

(C=A/B)F

Regressão SQE 24015,28

2 12007,64 12007,64 / 121.1626 = 99,1035

Resíduo SQR2180,93

N-3=18 121,1626

Total SQT26196,21

N-1=20

ANOVA

2 variáveis explicativas 3 coeficientes

estimadosPor isso N – 3

O quadrado médio do resíduo é uma estimativa da variância do erro

2σCoeficiente de determinação R2

917,021,26196

28.24015

SQT

SQRR2 === > anova(lm(Y~1,data=exemplo),regressao2)Código R:

Exemplo modelo de regressão linear m últiplaModelo de regressão linear

Estimativas dos erros padrão dos coeficientes de re gressão

( ) 12

2ˆˆˆˆˆ

ˆˆ2ˆˆˆ

ˆˆˆˆ2ˆ

ˆ

ˆˆˆ

ˆˆˆ

ˆˆˆ

22120

21110

20100−⋅=

=Σ XX Tσσσσ

σσσσσσ

βββββ

βββββ

βββββ

β

0170,600347,3602ˆˆ 2ˆˆ00

=== ββ σσ

Erro padrão

Resultado na ANOVA = 121,1626

29,7289 0,0722 -1,99260,0722 0,0004 -0,0055

-1,9926 -0,0055 0,1363

=Σβ3.602,0347 8,7459 -241,4230

8,7459 0,0449 -0,6724-241,4230 -0,6724 16,5158

2118,00449,0ˆˆ 2ˆˆ11

=== ββ σσ

0640,45158,16ˆˆ 2ˆˆ22

=== ββ σσ

Variâncias na diagonal principalCovariâncias fora da diagonal principal

ii2i10i xxy εβββ +++=

> vcov(regressao2)Código R:

Exemplo modelo de regressão linear m últiplaInferência no modelo

H0 : ββββ1 = ββββ2 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ou ββββ2 ≠≠≠≠ 0 ( presença do efeito )

3n,2F~

3N

SQE2

SQR

F −

−

=

F > Ftabeladorejeita H0

Sob H 0

1035,99=F

Ao nível de significância de 5% o valor tabelado (Ftabelado) de uma F com 2 graus de liberdade no numerador e 18 graus de liberdade no denominador é3,5546. No R:> qf(0.95,2,18)[1] 3.554557

Distribuição F


Teste F: Testa o efeito conjunto das variáveis expl icativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y



t < ttabeladonão rejeita H0

Sob H 0

1473,10170,60

8571,68 −=−=t

Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 18 graus de liberdade no numerador é2,1009. No R:> qt(.975,18)[1] 2.100922

Distribuição t

3nˆ

0 t~ˆ

ˆt

0

−=βσ

β





Sob H 0

Distribuição t




3nˆ

1 t~ˆ

ˆt

1

−=βσ

β

8682,62118,0

4546,1 ==t




Sob H 0

Distribuição t




3nˆ

2 t~ˆ

ˆt

2

−=βσ

β

3045,20640,4

3655,9 ==t



Intervalos de confiança com 95% de confiança

3n00 t~

ˆ

ˆ

0

−−

βσββ&&

95,01,2ˆ

ˆ1,2

0ˆ

00 =

≤−≤−

βσββ

P Distribuição t

95%

2339,57948,1941,20170,60

8571,681,2 0

0 ≤≤−⇒≤−−≤− ββ

3n11 t~

ˆ

ˆ

1

−−

βσββ&&

95,01,2ˆ

ˆ1,2

1ˆ

11 =

≤−≤−

βσββ

P

3n22 t~

ˆ

ˆ

2

−−

βσββ&&

95,01,2ˆ

ˆ1,2

2ˆ

22 =

≤−≤−

βσββ

P

8995,10096,11,22118,0

4546,11,2 1

1 ≤≤⇒≤−≤− ββ

9036,178274,01,20640,4

3655,91,2 2

2 ≤≤⇒≤−≤− ββ

Exemplo modelo de regressão linear múltipla no R> (exemplo <-data.frame(cbind("X1"=c(68.5,45.2,91.3,47.8,46.9,66 .1,49.5,52,48.9,38.4,87.9,72.8,88.4,42.9,52.5,85.7,41.3,51.7,89.6,82.7,52.3),"X2"=c(16.7,16.8,18.2,16. 3,17.3,18.2,15.9,17.2,16.6,16,18.3,17.1,17.4,15.8,17.8,18.4,16.5,16.3,18.1,19.1,16),"Y"=c (174.4,164.4,244.2,154.6,181.6,207.5,152.8,163.2,145.4,137.2,241.9,191.1,232,145.3,161.1,209.7,146.4,144,232.6,224.1,166.5))))

X1 X2 Y1 68.5 16.7 174.42 45.2 16.8 164.43 91.3 18.2 244.24 47.8 16.3 154.65 46.9 17.3 181.66 66.1 18.2 207.57 49.5 15.9 152.88 52.0 17.2 163.29 48.9 16.6 145.410 38.4 16.0 137.211 87.9 18.3 241.912 72.8 17.1 191.113 88.4 17.4 232.014 42.9 15.8 145.315 52.5 17.8 161.116 85.7 18.4 209.717 41.3 16.5 146.418 51.7 16.3 144.019 89.6 18.1 232.620 82.7 19.1 224.121 52.3 16.0 166.5

> regressao2 <- lm(Y~X1+X2,data=exemplo)> summary(regressao2)

Call:lm(formula = Y ~ X1 + X2, data = exemplo)

Residuals:Min 1Q Median 3Q Max

-18.4239 -6.2161 0.7449 9.4356 20.2151

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -68.8571 60.0170 -1.147 0.2663 X1 1.4546 0.2118 6.868 2e-06 ***X2 9.3655 4.0640 2.305 0.0333 * ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Residual standard error: 11.01 on 18 degrees of freedo mMultiple R-squared: 0.9167, Adjusted R-squared: 0.9075 F-statistic: 99.1 on 2 and 18 DF, p-value: 1.921e-1 0

Exemplo modelo de regressão linear múltipla no R

Exemplo modelo de regressão linear múltipla no R

> plot(exemplo$X1,regressao2$resid,type="p" ,main=" Gráfico dos resíduos x X1",xlab="X1 - Qtd. pessoas co m até 16 anos de idade", ylab="Resíduos",xlim=c(0,100),bty="n",col.main="blu e",xaxp=c(0,100,11),xaxs="i",xaxt="n",ylim=c(-30,30 ),yaxp=c(-30,30,6),yaxs="i",cex.axis=.8,pch=16)> axis(1,at=seq(0,100,10),pos=c(0,0),cex.axis=.8)> plot(exemplo$X2,regressao2$resid,type="p" ,main=" Gráfico dos resíduos x X2",xlab="X2 - Renda per capit a na localidade", ylab="Resíduos",xlim=c(14.8,20),bty="n",col.main="b lue",xaxp=c(15,20,6),xaxs="i",xaxt="n",ylim=c(-40,4 0),yaxp=c(-40,40,8),yaxs="i",cex.axis=.8,pch=16)> axis(1,at=seq(15,20,1),pos=c(0,0),cex.axis=.8)> library(rgl, pos=4)> library(mgcv, pos=4)> scatter3d(exemplo$X1, exemplo$Y, exemplo$X2, fit= "linear", residuals=TRUE, bg="white", axis.scales=TRUE, grid=TRUE, ellipsoid=FALSE, xlab= "X1", ylab="Y", zlab="X2")> plot(regressao2)

Código R para os gráficos:

depto. estatísticamrubens/cursos/... · 2015-04-01 · sistema de equações normais a solução...

Documents