depto. estatísticamrubens/cursos/... · 2015-04-01 · sistema de equações normais a solução...

58
Modelos de regressão linear: abordagem cl Modelos de regressão linear: abordagem cl á á ssica ssica Prof. Marcelo Rubens [email protected] Depto. Estatística

Upload: vuongque

Post on 20-Jan-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Modelos de regressão linear: abordagem clModelos de regressão linear: abordagem cl áássicassica

Prof. Marcelo [email protected]

Depto. Estatística

Page 2: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Análise de Regressão

Objetivo: Determinar uma fun ção matem ática que descreva a relação entre uma variável contínua (variável explicada ou dependente) e uma ou mais variáveis explicativas ou independentes.

y = f(x 1,x2,...,xK) + εεεε

� y denota a variável dependente.� x1,x2,...,xK denotam as variáveis independentes.� f(x1,x2,...,xK) descreve a variação sistem ática (determinística)� εεεε representa a variação não sistem ática (erro aleatório)

Modelos de regressão (fun ção f) podem ser lineares ou não lineares.

Page 3: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo 1O gerente de vendas de uma empresa varejista está interessado em obter uma equação que sintetize a relação existente entre o investimento em propaganda e o volume de vendas da empresa com o objetivo de realizar projeções do volume de vendas.

Amostra de tamanho n=10 obtida no

departamento de vendas (milhões de R$)

Diagrama de dispersão representação gráfica que permite visualizar a

relação/associação entre duas variáveis

0

10

20

30

40

50

60

0 10 20 30 40 50

Investimento em propaganda (X)

Vol

ume

de v

enda

s (Y

)

Um incremento no investimento em propaganda produz um

aumento nas vendas

A relação entre as variáveis não é precisa (estocástica)

Page 4: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo 1A boa aderência da nuvem de pontos ao redor de um reta imaginária indica que a relação entre as duas variáveis pode ser aproximada por uma relação linear.

0

10

20

30

40

50

60

0 5 10 15 20 25 30 35 40 45

Investimento em propaganda (X)

Vol

ume

de v

enda

s (Y

)

A essência da relação entre o investimento em propaganda e o volume de vendas pode ser expressa por uma reta.

A identificação desta reta pode ser efetuada por meio de um modelo de regressão linear simples.

Page 5: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo 1

0

10

20

30

40

50

60

0 5 10 15 20 25 30 35 40 45

Investimento em propaganda (X)

Vol

ume

de v

enda

s (Y

)

Para um investimento de R$ 25 milhões em propaganda espera-se um volume de vendas da ordem de R$ 37 milhões (valor a justado)

Page 6: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo 1

Neste caso o nível de vendas (y) é explicado pelo investimento em propaganda (x), então, y=f(x):

x = nível de vendas = variável dependentey = investimento em propaganda = variável independente

A relação estocástica entre as duas variáveis pode ser modelada da seguinte forma:

y = β0 + β1x + ε

Onde:� β0 e β1 são coeficientes desconhecidos da reta que relaciona as variáveis x e y (estimados a partir dos dados da amostra).� ε é um termo aleatório (erro) que representa a imprecisão na relação entre x e y.

Page 7: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Modelos de regressão linear

Modelo de regressão linear simples: uma variável dependente explicada por uma variável independente.

yi = β0 + β1xi + εi

Modelo de regressão linear m últipla:Uma variável dependente explicada por pelo menos duas variáveis independentes.

yi = β0 + β1x1, i + ... + βKxK, i + εi (K≥2)

Objetivo : Identificar uma função y=f(x) que permita explicar uma variável dependente (y) em função das variáveis explicativas (x), ou seja, como y varia de acordo com mudanças em x.

Page 8: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Significado do erro εεεε

O erro ε representa:

� Todos os outros fatores que afetam a variável dependente Y, mas que não estão contempladas nas variáveis explicativas X.

� Erros de medição.

� Forma funcional inadequada, por exemplo,

y = β0 + β1x ou y = β0 + β1x + β1x2 ?

� Inerente variabilidade no comportamento dos agentes econômicos.

Page 9: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Modelo de Regressão Linear Simples

Equação de regressão populacional:

yi = β0 + β1xi + εi (apenas uma variável independente)

Os coeficientes ββββ0 e ββββ1 não são conhecidos e devem ser estimados a partir de uma amostra aleatória de tama nho n da população:

Amostra aleatória ⇒ (xi , yi), i=1,n

Em cada unidade amostrada tem -se que

yi = β0 + β1xi + εi i=1,n

Variável aleatória não-observável

Componente determínistica

Page 10: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Hipóteses assumidas pelo modelo

H1) A relação entre as variáveis é linear yi = β0 + β1xi + εi i=1,n:

H2) Média nula: E(εi|xi) = 0 para todo i=1,n

H3) Variância constante: V(εi) = σ2 para todo i=1,n

H4) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k

H5) Distribuição Normal: εi ~ N(0,σ2) para todo i=1,n

εi são independentes e identicamente distribuídos N(0, σσσσ2)

H6) A variável explicativa X é fixa, i.e., não é estocástica

Modelo de Regressão Linear Simples

Page 11: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

( ) 2x|yV σ=

ε+β+β= xy 10

Como o valor esperado do erro é zero E( εεεε)=0, o valor esperado de y condicionado ao valor de x é igual a:

( ) ( )x|xEx|yE 10 εββ ++=

( ) ( )x|Exx|yE 10 εββ ++=

( ) xxyE 10| β+β=Por hipótese a variável independente não é aleatória , assim tem-se:

( )210 ,~ σβ+β xNy

Como o erro tem distribuição Normal com média 0 e v ariância σσσσ2

Modelo de Regressão Linear Simples

Page 12: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

( ) xyE 10 β+β=

Modelo de Regressão Linear Simples

Reta de regressão

Page 13: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Modelo de Regressão Linear Simples

Page 14: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Estimador de m ínimos quadradosModelo de Regressão Linear Simples

yi = β0 + β1xi + εi ⇒ εi = yi - β0 - β1xi

( )[ ]∑∑==

β+β−=ε=n

iii

n

ii xyf

1

210

1

2

( )[ ]∑=ββ

β+β−=n

iii xyfMin

1

210

, 10

Soma dos quadrados dos erros

As estimativas de ββββ0 e ββββ1 devem minimizar a soma sos quadrados dos desvios

No ponto de mínimo as derivadas parciais são nulas

Sistema de equações normaisA solução deste sistema fornece os estimadores de ββββ0 e ββββ1

( ) 0ˆˆ0ˆ

100

=

β+β−⇒=β∂∂

∑=

ε

n

iii

i

xyf

44 344 21

( ) 0ˆˆ0ˆ

101

=

β+β−⇒=β∂

∂∑=

εi

n

iii

xxyf

i

44 344 21

∑∑==

=β+βn

ii

n

ii

yxn11

10ˆˆ

∑∑∑===

=β+βn

iii

n

ii

n

ii

yxxx11

21

10

ˆˆ

Page 15: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Estimador de m ínimos quadrados

Modelo de Regressão Linear Simples

Solução do sistema de equações normais

xy 10ˆˆ β−=β

( )( )( )∑

=

=

−−=β

n

ii

n

iii

xx

yyxx

1

2

11

ˆ

Sistema de equações normais

Estimadores de mínimos quadrados

∑∑∑===

=β+βn

iii

n

ii

n

ii

yxxx11

21

10

ˆˆ

∑∑==

=β+βn

ii

n

ii

yxn11

10ˆˆ

Page 16: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Estimador de m ínimos quadrados

Modelo de Regressão Linear Simples

ii xy 10ˆˆˆ β+β=Valor estimado da variável dependente

y dado que x é igual a x i

Resíduo da i-ésima observação é igual a diferença entre o valor observado e o valor estimado da variável y i ( )iii

iii

xy

yy

10ˆˆˆ

ˆˆ

β+β−=ε

−=ε

Equação de regressão estimada ( ) xxyEy 10ˆˆ|ˆ β+β==

Page 17: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

( )∑

=

σ=σ

n

ii

n

ii

xxn

x

1

2

1

22

0

∑=

β

σ=σn

ii xx

1

22

22ˆ

1

Se as hipóteses H1 até H6 forem satisfeitas, os estimad ores de m ínimos quadrados são estimadores lineares não tendenciosos de variância mínima (Teorema de Gauss Markov)

( ) 00ˆ β=βE

( ) 11ˆ β=βE

( )2ˆ00

0,~ˆ

βσββ N

( )2ˆ11

1,~ˆ

βσββ N

( )2n

xˆˆy

2n

ˆˆ

n

1i

2

i10i

n

1i

2i

2

−−=

−=

∑∑==

ββεσ

Modelo de regressão linear simples

Estimador da variância do

erro

Page 18: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Modelo de regressão linear simplesDecomposição do erro:

y

x

y

y = b0 + b1x^

*yi (valor observado)

yi - y yi (valor estimado)^

yi - y^

yi - yi^

Page 19: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Decomposição da soma de quadrados total

SQT = SQE + SQR

SQT = Soma dos Quadrados TotalSQE = Soma dos Quadrados dos ErrosSQR = Soma dos Quadrados da Regressão

Modelo de regressão linear simples

( ) ( ) ( )∑∑ ∑== =

−+−=−n

ii

n

i

n

iiii yyyyyy

1

2

1 1

22 ˆˆ

Page 20: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

( )

( ) SQT

SQE1

yy

yy

SQT

SQRR

n

1i

2i

n

1i

2i

2 −=−

−==∑

=

=

Coeficiente de determinação

Modelo de regressão linear simples

10 2 ≤≤ R

� Se R estiver próximo de 1, a variável x explica a maior parte das variações de y. Neste caso, a variável x é uma boa preditora da variável y.

� Se R estiver próximo de 0, a variável x explica muito pouco das variaçães de y.Neste caso, a variável x não é uma boa preditora da variável y.

Page 21: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Análise da variância (ANOVA)

Modelo de regressão linear simplesInferência Estatística no Modelo de Regressão Linear

2σ Estimador da variância do erro

SQT

SQRR =2

( )2nSQE

SQRF

−=

Causas de Variação Graus de Liberdade Soma dos Quadrados Quadrados Médios

Regressão 1 ( )∑=

−=n

ii xxSQR

1

221β QMR=SQR/1

Erros n-2 ( )∑=

−=n

iii yySQE

1

2ˆ QME=SQE/(n-2)

Total n-1 ( )∑=

−=n

ii yySQT

1

2

Page 22: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

2n,1F~

2n

SQE1

SQR

F −

=

Testa o efeito conjunto das variáveis explicativas s obre a variável dependente, No caso do modelo linear simples testa o efeito de Xsobre YH0 : ββββ1 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )

F > Ftabeladorejeita H0F < Ftabelado aceita H0

Modelo de regressão linear simples

Teste F

Inferência Estatística no Modelo de Regressão Linear

Sob H 0

Page 23: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

2nˆ

1 t~ˆ

ˆt

1

−=βσ

β

H0 : ββββ1 = 0H1 : ββββ1 ≠≠≠≠ 0

Testa o efeito individual de X e do termo constante

Modelo de regressão linear simplesInferência Estatística no Modelo de Regressão Linear

Teste t

Testa a significância do coeficiente de regressão li near associado com uma determinada variável explicativa.

Sob H 0

t > ttabeladorejeita H0t < ttabelado aceita H0

Page 24: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

21

ˆ11

211

ˆ1 tˆˆtˆˆ1

αβαβ σββσβ−−

⋅+≤≤⋅−

Modelo de regressão linear simplesInferência Estatística no Modelo de Regressão Linear

Intervalo de confiança 100(1- αααα)%

Page 25: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Previsor ( ) hhh xxyE 10ˆˆ|ˆ ββ +=

Erro de previsão ( ) ( ) ( ) ( ) hhhhhh xxyExyEe 1100ˆˆ|ˆ| ββββ −+−=−=

( ) ( )( )

−+=∑

=

n

ii

hh

xx

xx

neV

1

2

22 1

ˆˆ σ

Intervalo de previsão

( ) ( ) ( ) ( )

+−

hchhhchheVtxyEeVtxyE |ˆ,|ˆ

Modelo de regressão linear simples

Previsão do valor esperado

Page 26: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Dado xT+h prever yT+h

Previsorhh xy 1

ˆˆˆ0

ββ +=

Erro de previsão ( ) ( ) hhhhh xyye εββββ +−+−=−= 1100ˆˆˆ

( ) ( )( )

−++=∑

=

n

1i

2i

2h2

h

xx

xx

n

11ˆeV σ

Intervalo de previsão

( ) ( )

+−

hchhcheVtyeVty ˆ,ˆ

Modelo de regressão linear simplesPrevisão de uma observação

Page 27: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear simplesO gerente de uma empresa varejista está interessado em ob ter uma equação que sintetize a relação entre o investimento em propaganda (X) e o volume de vendas (Y) da empresa, com a finalidade de projetar o nível de vendas em função do investimento no programa de ma rketing da empresa.

Histórico (dados anuais) Diagrama de dispersão

Relação linear entre as variáveis

N = 10 observações

Page 28: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear simplesεββ ++= yy 10Modelo de regressão linear

Estimação dos coeficientes por mínimos quadrados

03823,125,26975916,09,37ˆˆ10 =⋅−=β−=β XY

97916,0265801910

3792651101610

XXn

YXYXnˆ

22n

1ii

n

1i

2i

n

1i

n

1ii

n

1iiii

1 =−⋅

⋅−⋅=

−=

∑∑

∑ ∑∑

==

= ==β Equação de projeção

XY 9792,00382,12ˆ +=

Page 29: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear simplesConstrução da ANOVA

Soma dos quadrados dos resíduos SQE

Soma dos quadrados explicados pela regressão SQR

Soma dos quadrados totais SQT

resíduos

XY 9792,00382,12ˆ +=

> regressao <- lm(Y~X,data=dados_venda_propaganda)Código R:

Page 30: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear simplesConstrução da ANOVA

Fonte de variação

Soma dos quadrados

(A)

Graus de liberdade

(B)

Quadrado médio

(C=A/B)F

Regressão SQR 949,08

1 949,08 949,08 / 38,98=24,35

Resíduo SQE311,82

n-2=8 38,98

Total SQT1260,90

n-1=9

ANOVA

1 variável explicativa 2 coeficientes

estimados α e βPor isso n - 2

O quadrado médio do resíduo é uma estimativa da variância do erro

2σCoeficiente de determinação R2

75,090.1260

08.949

SQT

SQRR2 === > anova(regressao)Código R:

Page 31: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear simples

Estimativas dos erros padrão de e

( )3661,31

5,26108019

5,269778,38

10

1

XXn

Xˆˆ

2

2

n

1i

2

i

n

1i

2i

2

0=

⋅−⋅⋅=

−=∑

=

=

σσ β

0391,05,26108019

9778,38ˆˆ 22

1

2

22ˆ

1=

⋅−=

σ=σ∑

=

β

XNXN

ii

0β1β

6,53661,31ˆˆ 2ˆˆ

00==σ=σ ββ

1978,00391,0ˆˆ 2ˆˆ

1==σ=σ ββ

Erro padrão

Erro padrão

Page 32: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear simplesInferência no modelo

H0 : ββββ1 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )

2n,1F~

2n

SQE1

SQR

F −

=

F > Ftabeladorejeita H0

Sob H 0

35.24=F

Ao nível de significância de 5% o valor tabelado (Ftabelado) de uma F com 1 grau de liberdade no numerador e 8 graus de liberdade no denominador é 5,3177. No R:> qf(0.95,1,8)[1] 5.317655

Distribuição F

Testes de hipóteses

Teste F: Testa o efeito conjunto das variáveis expl icativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y

Page 33: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear simplesInferência no modelo

H0 : ββββ0 = 0 ( ausência do efeito )H1 : ββββ0 ≠≠≠≠ 0 ( presença do efeito )

t < ttabeladonão rejeita H0

Sob H 0

1495,23661,31

0382.12 ==t

Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 8 graus de liberdade no numerador é2,31. No R:> qt(0.975,8)[1] 2.306004

Distribuição t

2nˆ

0 t~ˆ

ˆt

0

−=βσ

β

Testes de hipóteses

Teste t: Testa a significância do coeficiente de re gressão linear associado com uma determinada variável explicativa.

Page 34: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear simplesInferência no modelo

H0 : ββββ1 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )

t > ttabeladorejeita H0

Sob H 0

9354,40391,0

9792.0 ==t

Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 8 graus de liberdade no numerador é2,31. No R:> qt(0.975,8)[1] 2.306004

Distribuição t

2nˆ

1 t~ˆ

ˆt

1

−=βσ

β

Testes de hipóteses

Teste t: Testa a significância do coeficiente de re gressão linear associado com uma determinada variável explicativa.

Page 35: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

9531,248766,031,26,5

0382,1231,2 0

0 ≤β≤−⇒≤β−≤−

Exemplo modelo de regressão linear simplesInferência no modelo

Intervalos de confiança com 95% de confiança

2n00 t~

ˆ

ˆ

0

−−

βσββ

2nˆ

11 t~ˆ

ˆ

1

−−

βσββ

95,031,2ˆ

ˆ31,2

0

00 =

σβ−β≤−

β

P Distribuição t

95%95,031,2ˆ

ˆ31,2

11 =

σβ−β≤−

β

P

4320,15198,031,21978,0

9792,031,2 1

1 ≤β≤⇒≤β−≤−

Page 36: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear simples no R> (dados_venda_propaganda <- data.frame(cbind("X"=c(3 0,20,35,40,38,18,10,15,35,24),"Y"=c(40,34,52,49,47, 21,20,27,41,48))))

X Y1 30 402 20 343 35 524 40 495 38 476 18 217 10 208 15 279 35 4110 24 48

> regressao <- lm(Y~X,data=dados_venda_propaganda)> summary(regressao)

Call:lm(formula = Y ~ X, data = Gujarati_C3)

Residuals:Min 1Q Median 3Q Max

-8.605 -2.111 -1.556 1.913 12.540

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 12.0382 5.6005 2.149 0.0 6383 . X 0.9759 0.1978 4.934 0.00114 **---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Residual standard error: 6.243 on 8 degrees of freedomMultiple R-squared: 0.7527, Adjusted R-squared: 0.7218 F-statistic: 24.35 on 1 and 8 DF, p-value: 0.001143

Page 37: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear simples no RAlguns gráficos para diagnósticos

Útil na verificação da hipótese de variância constante do erro:

Útil na verificação da hipótese de normalidade do erro (valores ao redor de

uma reta imaginária indicam que a hipótese de normalidade não foi violada):

Útil na avaliação da qualidade do ajuste:

> plot(dados_venda_propaganda$X,regressao$resid,typ e="p" ,main="Gráfico dos resíduos",xlab="X - Investimento em propaganda", yla b="Resíduos",xlim=c(-0,50),bty="n",col.main="blue",xaxp=c(0,50,11),xaxs= "i",xaxt="n",ylim=c(-10,15),yaxp=c(-10,15,5),yaxs="i",cex.axis=.8,pch=16)> axis(1,at=seq(0,50,5),pos=c(0,0),cex.axis=.8)> plot(dados_venda_propaganda$X, dados_venda_propag anda$Y,type="p" ,main="Plotagem do ajuste",xlab="X - Investimento em propaganda", ylab= "Y -Vendas",xlim=c(0,45),bty="n",col.main="blue",xaxp=c (0,45,10),xaxs="i",xaxt="n",ylim=c(0,55),yaxp=c(0,55,11),yaxs="i",cex.axis=.8,pch=16)> axis(1,at=seq(0,45,5),pos=c(0,0),cex.axis=.8,xaxs ="r")> abline(regressao)> text(14,11,expression(hat(Y)),adj=0)>text(15,10.5,paste("=",as.character(round(data.fra me(regressao$coeff)[1,1],4)),"+",as.character(round(data.frame(regressao$coeff)[2,1],4)),"X"),adj= 0)> text(14,6.5,expression(R^2),adj=0)> text(15.5,6,paste("=",as.character(round(summary( regressao)$r.squared,4))),adj=0)> plot(regressao)

Page 38: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

A variável dependente é uma função linear de duas ou m ais variáveis independentes

ikikiii xxxy εββββ +++++= K22110

Notação matricial

i=1,...,n

εβ += XY

=

ny

y

y

YM

2

1

=

knn1

2k12

1k11

xx1

xx1

xx1

X

L

MOMM

L

L

=

ββ

βM

1

0

=

εε

εM

2

1

Modelo de regressão linear m últipla

K variáveis explicativas

ββββ1, ββββ2, ββββ3,...,ββββk, σσσσ2 são parâmetros do modelo que devem ser estimados

Page 39: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Hipóteses

H1 - E(ε)=0H2 – H3 E(ε ε’)=σσσσ2I, I matriz identidade

V(ε)= σσσσ2 e COV(εi, εj)=0H4 - Os erros tem distribuição normal εi~N(0, σσσσ2)H5 - A matriz X é não aleatóriaH6 - O posto de X é k+1<n

Problemas de especificação

� Escolher o tipo de função matem ática � Determinar que variáveis independentes devem ser consideradas no modelo

Modelo de regressão linear m últipla

Page 40: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

( ) YXXX ''ˆ 1−=β

=

∑∑∑∑

∑∑∑∑

∑∑∑∑

∑∑∑

====

====

====

===

n

1i

2ki

n

1ikii2

n

1ikii1

n

1iKi

n

1ikii2

n

1i

2i2

n

1ii2i1

n

1ii2

n

1ikii1

n

1ii2i1

n

1i

2i1

n

1ii1

n

1iki

n

1ii2

n

1ii1

xxxxxx

xxxxxx

xxxxxx

xxxn

X'X

L

MOMMM

L

L

L

Estimador de M ínimos Quadrados (MQ)

Modelo de regressão linear m últipla

=

=

=

=

=

n

1iiki

n

1iii2

n

1iii1

n

1ii

yx

yx

yx

y

Y'X

M

Page 41: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

( ) ( ) 21'ˆ σβ −= XXV

)1k(n

'ˆ 2

+−= εεσ

( )jjjj aN 2,~ˆ σββajj elemento da diagonal principal da inversa de X’X

Modelo de regressão linear m últipla

Estimador de M ínimos Quadrados (MQ)

Page 42: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Teste t H0 : ββββ j = 0H1 : ββββ j ≠≠≠≠ 0

( )1knj t~

ˆ

ˆt

j

+−=βσ

β

( )1knE.Q.S

kR.Q.SF

+−=

H0 : ββββ 1 = ββββ 2 = ββββ 3 =...= ββββ k =0H1 : pelo menos um ββββj ≠≠≠≠ 0

Teste F

t t rejeita Htabelado≥ ⇒ 0

F F rejeita Htabelado≥ ⇒ 0

Modelo de regressão linear m últiplaInferência Estatística no Modelo de Regressão Linear

Page 43: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Análise da variância

2

22

ynY'Y

ynY'X'ˆ

SQT

SQRR

−−== β

( ))1k(n

1nR11R 22

+−−−−=

( )[ ]1knSQE

kSQR

QME

QMRF

+−==

Modelo de regressão linear m últiplaInferência Estatística no Modelo de Regressão Linear

Causas de variação

Graus de liberdade (A)

Soma dos quadrados(B)

Quadrados médios (C=B/A)

F

Regressão k QMR=SQR/k F=QMR/QME

Erros n–(k+1) QME=SQE/[n–(k+1)]

Total n–1

2ynY'X'ˆSQR −= β

Y'X'ˆY'YSQE β−=

2ynY'YSQT −=

Page 44: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Análise da variância – contribuições das variáveis independentes ao modelo global – função Anova() do pacote “car” do R

Modelo de regressão linear m últiplaInferência Estatística no Modelo de Regressão Linear

1

Causas de variação

Graus de liberdade (A)

Soma dos quadrados(B)

Quadrados médios (C=B/A)

F

1

Erros n–(k+1) QME=SQE/[n–(k+1)]

Total n–1

Y'X'ˆY'YSQE β−=

2ynY'YSQT −=

1x

kx

M M M

( )( ) ( )( ) ∑∑∑===

=−−++−−=−=n

1ix

n

1iikkik

n

1ii1i11

2

iSQRyyxxˆyyxxˆynY'X'ˆSQR βββ L

( )( )∑=

−−=n

1ii1i11x yyxxˆSQR

( )( )∑=

−−=n

1iikkikx yyxxˆSQR

1xSQR

kxSQR

M

QMESQEF11 xx =

QMESQEFkk xx =

M

Fórmula (C.3.17) do Gujarati com a notação adaptada:

Page 45: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

[ ]khh2h1h xxx1'x L=

Previsão

Dado

b'xy hh = estima ( ) khkh110h xxyE βββ +++= K

( ) ( ) 2h

1hh ˆxX'X'xyV σ−=

b'xy hh = estima hkhkh110h xxy εβββ ++++= K

( ) ( )[ ] 2h

1hh ˆxX'X'x1yV σ−+=

Modelo de regressão linear m últipla

Page 46: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear m últipla

X1 X2 Y68,5 16,7 174,445,2 16,8 164,491,3 18,2 244,247,8 16,3 154,646,9 17,3 181,666,1 18,2 207,549,5 15,9 152,8

52 17,2 163,248,9 16,6 145,438,4 16 137,287,9 18,3 241,972,8 17,1 191,188,4 17,4 23242,9 15,8 145,352,5 17,8 161,185,7 18,4 209,741,3 16,5 146,451,7 16,3 14489,6 18,1 232,682,7 19,1 224,152,3 16 166,5

Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa está analisando a possibilidade de expansão em outra s cidades de médio porte e para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas com base no número de pessoas com até 16 anos de ida des (X1) e a renda per capita na localidade (X 2).

Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são apresentados na tabela abaixo:

ii2i10i xxy εβββ +++=Modelo de regressão linear múltipla a ser estimado

> (exemplo <-data.frame(cbind("X1"=c(68.5,45.2,91.3,47.8,46.9,66 .1,49.5,52,48.9,38.4,87.9,72.8,88.4,42.9,52.5,85.7,41.3,51.7,89.6,82.7,52.3),"X2"=c(16.7,16.8,18.2,16.3,17.3,18.2,15.9,17.2,16.6,16,18.3,17.1,17.4,15.8,17.8,18.4,16.5,16.3,18.1,19.1,16),"Y"=c(174.4,164.4,244.2,154.6,181.6,207.5,152.8,163.2,145.4,137.2,241.9,191.1,232,145.3,161.1,209.7,146.4,144,232.6,224.1,166.5))))

Page 47: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear m últiplaModelo de regressão linear

Estimação dos coeficientes de regressão por mínimos quadrados

ii2i10i xxy εβββ +++=

1 68,5 16,71 45,2 16,81 91,3 18,21 47,8 16,31 46,9 17,31 66,1 18,21 49,5 15,91 52 17,21 48,9 16,61 38,4 161 87,9 18,31 72,8 17,11 88,4 17,41 42,9 15,81 52,5 17,81 85,7 18,41 41,3 16,51 51,7 16,31 89,6 18,11 82,7 19,11 52,3 16

X =

174,4164,4244,2154,6181,6207,5152,8163,2145,4137,2241,9191,1

232145,3161,1209,7146,4

144232,6224,1166,5

Y =

21,00 1.302,40 360,001.302,40 87.707,94 22.609,19

360,00 22.609,19 6.190,26=XX T

3.820,00249.643,35

66.072,75=YX T

29,7289 0,0722 -1,99260,0722 0,0004 -0,0055

-1,9926 -0,0055 0,1363( ) =−1

XX T

( ) YXXX TT 1ˆ −=β

−=

3655,9

4546,1

8571,68

ˆ

ˆ

ˆ

2

1

0

βββ

> regressao2 <- lm(Y~X1+X2,data=exemplo)> summary(regressao2)

Código R:

Page 48: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear m últiplaConstrução da ANOVA

i2i1i x3655,9x4546,18571,68y ++−= SQR SQE SQT

Page 49: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear m últiplaConstrução da ANOVA

Fonte de variação

Soma dos quadrados

(A)

Graus de liberdade

(B)

Quadrado médio

(C=A/B)F

Regressão SQE 24015,28

2 12007,64 12007,64 / 121.1626 = 99,1035

Resíduo SQR2180,93

N-3=18 121,1626

Total SQT26196,21

N-1=20

ANOVA

2 variáveis explicativas 3 coeficientes

estimadosPor isso N – 3

O quadrado médio do resíduo é uma estimativa da variância do erro

2σCoeficiente de determinação R2

917,021,26196

28.24015

SQT

SQRR2 === > anova(lm(Y~1,data=exemplo),regressao2)Código R:

Page 50: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear m últiplaModelo de regressão linear

Estimativas dos erros padrão dos coeficientes de re gressão

( ) 12

2ˆˆˆˆˆ

ˆˆ2ˆˆˆ

ˆˆˆˆ2ˆ

ˆ

ˆˆˆ

ˆˆˆ

ˆˆˆ

22120

21110

20100−⋅=

=Σ XX Tσσσσ

σσσσσσ

βββββ

βββββ

βββββ

β

0170,600347,3602ˆˆ 2ˆˆ00

=== ββ σσ

Erro padrão

Resultado na ANOVA = 121,1626

29,7289 0,0722 -1,99260,0722 0,0004 -0,0055

-1,9926 -0,0055 0,1363

=Σβ3.602,0347 8,7459 -241,4230

8,7459 0,0449 -0,6724-241,4230 -0,6724 16,5158

2118,00449,0ˆˆ 2ˆˆ11

=== ββ σσ

0640,45158,16ˆˆ 2ˆˆ22

=== ββ σσ

Variâncias na diagonal principalCovariâncias fora da diagonal principal

ii2i10i xxy εβββ +++=

> vcov(regressao2)Código R:

Page 51: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear m últiplaInferência no modelo

H0 : ββββ1 = ββββ2 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ou ββββ2 ≠≠≠≠ 0 ( presença do efeito )

3n,2F~

3N

SQE2

SQR

F −

=

F > Ftabeladorejeita H0

Sob H 0

1035,99=F

Ao nível de significância de 5% o valor tabelado (Ftabelado) de uma F com 2 graus de liberdade no numerador e 18 graus de liberdade no denominador é3,5546. No R:> qf(0.95,2,18)[1] 3.554557

Distribuição F

Testes de hipóteses

Teste F: Testa o efeito conjunto das variáveis expl icativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y

Page 52: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear m últiplaInferência no modelo

H0 : ββββ0 = 0 ( ausência do efeito )H1 : ββββ0 ≠≠≠≠ 0 ( presença do efeito )

t < ttabeladonão rejeita H0

Sob H 0

1473,10170,60

8571,68 −=−=t

Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 18 graus de liberdade no numerador é2,1009. No R:> qt(.975,18)[1] 2.100922

Distribuição t

3nˆ

0 t~ˆ

ˆt

0

−=βσ

β

Testes de hipóteses

Teste t: Testa a significância do coeficiente de re gressão linear associado com uma determinada variável explicativa.

Page 53: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear m últiplaInferência no modelo

t > ttabeladorejeita H0

Sob H 0

Distribuição t

Testes de hipóteses

Teste t: Testa a significância do coeficiente de re gressão linear associado com uma determinada variável explicativa.

H0 : ββββ1 = 0 ( ausência do efeito )H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )

3nˆ

1 t~ˆ

ˆt

1

−=βσ

β

8682,62118,0

4546,1 ==t

Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 18 graus de liberdade no numerador é2,1009. No R:> qt(.975,18)[1] 2.100922

Page 54: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear m últiplaInferência no modelo

t > ttabeladorejeita H0

Sob H 0

Distribuição t

Testes de hipóteses

Teste t: Testa a significância do coeficiente de re gressão linear associado com uma determinada variável explicativa.

H0 : ββββ2 = 0 ( ausência do efeito )H1 : ββββ2 ≠≠≠≠ 0 ( presença do efeito )

3nˆ

2 t~ˆ

ˆt

2

−=βσ

β

3045,20640,4

3655,9 ==t

Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 18 graus de liberdade no numerador é2,1009. No R:> qt(.975,18)[1] 2.100922

Page 55: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear m últiplaInferência no modelo

Intervalos de confiança com 95% de confiança

3n00 t~

ˆ

ˆ

0

−−

βσββ&&

95,01,2ˆ

ˆ1,2

00 =

≤−≤−

βσββ

P Distribuição t

95%

2339,57948,1941,20170,60

8571,681,2 0

0 ≤≤−⇒≤−−≤− ββ

3n11 t~

ˆ

ˆ

1

−−

βσββ&&

95,01,2ˆ

ˆ1,2

11 =

≤−≤−

βσββ

P

3n22 t~

ˆ

ˆ

2

−−

βσββ&&

95,01,2ˆ

ˆ1,2

22 =

≤−≤−

βσββ

P

8995,10096,11,22118,0

4546,11,2 1

1 ≤≤⇒≤−≤− ββ

9036,178274,01,20640,4

3655,91,2 2

2 ≤≤⇒≤−≤− ββ

Page 56: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear múltipla no R> (exemplo <-data.frame(cbind("X1"=c(68.5,45.2,91.3,47.8,46.9,66 .1,49.5,52,48.9,38.4,87.9,72.8,88.4,42.9,52.5,85.7,41.3,51.7,89.6,82.7,52.3),"X2"=c(16.7,16.8,18.2,16. 3,17.3,18.2,15.9,17.2,16.6,16,18.3,17.1,17.4,15.8,17.8,18.4,16.5,16.3,18.1,19.1,16),"Y"=c (174.4,164.4,244.2,154.6,181.6,207.5,152.8,163.2,145.4,137.2,241.9,191.1,232,145.3,161.1,209.7,146.4,144,232.6,224.1,166.5))))

X1 X2 Y1 68.5 16.7 174.42 45.2 16.8 164.43 91.3 18.2 244.24 47.8 16.3 154.65 46.9 17.3 181.66 66.1 18.2 207.57 49.5 15.9 152.88 52.0 17.2 163.29 48.9 16.6 145.410 38.4 16.0 137.211 87.9 18.3 241.912 72.8 17.1 191.113 88.4 17.4 232.014 42.9 15.8 145.315 52.5 17.8 161.116 85.7 18.4 209.717 41.3 16.5 146.418 51.7 16.3 144.019 89.6 18.1 232.620 82.7 19.1 224.121 52.3 16.0 166.5

> regressao2 <- lm(Y~X1+X2,data=exemplo)> summary(regressao2)

Call:lm(formula = Y ~ X1 + X2, data = exemplo)

Residuals:Min 1Q Median 3Q Max

-18.4239 -6.2161 0.7449 9.4356 20.2151

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -68.8571 60.0170 -1.147 0.2663 X1 1.4546 0.2118 6.868 2e-06 ***X2 9.3655 4.0640 2.305 0.0333 * ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '. ' 0.1 ' ' 1

Residual standard error: 11.01 on 18 degrees of freedo mMultiple R-squared: 0.9167, Adjusted R-squared: 0.9075 F-statistic: 99.1 on 2 and 18 DF, p-value: 1.921e-1 0

Page 57: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear múltipla no R

Page 58: Depto. Estatísticamrubens/cursos/... · 2015-04-01 · Sistema de equações normais A solução deste sistema fornece os estimadores de

Exemplo modelo de regressão linear múltipla no R

> plot(exemplo$X1,regressao2$resid,type="p" ,main=" Gráfico dos resíduos x X1",xlab="X1 - Qtd. pessoas co m até 16 anos de idade", ylab="Resíduos",xlim=c(0,100),bty="n",col.main="blu e",xaxp=c(0,100,11),xaxs="i",xaxt="n",ylim=c(-30,30 ),yaxp=c(-30,30,6),yaxs="i",cex.axis=.8,pch=16)> axis(1,at=seq(0,100,10),pos=c(0,0),cex.axis=.8)> plot(exemplo$X2,regressao2$resid,type="p" ,main=" Gráfico dos resíduos x X2",xlab="X2 - Renda per capit a na localidade", ylab="Resíduos",xlim=c(14.8,20),bty="n",col.main="b lue",xaxp=c(15,20,6),xaxs="i",xaxt="n",ylim=c(-40,4 0),yaxp=c(-40,40,8),yaxs="i",cex.axis=.8,pch=16)> axis(1,at=seq(15,20,1),pos=c(0,0),cex.axis=.8)> library(rgl, pos=4)> library(mgcv, pos=4)> scatter3d(exemplo$X1, exemplo$Y, exemplo$X2, fit= "linear", residuals=TRUE, bg="white", axis.scales=TRUE, grid=TRUE, ellipsoid=FALSE, xlab= "X1", ylab="Y", zlab="X2")> plot(regressao2)

Código R para os gráficos: