módulo de regressão e séries temporais - mbarros.com · [email protected]@mbarros.com 1...
TRANSCRIPT
-
[email protected]@mbarros.com 1
MMdulo de Regresso e Sdulo de Regresso e Sries ries TemporaisTemporais
Mnica Barros, Mnica Barros, D.Sc.D.Sc.
Maio de 2007Maio de 2007
[email protected]@mbarros.com 2
Quem sou eu?Quem sou eu?
Mnica BarrosDoutora em Sries Temporais PUC-RioMestre em Estatstica University of Texas at Austin, EUABacharel em Matemtica University ofWashington, Seattle, EUAProfessora da PUC-Rio (Depto. De Eng. Eltrica)E-mails: [email protected], [email protected] page: http://www.mbarros.com
[email protected]@mbarros.com 3
Programa do CursoPrograma do Curso
Uma viso gerencial da Estatstica e Sries Temporais
ConceitosParmetrosModelo LinearModelos AR(1), AR(2), AR(p) e PAR(p)Modelos de Sries TemporaisEstatsticas de erros
[email protected]@mbarros.com 4
Programa do CursoPrograma do Curso
Regresso Linear Simples Modelo Estimao (Mnimos Quadrados Ordinrios e Mxima Verossimilhana)Anlise dos resduos Estimao da varincia dos resduosInferncias para os parmetrosVariveis dummyExerccios
-
[email protected]@mbarros.com 5
Programa do CursoPrograma do Curso
Regresso Linear Mltipla Modelo Estimao (Mnimos Quadrados Ordinrios e Mxima Verossimilhana)Anlise dos resduos Estimao da varincia dos resduos Inferncias para os parmetros Colinearidade Exerccios
[email protected]@mbarros.com 6
Programa do CursoPrograma do Curso
Introduo s sries temporaisObjetivosEscopoMtodos de estimaoLimitaesOverview dos principais mtodos quando e onde us-los
[email protected]@mbarros.com 7
Programa do CursoPrograma do Curso
Mtodos de Amortecimento ExponencialModelos de mdias mveisModelo de BrownModelo de Holt-WintersEstimao dos parmetros Estatsticas de ajustes e anlise dos resduos
Exerccios
[email protected]@mbarros.com 8
Programa do CursoPrograma do Curso
Modelagem ARIMA de Box & Jenkinssazonal e no sazonal
Funo de autocorrelao e autocorrelaoparcial Modelo Identificao de (p, q, d, P, Q, D) Estimao Estatsticas de ajuste e anlise dos resduos Exerccios
-
[email protected]@mbarros.com 9
Programa do CursoPrograma do Curso
Modelos de Regresso Dinmica Funo de correlao cruzada Modelo Identificao/estimao Estatsticas de ajustes e anlise dos resduos Exerccios
[email protected]@mbarros.com 10
Nota Nota InstalaInstalao das Ferramentas o das Ferramentas de Ande Anlise do Excellise do Excel
Muitas das tcnicas descritas aqui requerem a prvia instalao do suplemento (add-in) Ferramentas de Anlise do Excel. O procedimento de instalao descrito a seguir:
No menu Ferramentas, selecione Suplementos e na caixa de dilogo que ser aberta marque a opo Ferramentas de anlise. Se esta opo no estiver presente, clique procurar para encontrar o arquivo correspondente (em geral chamado Analys32.xll) ou rode novamente o set-updo MS-Office.
[email protected]@mbarros.com 11
ForecastForecast ProPro
Neste curso tambm sernecessrio (nos mdulos especficos de sries temporais), o uso do software Forecast Pro XE, jutilizado pelo ONS.
Este software permite o ajuste de modelos de amortecimento exponencial, ARIMA e SARIMA e modelos de regresso dinmica.
[email protected]@mbarros.com 12
Srie TemporalSSrie Temporalrie Temporal
Conjunto de observaes ordenadas no tempo.Suponha que temos uma srie temporal de cargas eltricas. Ento:y1, y2, ..., yn onde yt a carga no instante t.
Existe dependncia entre as cargas de diversos instantes. Isto nos permite usar cargas passadas para prever a carga futura.
-
[email protected]@mbarros.com 13
ModeloModeloModelo
uma representao simplificada da realidade.
Por exemplo, voc observa duas variveis X e Y e faz um grfico dos n pontos (x1,y1), x2,y2), ...(xn,yn). O grfico tem a cara:
[email protected]@mbarros.com 14
ModeloModelo
Anlise da Regresso - Vendas versus Nmero Clientes
y = 0.0087x + 2.423R2 = 0.9119
4.00
5.00
6.00
7.00
8.00
9.00
10.00
11.00
12.00
13.00
400 500 600 700 800 900 1000 1100
Clientes
Vend
as
[email protected]@mbarros.com 15
Modelo LinearModelo LinearModelo Linear
Nesse exemplo a relao entre X e Y , como o grfico revela, aproximadamente linear.
Nosso objetivo: achar a reta que relaciona Y e X. Qual reta? Como encontr-la?
O mtodo tradicional chamado de mnimos quadrados.
[email protected]@mbarros.com 16
Modelo LinearModelo Linear
Mtodo de Mnimos QuadradosComo funciona? O objetivo minimizar a soma dos quadrados dos erros(resduos).Que erros so esses?Para cada ponto, o resduo o valor real menos o valor previsto pela reta.Pode-se notar que o resduo vai depender de qual reta foi ajustada.
-
[email protected]@mbarros.com 17
Modelo LinearModelo Linear
Por exemplo, se ajustamos a reta y = 3 + 2x, se o valor de xi 2, ento yiajustado pela reta igual a 7. Se agora a reta y = 4 + 2x, para xi = 2 temos o yi ajustado pela reta igual a 8.
Imagine que o valor real de yi seja 8.5 quando xi 2. Ento, o resduo gerado pela reta 3 + 2x 8.5 7 = 1.5 e pela reta 4+x 8.5 8 = 8.
[email protected]@mbarros.com 18
Modelo LinearModelo Linear
Ento, no que diz respeito a esse ponto (xi =2), a reta 4 + 2x foi melhor que a reta 3 +2x pois gerou um resduo menor.
Em geral, dados n pares de pontos (x1,y1), x2,y2), ...(xn,yn), voc pode ajustar uma reta y =b0 + b1.x a todos os pares.
Note que os coeficientes b0 e b1 so os mesmos para todos os pares de pontos.
[email protected]@mbarros.com 19
Modelo LinearModelo Linear
O resduo do i-simo par :
O mtodo de mnimos quadrados procura obter a reta (ou seja, os coeficientes b0 e b1) tais que a soma dos quadrados dos resduos seja minimizada.
iiiii previstorealyye ==
[email protected]@mbarros.com 20
Modelo LinearModelo Linear
Mtodo de Mnimos QuadradosAche b0 e b1 tais que a expresso:
seja minimizada. Esta soma acima chamada de Soma dos Quadrados dos Resduos(s vezes, Soma dos Quadrados dos Erros).
( ) ( )===
==n
iii
n
iii
n
ii xbbyyye
1
210
1
2
1
2
-
[email protected]@mbarros.com 21
Modelo LinearModelo Linear
Erro versus ResduoErro = varivel aleatria no observvel, com mdia zero e varincia constante 2.
Resduo = estimador (chute) para o erro. observvel, calculado como valor real valor previsto pelo modelo.Isso causa alguma confuso, pois s vezes a gente chama de erro o que , na verdade, o resduo.
[email protected]@mbarros.com 22
Modelo LinearModelo LinearModelo Linear
O modelo linear :yi =b0+ b1xi + ei para i =1, 2, ..., n
Onde ei o erro, uma varivel com mdia 0 e varincia constante 2.
Os parmetros do modelo so b0, b1e 2, so constantes desconhecidas que devem ser estimadas.
[email protected]@mbarros.com 23
Modelo AR(1)Modelo AR(1)Modelo AR(1)
Parmetro = tudo que precisa ser estimado para especificar completamente o modelo.
Modelo AR(1)AR(1) = autoregressivo de ordem 1
yt = y t-1 + etyt = carga no ms tYt-1 = carga no ms t-1et = erro no ms t
[email protected]@mbarros.com 24
Modelo AR(1)Modelo AR(1)Modelo AR(1)
Parmetros: , 2 (varincia do erro)
Caso Particular: Passeio Aleatrio (Random Walk)AR(1) com =1 yt = yt-1 + etUso: mercado de aesNa mdia, preo da ao hoje = preo da ao ontem (no ajuda muito para ganhar dinheiro!!)
-
[email protected]@mbarros.com 25
RandomRandom WalkWalk
O grfico a seguir mostra um exemplo de um passeio aleatrio em que y0 = 100 e os erros so Normais com mdia zero e desvio padro 2.
Foram geradas 500 observaes.
Voc poderia confundir o grfico com a da evoluo do preo de uma ao no tempo, no mesmo?
[email protected]@mbarros.com 26
RandomRandom WalkWalk
Grfico de uma "Random Walk"
50
70
90
110
130
150
170
190
210
230
1 14 27 40 53 66 79 92 105
118
131
144
157
170
183
196
209
222
235
248
261
274
287
300
313
326
339
352
365
378
391
404
417
430
443
456
469
482
495
[email protected]@mbarros.com 27
Modelo AR(1)Modelo AR(1)Modelo AR(1)
Exemplo efeito de 2
yt = 1,05.yt-1 + etCarga do ms t = 105% da carga do ms t-1 + erro.Suponha que yt-1 = 100.
a) VAR(et) = 1b) VAR(et) = 100
Por exemplo, se fosse possvel observar o erro poderamos encontrar algo como:
[email protected]@mbarros.com 28
Modelo AR(1)Modelo AR(1)Modelo AR(1)
a) et = 1,05 valor pequeno pois foi tirado de uma distribuio de prob. com mdia 0 e varincia 1.
b) et = 10,32 valor grande porque a distribuio de prob. tem varincia grande (100).
Resultados:a) yt = 105 + 1,05 = 106,05b) yt = 105 + 10,32 = 115,32
-
[email protected]@mbarros.com 29
Modelo AR(2)Modelo AR(2)Modelo AR(2)
yt = 1 yt-1 + 2 yt-2 + etOnde:et = erro no instante t com mdia 0 e
varincia 2
yt = carga no instante tyt-1 = carga no instante t-1yt-2 = carga no instante t-2Parmetros: 1, 2 e 2 .
[email protected]@mbarros.com 30
Modelo AR(p)Modelo AR(p)Modelo AR(p)
Modelo Autoregressivo de ordem pyt = 1 yt-1 + 2 yt-2 + .. + p yt-p+ et
A carga deste ms depende das cargas dos p ltimos meses. Existem p + 1 parmetros a serem estimados: os s e a varincia do erro.
[email protected]@mbarros.com 31
Modelo PAR(p)Modelo PAR(p)Modelo PAR(p)
PAR(p) = Modelo AutoregressivoPeridico de ordem p.
Contexto: NewaveModelos para previso de vazes. Um modelo AR diferente para cada ms. Restrio do Newave - p mximo = 6 meses. (p = ordem do modelo).
[email protected]@mbarros.com 32
Modelo de Sries TemporaisModelo de SModelo de Sries Temporaisries Temporais
Resduo no instante t:t = real previsto no instante t
Por exemplo, para dez/06, o resduo o valor real de dezembro de 2006 menos o valor previsto para o mesmo ms. S vai poder ser calculado quando o valor real de 12/2006 estiver disponvel!
srie yt Modelo
previsao ^yt
resduo yt - ^yt
-
[email protected]@mbarros.com 33
Modelo de Sries TemporaisModelo de SModelo de Sries Temporaisries Temporais
Mas posso olhar para os resduos in sample (dentro da amostra) no perodo em que o modelo foi ajustado.
Por exemplo, suponha que o modelo foi ajustado no perodo jan/03 a abr/06. Neste perodo todo posso fazer a comparao entre o valor real e o ajustado pelo modelo (fittedvalue), calculando o resduo a cada instante.
Um exemplo est na prxima [email protected]@mbarros.com 34
Modelo de SModelo de Sries Temporaisries Temporais
O grfico a seguir mostra uma srie de carga real (em preto) e ajustada por um modelo (em vermelho).
Legend C_TOTAL
[email protected]@mbarros.com 35
Modelo de Sries TemporaisModelo de SModelo de Sries Temporaisries Temporais
Perodo de ajuste (in sample)Perodo de previso (out of sample)No grfico anterior, o perodo de ajuste vai de janeiro de 1994 a dezembro de 2005, e o perodo de previso o ano de 2006.
y
tempo Perodo de ajuste Perodo de Previso
12/05
Observado em 2006
[email protected]@mbarros.com 36
Modelo de Sries TemporaisModelo de SModelo de Sries Temporaisries Temporais
Voc ajustaria o seguinte modelo: In sample = 12 meses, Out of sample = 24 meses?
No! E o contrrio? Sim, desde que a srie no fosse muito mal comportada. Em resumo previso de sries temporais no futurologia! Voc precisa de dados passados para fazer previso!
-
[email protected]@mbarros.com 37
Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros
Estatstica de erros (resduos)
MAPE = erro absoluto mdio percentualerro percentual no instante i:
(yi - ^yi)/ yi
erro percentual absoluto no instante i:|yi - ^yi/ yi |
Ms Real Previsto Resduo1 y1 ^y1 1 = y1 - ^y12 y2 ^y2 2 = y2 - ^y2... ... ... ...n yn ^yn n = yn - ^yn
[email protected]@mbarros.com 38
Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros
Erro absoluto percentual absoluto no instante i:
|(yi - ^yi)/ yi| = |(real previsto)/real|
MAPE = mdia destes erros absolutos percentuais
Vantagem: fcil de entender - a escala %
Desvantagem: Se o valor real pequeno, qualquer discrepncia na previso faz o MAPE explodir.
==
=
=
n
i i
iin
i i
ii
realprevistoreal
nyyy
nMAPE
11
11
[email protected]@mbarros.com 39
Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros
MAD = mean absolute deviation = desvio absoluto mdio
O MAD est nas mesmas unidades que a sua srie.Por que o mdulo?Para evitar soma = 0 quando um erro grande e positivo e outro grande e negativo!
1 1
1 1n n
i i i ii i
MAD y y real previston n= =
= =
[email protected]@mbarros.com 40
Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros
EQM = erro quadrtico mdio
RMSE = root mean squared error = raiz do EQM
Vantagem sobre EQM => mesma escala que os dados.
( ) ( )===
===n
iii
n
iii
n
ii previstorealn
yyn
en
EQM1
2
1
2
1
2 111
( ) ( )2 221 1 1
1 1 1 n n n
i i i i ii i i
RMSE EQM e y y real previston n n= = =
= = = =
-
[email protected]@mbarros.com 41
Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros
Erro puro:
Vantagem: mesma escala que os dados.
Desvantagem: no d para sair somando! Se voc fizer isso corre o risco de achar que seu modelo bom quando no , pois erros de sinais opostos podero se cancelar.
i i ie y y=
[email protected]@mbarros.com 42
Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros
O que fazer com tudo isso isso?O que desejvel? Se o modelo bom, resduo no tem padro, no tem estrutura.
Faa grficos dos resduos puros ou MAPE, ou MAD ou EQM, ou RMSE.Que tipo de grficos?
Por exemplo, grfico dos erros ao longo do tempo. Serve para responder como o seu modelo se comportou no in sample e verificar a existncia de possveis padres.
[email protected]@mbarros.com 43
EstatEstatsticas de sticas de ErrosErros
Resduo
tempo
Isto Isto tudo que eu tudo que eu no quero.no quero.
Por que?Por que?ResResduo com um duo com um
padro claro (positivo, padro claro (positivo, negativo, positivo, negativo, positivo, negativo, ...).negativo, ...).
[email protected]@mbarros.com 44
EstatEstatsticas de sticas de ErrosErros
Resduo
tempo
Tambm no quero um padro desses todos os resduos so negativos, indicando que a minha previso esteve sempre ACIMA do real
-
[email protected]@mbarros.com 45
EstatEstatsticas de sticas de ErrosErros
Grfico dos erros versus o horizonte de previso.
Serve para responder se as previses se deterioram rpido ou no.
y
x
realizado
Out of sample
Previsto
[email protected]@mbarros.com 46
Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros
Grfico da Autocorrelao dos errosCorrelao entre os erros em diversos instantesACF = autocorrelation functionGrfico da ACF versus lag (defasagem) tambm chamado de correlograma.
O que voc no quer?Que exista correlao entre resduos em
instantes diferentes.
[email protected]@mbarros.com 47
EstatEstatsticas de sticas de ErrosErros
Por que voc no quer que o grfico da ACF dos resduos mostre padres?
Porque se existe dependncia temporal na srie, toda esta dependncia teria que ser, idealmente, capturada pelo modelo, no deveria ter sobrado nada nos resduos!
[email protected]@mbarros.com 48
Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros
Casos comuns...
Ateno: A autocorrelao sempre um nmero entre 1 e +1
No grfico anterior:Resduo grande e positivo no instante t leva a um resduo grande e positivo no instante t+1
Resduos do instante t dependedo resduo do instante t-1
lag (defasagem)
1
-
[email protected]@mbarros.com 49
Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros
Outros Padres:
Resduos nos instantes t e t-12 tm dependncia.
ACF
12
12
ACF
[email protected]@mbarros.com 50
Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros
Em resumo...Se o modelo bom o rudo branco, o resduo no tem estrutura. Se houver padres no resduo fique esperto!
[email protected]@mbarros.com 51
Regresso Linear Simples
[email protected]@mbarros.com 52
Regresso LinearRegresso Linear
Modelos de regresso linear relacionam uma varivel dependente ou varivel de resposta, Y, a uma ou mais variveis explicativas (tambm chamadas covariveis ou variveis independentes), X.
O modelo linear nos parmetros que relacionam Y aos Xs.
A estimao destes modelos geralmente feita por mnimos quadrados ordinrios, e os estimadores obtidos por este algoritmo so timos sob certas condies, dadas pelo teorema de Gauss e Markov.
-
[email protected]@mbarros.com 53
Objetivos dos Modelos de Objetivos dos Modelos de Regresso LinearRegresso Linear
Estudar a relao entre variveis, para se testar causalidade (linear) entre as variveis (ECONOMETRIA).
Possibilitar anlises de cenrios ("What if analysis")
Permitir eventualmente a previso da varivel dependente. (SRIES TEMPORAIS, REGRESSO DINMICA)
[email protected]@mbarros.com 54
Regresso Linear SimplesRegresso Linear Simples
Dependncia Linear entre X e Y O diagrama de disperso tem o seguinte aspecto:
[email protected]@mbarros.com 55
Regresso Linear SimplesRegresso Linear Simples
S uma varivel explicativaEsto disponveis n pares de observaes (xi, yi) um erro aleatrio com mdia zero e varincia constante 2 . Em muitas situaes supomos que o erro Normal, o que nos permite obter intervalos de confiana e realizar testes de hipteses.
Parmetros desconhecidos: A equao que a relao entre y e x chamada de modelo de regresso:
++= x.Y 10
210 e ,
[email protected]@mbarros.com 56
Regresso Linear SimplesRegresso Linear Simples
No caso de regresso linear simples, temos:
y = 0 + 1x +
uma varivel aleatria chamada de erro da regresso e representa a variao de y que no pode ser explicada por sua relao linear com x por definio, seu valor esperado zero
Portanto, o valor esperado ou valor mdio de y est relacionado com x atravs de E(y) = 0 + 1x
-
[email protected]@mbarros.com 57
Regresso Linear SimplesRegresso Linear Simples
Hipteses sobre os erros da regressoConsidere o modelo yi = 0 + 1xi + i para i = 1, 2, ..., n (ou seja, temos n pares de observaes (xi, yi).
Os erros i satisfazem as seguintes hipteses:Mdia zero E(i) = 0 para todo iVarincia constante VAR(i) = 2 para todo i (hiptese de homocedasticidade)Os i so Normais, o que nos permite desenvolver intervalos de confiana e testes de hipteses.Os i so independentes (ou, pelo menos,
descorrelatados).
[email protected]@mbarros.com 58
Regresso Linear SimplesRegresso Linear Simples
O grfico da relao entre x e y uma reta (reta de regresso)
0 chamado de intercepto (ou coef. Linear)1 chamado de inclinao (ou coef. Angular da reta)
Se os parmetros 0 e 1 fossem conhecidos, poderamos utilizar o modelo de regresso linear simples para determinar o valor esperado de y para um dado valor de x.
[email protected]@mbarros.com 59
Regresso Linear SimplesRegresso Linear Simples
Na prtica, esses parmetros no so conhecidos e precisam ser estimados.
Utilizamos observaes emparelhadas de x e y para determinar os estimadores de 0 e 1 b0 e b1 respectivamente, obtendo a seguinte equao de regresso.
Para determinar b0 e b1 utilizamos o mtodo dos mnimos quadrados.
0 1 para i = 1,2, ..., ni iy b b x= +
[email protected]@mbarros.com 60
Regresso Linear SimplesRegresso Linear Simples
Nesse mtodo, os valores de b0 e b1 so tais que a soma dos quadrados das diferenas entre os valores de y observados (yi) e seus respectivos valores estimados pela equao de regresso (yi) mnima:
Ou seja, o mtodo de mnimos quadrados minimiza a soma do quadrado dos resduos.
=
n
iii yy
1
2)(min
-
[email protected]@mbarros.com 61
Regresso Linear SimplesRegresso Linear Simples
Ou seja, os estimadores b0 e b1 so obtidos de tal forma que:
Seja minimizada.E como fazer isso? Note que a soma do quadrado dos resduos (SSE) funo de ambos b0 e b1. Para garantir que esta funo est sendo minimizada, precisamos encontrar seus pontos crticos (aqueles em que as primeiras derivadas em relao a b0 e b1 so zero) e verificar o sinal das segundas derivadas, que devem ser positivos.
( ) ( )2 22 0 11 1 1
n n n
i i i i ii i i
SSE e y y y b b x= = =
= = =
[email protected]@mbarros.com 62
Regresso Linear SimplesRegresso Linear Simples
Ento, para encontrar os estimadores b0 e b1basta fazer:
E verificar o sinal das 2as. derivadas nos pontos crticos.Os valores de b0 e b1 so dados por:
0010
=
=
bSSE
bSSE e
( )
=
nx
x
nyx
yxb
ii
iiii
22
1xbyb 10 =
[email protected]@mbarros.com 63
Regresso Linear SimplesRegresso Linear Simples
Da equao anterior direita notamos que a reta ajustada por mnimos quadrados passa pelo ponto , isto , pelo ponto mdio dentre todos os n pontos (xi, yi) usados para estimar a reta de regresso.
( )yx,
[email protected]@mbarros.com 64
Regresso Linear SimplesRegresso Linear Simples
Sejam:
Ento podemos escrever:
( ) ( )
( ) ( )
( )( ) ( )( )
22 2 2 2
12
2 2 2 2
1
1
.
. , a soma de quadrados total
. .
ni
i i ii
ni
i i ii
ni i
i i i i i ii
xSXX x x x x n x
n
ySYY y y y y n y SST
nx y
SXY x x y y x y x y n x yn
=
=
=
= = =
= = = =
= = =
1 0 1 e .SXYb b y b xSXX
= =
Note que ambos b0 e b1so variveis aleatrias, pois so funes dos ys, que so v.a.
-
[email protected]@mbarros.com 65
Regresso Linear SimplesRegresso Linear Simples
Propriedades dos Estimadores MQO (mnimos quadrados ordinrios)
b0 e b1 so no tendenciosos, isto :
As varincias de b0 e b1 so:
( ) ( )0 0 1 1 e E b E b = =
( ) ( )2 2
21 0
1 e xVAR b VAR bSXX n SXX
= = +
onde 2, como j vimos, a varincia do erro.
[email protected]@mbarros.com 66
Regresso Linear SimplesRegresso Linear Simples
Propriedades dos Estimadores MQOA covarincia entre b0 e b1 :
Dos resultados anteriores nota-se que as varincias e covarincias dos estimadores MQO dependem de 2 (a varincia do erro), que uma quantidade desconhecida. Como estim-la?
( ) ( )2
0 1,x
COV b bSXX
=
2
2SSEsn
=
[email protected]@mbarros.com 67
Regresso Linear SimplesRegresso Linear Simples
O modelo de regresso desenvolvido aproxima a relao linear entre as variveis x e y
Uma pergunta importante: quo bem o modelo de regresso representa essa relao linear?
O coeficiente de determinao (R2) da regresso nos d uma medida do ajuste do modelo de regresso aos dados utilizados e ser definido daqui a pouco.
[email protected]@mbarros.com 68
Regresso Linear SimplesRegresso Linear Simples
O i-simo resduo a diferena entre o valor observado yi e o valor estimado pela equao de regresso, e representa o erro obtido ao estimarmos yi.
Ou seja:
O mtodo de mnimos quadrados encontra os coeficientes b0 e b1 que minimizam a soma dos quadrados desses resduos.
0 1 i i i i ie y y y b b x= =
-
[email protected]@mbarros.com 69
Regresso Linear SimplesRegresso Linear Simples
Agora suponha que queremos estimar um modelo constante, ou seja, yi = c + erro
Sem o conhecimento de nenhuma varivel explicativa, ou seja, sem o modelo de regresso, a nossa melhor estimativa seria o valor mdio das observaes de y,
Para a i-sima observao de y, yi, a diferena nos fornece uma medida do erro cometido ao estimarmos yi a partir de
y
yyi
y
[email protected]@mbarros.com 70
Regresso Linear SimplesRegresso Linear Simples
Definimos como soma total dos quadrados, SST (do ingls total sum ofsquares), a soma do quadrado dessas diferenas:
A soma dos quadrados devidos regresso, SSReg (do ingls sum ofsquares due to regression) dada por:
( )2iSST SYY y y= =
( )2Re iSS g y y=
[email protected]@mbarros.com 71
Regresso Linear SimplesRegresso Linear Simples
Ou seja, a SST (Soma dos Quadrados Total) a soma dos quadrado dos resduos quando o modelo estimado um modelo constante, isto , quando ignoramos a relao entre x e y.
Se a relao entre x e y for importante, o que se espera? Que a soma do quadrado dos resduos seja muito menor que SST.
[email protected]@mbarros.com 72
Regresso Linear SimplesRegresso Linear Simples
Agora suponha que definimos um modelo de regresso.
O poder de explicao da relao linear entre x e y a partir do modelo de regresso, para cada yi observado, em relao ao caso anterior (conhecimento apenas dos yi e utilizao de como estimativa) pode ser medido pela diferena entre os valores previstos pela regresso e .
y
y
-
[email protected]@mbarros.com 73
Regresso Linear SimplesRegresso Linear Simples
Pode-se provar que SSE, SSR e SST esto relacionados da seguinte forma:
ReSST SS g SSE= +O valor de SST O valor de SST o mesmo independente do grau de o mesmo independente do grau de ajuste do modelo de regresso, pois sajuste do modelo de regresso, pois s depende dos depende dos yyss observados e da sua mobservados e da sua mdia.dia.
Devemos esperar que, Devemos esperar que, quanto melhor o ajuste do quanto melhor o ajuste do modelo de regressomodelo de regresso aos dados utilizados, aos dados utilizados, menor a menor a razo SSE/SST razo SSE/SST e maior a razo e maior a razo SSRegSSReg/SST./SST.
[email protected]@mbarros.com 74
Regresso Linear SimplesRegresso Linear Simples
No limite, com um ajuste perfeito (a reta de regresso passa exatamente sobre todos os pontos da amostra), teremos SSE = 0 e SST = SSReg
O coeficiente de determinao (R2) uma medida da qualidade do ajuste de uma regresso, e definido como:
22
2
( )Re1( )
i
i
y ySST SSE SSE SS gRSST SST SST y y
= = = =
[email protected]@mbarros.com 75
Regresso Linear SimplesRegresso Linear Simples
Quanto mais prQuanto mais prximo de 1, melhor o ajuste do ximo de 1, melhor o ajuste do modelo de regresso aos dados da amostramodelo de regresso aos dados da amostra. .
O coeficiente de determinaO coeficiente de determinao tambo tambm estm estrelacionado ao coeficiente de correlarelacionado ao coeficiente de correlao entre o entre x e y: x e y:
Note que o RNote que o R22 estest definido entre 0 e 1, e definido entre 0 e 1, e quanto mais prquanto mais prximo de 1, melhor o ajuste da ximo de 1, melhor o ajuste da regresso.regresso.
( )( )( ) ( )
222 Re
xy
SXYSS gR rSST SXX SYY
= = =
[email protected]@mbarros.com 76
Teste de significncia dos Teste de significncia dos parmetros da regressoparmetros da regresso
No modelo de regresso linear simples, a relao de dependncia entre y e x expressa pelo parmetro 1 que, por sua vez, estimado a partir de b1.
E como em qualquer estimao, cometemos um erro ao utilizarmos b1 (o estimador) ao invs de 1 (o parmetro real, mas desconhecido).
-
[email protected]@mbarros.com 77
Teste de significncia dos Teste de significncia dos parmetros da regressoparmetros da regresso
Quando os erros so iid Normais, os estimadores dos parmetros e valores ajustados so Normais.
Isso acontece pois eles so apenas combinaes lineares dos yis (e portanto, combinaes lineares dos eis).
Assim, testes e intervalos de confiana podem ser construdos baseados na distribuio t de Student.
[email protected]@mbarros.com 78
Teste de significncia dos Teste de significncia dos parmetros da regressoparmetros da regresso
O teste de significncia de 1 feito a partir do intervalo de confiana de 1 para um nvel de confiana especificado
Se o intervalo de confiana de 1 contiver o valor 0, isso indica que, para o nvel de significncia escolhido, ns no podemosdescartar a hiptese de 1 (o parmetro desconhecido) ser igual a zero.
[email protected]@mbarros.com 79
Teste de significncia dos Teste de significncia dos parmetros da regressoparmetros da regresso
Do contrrio, se o intervalo de confianano incluir zero, podemos concluir que, para o nvel de significncia escolhido, 1 diferente de zero.
Note que testar a hiptese 1 = 0 equivalente a testar as seguintes hipteses:
H0: o modelo constante Yi = 0 + iH1: o modelo linear Yi = 0 + 1.xi + i
[email protected]@mbarros.com 80
Teste de significncia dos Teste de significncia dos parmetros da regressoparmetros da regresso
Teste da hiptese 1 = 0 (versus a alternativa 1 0
Esta estatstica tem distribuio t com n-2 graus de liberdade. O IC (1-)% para 1 dado por:
( )1
1 1 12
1 b
b b btdp b ss
SXX
= = =
1
21 bstb
O valor de t /2 baseado em uma distribuio t de Student com n 2 graus de liberdade
-
[email protected]@mbarros.com 81
Utilizando o ExcelUtilizando o Excel
O Excel possui uma ferramenta de anlise de regressoNo menu Ferramentas selecione Anlise de Dados
Caso esta opo no esteja disponvel, selecione Add-Ins (Suplementos) e marque a caixa Ferramentas de Anlise
Em Anlise de Dados, selecione RegressoFornea as informaes necessrias
Intervalo dos valores de xIntervalo dos valores de yNvel de significnciaIntervalo de sada (local na planilha onde o resultado ser colocado) [email protected]@mbarros.com 82
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
A planilha BigMac2003.xls contm preos em diversas cidades do mundo em 2003 coletados pelo banco suo UBS.As variveis da planilha so:
City nome da cidadeBigMac minutos de trabalho necessrios para comprar um Big MacBread - minutos de trabalho necessrios para comprar 1 kg de poRice - minutos de trabalho necessrios para comprar 1 kg de arrozFoodindex = ndice do preo da comida (Zurique = 100)Bus = custo em US$ de uma passagem de nibus num trecho de 10 km
[email protected]@mbarros.com 83
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
Apt = custo do aluguel de um apartamento de 3 cmodos em US$TeachGI = Renda Bruta de um professor primrio em milhares de US$TeachNI = Renda Lquida de um professor primrio em milhares de US$Taxrate = alquota de imposto paga por um professor primrioTeachhours = nmero de horas trabalhadas por semana para um professor primrio
claro que existem inmeras relaes importantes entre as diversas variveis nesta base de dados a idia geral ver como o custo de vida (e a renda) se comporta atravs das grandes cidades no mundo.
[email protected]@mbarros.com 84
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
Mas, vamos comear com algo simples.
de se esperar que o tempo de trabalho
necessrio para comprar dois tipos de
alimento seja positivamente
correlacionado.
Ento, que tal examinarmos o grfico de
Bread em BigMac?
-
[email protected]@mbarros.com 85
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
Minutos de Trabalho para Comprar 1 kg de Po versus Minutos de Trabalho para Comprar um BigMac
0
10
20
30
40
50
60
70
80
90
100
0 20 40 60 80 100 120 140 160 180 200
[email protected]@mbarros.com 86
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
Podemos produzir a equao de regresso sem nenhuma demora no prprio Excel, apenas clicando na opo Grfico > Adicionar Linha de Tendncia.
Existem vrios tipos de linha de tendncia, escolha a linear, e as opes de mostrar a equao e o R2 no grfico. O resultado est na prxima figura.
[email protected]@mbarros.com 87
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
Minutos de Trabalho para Comprar 1 kg de Po versus Minutos de Trabalho para Comprar um BigMac
y = 0.3086x + 13.075R2 = 0.2966
0
10
20
30
40
50
60
70
80
90
100
0 20 40 60 80 100 120 140 160 180 200
[email protected]@mbarros.com 88
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
O nosso modelo de regresso no foi lgrande coisa...O R2 foi apenas 29%, mas disso a gente j desconfiava pelo grfico, que no era muito linear.Mas, o output foi bastante limitado, apenas a equao da reta e o R2.Podemos ter uma anlise bem mais completa atravs da ferramenta de Anlise de dados do Excel. O resultado est a seguir.
-
[email protected]@mbarros.com 89
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
Como fazer?Ferramentas > Anlise de Dados > >RegressoA caixa de dilogo usada neste exemplo (para o Excel em ingls est no prximo slide)Note que:
Labels (Rtulos) indica que a primeira linha contm o nome da varivelOs resultados foram mandados para uma nova pasta (chamada regr_results neste caso)
[email protected]@mbarros.com 90
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
[email protected]@mbarros.com 91
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
SUMMARY OUTPUT (REGRESSO DE BREAD EM BIGMAC)
Regression StatisticsMultiple R 0.54458571
-
[email protected]@mbarros.com 93
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
InterpretaoStd. Error (erro padro)
Calcule s2 = SSE/(n-2) e tire a raizNeste caso, SSE = 15167.85, n = 69
Observations (igual a n)Tabela ANOVA
Contm as somas dos quadrados na coluna SSRegression = SSRegResidual = SSE = SYYTotal = SST
[email protected]@mbarros.com 94
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
Tabela ANOVAA coluna df contm os graus de liberdade associados a cada uma destas somas de quadradosA coluna MS (mean square) contm as somas de quadrados (SS) divididas pelos respectivos graus de liberdade (df)F = MS(Regression)/MS(Residual)F tem uma distribuio F com os graus de liberdade n1 no numerador e n2 no denominador. Neste caso, n1 = 1 e n2 = 67.
[email protected]@mbarros.com 95
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
Tabela ANOVAEm geral, no caso da regresso linear simples:
uma varivel F com distribuio F(1, n-2)graus de liberdade.Se a estatstica F grande, a regresso significante (ou seja, neste caso, 1 0). O teste F equivalente ao teste t.
Re /1 Re/( 2)
SS g MS gFSSE n MSE
= =
[email protected]@mbarros.com 96
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept 13.075 2.822 4.632 0.000 7.441 18.709BigMac 0.309 0.058 5.315 0.000 0.193 0.425
b0 e b1 dp(b0) e dp(b1)
b0 e b1 divididos pelos seus d.p.
Se o p-value pequeno (digamos, abaixo de 5%, os parmetros so significantes)
IC para b0 e b1 baseados na distribuio t
-
[email protected]@mbarros.com 97
Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples
O slide anterior nos diz que a reta ajustada :BREAD = 13.075 + 0.309*BIGMACVoc pode perceber que esta era a reta que aparecia no grfico da linha de tendncia.Tambm, podemos notar que:
O modelo no bom, mas os parmetros so significantes ou seja, o modelo linear certamente melhor que o modelo constante neste caso.
[email protected]@mbarros.com 98
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
A planilha stat_case2.xls contm as vendas de carros, TV a cores e videocassetes no mercado brasileiro entre Janeiro de 1995 e Dezembro de 1997. Calcule a matriz de correlao entre as variveis.Faa o grfico de vendas de carros versus vendas de TV.
[email protected]@mbarros.com 99
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Faa o grfico de vendas de TV versus vendas de videocassetes.Faa o grfico de vendas de carros versus vendas de videocassetes.Ajuste um modelo de regresso linear simples onde y = vendas de TV e x = vendas de videocassetes.
[email protected]@mbarros.com 100
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Matriz de correlao
O coeficiente de correlao de uma varivel com ela mesma sempre 1. Por que? Dica: qual a definio do coeficiente de correlao?Note tambm a alta correlao entre vendas de TV e Video.
carros TV Videocarros 1TV 0.6524 1Video 0.6850 0.9495 1
-
[email protected]@mbarros.com 101
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Grfico carros X TVVendas de Carros (eixo Y) versus Venda de TVs (eixo X)
60,000
80,000
100,000
120,000
140,000
160,000
180,000
300,000 400,000 500,000 600,000 700,000 800,000 900,000
[email protected]@mbarros.com 102
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Grfico TV X VideoVendas de TVs (eixo Y) versus Vendas de V ideocassetes (eixo X)
300 ,000
400 ,000
500 ,000
600 ,000
700 ,000
800 ,000
900 ,000
70 ,000 12 0 ,000 170 ,00 0 220 ,000 270 ,000 320 ,000
[email protected]@mbarros.com 103
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Grfico Carros X VideoVendas de C arros (eixo Y) versus Vendas de Videocassetes (eixo X)
60 ,000
80 ,000
100 ,000
120 ,000
140 ,000
160 ,000
180 ,000
70 ,000 120 ,000 170 ,000 220 ,000 270 ,000 320 ,000
[email protected]@mbarros.com 104
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Regresso Linear de TV em Video
Note que agora o ajuste da regresso TIMO, como j esperado, pois o grfico entre as duas variveis mostrava uma relao altamente linear.
Estatsticas da RegressoMultiple R 0.9495
-
[email protected]@mbarros.com 105
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Regresso Linear de TV em VideoDicas:
Quando os coeficientes b0 e b1 so significantes? Em geral, se suas estatsticas t forem maiores que 2, em mdulo, podemos afirmar que os coeficientes so diferentes de zero. Tambm podemos olhar para os intervalos de confiana para b0 e b1 se estes intervalos NO INCLUEM ZERO podemos dizer que os coeficientes so significantes, e exatamente este o caso que acabamos de mostrar na pgina anterior!
Na prxima pgina est o grfico dos valores reais e ajustados (previstos) pela reta de regresso.
[email protected]@mbarros.com 106
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Valores Reais e Previstos pela Regresso
Relao entre Vendas de Tv e Video e Reta de Regresso Ajustada
200,000
300,000
400,000
500,000
600,000
700,000
800,000
900,000
70,000 120,000 170,000 220,000 270,000 320,000
Video
TV
TV TV prevista pela regresso
[email protected]@mbarros.com 107
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Dlar e ndice BovespaO prximo grfico exibe a relao entre a cotao diria do dlar PTAX e o IBOVESPA no perodo entre 10/12/2002 e 12/06/2003.
Ajuste um modelo de regresso linear simples para o IBOVESPA usando a PTAX como varivel explicativa.
[email protected]@mbarros.com 108
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Ibovespa (Bolsa de So Paulo) versus Dlar PTAX
9,500
10,000
10,500
11,000
11,500
12,000
12,500
13,000
13,500
14,000
14,500
2.70 2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90
-
[email protected]@mbarros.com 109
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Valores Reais e PrevistosIBOVESPA e Taxa de Cmbio - Valores Observados e Ajustados pela Regresso
9,500
10,000
10,500
11,000
11,500
12,000
12,500
13,000
13,500
14,000
14,500
2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90
Taxa de Cmbio (PTAX - Venda)
Ib
oves
pa (B
olsa
de
So
Paul
o)
Ibovespa (Bolsa de So Paulo) Ibovespa Previsto
[email protected]@mbarros.com 110
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
ResduosResduos da Regresso
-1000
-800
-600
-400
-200
0
200
400
600
800
1000
2.70 2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90
Taxa de Cmbio (PTAX - Venda)
Res
idua
ls
[email protected]@mbarros.com 111
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Exemplo de Output do Excel
Multiple R 0.946R Square 0.895Adjusted R Square 0.895Standard Error 361.437Observations 124
Regression Statistics
df SS MS F Significance FRegression 1 136,397,746 136,397,746 1044.1 1.1981E-61Residual 122 15,937,651 130,636 Total 123 152,335,397
ANOVA
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept 24,366.28 393.58 61.91 5.1E-94 23587 25145Taxa de Cmbio (PTAX - Venda) (3,830.74) 118.55 -32.31 1.2E-61 -4065 -3596
[email protected]@mbarros.com 112
Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear
Ibovespa versus Dlar PTAX
y = -3830.7x + 24366R2 = 0.8954
9,000
9,500
10,000
10,500
11,000
11,500
12,000
12,500
13,000
13,500
14,000
14,500
2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90
-
[email protected]@mbarros.com 113
Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa
A planilha EE_anual.xls contm alguns dados sobre consumo anual residencial de energia eltrica no Brasil, PIB real e populao (real e economicamente ativa).
O objetivo aqui que voc explore estes dados e encontre modelos de regresso simples e (depois) mltipla que possam servir para fornecer razoveis explicaes para o crescimento do consumo de EE residencial.
Alguns grficos obtidos da planilha esto a seguir, e podem servir como dicas.
[email protected]@mbarros.com 114
Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa
Energia eltrica - consumo residencial GWh
-
10,000
20,000
30,000
40,000
50,000
60,000
70,000
80,000
90,000
1963
1965
1967
1969
1971
1973
1975
1977
1979
1981
1983
1985
1987
1989
1991
1993
1995
1997
1999
2001
[email protected]@mbarros.com 115
Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa
Energia eltrica - log (consumo residencial GWh)
8.2
8.7
9.2
9.7
10.2
10.7
11.2
11.7
1963
1965
1967
1969
1971
1973
1975
1977
1979
1981
1983
1985
1987
1989
1991
1993
1995
1997
1999
2001
[email protected]@mbarros.com 116
Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa
log(Consumo EE Residencial) e log (PIB preos 1980)
8.000
8.500
9.000
9.500
10.000
10.500
11.000
11.500
12.000
1963 1965 1967 1969 1971 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001
log(
Con
sum
o EE
Res
iden
cial
)
0.000
0.500
1.000
1.500
2.000
2.500
log(
PIB
pre
os
1980
)
log(consumo EE residencial) log (PIB (preos 1980) encadeado - Anual - R$ valor real)
-
[email protected]@mbarros.com 117
Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa
Log(Consumo Residencial EE) versus Log (PIB 1980)
y = 1.6551x + 7.88R2 = 0.949
8.200
8.600
9.000
9.400
9.800
10.200
10.600
11.000
11.400
0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000 1.100 1.200 1.300 1.400 1.500 1.600 1.700 1.800 1.900 2.000
log PIB
Log
Con
sum
o EE
[email protected]@mbarros.com 118
Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa
A planilha fuel2001.xls contm dados de consumo de combustvel para 50 estados americanos em 2001.A descrio das variveis est na planilha.Construa a varivel FUELPC, o consumo de combustvel per capital em cada estado, atravs da expresso:
POPFUELFUELPC *1000=
[email protected]@mbarros.com 119
Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa
Construa a varivel DLIC, a proporo de pessoas acima de 16 anos no Estado que possuem carteira de mororista.
Faa o grfico de FUELPC versus TAX.Faa o grfico de FUELPC versus DLIC.Ajuste no Excel a regresso de FUELPC em TAX. Comente os resultados.Ajuste no Excel a regresso de FUELPC em DLIC. Comente os resultados.
POPNLICDLIC =
[email protected]@mbarros.com 120
Regresso Linear Mltipla
-
[email protected]@mbarros.com 121
Regresso Linear MRegresso Linear Mltiplaltipla
Na regresso linear mltipla, diversas variveis independentes so usadas para modelar uma nica varivel resposta.
So observados n casos, e em cada um deles, o valor da varivel resposta (Y) e de cada varivel independente X1, X2, ..., Xp estdisponvel.
[email protected]@mbarros.com 122
Regresso Linear MRegresso Linear Mltiplaltipla
Ento os dados disponveis formam a matriz:
No modelo de regresso linear SIMPLES, p =1.Nesta representao, xij refere-se ao i-simocaso e j-sima varivel.
caso Y X1 X2 X3 . Xp 1 y1 x11 x12 x13 x1p 2 y2 x21 x22 x23 x2p n yn xn1 xn2 xn3 xnp
[email protected]@mbarros.com 123
Regresso Linear MRegresso Linear Mltiplaltipla
Modelo
Onde:s so parmetros desconhecidos (a serem estimados)es so erros, variveis aleatrias independentes, com mdia zero e varincia constanteX1, X2, ..., Xp so as variveis explicativas, preditores ou covariveisY a varivel dependente, ou varivel resposta
eXXXY pp +++++= ...22110
[email protected]@mbarros.com 124
Regresso Linear MRegresso Linear Mltiplaltipla
O modelo de regresso linear mltipla completamente especificado a partir das seguintes hipteses:
1) LINEARIDADEA relao entre a varivel resposta e as variveis explicativas linear, como mostra a equao do slide anterior.
-
[email protected]@mbarros.com 125
Regresso Linear MRegresso Linear Mltiplaltipla
2) NO OCORRNCIA DE MULTI-COLINEARIDADE PERFEITA
Em outras palavras, nenhuma varivel explicativa uma combinao linear das outras.Pode-se reescrever esta condio em termos da seguinte matriz, conhecida como matriz de design:
[email protected]@mbarros.com 126
Regresso Linear MRegresso Linear Mltiplaltipla
=
npnn
p
p
xxx
xxxxxx
X
...1...
...1
...1
21
22221
11211 X a matriz de design. Note que a coluna de unscorresponde ao termo constante da regresso
A condio 2 pode ser reescrita como:Posto(X) = p + 1 = min(n,p+1)
Nota: o posto de uma matriz o nmero de linhas (colunas) linearmente independentes.
[email protected]@mbarros.com 127
Regresso Linear MRegresso Linear Mltiplaltipla
3) VARIVEIS EXPLICATIVAS NO SO ESTOCSTICAS
4) DISTRIBUIO DOS ERROS
Algumas conseqncias desta hiptese so:
Todos os erros tm a mesma varincia (homocedasticidade)Todos os erros so descorrelatados (o que uma conseqncia da independncia).
n 1,2,..., i para )N(0, iid so 2 =ie
[email protected]@mbarros.com 128
Regresso Linear MRegresso Linear Mltiplaltipla
Modelo em Forma Matricial conveniente escrever o modelo em representao matricial como a seguir:
=
=
=
=
npnn
p
p
pnn xxx
xxxxxx
X
e
ee
e
y
yy
Y
...1................................
...1
...1
,...
,...
,...
21
22221
11211
1
0
2
1
2
1
Dimenses: Y n x 1, e n x 1, (p+1) x 1e X n x (p+1)
-
[email protected]@mbarros.com 129
Regresso Linear MRegresso Linear Mltiplaltipla
A equao de regresso mltipla pode ser escrita em forma matricial como:
Pode-se escrever as hipteses sobre a distribuio dos erros em termos de uma distribuio Normal multivariada:
eXY +=
( )1n x dimenso de zeros de vetor um 0 e
n n x identidade matriz a I onde ,0 2INe n
[email protected]@mbarros.com 130
Regresso Linear MRegresso Linear Mltiplaltipla
Soma do quadrado dos ResduosA soma do quadrado dos resduos (SSE) pode ser escrita em termos matriciais como:
Onde b o vetor (p+1) x 1 de coeficientes estimados, ou seja, o vetor de estimadores dos s.O vetor o vetor nx1 de valores ajustados da regresso.
( ) ( ) ( ) ( )XbYXbYYYYYeeSSE ttt ===
Y
[email protected]@mbarros.com 131
Regresso Linear MRegresso Linear Mltiplaltipla
Estimadores de Mnimos QuadradosComo na regresso simples, o objetivo encontrar os bis (aqui: b0, b1, ..., bp) que minimizem a soma do quadrado dos resduos. Ou seja, temos que resolver a equao: ( ) ( ){ }
{ }
YXXbXXbXYX
bXbXbYXbYYb
XbYXbYb
SSE
tt
tt
ttttt
t
=
=+
=
+
=
=
022
02
00
Equaes Normais [email protected]@mbarros.com 132
Regresso Linear MRegresso Linear Mltiplaltipla
Estimadores de Mnimos QuadradosO sistema anterior (as equaes normais) pode ser resolvido pr-multiplicando pela inversa de XtX, e resulta em:
Uma vez encontrados o vetor de estimadores b, pode-se obter o vetor de valores ajustados = Xb e o vetor de resduos:
( ) YXXXb tt 1=
XbYYYe == Y
-
[email protected]@mbarros.com 133
Regresso Linear MRegresso Linear Mltiplaltipla
Estimadores de Mnimos QuadradosOs resduos e a matriz de design so descorrelatados, isto :
A soma dos resduos para todas as observaes nula. Isso pode ser provado da equao anterior fazendo-se o produto da 1a. coluna de X (que s contm 1s) com os resduos.
0. =eX t
( ) 011
==
==n
iii
n
ii yye
[email protected]@mbarros.com 134
Regresso Linear MRegresso Linear Mltiplaltipla
Propriedades dos EstimadoresSuponha que E(e) = 0, um vetor coluna de zeros de dimenso n, e Var(e) = 2I, onde I a matriz identidade de dimenso n. Ento:b no tendencioso para , isto : E(bi) = i para i = 0,1,2,..p
A matriz de varincia-covarincia dos estimadores :
( ) ( ) 12 = XXbVAR t
[email protected]@mbarros.com 135
Regresso Linear MRegresso Linear Mltiplaltipla
Estimador da varincia dos erros
( ) ( ) ( )
1
111
2
=
=
=
=
=
pnYXbYY
pnbXXbYY
pnXbYXbY
pnSSEs
ttt
tttt
[email protected]@mbarros.com 136
Regresso Linear MRegresso Linear Mltiplaltipla
Anlise de varinciaNa anlise de varincia, o modelo completo (incluindo todas as variveis explicativas X1, X2, ..., Xp) comparado com o modelo constante, em que no esto presentes quaisquer variveis explicativas, apenas a constante 0 existe no modelo.
J vimos que no modelo constante, o estimador de mnimos quadrados de 0 a mdia dos Yse portanto a soma do quadrado dos resduos neste modelo SYY = SST.
-
[email protected]@mbarros.com 137
Regresso Linear MRegresso Linear Mltiplaltipla
Tabela ANOVA
claro que SSE < SYY, e novamente (como na regresso simples) a diferena entre ambos Ssreg, a soma de quadrados em Y explicada pelo modelo maior que NO explicada pelo modelo menor.
Fontegraus de liberdade SS MS
Regresso nos Xis p SSReg SSReg/pResduo n-p-1 SSE SSE/(n-p-1) = s^2TOTAL n-1 SST = SYY
Tabela ANOVA
[email protected]@mbarros.com 138
Regresso Linear MRegresso Linear Mltiplaltipla
Tabela ANOVAA importncia da regresso nos Xs determinada pelo tamanho relativo de SSRegem relao a SSE.A estatstica F a ser usada :
Se a estatstica F grande ento o modelo incluindo os Xs significantemente melhor que o modelo constante. A distribuio desta estatstica EXATAMENTE F se os erros so iidNormais.
( ) ( )1,~/Re
1//Re
ReRe
2 === pnpF
spgSS
pnSSEpgSS
sidualMSgMSF
[email protected]@mbarros.com 139
Regresso Linear MRegresso Linear Mltiplaltipla
O coeficiente de determinao (R2)Como na regresso simples:
Fornece a proporo da variabilidade dos Ys explicada pela regresso nos Xs. Pode-se mostrar que o R2 o quadrado do coeficiente de correlao mltipla entre Y e os Xs, ou seja, o quadrado da MXIMA correlao entre Y e uma funo linear dos Xs.
2 Re1t tSST SSE SSE SS g b X YR
SST SST SST SST
= = = =
[email protected]@mbarros.com 140
Regresso Linear MRegresso Linear Mltiplaltipla
R2 ajustadoProposto por Theil para comparar modelos com nmero diferente de variveis:
Exemplo numricoR2 = 0.90, p = 3, n = 20 obs, o R2 ajustado ser: 0.8813. Se o modelo passa agora a ter p = 5 variveis, o R2 ajustado cai para 0.8643.
( )2 2/( ) 11 1 1/( 1) 1adjSSE n p nR R
SST n p n p
= =
-
[email protected]@mbarros.com 141
Regresso Linear MRegresso Linear Mltiplaltipla
O clculo da estatstica F geral da regresso no costuma ser muito interessante.O fato que normalmente se sabe
a priori que as variveis so relacionadas e ento j se espera que o valor da estatstica F seja grande.Mais interessante olhar para o teste de hipteses referentes a variveis individuais.
[email protected]@mbarros.com 142
Regresso Linear MRegresso Linear Mltiplaltipla
Teste t para cada parmetro na regresso
Sabe-se que:
Isso nos permite formar estatsticas t:
( ) ( )( )
i
ii
b de teindependen
de principal diagonal da elemento simo-i o a onde
212
2
12
~1
,~
pn
tiiii
spnXXaNb
p...., 2, 1, 0, i para == 1~ pnii
ii tas
bt
[email protected]@mbarros.com 143
Regresso Linear MRegresso Linear Mltiplaltipla
O teste de hiptese compara o valor observado na amostra com percentisde interesse da distribuio t.
Importante o caso da significncia de uma determinada varivel, por exemplo, Xk. Esta varivel sersignificante no modelo se a estatstica t associada ao seu coeficiente for diferente de zero.
[email protected]@mbarros.com 144
Regresso Linear MRegresso Linear Mltiplaltipla
Teorema de Gauss-MarkovOs estimadores de mnimos quadrados ordinrios so BLUE (best linear unbiased estimators), ou seja, so os MELHORES estimadores LINEARES NO TENDENCIOSOS.Melhores em que sentido?No sentido de apresentarem a MENOR VARINCIA.Na classe dos estimadores lineares e no tendenciosos, os estimadores por mnimos quadrados so os que apresentam varincia mnima.
-
[email protected]@mbarros.com 145
Regresso Linear MRegresso Linear Mltiplaltipla
PrevisoOs resultados da estimao das equaes de regresso podem ser usados para prever a varivel dependente em valores das variveis explicativas diferentes daqueles que constavam da amostra original.
Seja u um vetor (p+1) x 1 de valores observados novos das variveis explicativas X1, X2, ..., Xp, tal que o 1. elemento de u 1 (para levar em conta o termo constante da regresso).
[email protected]@mbarros.com 146
Regresso Linear MRegresso Linear Mltiplaltipla
PrevisoEnto o valor ajustado no ponto u :
E o erro padro do valor ajustado :
Mas, no podemos esquecer que, a qualquer previso est associado um erro aleatrio, isto , a equao de previso :
E portanto o erro padro da previso torna-se:
.tY u b=
( ) 1. t terropadrao s u X X u=
. tprevistoY u b e= +
( ) 1. . . 1 t tprevisaoe p s u X X u
= +
[email protected]@mbarros.com 147
Regresso Linear MRegresso Linear Mltiplaltipla
Estimao por Mxima VerossimilhanaSuponha que os erros do modelo so independentes, Normalmente distribudos e com varincia constante.Ento os Yi so independentes Normais com mdia:
E varincia 2.
0 1 1 2 2( ) ...i i i p ipE Y X X X = + + + +
[email protected]@mbarros.com 148
Regresso Linear MRegresso Linear Mltiplaltipla
Estimao por Mxima VerossimilhanaEm termos vetoriais, podemos escrever que o vetor Y tem distribuio Normal multivariada de dimenso n com vetor de mdias X. e matriz de varincia-covarincia 2.I.Isso nos permite escrever (facilmente?) a verossimilhana:
( )( )
( ) ( )
( ) ( )
20 1 / 2 22
2/ 22
0 1 121
1 1, ,..., , exp22
12 exp ...2
tp n
nn
i i p ipi
L Y X Y X
Y X X
=
=
=
-
[email protected]@mbarros.com 149
Regresso Linear MRegresso Linear Mltiplaltipla
Estimao por Mxima VerossimilhanaA log-verossimilhana :
Da ltima expresso do lado direito vemos que maximizar a log-verossimilhana para os is equivalente a minimizar a soma de quadrado dos resduos e portanto o mtodo de mxima verossimilhana fornece os MESMOS estimadores dos isque o mtodo de mnimos quadrados.
( )
( ) ( )
20 1
2/ 22
0 1 121
, , ..., ,
1ln 2 ...2 2
p
nn
i i p ipi
l
n Y X X
=
=
= +
[email protected]@mbarros.com 150
Regresso Linear MRegresso Linear Mltiplaltipla
Estimao por Mxima VerossimilhanaE o estimador da varincia? um estimador tendencioso, dado por:
J vimos que s2 um estimador no tendencioso de 2, portanto:
( ) ( ) ( )2
2 11 t n p sSSEY Xb Y Xbn n n
= = =)
( ) ( )2 22 1 1( ) n p s n pSSEE E En n n
= = =
)
[email protected]@mbarros.com 151
Regresso Linear MRegresso Linear Mltiplaltipla
Variveis DummyAt agora, todas as variveis nos nossos modelos eram quantitativas. Neste caso, a magnitude da varivel de interesse. Na prtica, precisamos tambm incorporar o efeito de variveis qualitativas nos nossos modelos de regresso. Por exemplo, raa, sexo, regio do pas, estao do ano so todas variveis qualitativas.Aqui iremos considerar apenas variveis EXPLICATIVAS qualitativas a varivel dependente ser sempre quantitativa.
[email protected]@mbarros.com 152
Regresso Linear MRegresso Linear Mltiplaltipla
Variveis DummyFatores qualitativas muitas vezes aparecem na forma de variveis binrias, por exemplo: uma pessoa homem ou mulher, uma famlia tem renda acima de 20 S.M. ou no. Nestes exemplos, a informao relevante pode ser capturada definindo-se uma varivel binria. Em estatstica, variveis binrias so geralmente chamadas de dummies. Ao definir uma dummy precisamos decidir quem ser o valor 0 e quem ser o 1 e esta escolha , at certo ponto, arbitrria.
-
[email protected]@mbarros.com 153
Regresso Linear MRegresso Linear Mltiplaltipla
Variveis DummyPor que usar os valores 0 e 1 para representar uma varivel qualitativa? Porque simplifica a interpretao dos resultados, mas a princpio voc poderia usar quaisquer valores.
Considere o seguinte modelo:
( ) ( ) eeducacaomulhersalario +++= 210
[email protected]@mbarros.com 154
Regresso Linear MRegresso Linear Mltiplaltipla
Variveis DummyOnde salario e educacao representam o salrio por hora trabalhada e o nmero de anos de educao formal, e mulher uma dummycom valor 1 se a pessoa mulher e 0 se homem.
A interpretao do coeficiente 1 a diferena nos salrios devida ao sexo da pessoa, dado o mesmo nvel educacional. Ou seja, 1 nos diz se h discriminao contra as mulheres se 1 < 0 ento para o mesmo nvel de educao, os salrios das mulheres so menores que os dos homens.
[email protected]@mbarros.com 155
Regresso Linear MRegresso Linear Mltiplaltipla
Variveis DummySe 1 < 0, os homens ganham uma quantidade fixa a mais por hora. A reta correspondente aos homens paralela das mulheres, mas estACIMA desta ltima para todos os nveis de educao os homens ganham mais, a diferena -1.
Ou seja, as duas retas tm interceptos diferentes e o mesmo coeficiente angular. Na reta das mulheres, o intercepto 0 + 1 , que menor que o intercepto da reta dos homens (0).
[email protected]@mbarros.com 156
Regresso Linear MRegresso Linear Mltiplaltipla
Variveis DummyImagine que voc quisesse incluir duas dummies, uma para homens e outra para mulheres. O que fazer? Retirar a constante, seno voc ter colinearidade perfeita.
Mas, em termos de interpretao do modelo, no mais fcil interpretar os resultados deste ltimo do que o modelo original que propusemos.
-
[email protected]@mbarros.com 157
Regresso Linear MRegresso Linear Mltiplaltipla
Variveis DummyEm geral, se desejamos modelar g categorias, devemos criar g-1 variveis dummy num modelo que inclui uma constante. O grupo base o que est sendo omitido da especificao, e o intercepto da regresso representa o intercepto deste grupo. Os coeficientes das dummies so as diferenas entre o intercepto daquele grupo e do grupo base. Uma especificao alternativa incluir dummiespara todos os grupos e retirar a constante do modelo, mas isso torna a interpretao das diferenas entre grupos mais complicada.
[email protected]@mbarros.com 158
Regresso Linear MRegresso Linear Mltiplaltipla
Variveis DummyExemplo (adaptado de Wooldridge)
Os dados a seguir se referem a uma amostra de americanos em 1976. Alm das variveis salario, educ, mulher, adicionamos ao modelo a varivel tenure, que representa o nmero de anos no emprego atual.O modelo de regresso a seguir foi ajustado no software estatstico Minitab.
[email protected]@mbarros.com 159
Regresso Linear MRegresso Linear Mltiplaltipla
Variveis DummyThe regression equation issalario = - 1.57 + 0.572 educ + 0.0254 exper + 0.141
tenure - 1.81 mulher
Predictor Coef SE Coef T PConstant -1.5679 0.7246 -2.16 0.031educ 0.57150 0.04934 11.58 0.000exper 0.02540 0.01157 2.20 0.029tenure 0.14101 0.02116 6.66 0.000mulher -1.8109 0.2648 -6.84 0.000
S = 2.958 R-Sq = 36.4% R-Sq(adj) = 35.9%
[email protected]@mbarros.com 160
Regresso Linear MRegresso Linear Mltiplaltipla
Variveis DummyAnalysis of Variance
Source DF SS MS F PRegression 4 2603.11 650.78 74.40 0.000Residual Error 521 4557.31 8.75Total 525 7160.41
Source DF Seq SSeduc 1 1179.73exper 1 432.52tenure 1 581.86mulher 1 408.99
-
[email protected]@mbarros.com 161
Regresso Linear MRegresso Linear Mltiplaltipla
Variveis DummyInterpretao dos resultados
Todas as variveis significantes ao nvel 5%.Coeficiente de mulher = -1.81, indicando que o salrio mdio por hora de uma mulher, mantidos todos os outros fatores constantes, inferior ao de um homem em US$ 1.81.
[email protected]@mbarros.com 162
Regresso Linear MRegresso Linear Mltiplaltipla
Variveis DummyComo j controlamos o efeito das outras variveis (educao, experincia e tenure), a varivel dummy captura o efeito no salrio que no pode ser explicado por estes fatores e que pode ser atribudo ao sexo da pessoa.
Interpretao do coeficiente modelo na escala dos logs
Se a varivel dependente est expressa como log, o coeficiente da dummy deve ser interpretado como um percentual. Em geral, se o coeficiente de uma varivel dummy x1, a diferena percentual exata em y quando x1 = 1 versus quando x1 = 0 : 100(exp() 1)
[email protected]@mbarros.com 163
Regresso Linear MRegresso Linear Mltiplaltipla
Estudo de CasoConsidere a planilha ceosal1.xlsO objetivo prever o salrio do CEO (principal executivo) de uma empresa com base na performance recente da mesma e no setor em que ela atua.A planilha contm as seguintes variveis:salario = salrio do CEO em milhares de dlares de 1990var%_salario = variao percentual do salrio em 1989/1990vendas = vendas da empresa em 1990ROE = retorno da empresa 1989/1990var%ROE = variao % do ROE 1989/1990
[email protected]@mbarros.com 164
Regresso Linear MRegresso Linear Mltiplaltipla
Estudo de Caso (continuao)retorno_ao = retorno da ao 1988 a 1990set_indus = dummy indicadora do setor indstriaset_finan = dummy indicadora do setor financeiro
set_consumo = dummy indicadora do setor de bens de consumoset_transp = dummy indicadora do setor de transportes e concessionrias de servios pblicoslog_salario = logaritmo do salriolog_venda = logaritmo das vendas
-
[email protected]@mbarros.com 165
Regresso Linear MRegresso Linear Mltiplaltipla
Estudo de Caso (continuao)Ajuste um modelo para log(salario) em log(vendas), roe e nas variveis dummy. Use como grupo base(varivel dummy omitida) o setor de indstrias.O que voc conclui?Qual a diferena percentual em salrio, mantidas todas as outras variveis constantes, entre um CEO no setor transporte e concessionrias e outro no grupo base?
[email protected]@mbarros.com 166
Regresso Linear MRegresso Linear Mltiplaltipla
Estudo de Caso (continuao)Qual a diferena percentual em salrio (mantidas todas as outras variveis constantes) entre um CEO no setor financeiro e outro no grupo base?E entre um no setor financeiro e um no setor de bens de consumo?
[email protected]@mbarros.com 167
Regresso Linear MRegresso Linear Mltiplaltipla
Anlise dos ResduosLembre-se das hipteses bsicas sobre os erros:
IndependnciaNormalidadeVarincia constante
A anlise dos resduos deve se preocupar em verificar at que ponto estas hipteses esto sendo violadas e, se possvel, corrigir os problemas.
[email protected]@mbarros.com 168
Regresso Linear MRegresso Linear Mltiplaltipla
Anlise dos ResduosLembre-se que os erros do modelo no so observveis e portanto as hipteses feitas no podem ser diretamente testadas NELES.O que fazer? Olhamos para os resduos, que so os estimadores dos erros do modelo e verificamos se os resduos so iid Normais com varincia constante.
-
[email protected]@mbarros.com 169
Regresso Linear MRegresso Linear Mltiplaltipla
Anlise dos ResduosQue tipo de comportamento voc quer identificar?
Se os resduos so muito diferentes de uma Normal (atravs de um grfico de probabilidade Normal)Se existem padres bvios nos resduos (por exemplo, se y cresce, o resduo cresce)Se existe autocorrelao nos resduos.Na prtica alguns destes grficos, como a autocorrelao, no est disponveis no Excel, apenas softwares estatsticos permitem que voc faa uma anlise mais sofisticada.
[email protected]@mbarros.com 170
Regresso Linear MRegresso Linear MltiplaltiplaAnlise dos Resduos
A seguir apresentamos os resultados e alguns grficos de resduos do modelo ajustado para o salrio dos CEOs.O modelo foi ajustado no Minitab.
The regression equation islsalary = 4.59 + 0.257 lsales + 0.0112 roe + 0.158 finance + 0.181 consprod
- 0.283 utilityPredictor Coef SE Coef T PConstant 4.5881 0.2950 15.55 0.000lsales 0.25719 0.03203 8.03 0.000roe 0.011152 0.004300 2.59 0.010finance 0.15796 0.08900 1.77 0.077consprod 0.18089 0.08477 2.13 0.034utility -0.28300 0.09923 -2.85 0.005S = 0.4598 R-Sq = 35.7% R-Sq(adj) = 34.1%Analysis of VarianceSource DF SS MS F PRegression 5 23.8110 4.7622 22.53 0.000Residual Error 203 42.9112 0.2114Total 208 66.7222
[email protected]@mbarros.com 171
Regresso Linear MRegresso Linear Mltiplaltipla
Anlise dos ResduosUnusual Observations
Obs lsales lsalary Fit SE Fit Residual St Resid15 7.4 7.6064 7.1103 0.1748 0.4961 1.17 X28 9.9 8.2543 7.2778 0.0761 0.9765 2.15R 62 6.3 5.5452 6.4528 0.0883 -0.9076 -2.01R 82 8.1 6.0890 7.0154 0.0684 -0.9263 -2.04R 87 7.9 8.3292 6.9367 0.0695 1.3925 3.06R
108 9.1 8.8009 7.2000 0.0730 1.6009 3.53R 127 8.7 6.0568 7.1514 0.0741 -1.0946 -2.41R 129 5.7 5.8861 6.2583 0.1426 -0.3722 -0.85 X133 5.2 5.4072 6.3599 0.1146 -0.9527 -2.14R 164 8.7 9.3266 7.2639 0.0611 2.0628 4.53R 166 8.3 8.2014 6.9840 0.0871 1.2173 2.70R 174 7.7 9.6039 6.9599 0.0644 2.6439 5.81R R denotes an observation with a large standardized residualX denotes an observation whose X value gives it large influence.
O MINITAB fornece uma lista de observaes com resduo padronizado grande ou que tm grande influncia na regresso.
Valor ajustado
Resduo Resduo padronizado
[email protected]@mbarros.com 172
Regresso Linear MRegresso Linear Mltiplaltipla
Anlise dos Resduos Resduos x Distribuio Normal
3210-1
3
2
1
0
-1
-2
-3
Nor
mal
Sco
re
Residual
Normal Probability Plot of the Residuals(response is lsalary)
Uma reta indica que os resduos so Normais quanto mais curvo este grfico, menos Normais os resduos
-
[email protected]@mbarros.com 173
Regresso Linear MRegresso Linear Mltiplaltipla
Anlise dos ResduosResduos x Valores Ajustados
8.07.57.06.5
3
2
1
0
-1
Fitted Value
Resi
dual
Residuals Versus the Fitted Values(response is lsalary)
[email protected]@mbarros.com 174
Regresso Linear MRegresso Linear Mltiplaltipla
Anlise dos Resduos Histograma dos Resduos
3210-1
60
50
40
30
20
10
0
Residual
Freq
uenc
y
Histogram of the Residuals(response is lsalary)
[email protected]@mbarros.com 175
Regresso Linear MRegresso Linear Mltiplaltipla
Inadequao das Hipteses do Modelo: multicolinearidade
Uma das hipteses do modelo de regresso mltipla que no ocorre multicolinearidade perfeita, ou seja, o posto da matriz X (p+1), igual ao nmero de s a serem estimados.
O que acontece se esta hiptese for violada? A matriz (XtX) no poder ser invertida e portanto os estimadores de mnimos quadrados no podero ser calculados.
[email protected]@mbarros.com 176
Regresso Linear MRegresso Linear Mltiplaltipla
MulticolinearidadeMas, este um caso extremo. Os problemas em que a inverso matemtica desta matriz impossvel so chamados de mal condicionados.
Na prtica, o que se v alta correlao entre uma ou mais variveis. Qual o efeito disso?
-
[email protected]@mbarros.com 177
Regresso Linear MRegresso Linear Mltiplaltipla
MulticolinearidadeExemplo 1 multicolinearidade perfeita
XtX no pode ser invertida (seu determinante zero)
=
=
40202010
6321
XXX t
[email protected]@mbarros.com 178
Regresso Linear MRegresso Linear Mltiplaltipla
MulticolinearidadeExemplo 2 multicolinearidade quaseperfeita
XtX pode ser invertida (seu determinante pequeno mas diferente de zero). Note como os elementos da inversa de XtX so grandes!
( )
=
=
=
1000197019703881
81.387.197.1910
9.5321
1XX
XXX
t
t
[email protected]@mbarros.com 179
Regresso Linear MRegresso Linear Mltiplaltipla
MulticolinearidadeExemplo 3 NO EXISTE multicolinearidade
XtX pode ser invertida SEM PROBLEMAS. Note como os elementos da inversa de XtX so muito diferentes do exemplo anterior.
( )
=
=
=
10171729
29171710
5321
1XX
XXX
t
t
[email protected]@mbarros.com 180
Regresso Linear MRegresso Linear Mltiplaltipla
MulticolinearidadeLembre-se que o estimador de mnimos quadrados :
Dos exemplos anteriores, o efeito da multicolinearidade sobre este estimador deve ter ficado claro. Se as colunas de X forem muito dependentes (exemplo 2), XtX pode ser invertida mas seu determinante quase zero, e a inversa tem valores muito grandes.
( ) YXXXb tt 1=
-
[email protected]@mbarros.com 181
Regresso Linear MRegresso Linear Mltiplaltipla
MulticolinearidadeO impacto sobre os estimadores tambm grande. Qualquer pequena mudana numa das variveis pode mudar completamente o valor estimado do parmetro.Alm disso...
Se h multicolinearidade, a varincia dos estimadores ser grande (enorme?).
( ) ( ) 12 = XXbVAR t
[email protected]@mbarros.com 182
Regresso Linear MRegresso Linear Mltiplaltipla
MulticolinearidadeQual o impacto deste ltimo problema?Lembre-se que o desvio padro dos estimadores (com s substituindo ) entra no clculo das estatsticas t que avaliam a significncia dos parmetros.Ento, o que pode acontecer?O denominador da estatstica t sermuito grande, a estatstica t ser muito pequena, indicando que o parmetro no significante....
[email protected]@mbarros.com 183
Regresso Linear MRegresso Linear Mltiplaltipla
MulticolinearidadeLogo, muitas vezes a multicolinearidade estar escondendo a significncia dos parmetros.Como saber se isso est acontecendo de fato?Olhe para o R2 e a estatstica F da regresso. Nenhum deles envolve o clculo da inversa de (XtX). Se o R2 for alto, a estatstica F for significante e existirem vrias estatsticas t insignificantes, um bom indcio de colinearidade.
[email protected]@mbarros.com 184
Regresso Linear MRegresso Linear Mltiplaltipla
MulticolinearidadeComo e por que surge?Na verdade, est muitas vezes relacionada a um tamanho insuficiente de amostra. Por exemplo, no caso de dados econmicos, comum que diversas variveis, num determinado intervalo de tempo, se mexam na mesma direo, gerando a multicolinearidade.
-
[email protected]@mbarros.com 185
Regresso Linear MRegresso Linear Mltiplaltipla
MulticolinearidadeComo identificar?
D uma olhada na matriz de correlao amostral das suas variveis explicativas.
Se existem diversas variveis altamente correlacionadas, muito provavelmente voc vai enfrentar o problema da multicolinearidade.
[email protected]@mbarros.com 186
Regresso Linear MRegresso Linear Mltiplaltipla
MulticolinearidadeComo resolver?
Retire algumas das variveis altamente correlacionadas do seu modelo, isto , comece a rodar seqncias de modelos menores.
Uma soluo automtica para isso o procedimento de regresso stepwise, que tem um nico problema: pode gerar modelos sem muito sentido fsico ou econmico.
[email protected]@mbarros.com 187
Regresso Linear MRegresso Linear Mltiplaltipla
MulticolinearidadeE se a gente no fizer nada, o que acontece?
Depende... Se o modelo for empregado para gerar previses, a multicolinearidade nem sempre um transtorno. Os estimadores continuam no tendenciosos o problema a varincia estimada!
[email protected]@mbarros.com 188
Regresso Linear MRegresso Linear Mltiplaltipla
Inadequao das Hipteses do Modelo: heterocedasticidade
Em muitas situaes prticas, a hiptese de que a varincia dos erros constante questionvel.
Por exemplo, se uma varivel dependente positiva tem valores num intervalo que vai atmilhares, intuitivo que as respostas prximas de zero geralmente sero menos variveis que as respostas em valores altos, pois estas ltimas tem mais espao para oscilar.
-
[email protected]@mbarros.com 189
Regresso Linear MRegresso Linear Mltiplaltipla
HeterocedasticidadeComo identificar?
Grficos de resduos versus valores ajustados ou variveis explicativas.Heterocedasticidade observada atravs de um padro como um cone aberto para a direita ou para a esquerda.Um padro parecido com uma noz pode ser observado se a varivel resposta um uma porcentagem percentuais altos ou baixos so menos variveis que aqueles prximos de 50%.
[email protected]@mbarros.com 190
Regresso Linear MRegresso Linear Mltiplaltipla
HeterocedasticidadeComo resolver?
Tranformaes para a estabilizao da varincia transformaes aplicadas varivel resposta Y.Algumas transformaes comuns so:raiz(Y) dados de contagensLog(Y) quando Y > 0 e o intervalo de valores possveis de Y muito largoLog(Y + 1) mesma situao que acima, mas alguns dos Y = 0
[email protected]@mbarros.com 191
Regresso Linear MRegresso Linear Mltiplaltipla
HeterocedasticidadeComo resolver?
1/Y quando a varivel resposta estamontoada perto de zero, mas decresce rpido, embora existam alguns valores altos.1/(Y + 1) mesma situao que acima, mas alguns Ys = 0Arc seno{ raiz(Y) } se 0 Y 1 (ou seja, Y uma proporo Binomial)
[email protected]@mbarros.com 192
Regresso Linear MRegresso Linear Mltiplaltipla
Inadequao das Hipteses do Modelo: autocorrelao dos resduos
Lembre-se que uma das hipteses fundamentais do modelo a independncia dos erros.Logo, se os resduos so correlacionados, esta hiptese foi violada.Por que? O que geralmente leva a este problema?O mais comum so os problemas de especificao.
-
[email protected]@mbarros.com 193
Regresso Linear MRegresso Linear Mltiplaltipla
Autocorrelao dos resduosAo omitir alguma varivel relevante, os resduos do modelo podero se tornar autocorrelacionados.
Muitas vezes tambm procedimentos de dessazonalizao de sries temporais geram autocorrelao nos resduos.
[email protected]@mbarros.com 194
Regresso Linear MRegresso Linear Mltiplaltipla
Autocorrelao dos resduosConseqncias
Suponha o seguinte modelo:
1 e iid so os e .e:onde
1t
10
-
[email protected]@mbarros.com 197
Regresso Linear MRegresso Linear Mltiplaltipla
Autocorrelao dos resduosComo detectar?
( )
=
=
= n
tt
n
ttt
e
eeDW
1
2
2
21
onde n o nmero de observaes e t o t-simo resduo do modelo
A estatstica de Durbin-Watson est relacionada com o estimador de (que mede a autocorrelao dos erros).
Pode-se provar que:( )12 DW
[email protected]@mbarros.com 198
Regresso Linear MRegresso Linear Mltiplaltipla
Autocorrelao dos resduosComo detectar?
Note que o numerador da estatstica DW consiste na diferena ao quadrado entre resduos sucessivos, e o denominador apenas a soma dos quadrados dos resduos.
Existem n-1 termos na soma no numerador e n no denominador (por que?)
[email protected]@mbarros.com 199
Regresso Linear MRegresso Linear Mltiplaltipla
Autocorrelao dos resduosComo usar a estatstica DW?
Se = 0 ento DW 2Se 0 < < 1 ento 0 < DW < 2 (caso mais comum na prtica)Se -1 < < 0 ento 2 < DW < 4
Durbin e Watson derivaram a distribuio amostral de sua estatstica. Dependendo do valor encontrado, o teste pode ser inconclusivo.
[email protected]@mbarros.com 200
Regresso Linear MRegresso Linear Mltiplaltipla
Autocorrelao dos resduosComo usar a estatstica DW?
O teste mais comum o das hipteses:H0: = 0 versusH1: > 0
A hiptese nula ser rejeitada se DW estiver longe de 2 (se DW for pequeno).
Em geral preciso compara a estatstica DW com DOIS valores crticos, dL e dU. A hiptese nula rejeitada se DW < dL. Se DW cai no intervalo entre dL e dU, o teste inconclusivo, e se DW > dU , a hiptese nula no rejeitada.
-
[email protected]@mbarros.com 201
Regresso Linear MRegresso Linear Mltiplaltipla
Autocorrelao dos resduosLimitaes da estatstica DW
No usar se o modelo contm, como varivel explicativa, a varivel dependente defasada.A estatstica DW no mede o efeito de autocorrelaes de ordem maior que 1. Tambm no captura efeitos MA nos erros.O modelo estimado deve incluir uma constante.
[email protected]@mbarros.com 202
Regresso Linear MRegresso Linear Mltiplaltipla
Referncias mdulo de regressoGujarati, D. (2003) Basic Econometrics, McGraw-Hill, New York.Pindyck, R.S. & Rubinfeld, D. (1998) -Econometric Models and Economic Forecasts, McGraw-Hill, New York.Vasconcellos, M.A.S. & Alves, D. (editores) (2000) Manual de Econometria: nvel intermedirio, Ed. Atlas, So PauloWeisberg, S. (1980) Applied Linear Regression, John Wiley & Sons, New York.Wooldridge, J. M. (2000) Introductory Econometrics: A Modern Approach. South-Western College Publishing, a division of Thomson Learning.