módulo de regressão e séries temporais - mbarros.com · [email protected]@mbarros.com 1...

[email protected]@mbarros.com 1

MMdulo de Regresso e Sdulo de Regresso e Sries ries TemporaisTemporais

Mnica Barros, Mnica Barros, D.Sc.D.Sc.

Maio de 2007Maio de 2007


Quem sou eu?Quem sou eu?

Mnica BarrosDoutora em Sries Temporais PUC-RioMestre em Estatstica University of Texas at Austin, EUABacharel em Matemtica University ofWashington, Seattle, EUAProfessora da PUC-Rio (Depto. De Eng. Eltrica)E-mails: [email protected], [email protected] page: http://www.mbarros.com


Programa do CursoPrograma do Curso

Uma viso gerencial da Estatstica e Sries Temporais

ConceitosParmetrosModelo LinearModelos AR(1), AR(2), AR(p) e PAR(p)Modelos de Sries TemporaisEstatsticas de erros



Regresso Linear Simples Modelo Estimao (Mnimos Quadrados Ordinrios e Mxima Verossimilhana)Anlise dos resduos Estimao da varincia dos resduosInferncias para os parmetrosVariveis dummyExerccios



Regresso Linear Mltipla Modelo Estimao (Mnimos Quadrados Ordinrios e Mxima Verossimilhana)Anlise dos resduos Estimao da varincia dos resduos Inferncias para os parmetros Colinearidade Exerccios



Introduo s sries temporaisObjetivosEscopoMtodos de estimaoLimitaesOverview dos principais mtodos quando e onde us-los



Mtodos de Amortecimento ExponencialModelos de mdias mveisModelo de BrownModelo de Holt-WintersEstimao dos parmetros Estatsticas de ajustes e anlise dos resduos

Exerccios



Modelagem ARIMA de Box & Jenkinssazonal e no sazonal

Funo de autocorrelao e autocorrelaoparcial Modelo Identificao de (p, q, d, P, Q, D) Estimao Estatsticas de ajuste e anlise dos resduos Exerccios



Modelos de Regresso Dinmica Funo de correlao cruzada Modelo Identificao/estimao Estatsticas de ajustes e anlise dos resduos Exerccios


Nota Nota InstalaInstalao das Ferramentas o das Ferramentas de Ande Anlise do Excellise do Excel

Muitas das tcnicas descritas aqui requerem a prvia instalao do suplemento (add-in) Ferramentas de Anlise do Excel. O procedimento de instalao descrito a seguir:

No menu Ferramentas, selecione Suplementos e na caixa de dilogo que ser aberta marque a opo Ferramentas de anlise. Se esta opo no estiver presente, clique procurar para encontrar o arquivo correspondente (em geral chamado Analys32.xll) ou rode novamente o set-updo MS-Office.


ForecastForecast ProPro

Neste curso tambm sernecessrio (nos mdulos especficos de sries temporais), o uso do software Forecast Pro XE, jutilizado pelo ONS.

Este software permite o ajuste de modelos de amortecimento exponencial, ARIMA e SARIMA e modelos de regresso dinmica.


Srie TemporalSSrie Temporalrie Temporal

Conjunto de observaes ordenadas no tempo.Suponha que temos uma srie temporal de cargas eltricas. Ento:y1, y2, ..., yn onde yt a carga no instante t.

Existe dependncia entre as cargas de diversos instantes. Isto nos permite usar cargas passadas para prever a carga futura.


ModeloModeloModelo

uma representao simplificada da realidade.

Por exemplo, voc observa duas variveis X e Y e faz um grfico dos n pontos (x1,y1), x2,y2), ...(xn,yn). O grfico tem a cara:


ModeloModelo

Anlise da Regresso - Vendas versus Nmero Clientes

y = 0.0087x + 2.423R2 = 0.9119

4.00

5.00

6.00

7.00

8.00

9.00

10.00

11.00

12.00

13.00

400 500 600 700 800 900 1000 1100

Clientes

Vend

as


Modelo LinearModelo LinearModelo Linear

Nesse exemplo a relao entre X e Y , como o grfico revela, aproximadamente linear.

Nosso objetivo: achar a reta que relaciona Y e X. Qual reta? Como encontr-la?

O mtodo tradicional chamado de mnimos quadrados.


Modelo LinearModelo Linear

Mtodo de Mnimos QuadradosComo funciona? O objetivo minimizar a soma dos quadrados dos erros(resduos).Que erros so esses?Para cada ponto, o resduo o valor real menos o valor previsto pela reta.Pode-se notar que o resduo vai depender de qual reta foi ajustada.



Por exemplo, se ajustamos a reta y = 3 + 2x, se o valor de xi 2, ento yiajustado pela reta igual a 7. Se agora a reta y = 4 + 2x, para xi = 2 temos o yi ajustado pela reta igual a 8.

Imagine que o valor real de yi seja 8.5 quando xi 2. Ento, o resduo gerado pela reta 3 + 2x 8.5 7 = 1.5 e pela reta 4+x 8.5 8 = 8.



Ento, no que diz respeito a esse ponto (xi =2), a reta 4 + 2x foi melhor que a reta 3 +2x pois gerou um resduo menor.

Em geral, dados n pares de pontos (x1,y1), x2,y2), ...(xn,yn), voc pode ajustar uma reta y =b0 + b1.x a todos os pares.

Note que os coeficientes b0 e b1 so os mesmos para todos os pares de pontos.



O resduo do i-simo par :

O mtodo de mnimos quadrados procura obter a reta (ou seja, os coeficientes b0 e b1) tais que a soma dos quadrados dos resduos seja minimizada.

iiiii previstorealyye ==



Mtodo de Mnimos QuadradosAche b0 e b1 tais que a expresso:

seja minimizada. Esta soma acima chamada de Soma dos Quadrados dos Resduos(s vezes, Soma dos Quadrados dos Erros).

( ) ( )===

==n

iii

n

iii

n

ii xbbyyye

1

210

1

2

1

2



Erro versus ResduoErro = varivel aleatria no observvel, com mdia zero e varincia constante 2.

Resduo = estimador (chute) para o erro. observvel, calculado como valor real valor previsto pelo modelo.Isso causa alguma confuso, pois s vezes a gente chama de erro o que , na verdade, o resduo.


Modelo LinearModelo LinearModelo Linear

O modelo linear :yi =b0+ b1xi + ei para i =1, 2, ..., n

Onde ei o erro, uma varivel com mdia 0 e varincia constante 2.

Os parmetros do modelo so b0, b1e 2, so constantes desconhecidas que devem ser estimadas.


Modelo AR(1)Modelo AR(1)Modelo AR(1)

Parmetro = tudo que precisa ser estimado para especificar completamente o modelo.

Modelo AR(1)AR(1) = autoregressivo de ordem 1

yt = y t-1 + etyt = carga no ms tYt-1 = carga no ms t-1et = erro no ms t



Parmetros: , 2 (varincia do erro)

Caso Particular: Passeio Aleatrio (Random Walk)AR(1) com =1 yt = yt-1 + etUso: mercado de aesNa mdia, preo da ao hoje = preo da ao ontem (no ajuda muito para ganhar dinheiro!!)


RandomRandom WalkWalk

O grfico a seguir mostra um exemplo de um passeio aleatrio em que y0 = 100 e os erros so Normais com mdia zero e desvio padro 2.

Foram geradas 500 observaes.

Voc poderia confundir o grfico com a da evoluo do preo de uma ao no tempo, no mesmo?


RandomRandom WalkWalk

Grfico de uma "Random Walk"

50

70

90

110

130

150

170

190

210

230

1 14 27 40 53 66 79 92 105

118

131

144

157

170

183

196

209

222

235

248

261

274

287

300

313

326

339

352

365

378

391

404

417

430

443

456

469

482

495



Exemplo efeito de 2

yt = 1,05.yt-1 + etCarga do ms t = 105% da carga do ms t-1 + erro.Suponha que yt-1 = 100.

a) VAR(et) = 1b) VAR(et) = 100

Por exemplo, se fosse possvel observar o erro poderamos encontrar algo como:



a) et = 1,05 valor pequeno pois foi tirado de uma distribuio de prob. com mdia 0 e varincia 1.

b) et = 10,32 valor grande porque a distribuio de prob. tem varincia grande (100).

Resultados:a) yt = 105 + 1,05 = 106,05b) yt = 105 + 10,32 = 115,32



yt = 1 yt-1 + 2 yt-2 + etOnde:et = erro no instante t com mdia 0 e

varincia 2

yt = carga no instante tyt-1 = carga no instante t-1yt-2 = carga no instante t-2Parmetros: 1, 2 e 2 .


Modelo AR(p)Modelo AR(p)Modelo AR(p)

Modelo Autoregressivo de ordem pyt = 1 yt-1 + 2 yt-2 + .. + p yt-p+ et

A carga deste ms depende das cargas dos p ltimos meses. Existem p + 1 parmetros a serem estimados: os s e a varincia do erro.


Modelo PAR(p)Modelo PAR(p)Modelo PAR(p)

PAR(p) = Modelo AutoregressivoPeridico de ordem p.

Contexto: NewaveModelos para previso de vazes. Um modelo AR diferente para cada ms. Restrio do Newave - p mximo = 6 meses. (p = ordem do modelo).


Modelo de Sries TemporaisModelo de SModelo de Sries Temporaisries Temporais

Resduo no instante t:t = real previsto no instante t

Por exemplo, para dez/06, o resduo o valor real de dezembro de 2006 menos o valor previsto para o mesmo ms. S vai poder ser calculado quando o valor real de 12/2006 estiver disponvel!

srie yt Modelo

previsao ^yt

resduo yt - ^yt



Mas posso olhar para os resduos in sample (dentro da amostra) no perodo em que o modelo foi ajustado.

Por exemplo, suponha que o modelo foi ajustado no perodo jan/03 a abr/06. Neste perodo todo posso fazer a comparao entre o valor real e o ajustado pelo modelo (fittedvalue), calculando o resduo a cada instante.

Um exemplo est na prxima [email protected]@mbarros.com 34

Modelo de SModelo de Sries Temporaisries Temporais

O grfico a seguir mostra uma srie de carga real (em preto) e ajustada por um modelo (em vermelho).

Legend C_TOTAL



Perodo de ajuste (in sample)Perodo de previso (out of sample)No grfico anterior, o perodo de ajuste vai de janeiro de 1994 a dezembro de 2005, e o perodo de previso o ano de 2006.

y

tempo Perodo de ajuste Perodo de Previso

12/05

Observado em 2006



Voc ajustaria o seguinte modelo: In sample = 12 meses, Out of sample = 24 meses?

No! E o contrrio? Sim, desde que a srie no fosse muito mal comportada. Em resumo previso de sries temporais no futurologia! Voc precisa de dados passados para fazer previso!


Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros

Estatstica de erros (resduos)

MAPE = erro absoluto mdio percentualerro percentual no instante i:

(yi - ^yi)/ yi

erro percentual absoluto no instante i:|yi - ^yi/ yi |

Ms Real Previsto Resduo1 y1 ^y1 1 = y1 - ^y12 y2 ^y2 2 = y2 - ^y2... ... ... ...n yn ^yn n = yn - ^yn



Erro absoluto percentual absoluto no instante i:

|(yi - ^yi)/ yi| = |(real previsto)/real|

MAPE = mdia destes erros absolutos percentuais

Vantagem: fcil de entender - a escala %

Desvantagem: Se o valor real pequeno, qualquer discrepncia na previso faz o MAPE explodir.

==

=

=

n

i i

iin

i i

ii

realprevistoreal

nyyy

nMAPE

11

11



MAD = mean absolute deviation = desvio absoluto mdio

O MAD est nas mesmas unidades que a sua srie.Por que o mdulo?Para evitar soma = 0 quando um erro grande e positivo e outro grande e negativo!

1 1

1 1n n

i i i ii i

MAD y y real previston n= =

= =



EQM = erro quadrtico mdio

RMSE = root mean squared error = raiz do EQM

Vantagem sobre EQM => mesma escala que os dados.

( ) ( )===

===n

iii

n

iii

n

ii previstorealn

yyn

en

EQM1

2

1

2

1

2 111

( ) ( )2 221 1 1

1 1 1 n n n

i i i i ii i i

RMSE EQM e y y real previston n n= = =

= = = =



Erro puro:

Vantagem: mesma escala que os dados.

Desvantagem: no d para sair somando! Se voc fizer isso corre o risco de achar que seu modelo bom quando no , pois erros de sinais opostos podero se cancelar.

i i ie y y=



O que fazer com tudo isso isso?O que desejvel? Se o modelo bom, resduo no tem padro, no tem estrutura.

Faa grficos dos resduos puros ou MAPE, ou MAD ou EQM, ou RMSE.Que tipo de grficos?

Por exemplo, grfico dos erros ao longo do tempo. Serve para responder como o seu modelo se comportou no in sample e verificar a existncia de possveis padres.


EstatEstatsticas de sticas de ErrosErros

Resduo

tempo

Isto Isto tudo que eu tudo que eu no quero.no quero.

Por que?Por que?ResResduo com um duo com um

padro claro (positivo, padro claro (positivo, negativo, positivo, negativo, positivo, negativo, ...).negativo, ...).



Resduo

tempo

Tambm no quero um padro desses todos os resduos so negativos, indicando que a minha previso esteve sempre ACIMA do real



Grfico dos erros versus o horizonte de previso.

Serve para responder se as previses se deterioram rpido ou no.

y

x

realizado

Out of sample

Previsto



Grfico da Autocorrelao dos errosCorrelao entre os erros em diversos instantesACF = autocorrelation functionGrfico da ACF versus lag (defasagem) tambm chamado de correlograma.

O que voc no quer?Que exista correlao entre resduos em

instantes diferentes.



Por que voc no quer que o grfico da ACF dos resduos mostre padres?

Porque se existe dependncia temporal na srie, toda esta dependncia teria que ser, idealmente, capturada pelo modelo, no deveria ter sobrado nada nos resduos!



Casos comuns...

Ateno: A autocorrelao sempre um nmero entre 1 e +1

No grfico anterior:Resduo grande e positivo no instante t leva a um resduo grande e positivo no instante t+1

Resduos do instante t dependedo resduo do instante t-1

lag (defasagem)

1



Outros Padres:

Resduos nos instantes t e t-12 tm dependncia.

ACF

12

12

ACF



Em resumo...Se o modelo bom o rudo branco, o resduo no tem estrutura. Se houver padres no resduo fique esperto!


Regresso Linear Simples


Regresso LinearRegresso Linear

Modelos de regresso linear relacionam uma varivel dependente ou varivel de resposta, Y, a uma ou mais variveis explicativas (tambm chamadas covariveis ou variveis independentes), X.

O modelo linear nos parmetros que relacionam Y aos Xs.

A estimao destes modelos geralmente feita por mnimos quadrados ordinrios, e os estimadores obtidos por este algoritmo so timos sob certas condies, dadas pelo teorema de Gauss e Markov.


Objetivos dos Modelos de Objetivos dos Modelos de Regresso LinearRegresso Linear

Estudar a relao entre variveis, para se testar causalidade (linear) entre as variveis (ECONOMETRIA).

Possibilitar anlises de cenrios ("What if analysis")

Permitir eventualmente a previso da varivel dependente. (SRIES TEMPORAIS, REGRESSO DINMICA)


Regresso Linear SimplesRegresso Linear Simples

Dependncia Linear entre X e Y O diagrama de disperso tem o seguinte aspecto:



S uma varivel explicativaEsto disponveis n pares de observaes (xi, yi) um erro aleatrio com mdia zero e varincia constante 2 . Em muitas situaes supomos que o erro Normal, o que nos permite obter intervalos de confiana e realizar testes de hipteses.

Parmetros desconhecidos: A equao que a relao entre y e x chamada de modelo de regresso:

++= x.Y 10

210 e ,



No caso de regresso linear simples, temos:

y = 0 + 1x +

uma varivel aleatria chamada de erro da regresso e representa a variao de y que no pode ser explicada por sua relao linear com x por definio, seu valor esperado zero

Portanto, o valor esperado ou valor mdio de y est relacionado com x atravs de E(y) = 0 + 1x



Hipteses sobre os erros da regressoConsidere o modelo yi = 0 + 1xi + i para i = 1, 2, ..., n (ou seja, temos n pares de observaes (xi, yi).

Os erros i satisfazem as seguintes hipteses:Mdia zero E(i) = 0 para todo iVarincia constante VAR(i) = 2 para todo i (hiptese de homocedasticidade)Os i so Normais, o que nos permite desenvolver intervalos de confiana e testes de hipteses.Os i so independentes (ou, pelo menos,

descorrelatados).



O grfico da relao entre x e y uma reta (reta de regresso)

0 chamado de intercepto (ou coef. Linear)1 chamado de inclinao (ou coef. Angular da reta)

Se os parmetros 0 e 1 fossem conhecidos, poderamos utilizar o modelo de regresso linear simples para determinar o valor esperado de y para um dado valor de x.



Na prtica, esses parmetros no so conhecidos e precisam ser estimados.

Utilizamos observaes emparelhadas de x e y para determinar os estimadores de 0 e 1 b0 e b1 respectivamente, obtendo a seguinte equao de regresso.

Para determinar b0 e b1 utilizamos o mtodo dos mnimos quadrados.

0 1 para i = 1,2, ..., ni iy b b x= +



Nesse mtodo, os valores de b0 e b1 so tais que a soma dos quadrados das diferenas entre os valores de y observados (yi) e seus respectivos valores estimados pela equao de regresso (yi) mnima:

Ou seja, o mtodo de mnimos quadrados minimiza a soma do quadrado dos resduos.

=

n

iii yy

1

2)(min



Ou seja, os estimadores b0 e b1 so obtidos de tal forma que:

Seja minimizada.E como fazer isso? Note que a soma do quadrado dos resduos (SSE) funo de ambos b0 e b1. Para garantir que esta funo est sendo minimizada, precisamos encontrar seus pontos crticos (aqueles em que as primeiras derivadas em relao a b0 e b1 so zero) e verificar o sinal das segundas derivadas, que devem ser positivos.

( ) ( )2 22 0 11 1 1

n n n

i i i i ii i i

SSE e y y y b b x= = =

= = =



Ento, para encontrar os estimadores b0 e b1basta fazer:

E verificar o sinal das 2as. derivadas nos pontos crticos.Os valores de b0 e b1 so dados por:

0010

=

=

bSSE

bSSE e

( )

=

nx

x

nyx

yxb

ii

iiii

22

1xbyb 10 =



Da equao anterior direita notamos que a reta ajustada por mnimos quadrados passa pelo ponto , isto , pelo ponto mdio dentre todos os n pontos (xi, yi) usados para estimar a reta de regresso.

( )yx,



Sejam:

Ento podemos escrever:

( ) ( )

( ) ( )

( )( ) ( )( )

22 2 2 2

12

2 2 2 2

1

1

.

. , a soma de quadrados total

. .

ni

i i ii

ni

i i ii

ni i

i i i i i ii

xSXX x x x x n x

n

ySYY y y y y n y SST

nx y

SXY x x y y x y x y n x yn

=

=

=

= = =

= = = =

= = =

1 0 1 e .SXYb b y b xSXX

= =

Note que ambos b0 e b1so variveis aleatrias, pois so funes dos ys, que so v.a.



Propriedades dos Estimadores MQO (mnimos quadrados ordinrios)

b0 e b1 so no tendenciosos, isto :

As varincias de b0 e b1 so:

( ) ( )0 0 1 1 e E b E b = =

( ) ( )2 2

21 0

1 e xVAR b VAR bSXX n SXX

= = +

onde 2, como j vimos, a varincia do erro.



Propriedades dos Estimadores MQOA covarincia entre b0 e b1 :

Dos resultados anteriores nota-se que as varincias e covarincias dos estimadores MQO dependem de 2 (a varincia do erro), que uma quantidade desconhecida. Como estim-la?

( ) ( )2

0 1,x

COV b bSXX

=

2

2SSEsn

=



O modelo de regresso desenvolvido aproxima a relao linear entre as variveis x e y

Uma pergunta importante: quo bem o modelo de regresso representa essa relao linear?

O coeficiente de determinao (R2) da regresso nos d uma medida do ajuste do modelo de regresso aos dados utilizados e ser definido daqui a pouco.



O i-simo resduo a diferena entre o valor observado yi e o valor estimado pela equao de regresso, e representa o erro obtido ao estimarmos yi.

Ou seja:

O mtodo de mnimos quadrados encontra os coeficientes b0 e b1 que minimizam a soma dos quadrados desses resduos.

0 1 i i i i ie y y y b b x= =



Agora suponha que queremos estimar um modelo constante, ou seja, yi = c + erro

Sem o conhecimento de nenhuma varivel explicativa, ou seja, sem o modelo de regresso, a nossa melhor estimativa seria o valor mdio das observaes de y,

Para a i-sima observao de y, yi, a diferena nos fornece uma medida do erro cometido ao estimarmos yi a partir de

y

yyi

y



Definimos como soma total dos quadrados, SST (do ingls total sum ofsquares), a soma do quadrado dessas diferenas:

A soma dos quadrados devidos regresso, SSReg (do ingls sum ofsquares due to regression) dada por:

( )2iSST SYY y y= =

( )2Re iSS g y y=



Ou seja, a SST (Soma dos Quadrados Total) a soma dos quadrado dos resduos quando o modelo estimado um modelo constante, isto , quando ignoramos a relao entre x e y.

Se a relao entre x e y for importante, o que se espera? Que a soma do quadrado dos resduos seja muito menor que SST.



Agora suponha que definimos um modelo de regresso.

O poder de explicao da relao linear entre x e y a partir do modelo de regresso, para cada yi observado, em relao ao caso anterior (conhecimento apenas dos yi e utilizao de como estimativa) pode ser medido pela diferena entre os valores previstos pela regresso e .

y

y



Pode-se provar que SSE, SSR e SST esto relacionados da seguinte forma:

ReSST SS g SSE= +O valor de SST O valor de SST o mesmo independente do grau de o mesmo independente do grau de ajuste do modelo de regresso, pois sajuste do modelo de regresso, pois s depende dos depende dos yyss observados e da sua mobservados e da sua mdia.dia.

Devemos esperar que, Devemos esperar que, quanto melhor o ajuste do quanto melhor o ajuste do modelo de regressomodelo de regresso aos dados utilizados, aos dados utilizados, menor a menor a razo SSE/SST razo SSE/SST e maior a razo e maior a razo SSRegSSReg/SST./SST.



No limite, com um ajuste perfeito (a reta de regresso passa exatamente sobre todos os pontos da amostra), teremos SSE = 0 e SST = SSReg

O coeficiente de determinao (R2) uma medida da qualidade do ajuste de uma regresso, e definido como:

22

2

( )Re1( )

i

i

y ySST SSE SSE SS gRSST SST SST y y

= = = =



Quanto mais prQuanto mais prximo de 1, melhor o ajuste do ximo de 1, melhor o ajuste do modelo de regresso aos dados da amostramodelo de regresso aos dados da amostra. .

O coeficiente de determinaO coeficiente de determinao tambo tambm estm estrelacionado ao coeficiente de correlarelacionado ao coeficiente de correlao entre o entre x e y: x e y:

Note que o RNote que o R22 estest definido entre 0 e 1, e definido entre 0 e 1, e quanto mais prquanto mais prximo de 1, melhor o ajuste da ximo de 1, melhor o ajuste da regresso.regresso.

( )( )( ) ( )

222 Re

xy

SXYSS gR rSST SXX SYY

= = =


Teste de significncia dos Teste de significncia dos parmetros da regressoparmetros da regresso

No modelo de regresso linear simples, a relao de dependncia entre y e x expressa pelo parmetro 1 que, por sua vez, estimado a partir de b1.

E como em qualquer estimao, cometemos um erro ao utilizarmos b1 (o estimador) ao invs de 1 (o parmetro real, mas desconhecido).



Quando os erros so iid Normais, os estimadores dos parmetros e valores ajustados so Normais.

Isso acontece pois eles so apenas combinaes lineares dos yis (e portanto, combinaes lineares dos eis).

Assim, testes e intervalos de confiana podem ser construdos baseados na distribuio t de Student.



O teste de significncia de 1 feito a partir do intervalo de confiana de 1 para um nvel de confiana especificado

Se o intervalo de confiana de 1 contiver o valor 0, isso indica que, para o nvel de significncia escolhido, ns no podemosdescartar a hiptese de 1 (o parmetro desconhecido) ser igual a zero.



Do contrrio, se o intervalo de confianano incluir zero, podemos concluir que, para o nvel de significncia escolhido, 1 diferente de zero.

Note que testar a hiptese 1 = 0 equivalente a testar as seguintes hipteses:

H0: o modelo constante Yi = 0 + iH1: o modelo linear Yi = 0 + 1.xi + i



Teste da hiptese 1 = 0 (versus a alternativa 1 0

Esta estatstica tem distribuio t com n-2 graus de liberdade. O IC (1-)% para 1 dado por:

( )1

1 1 12

1 b

b b btdp b ss

SXX

= = =

1

21 bstb

O valor de t /2 baseado em uma distribuio t de Student com n 2 graus de liberdade


Utilizando o ExcelUtilizando o Excel

O Excel possui uma ferramenta de anlise de regressoNo menu Ferramentas selecione Anlise de Dados

Caso esta opo no esteja disponvel, selecione Add-Ins (Suplementos) e marque a caixa Ferramentas de Anlise

Em Anlise de Dados, selecione RegressoFornea as informaes necessrias

Intervalo dos valores de xIntervalo dos valores de yNvel de significnciaIntervalo de sada (local na planilha onde o resultado ser colocado) [email protected]@mbarros.com 82

Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

A planilha BigMac2003.xls contm preos em diversas cidades do mundo em 2003 coletados pelo banco suo UBS.As variveis da planilha so:

City nome da cidadeBigMac minutos de trabalho necessrios para comprar um Big MacBread - minutos de trabalho necessrios para comprar 1 kg de poRice - minutos de trabalho necessrios para comprar 1 kg de arrozFoodindex = ndice do preo da comida (Zurique = 100)Bus = custo em US$ de uma passagem de nibus num trecho de 10 km



Apt = custo do aluguel de um apartamento de 3 cmodos em US$TeachGI = Renda Bruta de um professor primrio em milhares de US$TeachNI = Renda Lquida de um professor primrio em milhares de US$Taxrate = alquota de imposto paga por um professor primrioTeachhours = nmero de horas trabalhadas por semana para um professor primrio

claro que existem inmeras relaes importantes entre as diversas variveis nesta base de dados a idia geral ver como o custo de vida (e a renda) se comporta atravs das grandes cidades no mundo.



Mas, vamos comear com algo simples.

de se esperar que o tempo de trabalho

necessrio para comprar dois tipos de

alimento seja positivamente

correlacionado.

Ento, que tal examinarmos o grfico de

Bread em BigMac?



Minutos de Trabalho para Comprar 1 kg de Po versus Minutos de Trabalho para Comprar um BigMac

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100 120 140 160 180 200



Podemos produzir a equao de regresso sem nenhuma demora no prprio Excel, apenas clicando na opo Grfico > Adicionar Linha de Tendncia.

Existem vrios tipos de linha de tendncia, escolha a linear, e as opes de mostrar a equao e o R2 no grfico. O resultado est na prxima figura.



Minutos de Trabalho para Comprar 1 kg de Po versus Minutos de Trabalho para Comprar um BigMac

y = 0.3086x + 13.075R2 = 0.2966

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100 120 140 160 180 200



O nosso modelo de regresso no foi lgrande coisa...O R2 foi apenas 29%, mas disso a gente j desconfiava pelo grfico, que no era muito linear.Mas, o output foi bastante limitado, apenas a equao da reta e o R2.Podemos ter uma anlise bem mais completa atravs da ferramenta de Anlise de dados do Excel. O resultado est a seguir.



Como fazer?Ferramentas > Anlise de Dados > >RegressoA caixa de dilogo usada neste exemplo (para o Excel em ingls est no prximo slide)Note que:

Labels (Rtulos) indica que a primeira linha contm o nome da varivelOs resultados foram mandados para uma nova pasta (chamada regr_results neste caso)





SUMMARY OUTPUT (REGRESSO DE BREAD EM BIGMAC)

Regression StatisticsMultiple R 0.54458571



InterpretaoStd. Error (erro padro)

Calcule s2 = SSE/(n-2) e tire a raizNeste caso, SSE = 15167.85, n = 69

Observations (igual a n)Tabela ANOVA

Contm as somas dos quadrados na coluna SSRegression = SSRegResidual = SSE = SYYTotal = SST



Tabela ANOVAA coluna df contm os graus de liberdade associados a cada uma destas somas de quadradosA coluna MS (mean square) contm as somas de quadrados (SS) divididas pelos respectivos graus de liberdade (df)F = MS(Regression)/MS(Residual)F tem uma distribuio F com os graus de liberdade n1 no numerador e n2 no denominador. Neste caso, n1 = 1 e n2 = 67.



Tabela ANOVAEm geral, no caso da regresso linear simples:

uma varivel F com distribuio F(1, n-2)graus de liberdade.Se a estatstica F grande, a regresso significante (ou seja, neste caso, 1 0). O teste F equivalente ao teste t.

Re /1 Re/( 2)

SS g MS gFSSE n MSE

= =



Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept 13.075 2.822 4.632 0.000 7.441 18.709BigMac 0.309 0.058 5.315 0.000 0.193 0.425

b0 e b1 dp(b0) e dp(b1)

b0 e b1 divididos pelos seus d.p.

Se o p-value pequeno (digamos, abaixo de 5%, os parmetros so significantes)

IC para b0 e b1 baseados na distribuio t



O slide anterior nos diz que a reta ajustada :BREAD = 13.075 + 0.309*BIGMACVoc pode perceber que esta era a reta que aparecia no grfico da linha de tendncia.Tambm, podemos notar que:

O modelo no bom, mas os parmetros so significantes ou seja, o modelo linear certamente melhor que o modelo constante neste caso.


Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

A planilha stat_case2.xls contm as vendas de carros, TV a cores e videocassetes no mercado brasileiro entre Janeiro de 1995 e Dezembro de 1997. Calcule a matriz de correlao entre as variveis.Faa o grfico de vendas de carros versus vendas de TV.



Faa o grfico de vendas de TV versus vendas de videocassetes.Faa o grfico de vendas de carros versus vendas de videocassetes.Ajuste um modelo de regresso linear simples onde y = vendas de TV e x = vendas de videocassetes.



Matriz de correlao

O coeficiente de correlao de uma varivel com ela mesma sempre 1. Por que? Dica: qual a definio do coeficiente de correlao?Note tambm a alta correlao entre vendas de TV e Video.

carros TV Videocarros 1TV 0.6524 1Video 0.6850 0.9495 1



Grfico carros X TVVendas de Carros (eixo Y) versus Venda de TVs (eixo X)

60,000

80,000

100,000

120,000

140,000

160,000

180,000

300,000 400,000 500,000 600,000 700,000 800,000 900,000



Grfico TV X VideoVendas de TVs (eixo Y) versus Vendas de V ideocassetes (eixo X)

300 ,000

400 ,000

500 ,000

600 ,000

700 ,000

800 ,000

900 ,000

70 ,000 12 0 ,000 170 ,00 0 220 ,000 270 ,000 320 ,000



Grfico Carros X VideoVendas de C arros (eixo Y) versus Vendas de Videocassetes (eixo X)

60 ,000

80 ,000

100 ,000

120 ,000

140 ,000

160 ,000

180 ,000

70 ,000 120 ,000 170 ,000 220 ,000 270 ,000 320 ,000



Regresso Linear de TV em Video

Note que agora o ajuste da regresso TIMO, como j esperado, pois o grfico entre as duas variveis mostrava uma relao altamente linear.

Estatsticas da RegressoMultiple R 0.9495



Regresso Linear de TV em VideoDicas:

Quando os coeficientes b0 e b1 so significantes? Em geral, se suas estatsticas t forem maiores que 2, em mdulo, podemos afirmar que os coeficientes so diferentes de zero. Tambm podemos olhar para os intervalos de confiana para b0 e b1 se estes intervalos NO INCLUEM ZERO podemos dizer que os coeficientes so significantes, e exatamente este o caso que acabamos de mostrar na pgina anterior!

Na prxima pgina est o grfico dos valores reais e ajustados (previstos) pela reta de regresso.



Valores Reais e Previstos pela Regresso

Relao entre Vendas de Tv e Video e Reta de Regresso Ajustada

200,000

300,000

400,000

500,000

600,000

700,000

800,000

900,000

70,000 120,000 170,000 220,000 270,000 320,000

Video

TV

TV TV prevista pela regresso



Dlar e ndice BovespaO prximo grfico exibe a relao entre a cotao diria do dlar PTAX e o IBOVESPA no perodo entre 10/12/2002 e 12/06/2003.

Ajuste um modelo de regresso linear simples para o IBOVESPA usando a PTAX como varivel explicativa.



Ibovespa (Bolsa de So Paulo) versus Dlar PTAX

9,500

10,000

10,500

11,000

11,500

12,000

12,500

13,000

13,500

14,000

14,500

2.70 2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90



Valores Reais e PrevistosIBOVESPA e Taxa de Cmbio - Valores Observados e Ajustados pela Regresso

9,500

10,000

10,500

11,000

11,500

12,000

12,500

13,000

13,500

14,000

14,500

2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90

Taxa de Cmbio (PTAX - Venda)

Ib

oves

pa (B

olsa

de

So

Paul

o)

Ibovespa (Bolsa de So Paulo) Ibovespa Previsto



ResduosResduos da Regresso

-1000

-800

-600

-400

-200

0

200

400

600

800

1000

2.70 2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90

Taxa de Cmbio (PTAX - Venda)

Res

idua

ls



Exemplo de Output do Excel

Multiple R 0.946R Square 0.895Adjusted R Square 0.895Standard Error 361.437Observations 124

Regression Statistics

df SS MS F Significance FRegression 1 136,397,746 136,397,746 1044.1 1.1981E-61Residual 122 15,937,651 130,636 Total 123 152,335,397

ANOVA

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept 24,366.28 393.58 61.91 5.1E-94 23587 25145Taxa de Cmbio (PTAX - Venda) (3,830.74) 118.55 -32.31 1.2E-61 -4065 -3596



Ibovespa versus Dlar PTAX

y = -3830.7x + 24366R2 = 0.8954

9,000

9,500

10,000

10,500

11,000

11,500

12,000

12,500

13,000

13,500

14,000

14,500

2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90


Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa

A planilha EE_anual.xls contm alguns dados sobre consumo anual residencial de energia eltrica no Brasil, PIB real e populao (real e economicamente ativa).

O objetivo aqui que voc explore estes dados e encontre modelos de regresso simples e (depois) mltipla que possam servir para fornecer razoveis explicaes para o crescimento do consumo de EE residencial.

Alguns grficos obtidos da planilha esto a seguir, e podem servir como dicas.



Energia eltrica - consumo residencial GWh

-

10,000

20,000

30,000

40,000

50,000

60,000

70,000

80,000

90,000

1963

1965

1967

1969

1971

1973

1975

1977

1979

1981

1983

1985

1987

1989

1991

1993

1995

1997

1999

2001



Energia eltrica - log (consumo residencial GWh)

8.2

8.7

9.2

9.7

10.2

10.7

11.2

11.7

1963

1965

1967

1969

1971

1973

1975

1977

1979

1981

1983

1985

1987

1989

1991

1993

1995

1997

1999

2001



log(Consumo EE Residencial) e log (PIB preos 1980)

8.000

8.500

9.000

9.500

10.000

10.500

11.000

11.500

12.000

1963 1965 1967 1969 1971 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001

log(

Con

sum

o EE

Res

iden

cial

)

0.000

0.500

1.000

1.500

2.000

2.500

log(

PIB

pre

os

1980

)

log(consumo EE residencial) log (PIB (preos 1980) encadeado - Anual - R$ valor real)



Log(Consumo Residencial EE) versus Log (PIB 1980)

y = 1.6551x + 7.88R2 = 0.949

8.200

8.600

9.000

9.400

9.800

10.200

10.600

11.000

11.400

0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000 1.100 1.200 1.300 1.400 1.500 1.600 1.700 1.800 1.900 2.000

log PIB

Log

Con

sum

o EE



A planilha fuel2001.xls contm dados de consumo de combustvel para 50 estados americanos em 2001.A descrio das variveis est na planilha.Construa a varivel FUELPC, o consumo de combustvel per capital em cada estado, atravs da expresso:

POPFUELFUELPC *1000=



Construa a varivel DLIC, a proporo de pessoas acima de 16 anos no Estado que possuem carteira de mororista.

Faa o grfico de FUELPC versus TAX.Faa o grfico de FUELPC versus DLIC.Ajuste no Excel a regresso de FUELPC em TAX. Comente os resultados.Ajuste no Excel a regresso de FUELPC em DLIC. Comente os resultados.

POPNLICDLIC =


Regresso Linear Mltipla


Regresso Linear MRegresso Linear Mltiplaltipla

Na regresso linear mltipla, diversas variveis independentes so usadas para modelar uma nica varivel resposta.

So observados n casos, e em cada um deles, o valor da varivel resposta (Y) e de cada varivel independente X1, X2, ..., Xp estdisponvel.



Ento os dados disponveis formam a matriz:

No modelo de regresso linear SIMPLES, p =1.Nesta representao, xij refere-se ao i-simocaso e j-sima varivel.

caso Y X1 X2 X3 . Xp 1 y1 x11 x12 x13 x1p 2 y2 x21 x22 x23 x2p n yn xn1 xn2 xn3 xnp



Modelo

Onde:s so parmetros desconhecidos (a serem estimados)es so erros, variveis aleatrias independentes, com mdia zero e varincia constanteX1, X2, ..., Xp so as variveis explicativas, preditores ou covariveisY a varivel dependente, ou varivel resposta

eXXXY pp +++++= ...22110



O modelo de regresso linear mltipla completamente especificado a partir das seguintes hipteses:

1) LINEARIDADEA relao entre a varivel resposta e as variveis explicativas linear, como mostra a equao do slide anterior.



2) NO OCORRNCIA DE MULTI-COLINEARIDADE PERFEITA

Em outras palavras, nenhuma varivel explicativa uma combinao linear das outras.Pode-se reescrever esta condio em termos da seguinte matriz, conhecida como matriz de design:



=

npnn

p

p

xxx

xxxxxx

X

...1...

...1

...1

21

22221

11211 X a matriz de design. Note que a coluna de unscorresponde ao termo constante da regresso

A condio 2 pode ser reescrita como:Posto(X) = p + 1 = min(n,p+1)

Nota: o posto de uma matriz o nmero de linhas (colunas) linearmente independentes.



3) VARIVEIS EXPLICATIVAS NO SO ESTOCSTICAS

4) DISTRIBUIO DOS ERROS

Algumas conseqncias desta hiptese so:

Todos os erros tm a mesma varincia (homocedasticidade)Todos os erros so descorrelatados (o que uma conseqncia da independncia).

n 1,2,..., i para )N(0, iid so 2 =ie



Modelo em Forma Matricial conveniente escrever o modelo em representao matricial como a seguir:

=

=

=

=

npnn

p

p

pnn xxx

xxxxxx

X

e

ee

e

y

yy

Y

...1................................

...1

...1

,...

,...

,...

21

22221

11211

1

0

2

1

2

1

Dimenses: Y n x 1, e n x 1, (p+1) x 1e X n x (p+1)



A equao de regresso mltipla pode ser escrita em forma matricial como:

Pode-se escrever as hipteses sobre a distribuio dos erros em termos de uma distribuio Normal multivariada:

eXY +=

( )1n x dimenso de zeros de vetor um 0 e

n n x identidade matriz a I onde ,0 2INe n



Soma do quadrado dos ResduosA soma do quadrado dos resduos (SSE) pode ser escrita em termos matriciais como:

Onde b o vetor (p+1) x 1 de coeficientes estimados, ou seja, o vetor de estimadores dos s.O vetor o vetor nx1 de valores ajustados da regresso.

( ) ( ) ( ) ( )XbYXbYYYYYeeSSE ttt ===

Y



Estimadores de Mnimos QuadradosComo na regresso simples, o objetivo encontrar os bis (aqui: b0, b1, ..., bp) que minimizem a soma do quadrado dos resduos. Ou seja, temos que resolver a equao: ( ) ( ){ }

{ }

YXXbXXbXYX

bXbXbYXbYYb

XbYXbYb

SSE

tt

tt

ttttt

t

=

=+

=

+

=

=

022

02

00

Equaes Normais [email protected]@mbarros.com 132


Estimadores de Mnimos QuadradosO sistema anterior (as equaes normais) pode ser resolvido pr-multiplicando pela inversa de XtX, e resulta em:

Uma vez encontrados o vetor de estimadores b, pode-se obter o vetor de valores ajustados = Xb e o vetor de resduos:

( ) YXXXb tt 1=

XbYYYe == Y



Estimadores de Mnimos QuadradosOs resduos e a matriz de design so descorrelatados, isto :

A soma dos resduos para todas as observaes nula. Isso pode ser provado da equao anterior fazendo-se o produto da 1a. coluna de X (que s contm 1s) com os resduos.

0. =eX t

( ) 011

==

==n

iii

n

ii yye



Propriedades dos EstimadoresSuponha que E(e) = 0, um vetor coluna de zeros de dimenso n, e Var(e) = 2I, onde I a matriz identidade de dimenso n. Ento:b no tendencioso para , isto : E(bi) = i para i = 0,1,2,..p

A matriz de varincia-covarincia dos estimadores :

( ) ( ) 12 = XXbVAR t



Estimador da varincia dos erros

( ) ( ) ( )

1

111

2

=

=

=

=

=

pnYXbYY

pnbXXbYY

pnXbYXbY

pnSSEs

ttt

tttt



Anlise de varinciaNa anlise de varincia, o modelo completo (incluindo todas as variveis explicativas X1, X2, ..., Xp) comparado com o modelo constante, em que no esto presentes quaisquer variveis explicativas, apenas a constante 0 existe no modelo.

J vimos que no modelo constante, o estimador de mnimos quadrados de 0 a mdia dos Yse portanto a soma do quadrado dos resduos neste modelo SYY = SST.



Tabela ANOVA

claro que SSE < SYY, e novamente (como na regresso simples) a diferena entre ambos Ssreg, a soma de quadrados em Y explicada pelo modelo maior que NO explicada pelo modelo menor.

Fontegraus de liberdade SS MS

Regresso nos Xis p SSReg SSReg/pResduo n-p-1 SSE SSE/(n-p-1) = s^2TOTAL n-1 SST = SYY

Tabela ANOVA



Tabela ANOVAA importncia da regresso nos Xs determinada pelo tamanho relativo de SSRegem relao a SSE.A estatstica F a ser usada :

Se a estatstica F grande ento o modelo incluindo os Xs significantemente melhor que o modelo constante. A distribuio desta estatstica EXATAMENTE F se os erros so iidNormais.

( ) ( )1,~/Re

1//Re

ReRe

2 === pnpF

spgSS

pnSSEpgSS

sidualMSgMSF



O coeficiente de determinao (R2)Como na regresso simples:

Fornece a proporo da variabilidade dos Ys explicada pela regresso nos Xs. Pode-se mostrar que o R2 o quadrado do coeficiente de correlao mltipla entre Y e os Xs, ou seja, o quadrado da MXIMA correlao entre Y e uma funo linear dos Xs.

2 Re1t tSST SSE SSE SS g b X YR

SST SST SST SST

= = = =



R2 ajustadoProposto por Theil para comparar modelos com nmero diferente de variveis:

Exemplo numricoR2 = 0.90, p = 3, n = 20 obs, o R2 ajustado ser: 0.8813. Se o modelo passa agora a ter p = 5 variveis, o R2 ajustado cai para 0.8643.

( )2 2/( ) 11 1 1/( 1) 1adjSSE n p nR R

SST n p n p

= =



O clculo da estatstica F geral da regresso no costuma ser muito interessante.O fato que normalmente se sabe

a priori que as variveis so relacionadas e ento j se espera que o valor da estatstica F seja grande.Mais interessante olhar para o teste de hipteses referentes a variveis individuais.



Teste t para cada parmetro na regresso

Sabe-se que:

Isso nos permite formar estatsticas t:

( ) ( )( )

i

ii

b de teindependen

de principal diagonal da elemento simo-i o a onde

212

2

12

~1

,~

pn

tiiii

spnXXaNb

p...., 2, 1, 0, i para == 1~ pnii

ii tas

bt



O teste de hiptese compara o valor observado na amostra com percentisde interesse da distribuio t.

Importante o caso da significncia de uma determinada varivel, por exemplo, Xk. Esta varivel sersignificante no modelo se a estatstica t associada ao seu coeficiente for diferente de zero.



Teorema de Gauss-MarkovOs estimadores de mnimos quadrados ordinrios so BLUE (best linear unbiased estimators), ou seja, so os MELHORES estimadores LINEARES NO TENDENCIOSOS.Melhores em que sentido?No sentido de apresentarem a MENOR VARINCIA.Na classe dos estimadores lineares e no tendenciosos, os estimadores por mnimos quadrados so os que apresentam varincia mnima.



PrevisoOs resultados da estimao das equaes de regresso podem ser usados para prever a varivel dependente em valores das variveis explicativas diferentes daqueles que constavam da amostra original.

Seja u um vetor (p+1) x 1 de valores observados novos das variveis explicativas X1, X2, ..., Xp, tal que o 1. elemento de u 1 (para levar em conta o termo constante da regresso).



PrevisoEnto o valor ajustado no ponto u :

E o erro padro do valor ajustado :

Mas, no podemos esquecer que, a qualquer previso est associado um erro aleatrio, isto , a equao de previso :

E portanto o erro padro da previso torna-se:

.tY u b=

( ) 1. t terropadrao s u X X u=

. tprevistoY u b e= +

( ) 1. . . 1 t tprevisaoe p s u X X u

= +



Estimao por Mxima VerossimilhanaSuponha que os erros do modelo so independentes, Normalmente distribudos e com varincia constante.Ento os Yi so independentes Normais com mdia:

E varincia 2.

0 1 1 2 2( ) ...i i i p ipE Y X X X = + + + +



Estimao por Mxima VerossimilhanaEm termos vetoriais, podemos escrever que o vetor Y tem distribuio Normal multivariada de dimenso n com vetor de mdias X. e matriz de varincia-covarincia 2.I.Isso nos permite escrever (facilmente?) a verossimilhana:

( )( )

( ) ( )

( ) ( )

20 1 / 2 22

2/ 22

0 1 121

1 1, ,..., , exp22

12 exp ...2

tp n

nn

i i p ipi

L Y X Y X

Y X X

=

=

=



Estimao por Mxima VerossimilhanaA log-verossimilhana :

Da ltima expresso do lado direito vemos que maximizar a log-verossimilhana para os is equivalente a minimizar a soma de quadrado dos resduos e portanto o mtodo de mxima verossimilhana fornece os MESMOS estimadores dos isque o mtodo de mnimos quadrados.

( )

( ) ( )

20 1

2/ 22

0 1 121

, , ..., ,

1ln 2 ...2 2

p

nn

i i p ipi

l

n Y X X

=

=

= +



Estimao por Mxima VerossimilhanaE o estimador da varincia? um estimador tendencioso, dado por:

J vimos que s2 um estimador no tendencioso de 2, portanto:

( ) ( ) ( )2

2 11 t n p sSSEY Xb Y Xbn n n

= = =)

( ) ( )2 22 1 1( ) n p s n pSSEE E En n n

= = =

)



Variveis DummyAt agora, todas as variveis nos nossos modelos eram quantitativas. Neste caso, a magnitude da varivel de interesse. Na prtica, precisamos tambm incorporar o efeito de variveis qualitativas nos nossos modelos de regresso. Por exemplo, raa, sexo, regio do pas, estao do ano so todas variveis qualitativas.Aqui iremos considerar apenas variveis EXPLICATIVAS qualitativas a varivel dependente ser sempre quantitativa.



Variveis DummyFatores qualitativas muitas vezes aparecem na forma de variveis binrias, por exemplo: uma pessoa homem ou mulher, uma famlia tem renda acima de 20 S.M. ou no. Nestes exemplos, a informao relevante pode ser capturada definindo-se uma varivel binria. Em estatstica, variveis binrias so geralmente chamadas de dummies. Ao definir uma dummy precisamos decidir quem ser o valor 0 e quem ser o 1 e esta escolha , at certo ponto, arbitrria.



Variveis DummyPor que usar os valores 0 e 1 para representar uma varivel qualitativa? Porque simplifica a interpretao dos resultados, mas a princpio voc poderia usar quaisquer valores.

Considere o seguinte modelo:

( ) ( ) eeducacaomulhersalario +++= 210



Variveis DummyOnde salario e educacao representam o salrio por hora trabalhada e o nmero de anos de educao formal, e mulher uma dummycom valor 1 se a pessoa mulher e 0 se homem.

A interpretao do coeficiente 1 a diferena nos salrios devida ao sexo da pessoa, dado o mesmo nvel educacional. Ou seja, 1 nos diz se h discriminao contra as mulheres se 1 < 0 ento para o mesmo nvel de educao, os salrios das mulheres so menores que os dos homens.



Variveis DummySe 1 < 0, os homens ganham uma quantidade fixa a mais por hora. A reta correspondente aos homens paralela das mulheres, mas estACIMA desta ltima para todos os nveis de educao os homens ganham mais, a diferena -1.

Ou seja, as duas retas tm interceptos diferentes e o mesmo coeficiente angular. Na reta das mulheres, o intercepto 0 + 1 , que menor que o intercepto da reta dos homens (0).



Variveis DummyImagine que voc quisesse incluir duas dummies, uma para homens e outra para mulheres. O que fazer? Retirar a constante, seno voc ter colinearidade perfeita.

Mas, em termos de interpretao do modelo, no mais fcil interpretar os resultados deste ltimo do que o modelo original que propusemos.



Variveis DummyEm geral, se desejamos modelar g categorias, devemos criar g-1 variveis dummy num modelo que inclui uma constante. O grupo base o que est sendo omitido da especificao, e o intercepto da regresso representa o intercepto deste grupo. Os coeficientes das dummies so as diferenas entre o intercepto daquele grupo e do grupo base. Uma especificao alternativa incluir dummiespara todos os grupos e retirar a constante do modelo, mas isso torna a interpretao das diferenas entre grupos mais complicada.



Variveis DummyExemplo (adaptado de Wooldridge)

Os dados a seguir se referem a uma amostra de americanos em 1976. Alm das variveis salario, educ, mulher, adicionamos ao modelo a varivel tenure, que representa o nmero de anos no emprego atual.O modelo de regresso a seguir foi ajustado no software estatstico Minitab.



Variveis DummyThe regression equation issalario = - 1.57 + 0.572 educ + 0.0254 exper + 0.141

tenure - 1.81 mulher

Predictor Coef SE Coef T PConstant -1.5679 0.7246 -2.16 0.031educ 0.57150 0.04934 11.58 0.000exper 0.02540 0.01157 2.20 0.029tenure 0.14101 0.02116 6.66 0.000mulher -1.8109 0.2648 -6.84 0.000

S = 2.958 R-Sq = 36.4% R-Sq(adj) = 35.9%



Variveis DummyAnalysis of Variance

Source DF SS MS F PRegression 4 2603.11 650.78 74.40 0.000Residual Error 521 4557.31 8.75Total 525 7160.41

Source DF Seq SSeduc 1 1179.73exper 1 432.52tenure 1 581.86mulher 1 408.99



Variveis DummyInterpretao dos resultados

Todas as variveis significantes ao nvel 5%.Coeficiente de mulher = -1.81, indicando que o salrio mdio por hora de uma mulher, mantidos todos os outros fatores constantes, inferior ao de um homem em US$ 1.81.



Variveis DummyComo j controlamos o efeito das outras variveis (educao, experincia e tenure), a varivel dummy captura o efeito no salrio que no pode ser explicado por estes fatores e que pode ser atribudo ao sexo da pessoa.

Interpretao do coeficiente modelo na escala dos logs

Se a varivel dependente est expressa como log, o coeficiente da dummy deve ser interpretado como um percentual. Em geral, se o coeficiente de uma varivel dummy x1, a diferena percentual exata em y quando x1 = 1 versus quando x1 = 0 : 100(exp() 1)



Estudo de CasoConsidere a planilha ceosal1.xlsO objetivo prever o salrio do CEO (principal executivo) de uma empresa com base na performance recente da mesma e no setor em que ela atua.A planilha contm as seguintes variveis:salario = salrio do CEO em milhares de dlares de 1990var%_salario = variao percentual do salrio em 1989/1990vendas = vendas da empresa em 1990ROE = retorno da empresa 1989/1990var%ROE = variao % do ROE 1989/1990



Estudo de Caso (continuao)retorno_ao = retorno da ao 1988 a 1990set_indus = dummy indicadora do setor indstriaset_finan = dummy indicadora do setor financeiro

set_consumo = dummy indicadora do setor de bens de consumoset_transp = dummy indicadora do setor de transportes e concessionrias de servios pblicoslog_salario = logaritmo do salriolog_venda = logaritmo das vendas



Estudo de Caso (continuao)Ajuste um modelo para log(salario) em log(vendas), roe e nas variveis dummy. Use como grupo base(varivel dummy omitida) o setor de indstrias.O que voc conclui?Qual a diferena percentual em salrio, mantidas todas as outras variveis constantes, entre um CEO no setor transporte e concessionrias e outro no grupo base?



Estudo de Caso (continuao)Qual a diferena percentual em salrio (mantidas todas as outras variveis constantes) entre um CEO no setor financeiro e outro no grupo base?E entre um no setor financeiro e um no setor de bens de consumo?



Anlise dos ResduosLembre-se das hipteses bsicas sobre os erros:

IndependnciaNormalidadeVarincia constante

A anlise dos resduos deve se preocupar em verificar at que ponto estas hipteses esto sendo violadas e, se possvel, corrigir os problemas.



Anlise dos ResduosLembre-se que os erros do modelo no so observveis e portanto as hipteses feitas no podem ser diretamente testadas NELES.O que fazer? Olhamos para os resduos, que so os estimadores dos erros do modelo e verificamos se os resduos so iid Normais com varincia constante.



Anlise dos ResduosQue tipo de comportamento voc quer identificar?

Se os resduos so muito diferentes de uma Normal (atravs de um grfico de probabilidade Normal)Se existem padres bvios nos resduos (por exemplo, se y cresce, o resduo cresce)Se existe autocorrelao nos resduos.Na prtica alguns destes grficos, como a autocorrelao, no est disponveis no Excel, apenas softwares estatsticos permitem que voc faa uma anlise mais sofisticada.


Regresso Linear MRegresso Linear MltiplaltiplaAnlise dos Resduos

A seguir apresentamos os resultados e alguns grficos de resduos do modelo ajustado para o salrio dos CEOs.O modelo foi ajustado no Minitab.

The regression equation islsalary = 4.59 + 0.257 lsales + 0.0112 roe + 0.158 finance + 0.181 consprod

- 0.283 utilityPredictor Coef SE Coef T PConstant 4.5881 0.2950 15.55 0.000lsales 0.25719 0.03203 8.03 0.000roe 0.011152 0.004300 2.59 0.010finance 0.15796 0.08900 1.77 0.077consprod 0.18089 0.08477 2.13 0.034utility -0.28300 0.09923 -2.85 0.005S = 0.4598 R-Sq = 35.7% R-Sq(adj) = 34.1%Analysis of VarianceSource DF SS MS F PRegression 5 23.8110 4.7622 22.53 0.000Residual Error 203 42.9112 0.2114Total 208 66.7222



Anlise dos ResduosUnusual Observations

Obs lsales lsalary Fit SE Fit Residual St Resid15 7.4 7.6064 7.1103 0.1748 0.4961 1.17 X28 9.9 8.2543 7.2778 0.0761 0.9765 2.15R 62 6.3 5.5452 6.4528 0.0883 -0.9076 -2.01R 82 8.1 6.0890 7.0154 0.0684 -0.9263 -2.04R 87 7.9 8.3292 6.9367 0.0695 1.3925 3.06R

108 9.1 8.8009 7.2000 0.0730 1.6009 3.53R 127 8.7 6.0568 7.1514 0.0741 -1.0946 -2.41R 129 5.7 5.8861 6.2583 0.1426 -0.3722 -0.85 X133 5.2 5.4072 6.3599 0.1146 -0.9527 -2.14R 164 8.7 9.3266 7.2639 0.0611 2.0628 4.53R 166 8.3 8.2014 6.9840 0.0871 1.2173 2.70R 174 7.7 9.6039 6.9599 0.0644 2.6439 5.81R R denotes an observation with a large standardized residualX denotes an observation whose X value gives it large influence.

O MINITAB fornece uma lista de observaes com resduo padronizado grande ou que tm grande influncia na regresso.

Valor ajustado

Resduo Resduo padronizado



Anlise dos Resduos Resduos x Distribuio Normal

3210-1

3

2

1

0

-1

-2

-3

Nor

mal

Sco

re

Residual

Normal Probability Plot of the Residuals(response is lsalary)

Uma reta indica que os resduos so Normais quanto mais curvo este grfico, menos Normais os resduos



Anlise dos ResduosResduos x Valores Ajustados

8.07.57.06.5

3

2

1

0

-1

Fitted Value

Resi

dual

Residuals Versus the Fitted Values(response is lsalary)



Anlise dos Resduos Histograma dos Resduos

3210-1

60

50

40

30

20

10

0

Residual

Freq

uenc

y

Histogram of the Residuals(response is lsalary)



Inadequao das Hipteses do Modelo: multicolinearidade

Uma das hipteses do modelo de regresso mltipla que no ocorre multicolinearidade perfeita, ou seja, o posto da matriz X (p+1), igual ao nmero de s a serem estimados.

O que acontece se esta hiptese for violada? A matriz (XtX) no poder ser invertida e portanto os estimadores de mnimos quadrados no podero ser calculados.



MulticolinearidadeMas, este um caso extremo. Os problemas em que a inverso matemtica desta matriz impossvel so chamados de mal condicionados.

Na prtica, o que se v alta correlao entre uma ou mais variveis. Qual o efeito disso?



MulticolinearidadeExemplo 1 multicolinearidade perfeita

XtX no pode ser invertida (seu determinante zero)

=

=

40202010

6321

XXX t



MulticolinearidadeExemplo 2 multicolinearidade quaseperfeita

XtX pode ser invertida (seu determinante pequeno mas diferente de zero). Note como os elementos da inversa de XtX so grandes!

( )

=

=

=

1000197019703881

81.387.197.1910

9.5321

1XX

XXX

t

t



MulticolinearidadeExemplo 3 NO EXISTE multicolinearidade

XtX pode ser invertida SEM PROBLEMAS. Note como os elementos da inversa de XtX so muito diferentes do exemplo anterior.

( )

=

=

=

10171729

29171710

5321

1XX

XXX

t

t



MulticolinearidadeLembre-se que o estimador de mnimos quadrados :

Dos exemplos anteriores, o efeito da multicolinearidade sobre este estimador deve ter ficado claro. Se as colunas de X forem muito dependentes (exemplo 2), XtX pode ser invertida mas seu determinante quase zero, e a inversa tem valores muito grandes.

( ) YXXXb tt 1=



MulticolinearidadeO impacto sobre os estimadores tambm grande. Qualquer pequena mudana numa das variveis pode mudar completamente o valor estimado do parmetro.Alm disso...

Se h multicolinearidade, a varincia dos estimadores ser grande (enorme?).

( ) ( ) 12 = XXbVAR t



MulticolinearidadeQual o impacto deste ltimo problema?Lembre-se que o desvio padro dos estimadores (com s substituindo ) entra no clculo das estatsticas t que avaliam a significncia dos parmetros.Ento, o que pode acontecer?O denominador da estatstica t sermuito grande, a estatstica t ser muito pequena, indicando que o parmetro no significante....



MulticolinearidadeLogo, muitas vezes a multicolinearidade estar escondendo a significncia dos parmetros.Como saber se isso est acontecendo de fato?Olhe para o R2 e a estatstica F da regresso. Nenhum deles envolve o clculo da inversa de (XtX). Se o R2 for alto, a estatstica F for significante e existirem vrias estatsticas t insignificantes, um bom indcio de colinearidade.



MulticolinearidadeComo e por que surge?Na verdade, est muitas vezes relacionada a um tamanho insuficiente de amostra. Por exemplo, no caso de dados econmicos, comum que diversas variveis, num determinado intervalo de tempo, se mexam na mesma direo, gerando a multicolinearidade.



MulticolinearidadeComo identificar?

D uma olhada na matriz de correlao amostral das suas variveis explicativas.

Se existem diversas variveis altamente correlacionadas, muito provavelmente voc vai enfrentar o problema da multicolinearidade.



MulticolinearidadeComo resolver?

Retire algumas das variveis altamente correlacionadas do seu modelo, isto , comece a rodar seqncias de modelos menores.

Uma soluo automtica para isso o procedimento de regresso stepwise, que tem um nico problema: pode gerar modelos sem muito sentido fsico ou econmico.



MulticolinearidadeE se a gente no fizer nada, o que acontece?

Depende... Se o modelo for empregado para gerar previses, a multicolinearidade nem sempre um transtorno. Os estimadores continuam no tendenciosos o problema a varincia estimada!



Inadequao das Hipteses do Modelo: heterocedasticidade

Em muitas situaes prticas, a hiptese de que a varincia dos erros constante questionvel.

Por exemplo, se uma varivel dependente positiva tem valores num intervalo que vai atmilhares, intuitivo que as respostas prximas de zero geralmente sero menos variveis que as respostas em valores altos, pois estas ltimas tem mais espao para oscilar.



HeterocedasticidadeComo identificar?

Grficos de resduos versus valores ajustados ou variveis explicativas.Heterocedasticidade observada atravs de um padro como um cone aberto para a direita ou para a esquerda.Um padro parecido com uma noz pode ser observado se a varivel resposta um uma porcentagem percentuais altos ou baixos so menos variveis que aqueles prximos de 50%.



HeterocedasticidadeComo resolver?

Tranformaes para a estabilizao da varincia transformaes aplicadas varivel resposta Y.Algumas transformaes comuns so:raiz(Y) dados de contagensLog(Y) quando Y > 0 e o intervalo de valores possveis de Y muito largoLog(Y + 1) mesma situao que acima, mas alguns dos Y = 0



HeterocedasticidadeComo resolver?

1/Y quando a varivel resposta estamontoada perto de zero, mas decresce rpido, embora existam alguns valores altos.1/(Y + 1) mesma situao que acima, mas alguns Ys = 0Arc seno{ raiz(Y) } se 0 Y 1 (ou seja, Y uma proporo Binomial)



Inadequao das Hipteses do Modelo: autocorrelao dos resduos

Lembre-se que uma das hipteses fundamentais do modelo a independncia dos erros.Logo, se os resduos so correlacionados, esta hiptese foi violada.Por que? O que geralmente leva a este problema?O mais comum so os problemas de especificao.



Autocorrelao dos resduosAo omitir alguma varivel relevante, os resduos do modelo podero se tornar autocorrelacionados.

Muitas vezes tambm procedimentos de dessazonalizao de sries temporais geram autocorrelao nos resduos.



Autocorrelao dos resduosConseqncias

Suponha o seguinte modelo:

1 e iid so os e .e:onde

1t

10



Autocorrelao dos resduosComo detectar?

( )

=

=

= n

tt

n

ttt

e

eeDW

1

2

2

21

onde n o nmero de observaes e t o t-simo resduo do modelo

A estatstica de Durbin-Watson est relacionada com o estimador de (que mede a autocorrelao dos erros).

Pode-se provar que:( )12 DW



Autocorrelao dos resduosComo detectar?

Note que o numerador da estatstica DW consiste na diferena ao quadrado entre resduos sucessivos, e o denominador apenas a soma dos quadrados dos resduos.

Existem n-1 termos na soma no numerador e n no denominador (por que?)



Autocorrelao dos resduosComo usar a estatstica DW?

Se = 0 ento DW 2Se 0 < < 1 ento 0 < DW < 2 (caso mais comum na prtica)Se -1 < < 0 ento 2 < DW < 4

Durbin e Watson derivaram a distribuio amostral de sua estatstica. Dependendo do valor encontrado, o teste pode ser inconclusivo.



Autocorrelao dos resduosComo usar a estatstica DW?

O teste mais comum o das hipteses:H0: = 0 versusH1: > 0

A hiptese nula ser rejeitada se DW estiver longe de 2 (se DW for pequeno).

Em geral preciso compara a estatstica DW com DOIS valores crticos, dL e dU. A hiptese nula rejeitada se DW < dL. Se DW cai no intervalo entre dL e dU, o teste inconclusivo, e se DW > dU , a hiptese nula no rejeitada.



Autocorrelao dos resduosLimitaes da estatstica DW

No usar se o modelo contm, como varivel explicativa, a varivel dependente defasada.A estatstica DW no mede o efeito de autocorrelaes de ordem maior que 1. Tambm no captura efeitos MA nos erros.O modelo estimado deve incluir uma constante.



Referncias mdulo de regressoGujarati, D. (2003) Basic Econometrics, McGraw-Hill, New York.Pindyck, R.S. & Rubinfeld, D. (1998) -Econometric Models and Economic Forecasts, McGraw-Hill, New York.Vasconcellos, M.A.S. & Alves, D. (editores) (2000) Manual de Econometria: nvel intermedirio, Ed. Atlas, So PauloWeisberg, S. (1980) Applied Linear Regression, John Wiley & Sons, New York.Wooldridge, J. M. (2000) Introductory Econometrics: A Modern Approach. South-Western College Publishing, a division of Thomson Learning.

módulo de regressão e séries temporais - mbarros.com · [email protected]@mbarros.com 1...

Documents