módulo de regressão e séries temporais - mbarros.com · [email protected]@mbarros.com 1...

51
[email protected] [email protected] 1 M M ó ó dulo de Regressão e S dulo de Regressão e S é é ries ries Temporais Temporais Mônica Barros, Mônica Barros, D.Sc. D.Sc. Maio de 2007 Maio de 2007 [email protected] [email protected] 2 Quem sou eu? Quem sou eu? Mônica Barros Doutora em Séries Temporais – PUC-Rio Mestre em Estatística – University of Texas at Austin, EUA Bacharel em Matemática – University of Washington, Seattle, EUA Professora da PUC-Rio (Depto. De Eng. Elétrica) E-mails: [email protected], [email protected] Home page: http://www.mbarros.com [email protected] [email protected] 3 Programa do Curso Programa do Curso Uma visão gerencial da Estatística e Séries Temporais Conceitos Parâmetros Modelo Linear Modelos AR(1), AR(2), AR(p) e PAR(p) Modelos de Séries Temporais Estatísticas de “erros” [email protected] [email protected] 4 Programa do Curso Programa do Curso Regressão Linear Simples Modelo Estimação (Mínimos Quadrados Ordinários e Máxima Verossimilhança) Análise dos resíduos Estimação da variância dos resíduos Inferências para os parâmetros Variáveis dummy Exercícios

Upload: trinhnguyet

Post on 20-Sep-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

  • [email protected]@mbarros.com 1

    MMdulo de Regresso e Sdulo de Regresso e Sries ries TemporaisTemporais

    Mnica Barros, Mnica Barros, D.Sc.D.Sc.

    Maio de 2007Maio de 2007

    [email protected]@mbarros.com 2

    Quem sou eu?Quem sou eu?

    Mnica BarrosDoutora em Sries Temporais PUC-RioMestre em Estatstica University of Texas at Austin, EUABacharel em Matemtica University ofWashington, Seattle, EUAProfessora da PUC-Rio (Depto. De Eng. Eltrica)E-mails: [email protected], [email protected] page: http://www.mbarros.com

    [email protected]@mbarros.com 3

    Programa do CursoPrograma do Curso

    Uma viso gerencial da Estatstica e Sries Temporais

    ConceitosParmetrosModelo LinearModelos AR(1), AR(2), AR(p) e PAR(p)Modelos de Sries TemporaisEstatsticas de erros

    [email protected]@mbarros.com 4

    Programa do CursoPrograma do Curso

    Regresso Linear Simples Modelo Estimao (Mnimos Quadrados Ordinrios e Mxima Verossimilhana)Anlise dos resduos Estimao da varincia dos resduosInferncias para os parmetrosVariveis dummyExerccios

  • [email protected]@mbarros.com 5

    Programa do CursoPrograma do Curso

    Regresso Linear Mltipla Modelo Estimao (Mnimos Quadrados Ordinrios e Mxima Verossimilhana)Anlise dos resduos Estimao da varincia dos resduos Inferncias para os parmetros Colinearidade Exerccios

    [email protected]@mbarros.com 6

    Programa do CursoPrograma do Curso

    Introduo s sries temporaisObjetivosEscopoMtodos de estimaoLimitaesOverview dos principais mtodos quando e onde us-los

    [email protected]@mbarros.com 7

    Programa do CursoPrograma do Curso

    Mtodos de Amortecimento ExponencialModelos de mdias mveisModelo de BrownModelo de Holt-WintersEstimao dos parmetros Estatsticas de ajustes e anlise dos resduos

    Exerccios

    [email protected]@mbarros.com 8

    Programa do CursoPrograma do Curso

    Modelagem ARIMA de Box & Jenkinssazonal e no sazonal

    Funo de autocorrelao e autocorrelaoparcial Modelo Identificao de (p, q, d, P, Q, D) Estimao Estatsticas de ajuste e anlise dos resduos Exerccios

  • [email protected]@mbarros.com 9

    Programa do CursoPrograma do Curso

    Modelos de Regresso Dinmica Funo de correlao cruzada Modelo Identificao/estimao Estatsticas de ajustes e anlise dos resduos Exerccios

    [email protected]@mbarros.com 10

    Nota Nota InstalaInstalao das Ferramentas o das Ferramentas de Ande Anlise do Excellise do Excel

    Muitas das tcnicas descritas aqui requerem a prvia instalao do suplemento (add-in) Ferramentas de Anlise do Excel. O procedimento de instalao descrito a seguir:

    No menu Ferramentas, selecione Suplementos e na caixa de dilogo que ser aberta marque a opo Ferramentas de anlise. Se esta opo no estiver presente, clique procurar para encontrar o arquivo correspondente (em geral chamado Analys32.xll) ou rode novamente o set-updo MS-Office.

    [email protected]@mbarros.com 11

    ForecastForecast ProPro

    Neste curso tambm sernecessrio (nos mdulos especficos de sries temporais), o uso do software Forecast Pro XE, jutilizado pelo ONS.

    Este software permite o ajuste de modelos de amortecimento exponencial, ARIMA e SARIMA e modelos de regresso dinmica.

    [email protected]@mbarros.com 12

    Srie TemporalSSrie Temporalrie Temporal

    Conjunto de observaes ordenadas no tempo.Suponha que temos uma srie temporal de cargas eltricas. Ento:y1, y2, ..., yn onde yt a carga no instante t.

    Existe dependncia entre as cargas de diversos instantes. Isto nos permite usar cargas passadas para prever a carga futura.

  • [email protected]@mbarros.com 13

    ModeloModeloModelo

    uma representao simplificada da realidade.

    Por exemplo, voc observa duas variveis X e Y e faz um grfico dos n pontos (x1,y1), x2,y2), ...(xn,yn). O grfico tem a cara:

    [email protected]@mbarros.com 14

    ModeloModelo

    Anlise da Regresso - Vendas versus Nmero Clientes

    y = 0.0087x + 2.423R2 = 0.9119

    4.00

    5.00

    6.00

    7.00

    8.00

    9.00

    10.00

    11.00

    12.00

    13.00

    400 500 600 700 800 900 1000 1100

    Clientes

    Vend

    as

    [email protected]@mbarros.com 15

    Modelo LinearModelo LinearModelo Linear

    Nesse exemplo a relao entre X e Y , como o grfico revela, aproximadamente linear.

    Nosso objetivo: achar a reta que relaciona Y e X. Qual reta? Como encontr-la?

    O mtodo tradicional chamado de mnimos quadrados.

    [email protected]@mbarros.com 16

    Modelo LinearModelo Linear

    Mtodo de Mnimos QuadradosComo funciona? O objetivo minimizar a soma dos quadrados dos erros(resduos).Que erros so esses?Para cada ponto, o resduo o valor real menos o valor previsto pela reta.Pode-se notar que o resduo vai depender de qual reta foi ajustada.

  • [email protected]@mbarros.com 17

    Modelo LinearModelo Linear

    Por exemplo, se ajustamos a reta y = 3 + 2x, se o valor de xi 2, ento yiajustado pela reta igual a 7. Se agora a reta y = 4 + 2x, para xi = 2 temos o yi ajustado pela reta igual a 8.

    Imagine que o valor real de yi seja 8.5 quando xi 2. Ento, o resduo gerado pela reta 3 + 2x 8.5 7 = 1.5 e pela reta 4+x 8.5 8 = 8.

    [email protected]@mbarros.com 18

    Modelo LinearModelo Linear

    Ento, no que diz respeito a esse ponto (xi =2), a reta 4 + 2x foi melhor que a reta 3 +2x pois gerou um resduo menor.

    Em geral, dados n pares de pontos (x1,y1), x2,y2), ...(xn,yn), voc pode ajustar uma reta y =b0 + b1.x a todos os pares.

    Note que os coeficientes b0 e b1 so os mesmos para todos os pares de pontos.

    [email protected]@mbarros.com 19

    Modelo LinearModelo Linear

    O resduo do i-simo par :

    O mtodo de mnimos quadrados procura obter a reta (ou seja, os coeficientes b0 e b1) tais que a soma dos quadrados dos resduos seja minimizada.

    iiiii previstorealyye ==

    [email protected]@mbarros.com 20

    Modelo LinearModelo Linear

    Mtodo de Mnimos QuadradosAche b0 e b1 tais que a expresso:

    seja minimizada. Esta soma acima chamada de Soma dos Quadrados dos Resduos(s vezes, Soma dos Quadrados dos Erros).

    ( ) ( )===

    ==n

    iii

    n

    iii

    n

    ii xbbyyye

    1

    210

    1

    2

    1

    2

  • [email protected]@mbarros.com 21

    Modelo LinearModelo Linear

    Erro versus ResduoErro = varivel aleatria no observvel, com mdia zero e varincia constante 2.

    Resduo = estimador (chute) para o erro. observvel, calculado como valor real valor previsto pelo modelo.Isso causa alguma confuso, pois s vezes a gente chama de erro o que , na verdade, o resduo.

    [email protected]@mbarros.com 22

    Modelo LinearModelo LinearModelo Linear

    O modelo linear :yi =b0+ b1xi + ei para i =1, 2, ..., n

    Onde ei o erro, uma varivel com mdia 0 e varincia constante 2.

    Os parmetros do modelo so b0, b1e 2, so constantes desconhecidas que devem ser estimadas.

    [email protected]@mbarros.com 23

    Modelo AR(1)Modelo AR(1)Modelo AR(1)

    Parmetro = tudo que precisa ser estimado para especificar completamente o modelo.

    Modelo AR(1)AR(1) = autoregressivo de ordem 1

    yt = y t-1 + etyt = carga no ms tYt-1 = carga no ms t-1et = erro no ms t

    [email protected]@mbarros.com 24

    Modelo AR(1)Modelo AR(1)Modelo AR(1)

    Parmetros: , 2 (varincia do erro)

    Caso Particular: Passeio Aleatrio (Random Walk)AR(1) com =1 yt = yt-1 + etUso: mercado de aesNa mdia, preo da ao hoje = preo da ao ontem (no ajuda muito para ganhar dinheiro!!)

  • [email protected]@mbarros.com 25

    RandomRandom WalkWalk

    O grfico a seguir mostra um exemplo de um passeio aleatrio em que y0 = 100 e os erros so Normais com mdia zero e desvio padro 2.

    Foram geradas 500 observaes.

    Voc poderia confundir o grfico com a da evoluo do preo de uma ao no tempo, no mesmo?

    [email protected]@mbarros.com 26

    RandomRandom WalkWalk

    Grfico de uma "Random Walk"

    50

    70

    90

    110

    130

    150

    170

    190

    210

    230

    1 14 27 40 53 66 79 92 105

    118

    131

    144

    157

    170

    183

    196

    209

    222

    235

    248

    261

    274

    287

    300

    313

    326

    339

    352

    365

    378

    391

    404

    417

    430

    443

    456

    469

    482

    495

    [email protected]@mbarros.com 27

    Modelo AR(1)Modelo AR(1)Modelo AR(1)

    Exemplo efeito de 2

    yt = 1,05.yt-1 + etCarga do ms t = 105% da carga do ms t-1 + erro.Suponha que yt-1 = 100.

    a) VAR(et) = 1b) VAR(et) = 100

    Por exemplo, se fosse possvel observar o erro poderamos encontrar algo como:

    [email protected]@mbarros.com 28

    Modelo AR(1)Modelo AR(1)Modelo AR(1)

    a) et = 1,05 valor pequeno pois foi tirado de uma distribuio de prob. com mdia 0 e varincia 1.

    b) et = 10,32 valor grande porque a distribuio de prob. tem varincia grande (100).

    Resultados:a) yt = 105 + 1,05 = 106,05b) yt = 105 + 10,32 = 115,32

  • [email protected]@mbarros.com 29

    Modelo AR(2)Modelo AR(2)Modelo AR(2)

    yt = 1 yt-1 + 2 yt-2 + etOnde:et = erro no instante t com mdia 0 e

    varincia 2

    yt = carga no instante tyt-1 = carga no instante t-1yt-2 = carga no instante t-2Parmetros: 1, 2 e 2 .

    [email protected]@mbarros.com 30

    Modelo AR(p)Modelo AR(p)Modelo AR(p)

    Modelo Autoregressivo de ordem pyt = 1 yt-1 + 2 yt-2 + .. + p yt-p+ et

    A carga deste ms depende das cargas dos p ltimos meses. Existem p + 1 parmetros a serem estimados: os s e a varincia do erro.

    [email protected]@mbarros.com 31

    Modelo PAR(p)Modelo PAR(p)Modelo PAR(p)

    PAR(p) = Modelo AutoregressivoPeridico de ordem p.

    Contexto: NewaveModelos para previso de vazes. Um modelo AR diferente para cada ms. Restrio do Newave - p mximo = 6 meses. (p = ordem do modelo).

    [email protected]@mbarros.com 32

    Modelo de Sries TemporaisModelo de SModelo de Sries Temporaisries Temporais

    Resduo no instante t:t = real previsto no instante t

    Por exemplo, para dez/06, o resduo o valor real de dezembro de 2006 menos o valor previsto para o mesmo ms. S vai poder ser calculado quando o valor real de 12/2006 estiver disponvel!

    srie yt Modelo

    previsao ^yt

    resduo yt - ^yt

  • [email protected]@mbarros.com 33

    Modelo de Sries TemporaisModelo de SModelo de Sries Temporaisries Temporais

    Mas posso olhar para os resduos in sample (dentro da amostra) no perodo em que o modelo foi ajustado.

    Por exemplo, suponha que o modelo foi ajustado no perodo jan/03 a abr/06. Neste perodo todo posso fazer a comparao entre o valor real e o ajustado pelo modelo (fittedvalue), calculando o resduo a cada instante.

    Um exemplo est na prxima [email protected]@mbarros.com 34

    Modelo de SModelo de Sries Temporaisries Temporais

    O grfico a seguir mostra uma srie de carga real (em preto) e ajustada por um modelo (em vermelho).

    Legend C_TOTAL

    [email protected]@mbarros.com 35

    Modelo de Sries TemporaisModelo de SModelo de Sries Temporaisries Temporais

    Perodo de ajuste (in sample)Perodo de previso (out of sample)No grfico anterior, o perodo de ajuste vai de janeiro de 1994 a dezembro de 2005, e o perodo de previso o ano de 2006.

    y

    tempo Perodo de ajuste Perodo de Previso

    12/05

    Observado em 2006

    [email protected]@mbarros.com 36

    Modelo de Sries TemporaisModelo de SModelo de Sries Temporaisries Temporais

    Voc ajustaria o seguinte modelo: In sample = 12 meses, Out of sample = 24 meses?

    No! E o contrrio? Sim, desde que a srie no fosse muito mal comportada. Em resumo previso de sries temporais no futurologia! Voc precisa de dados passados para fazer previso!

  • [email protected]@mbarros.com 37

    Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros

    Estatstica de erros (resduos)

    MAPE = erro absoluto mdio percentualerro percentual no instante i:

    (yi - ^yi)/ yi

    erro percentual absoluto no instante i:|yi - ^yi/ yi |

    Ms Real Previsto Resduo1 y1 ^y1 1 = y1 - ^y12 y2 ^y2 2 = y2 - ^y2... ... ... ...n yn ^yn n = yn - ^yn

    [email protected]@mbarros.com 38

    Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros

    Erro absoluto percentual absoluto no instante i:

    |(yi - ^yi)/ yi| = |(real previsto)/real|

    MAPE = mdia destes erros absolutos percentuais

    Vantagem: fcil de entender - a escala %

    Desvantagem: Se o valor real pequeno, qualquer discrepncia na previso faz o MAPE explodir.

    ==

    =

    =

    n

    i i

    iin

    i i

    ii

    realprevistoreal

    nyyy

    nMAPE

    11

    11

    [email protected]@mbarros.com 39

    Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros

    MAD = mean absolute deviation = desvio absoluto mdio

    O MAD est nas mesmas unidades que a sua srie.Por que o mdulo?Para evitar soma = 0 quando um erro grande e positivo e outro grande e negativo!

    1 1

    1 1n n

    i i i ii i

    MAD y y real previston n= =

    = =

    [email protected]@mbarros.com 40

    Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros

    EQM = erro quadrtico mdio

    RMSE = root mean squared error = raiz do EQM

    Vantagem sobre EQM => mesma escala que os dados.

    ( ) ( )===

    ===n

    iii

    n

    iii

    n

    ii previstorealn

    yyn

    en

    EQM1

    2

    1

    2

    1

    2 111

    ( ) ( )2 221 1 1

    1 1 1 n n n

    i i i i ii i i

    RMSE EQM e y y real previston n n= = =

    = = = =

  • [email protected]@mbarros.com 41

    Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros

    Erro puro:

    Vantagem: mesma escala que os dados.

    Desvantagem: no d para sair somando! Se voc fizer isso corre o risco de achar que seu modelo bom quando no , pois erros de sinais opostos podero se cancelar.

    i i ie y y=

    [email protected]@mbarros.com 42

    Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros

    O que fazer com tudo isso isso?O que desejvel? Se o modelo bom, resduo no tem padro, no tem estrutura.

    Faa grficos dos resduos puros ou MAPE, ou MAD ou EQM, ou RMSE.Que tipo de grficos?

    Por exemplo, grfico dos erros ao longo do tempo. Serve para responder como o seu modelo se comportou no in sample e verificar a existncia de possveis padres.

    [email protected]@mbarros.com 43

    EstatEstatsticas de sticas de ErrosErros

    Resduo

    tempo

    Isto Isto tudo que eu tudo que eu no quero.no quero.

    Por que?Por que?ResResduo com um duo com um

    padro claro (positivo, padro claro (positivo, negativo, positivo, negativo, positivo, negativo, ...).negativo, ...).

    [email protected]@mbarros.com 44

    EstatEstatsticas de sticas de ErrosErros

    Resduo

    tempo

    Tambm no quero um padro desses todos os resduos so negativos, indicando que a minha previso esteve sempre ACIMA do real

  • [email protected]@mbarros.com 45

    EstatEstatsticas de sticas de ErrosErros

    Grfico dos erros versus o horizonte de previso.

    Serve para responder se as previses se deterioram rpido ou no.

    y

    x

    realizado

    Out of sample

    Previsto

    [email protected]@mbarros.com 46

    Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros

    Grfico da Autocorrelao dos errosCorrelao entre os erros em diversos instantesACF = autocorrelation functionGrfico da ACF versus lag (defasagem) tambm chamado de correlograma.

    O que voc no quer?Que exista correlao entre resduos em

    instantes diferentes.

    [email protected]@mbarros.com 47

    EstatEstatsticas de sticas de ErrosErros

    Por que voc no quer que o grfico da ACF dos resduos mostre padres?

    Porque se existe dependncia temporal na srie, toda esta dependncia teria que ser, idealmente, capturada pelo modelo, no deveria ter sobrado nada nos resduos!

    [email protected]@mbarros.com 48

    Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros

    Casos comuns...

    Ateno: A autocorrelao sempre um nmero entre 1 e +1

    No grfico anterior:Resduo grande e positivo no instante t leva a um resduo grande e positivo no instante t+1

    Resduos do instante t dependedo resduo do instante t-1

    lag (defasagem)

    1

  • [email protected]@mbarros.com 49

    Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros

    Outros Padres:

    Resduos nos instantes t e t-12 tm dependncia.

    ACF

    12

    12

    ACF

    [email protected]@mbarros.com 50

    Estatsticas de ErrosEstatEstatsticas de sticas de ErrosErros

    Em resumo...Se o modelo bom o rudo branco, o resduo no tem estrutura. Se houver padres no resduo fique esperto!

    [email protected]@mbarros.com 51

    Regresso Linear Simples

    [email protected]@mbarros.com 52

    Regresso LinearRegresso Linear

    Modelos de regresso linear relacionam uma varivel dependente ou varivel de resposta, Y, a uma ou mais variveis explicativas (tambm chamadas covariveis ou variveis independentes), X.

    O modelo linear nos parmetros que relacionam Y aos Xs.

    A estimao destes modelos geralmente feita por mnimos quadrados ordinrios, e os estimadores obtidos por este algoritmo so timos sob certas condies, dadas pelo teorema de Gauss e Markov.

  • [email protected]@mbarros.com 53

    Objetivos dos Modelos de Objetivos dos Modelos de Regresso LinearRegresso Linear

    Estudar a relao entre variveis, para se testar causalidade (linear) entre as variveis (ECONOMETRIA).

    Possibilitar anlises de cenrios ("What if analysis")

    Permitir eventualmente a previso da varivel dependente. (SRIES TEMPORAIS, REGRESSO DINMICA)

    [email protected]@mbarros.com 54

    Regresso Linear SimplesRegresso Linear Simples

    Dependncia Linear entre X e Y O diagrama de disperso tem o seguinte aspecto:

    [email protected]@mbarros.com 55

    Regresso Linear SimplesRegresso Linear Simples

    S uma varivel explicativaEsto disponveis n pares de observaes (xi, yi) um erro aleatrio com mdia zero e varincia constante 2 . Em muitas situaes supomos que o erro Normal, o que nos permite obter intervalos de confiana e realizar testes de hipteses.

    Parmetros desconhecidos: A equao que a relao entre y e x chamada de modelo de regresso:

    ++= x.Y 10

    210 e ,

    [email protected]@mbarros.com 56

    Regresso Linear SimplesRegresso Linear Simples

    No caso de regresso linear simples, temos:

    y = 0 + 1x +

    uma varivel aleatria chamada de erro da regresso e representa a variao de y que no pode ser explicada por sua relao linear com x por definio, seu valor esperado zero

    Portanto, o valor esperado ou valor mdio de y est relacionado com x atravs de E(y) = 0 + 1x

  • [email protected]@mbarros.com 57

    Regresso Linear SimplesRegresso Linear Simples

    Hipteses sobre os erros da regressoConsidere o modelo yi = 0 + 1xi + i para i = 1, 2, ..., n (ou seja, temos n pares de observaes (xi, yi).

    Os erros i satisfazem as seguintes hipteses:Mdia zero E(i) = 0 para todo iVarincia constante VAR(i) = 2 para todo i (hiptese de homocedasticidade)Os i so Normais, o que nos permite desenvolver intervalos de confiana e testes de hipteses.Os i so independentes (ou, pelo menos,

    descorrelatados).

    [email protected]@mbarros.com 58

    Regresso Linear SimplesRegresso Linear Simples

    O grfico da relao entre x e y uma reta (reta de regresso)

    0 chamado de intercepto (ou coef. Linear)1 chamado de inclinao (ou coef. Angular da reta)

    Se os parmetros 0 e 1 fossem conhecidos, poderamos utilizar o modelo de regresso linear simples para determinar o valor esperado de y para um dado valor de x.

    [email protected]@mbarros.com 59

    Regresso Linear SimplesRegresso Linear Simples

    Na prtica, esses parmetros no so conhecidos e precisam ser estimados.

    Utilizamos observaes emparelhadas de x e y para determinar os estimadores de 0 e 1 b0 e b1 respectivamente, obtendo a seguinte equao de regresso.

    Para determinar b0 e b1 utilizamos o mtodo dos mnimos quadrados.

    0 1 para i = 1,2, ..., ni iy b b x= +

    [email protected]@mbarros.com 60

    Regresso Linear SimplesRegresso Linear Simples

    Nesse mtodo, os valores de b0 e b1 so tais que a soma dos quadrados das diferenas entre os valores de y observados (yi) e seus respectivos valores estimados pela equao de regresso (yi) mnima:

    Ou seja, o mtodo de mnimos quadrados minimiza a soma do quadrado dos resduos.

    =

    n

    iii yy

    1

    2)(min

  • [email protected]@mbarros.com 61

    Regresso Linear SimplesRegresso Linear Simples

    Ou seja, os estimadores b0 e b1 so obtidos de tal forma que:

    Seja minimizada.E como fazer isso? Note que a soma do quadrado dos resduos (SSE) funo de ambos b0 e b1. Para garantir que esta funo est sendo minimizada, precisamos encontrar seus pontos crticos (aqueles em que as primeiras derivadas em relao a b0 e b1 so zero) e verificar o sinal das segundas derivadas, que devem ser positivos.

    ( ) ( )2 22 0 11 1 1

    n n n

    i i i i ii i i

    SSE e y y y b b x= = =

    = = =

    [email protected]@mbarros.com 62

    Regresso Linear SimplesRegresso Linear Simples

    Ento, para encontrar os estimadores b0 e b1basta fazer:

    E verificar o sinal das 2as. derivadas nos pontos crticos.Os valores de b0 e b1 so dados por:

    0010

    =

    =

    bSSE

    bSSE e

    ( )

    =

    nx

    x

    nyx

    yxb

    ii

    iiii

    22

    1xbyb 10 =

    [email protected]@mbarros.com 63

    Regresso Linear SimplesRegresso Linear Simples

    Da equao anterior direita notamos que a reta ajustada por mnimos quadrados passa pelo ponto , isto , pelo ponto mdio dentre todos os n pontos (xi, yi) usados para estimar a reta de regresso.

    ( )yx,

    [email protected]@mbarros.com 64

    Regresso Linear SimplesRegresso Linear Simples

    Sejam:

    Ento podemos escrever:

    ( ) ( )

    ( ) ( )

    ( )( ) ( )( )

    22 2 2 2

    12

    2 2 2 2

    1

    1

    .

    . , a soma de quadrados total

    . .

    ni

    i i ii

    ni

    i i ii

    ni i

    i i i i i ii

    xSXX x x x x n x

    n

    ySYY y y y y n y SST

    nx y

    SXY x x y y x y x y n x yn

    =

    =

    =

    = = =

    = = = =

    = = =

    1 0 1 e .SXYb b y b xSXX

    = =

    Note que ambos b0 e b1so variveis aleatrias, pois so funes dos ys, que so v.a.

  • [email protected]@mbarros.com 65

    Regresso Linear SimplesRegresso Linear Simples

    Propriedades dos Estimadores MQO (mnimos quadrados ordinrios)

    b0 e b1 so no tendenciosos, isto :

    As varincias de b0 e b1 so:

    ( ) ( )0 0 1 1 e E b E b = =

    ( ) ( )2 2

    21 0

    1 e xVAR b VAR bSXX n SXX

    = = +

    onde 2, como j vimos, a varincia do erro.

    [email protected]@mbarros.com 66

    Regresso Linear SimplesRegresso Linear Simples

    Propriedades dos Estimadores MQOA covarincia entre b0 e b1 :

    Dos resultados anteriores nota-se que as varincias e covarincias dos estimadores MQO dependem de 2 (a varincia do erro), que uma quantidade desconhecida. Como estim-la?

    ( ) ( )2

    0 1,x

    COV b bSXX

    =

    2

    2SSEsn

    =

    [email protected]@mbarros.com 67

    Regresso Linear SimplesRegresso Linear Simples

    O modelo de regresso desenvolvido aproxima a relao linear entre as variveis x e y

    Uma pergunta importante: quo bem o modelo de regresso representa essa relao linear?

    O coeficiente de determinao (R2) da regresso nos d uma medida do ajuste do modelo de regresso aos dados utilizados e ser definido daqui a pouco.

    [email protected]@mbarros.com 68

    Regresso Linear SimplesRegresso Linear Simples

    O i-simo resduo a diferena entre o valor observado yi e o valor estimado pela equao de regresso, e representa o erro obtido ao estimarmos yi.

    Ou seja:

    O mtodo de mnimos quadrados encontra os coeficientes b0 e b1 que minimizam a soma dos quadrados desses resduos.

    0 1 i i i i ie y y y b b x= =

  • [email protected]@mbarros.com 69

    Regresso Linear SimplesRegresso Linear Simples

    Agora suponha que queremos estimar um modelo constante, ou seja, yi = c + erro

    Sem o conhecimento de nenhuma varivel explicativa, ou seja, sem o modelo de regresso, a nossa melhor estimativa seria o valor mdio das observaes de y,

    Para a i-sima observao de y, yi, a diferena nos fornece uma medida do erro cometido ao estimarmos yi a partir de

    y

    yyi

    y

    [email protected]@mbarros.com 70

    Regresso Linear SimplesRegresso Linear Simples

    Definimos como soma total dos quadrados, SST (do ingls total sum ofsquares), a soma do quadrado dessas diferenas:

    A soma dos quadrados devidos regresso, SSReg (do ingls sum ofsquares due to regression) dada por:

    ( )2iSST SYY y y= =

    ( )2Re iSS g y y=

    [email protected]@mbarros.com 71

    Regresso Linear SimplesRegresso Linear Simples

    Ou seja, a SST (Soma dos Quadrados Total) a soma dos quadrado dos resduos quando o modelo estimado um modelo constante, isto , quando ignoramos a relao entre x e y.

    Se a relao entre x e y for importante, o que se espera? Que a soma do quadrado dos resduos seja muito menor que SST.

    [email protected]@mbarros.com 72

    Regresso Linear SimplesRegresso Linear Simples

    Agora suponha que definimos um modelo de regresso.

    O poder de explicao da relao linear entre x e y a partir do modelo de regresso, para cada yi observado, em relao ao caso anterior (conhecimento apenas dos yi e utilizao de como estimativa) pode ser medido pela diferena entre os valores previstos pela regresso e .

    y

    y

  • [email protected]@mbarros.com 73

    Regresso Linear SimplesRegresso Linear Simples

    Pode-se provar que SSE, SSR e SST esto relacionados da seguinte forma:

    ReSST SS g SSE= +O valor de SST O valor de SST o mesmo independente do grau de o mesmo independente do grau de ajuste do modelo de regresso, pois sajuste do modelo de regresso, pois s depende dos depende dos yyss observados e da sua mobservados e da sua mdia.dia.

    Devemos esperar que, Devemos esperar que, quanto melhor o ajuste do quanto melhor o ajuste do modelo de regressomodelo de regresso aos dados utilizados, aos dados utilizados, menor a menor a razo SSE/SST razo SSE/SST e maior a razo e maior a razo SSRegSSReg/SST./SST.

    [email protected]@mbarros.com 74

    Regresso Linear SimplesRegresso Linear Simples

    No limite, com um ajuste perfeito (a reta de regresso passa exatamente sobre todos os pontos da amostra), teremos SSE = 0 e SST = SSReg

    O coeficiente de determinao (R2) uma medida da qualidade do ajuste de uma regresso, e definido como:

    22

    2

    ( )Re1( )

    i

    i

    y ySST SSE SSE SS gRSST SST SST y y

    = = = =

    [email protected]@mbarros.com 75

    Regresso Linear SimplesRegresso Linear Simples

    Quanto mais prQuanto mais prximo de 1, melhor o ajuste do ximo de 1, melhor o ajuste do modelo de regresso aos dados da amostramodelo de regresso aos dados da amostra. .

    O coeficiente de determinaO coeficiente de determinao tambo tambm estm estrelacionado ao coeficiente de correlarelacionado ao coeficiente de correlao entre o entre x e y: x e y:

    Note que o RNote que o R22 estest definido entre 0 e 1, e definido entre 0 e 1, e quanto mais prquanto mais prximo de 1, melhor o ajuste da ximo de 1, melhor o ajuste da regresso.regresso.

    ( )( )( ) ( )

    222 Re

    xy

    SXYSS gR rSST SXX SYY

    = = =

    [email protected]@mbarros.com 76

    Teste de significncia dos Teste de significncia dos parmetros da regressoparmetros da regresso

    No modelo de regresso linear simples, a relao de dependncia entre y e x expressa pelo parmetro 1 que, por sua vez, estimado a partir de b1.

    E como em qualquer estimao, cometemos um erro ao utilizarmos b1 (o estimador) ao invs de 1 (o parmetro real, mas desconhecido).

  • [email protected]@mbarros.com 77

    Teste de significncia dos Teste de significncia dos parmetros da regressoparmetros da regresso

    Quando os erros so iid Normais, os estimadores dos parmetros e valores ajustados so Normais.

    Isso acontece pois eles so apenas combinaes lineares dos yis (e portanto, combinaes lineares dos eis).

    Assim, testes e intervalos de confiana podem ser construdos baseados na distribuio t de Student.

    [email protected]@mbarros.com 78

    Teste de significncia dos Teste de significncia dos parmetros da regressoparmetros da regresso

    O teste de significncia de 1 feito a partir do intervalo de confiana de 1 para um nvel de confiana especificado

    Se o intervalo de confiana de 1 contiver o valor 0, isso indica que, para o nvel de significncia escolhido, ns no podemosdescartar a hiptese de 1 (o parmetro desconhecido) ser igual a zero.

    [email protected]@mbarros.com 79

    Teste de significncia dos Teste de significncia dos parmetros da regressoparmetros da regresso

    Do contrrio, se o intervalo de confianano incluir zero, podemos concluir que, para o nvel de significncia escolhido, 1 diferente de zero.

    Note que testar a hiptese 1 = 0 equivalente a testar as seguintes hipteses:

    H0: o modelo constante Yi = 0 + iH1: o modelo linear Yi = 0 + 1.xi + i

    [email protected]@mbarros.com 80

    Teste de significncia dos Teste de significncia dos parmetros da regressoparmetros da regresso

    Teste da hiptese 1 = 0 (versus a alternativa 1 0

    Esta estatstica tem distribuio t com n-2 graus de liberdade. O IC (1-)% para 1 dado por:

    ( )1

    1 1 12

    1 b

    b b btdp b ss

    SXX

    = = =

    1

    21 bstb

    O valor de t /2 baseado em uma distribuio t de Student com n 2 graus de liberdade

  • [email protected]@mbarros.com 81

    Utilizando o ExcelUtilizando o Excel

    O Excel possui uma ferramenta de anlise de regressoNo menu Ferramentas selecione Anlise de Dados

    Caso esta opo no esteja disponvel, selecione Add-Ins (Suplementos) e marque a caixa Ferramentas de Anlise

    Em Anlise de Dados, selecione RegressoFornea as informaes necessrias

    Intervalo dos valores de xIntervalo dos valores de yNvel de significnciaIntervalo de sada (local na planilha onde o resultado ser colocado) [email protected]@mbarros.com 82

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    A planilha BigMac2003.xls contm preos em diversas cidades do mundo em 2003 coletados pelo banco suo UBS.As variveis da planilha so:

    City nome da cidadeBigMac minutos de trabalho necessrios para comprar um Big MacBread - minutos de trabalho necessrios para comprar 1 kg de poRice - minutos de trabalho necessrios para comprar 1 kg de arrozFoodindex = ndice do preo da comida (Zurique = 100)Bus = custo em US$ de uma passagem de nibus num trecho de 10 km

    [email protected]@mbarros.com 83

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    Apt = custo do aluguel de um apartamento de 3 cmodos em US$TeachGI = Renda Bruta de um professor primrio em milhares de US$TeachNI = Renda Lquida de um professor primrio em milhares de US$Taxrate = alquota de imposto paga por um professor primrioTeachhours = nmero de horas trabalhadas por semana para um professor primrio

    claro que existem inmeras relaes importantes entre as diversas variveis nesta base de dados a idia geral ver como o custo de vida (e a renda) se comporta atravs das grandes cidades no mundo.

    [email protected]@mbarros.com 84

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    Mas, vamos comear com algo simples.

    de se esperar que o tempo de trabalho

    necessrio para comprar dois tipos de

    alimento seja positivamente

    correlacionado.

    Ento, que tal examinarmos o grfico de

    Bread em BigMac?

  • [email protected]@mbarros.com 85

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    Minutos de Trabalho para Comprar 1 kg de Po versus Minutos de Trabalho para Comprar um BigMac

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    0 20 40 60 80 100 120 140 160 180 200

    [email protected]@mbarros.com 86

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    Podemos produzir a equao de regresso sem nenhuma demora no prprio Excel, apenas clicando na opo Grfico > Adicionar Linha de Tendncia.

    Existem vrios tipos de linha de tendncia, escolha a linear, e as opes de mostrar a equao e o R2 no grfico. O resultado est na prxima figura.

    [email protected]@mbarros.com 87

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    Minutos de Trabalho para Comprar 1 kg de Po versus Minutos de Trabalho para Comprar um BigMac

    y = 0.3086x + 13.075R2 = 0.2966

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    0 20 40 60 80 100 120 140 160 180 200

    [email protected]@mbarros.com 88

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    O nosso modelo de regresso no foi lgrande coisa...O R2 foi apenas 29%, mas disso a gente j desconfiava pelo grfico, que no era muito linear.Mas, o output foi bastante limitado, apenas a equao da reta e o R2.Podemos ter uma anlise bem mais completa atravs da ferramenta de Anlise de dados do Excel. O resultado est a seguir.

  • [email protected]@mbarros.com 89

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    Como fazer?Ferramentas > Anlise de Dados > >RegressoA caixa de dilogo usada neste exemplo (para o Excel em ingls est no prximo slide)Note que:

    Labels (Rtulos) indica que a primeira linha contm o nome da varivelOs resultados foram mandados para uma nova pasta (chamada regr_results neste caso)

    [email protected]@mbarros.com 90

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    [email protected]@mbarros.com 91

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    SUMMARY OUTPUT (REGRESSO DE BREAD EM BIGMAC)

    Regression StatisticsMultiple R 0.54458571

  • [email protected]@mbarros.com 93

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    InterpretaoStd. Error (erro padro)

    Calcule s2 = SSE/(n-2) e tire a raizNeste caso, SSE = 15167.85, n = 69

    Observations (igual a n)Tabela ANOVA

    Contm as somas dos quadrados na coluna SSRegression = SSRegResidual = SSE = SYYTotal = SST

    [email protected]@mbarros.com 94

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    Tabela ANOVAA coluna df contm os graus de liberdade associados a cada uma destas somas de quadradosA coluna MS (mean square) contm as somas de quadrados (SS) divididas pelos respectivos graus de liberdade (df)F = MS(Regression)/MS(Residual)F tem uma distribuio F com os graus de liberdade n1 no numerador e n2 no denominador. Neste caso, n1 = 1 e n2 = 67.

    [email protected]@mbarros.com 95

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    Tabela ANOVAEm geral, no caso da regresso linear simples:

    uma varivel F com distribuio F(1, n-2)graus de liberdade.Se a estatstica F grande, a regresso significante (ou seja, neste caso, 1 0). O teste F equivalente ao teste t.

    Re /1 Re/( 2)

    SS g MS gFSSE n MSE

    = =

    [email protected]@mbarros.com 96

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept 13.075 2.822 4.632 0.000 7.441 18.709BigMac 0.309 0.058 5.315 0.000 0.193 0.425

    b0 e b1 dp(b0) e dp(b1)

    b0 e b1 divididos pelos seus d.p.

    Se o p-value pequeno (digamos, abaixo de 5%, os parmetros so significantes)

    IC para b0 e b1 baseados na distribuio t

  • [email protected]@mbarros.com 97

    Estudo de Caso Estudo de Caso Regresso Regresso Linear SimplesLinear Simples

    O slide anterior nos diz que a reta ajustada :BREAD = 13.075 + 0.309*BIGMACVoc pode perceber que esta era a reta que aparecia no grfico da linha de tendncia.Tambm, podemos notar que:

    O modelo no bom, mas os parmetros so significantes ou seja, o modelo linear certamente melhor que o modelo constante neste caso.

    [email protected]@mbarros.com 98

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    A planilha stat_case2.xls contm as vendas de carros, TV a cores e videocassetes no mercado brasileiro entre Janeiro de 1995 e Dezembro de 1997. Calcule a matriz de correlao entre as variveis.Faa o grfico de vendas de carros versus vendas de TV.

    [email protected]@mbarros.com 99

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Faa o grfico de vendas de TV versus vendas de videocassetes.Faa o grfico de vendas de carros versus vendas de videocassetes.Ajuste um modelo de regresso linear simples onde y = vendas de TV e x = vendas de videocassetes.

    [email protected]@mbarros.com 100

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Matriz de correlao

    O coeficiente de correlao de uma varivel com ela mesma sempre 1. Por que? Dica: qual a definio do coeficiente de correlao?Note tambm a alta correlao entre vendas de TV e Video.

    carros TV Videocarros 1TV 0.6524 1Video 0.6850 0.9495 1

  • [email protected]@mbarros.com 101

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Grfico carros X TVVendas de Carros (eixo Y) versus Venda de TVs (eixo X)

    60,000

    80,000

    100,000

    120,000

    140,000

    160,000

    180,000

    300,000 400,000 500,000 600,000 700,000 800,000 900,000

    [email protected]@mbarros.com 102

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Grfico TV X VideoVendas de TVs (eixo Y) versus Vendas de V ideocassetes (eixo X)

    300 ,000

    400 ,000

    500 ,000

    600 ,000

    700 ,000

    800 ,000

    900 ,000

    70 ,000 12 0 ,000 170 ,00 0 220 ,000 270 ,000 320 ,000

    [email protected]@mbarros.com 103

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Grfico Carros X VideoVendas de C arros (eixo Y) versus Vendas de Videocassetes (eixo X)

    60 ,000

    80 ,000

    100 ,000

    120 ,000

    140 ,000

    160 ,000

    180 ,000

    70 ,000 120 ,000 170 ,000 220 ,000 270 ,000 320 ,000

    [email protected]@mbarros.com 104

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Regresso Linear de TV em Video

    Note que agora o ajuste da regresso TIMO, como j esperado, pois o grfico entre as duas variveis mostrava uma relao altamente linear.

    Estatsticas da RegressoMultiple R 0.9495

  • [email protected]@mbarros.com 105

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Regresso Linear de TV em VideoDicas:

    Quando os coeficientes b0 e b1 so significantes? Em geral, se suas estatsticas t forem maiores que 2, em mdulo, podemos afirmar que os coeficientes so diferentes de zero. Tambm podemos olhar para os intervalos de confiana para b0 e b1 se estes intervalos NO INCLUEM ZERO podemos dizer que os coeficientes so significantes, e exatamente este o caso que acabamos de mostrar na pgina anterior!

    Na prxima pgina est o grfico dos valores reais e ajustados (previstos) pela reta de regresso.

    [email protected]@mbarros.com 106

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Valores Reais e Previstos pela Regresso

    Relao entre Vendas de Tv e Video e Reta de Regresso Ajustada

    200,000

    300,000

    400,000

    500,000

    600,000

    700,000

    800,000

    900,000

    70,000 120,000 170,000 220,000 270,000 320,000

    Video

    TV

    TV TV prevista pela regresso

    [email protected]@mbarros.com 107

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Dlar e ndice BovespaO prximo grfico exibe a relao entre a cotao diria do dlar PTAX e o IBOVESPA no perodo entre 10/12/2002 e 12/06/2003.

    Ajuste um modelo de regresso linear simples para o IBOVESPA usando a PTAX como varivel explicativa.

    [email protected]@mbarros.com 108

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Ibovespa (Bolsa de So Paulo) versus Dlar PTAX

    9,500

    10,000

    10,500

    11,000

    11,500

    12,000

    12,500

    13,000

    13,500

    14,000

    14,500

    2.70 2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90

  • [email protected]@mbarros.com 109

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Valores Reais e PrevistosIBOVESPA e Taxa de Cmbio - Valores Observados e Ajustados pela Regresso

    9,500

    10,000

    10,500

    11,000

    11,500

    12,000

    12,500

    13,000

    13,500

    14,000

    14,500

    2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90

    Taxa de Cmbio (PTAX - Venda)

    Ib

    oves

    pa (B

    olsa

    de

    So

    Paul

    o)

    Ibovespa (Bolsa de So Paulo) Ibovespa Previsto

    [email protected]@mbarros.com 110

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    ResduosResduos da Regresso

    -1000

    -800

    -600

    -400

    -200

    0

    200

    400

    600

    800

    1000

    2.70 2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90

    Taxa de Cmbio (PTAX - Venda)

    Res

    idua

    ls

    [email protected]@mbarros.com 111

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Exemplo de Output do Excel

    Multiple R 0.946R Square 0.895Adjusted R Square 0.895Standard Error 361.437Observations 124

    Regression Statistics

    df SS MS F Significance FRegression 1 136,397,746 136,397,746 1044.1 1.1981E-61Residual 122 15,937,651 130,636 Total 123 152,335,397

    ANOVA

    Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Intercept 24,366.28 393.58 61.91 5.1E-94 23587 25145Taxa de Cmbio (PTAX - Venda) (3,830.74) 118.55 -32.31 1.2E-61 -4065 -3596

    [email protected]@mbarros.com 112

    Estudo de Caso Estudo de Caso Regresso Regresso LinearLinear

    Ibovespa versus Dlar PTAX

    y = -3830.7x + 24366R2 = 0.8954

    9,000

    9,500

    10,000

    10,500

    11,000

    11,500

    12,000

    12,500

    13,000

    13,500

    14,000

    14,500

    2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90

  • [email protected]@mbarros.com 113

    Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa

    A planilha EE_anual.xls contm alguns dados sobre consumo anual residencial de energia eltrica no Brasil, PIB real e populao (real e economicamente ativa).

    O objetivo aqui que voc explore estes dados e encontre modelos de regresso simples e (depois) mltipla que possam servir para fornecer razoveis explicaes para o crescimento do consumo de EE residencial.

    Alguns grficos obtidos da planilha esto a seguir, e podem servir como dicas.

    [email protected]@mbarros.com 114

    Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa

    Energia eltrica - consumo residencial GWh

    -

    10,000

    20,000

    30,000

    40,000

    50,000

    60,000

    70,000

    80,000

    90,000

    1963

    1965

    1967

    1969

    1971

    1973

    1975

    1977

    1979

    1981

    1983

    1985

    1987

    1989

    1991

    1993

    1995

    1997

    1999

    2001

    [email protected]@mbarros.com 115

    Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa

    Energia eltrica - log (consumo residencial GWh)

    8.2

    8.7

    9.2

    9.7

    10.2

    10.7

    11.2

    11.7

    1963

    1965

    1967

    1969

    1971

    1973

    1975

    1977

    1979

    1981

    1983

    1985

    1987

    1989

    1991

    1993

    1995

    1997

    1999

    2001

    [email protected]@mbarros.com 116

    Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa

    log(Consumo EE Residencial) e log (PIB preos 1980)

    8.000

    8.500

    9.000

    9.500

    10.000

    10.500

    11.000

    11.500

    12.000

    1963 1965 1967 1969 1971 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001

    log(

    Con

    sum

    o EE

    Res

    iden

    cial

    )

    0.000

    0.500

    1.000

    1.500

    2.000

    2.500

    log(

    PIB

    pre

    os

    1980

    )

    log(consumo EE residencial) log (PIB (preos 1980) encadeado - Anual - R$ valor real)

  • [email protected]@mbarros.com 117

    Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa

    Log(Consumo Residencial EE) versus Log (PIB 1980)

    y = 1.6551x + 7.88R2 = 0.949

    8.200

    8.600

    9.000

    9.400

    9.800

    10.200

    10.600

    11.000

    11.400

    0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 1.000 1.100 1.200 1.300 1.400 1.500 1.600 1.700 1.800 1.900 2.000

    log PIB

    Log

    Con

    sum

    o EE

    [email protected]@mbarros.com 118

    Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa

    A planilha fuel2001.xls contm dados de consumo de combustvel para 50 estados americanos em 2001.A descrio das variveis est na planilha.Construa a varivel FUELPC, o consumo de combustvel per capital em cada estado, atravs da expresso:

    POPFUELFUELPC *1000=

    [email protected]@mbarros.com 119

    Estudo de Caso Estudo de Caso Regresso Regresso Linear Linear Para CasaPara Casa

    Construa a varivel DLIC, a proporo de pessoas acima de 16 anos no Estado que possuem carteira de mororista.

    Faa o grfico de FUELPC versus TAX.Faa o grfico de FUELPC versus DLIC.Ajuste no Excel a regresso de FUELPC em TAX. Comente os resultados.Ajuste no Excel a regresso de FUELPC em DLIC. Comente os resultados.

    POPNLICDLIC =

    [email protected]@mbarros.com 120

    Regresso Linear Mltipla

  • [email protected]@mbarros.com 121

    Regresso Linear MRegresso Linear Mltiplaltipla

    Na regresso linear mltipla, diversas variveis independentes so usadas para modelar uma nica varivel resposta.

    So observados n casos, e em cada um deles, o valor da varivel resposta (Y) e de cada varivel independente X1, X2, ..., Xp estdisponvel.

    [email protected]@mbarros.com 122

    Regresso Linear MRegresso Linear Mltiplaltipla

    Ento os dados disponveis formam a matriz:

    No modelo de regresso linear SIMPLES, p =1.Nesta representao, xij refere-se ao i-simocaso e j-sima varivel.

    caso Y X1 X2 X3 . Xp 1 y1 x11 x12 x13 x1p 2 y2 x21 x22 x23 x2p n yn xn1 xn2 xn3 xnp

    [email protected]@mbarros.com 123

    Regresso Linear MRegresso Linear Mltiplaltipla

    Modelo

    Onde:s so parmetros desconhecidos (a serem estimados)es so erros, variveis aleatrias independentes, com mdia zero e varincia constanteX1, X2, ..., Xp so as variveis explicativas, preditores ou covariveisY a varivel dependente, ou varivel resposta

    eXXXY pp +++++= ...22110

    [email protected]@mbarros.com 124

    Regresso Linear MRegresso Linear Mltiplaltipla

    O modelo de regresso linear mltipla completamente especificado a partir das seguintes hipteses:

    1) LINEARIDADEA relao entre a varivel resposta e as variveis explicativas linear, como mostra a equao do slide anterior.

  • [email protected]@mbarros.com 125

    Regresso Linear MRegresso Linear Mltiplaltipla

    2) NO OCORRNCIA DE MULTI-COLINEARIDADE PERFEITA

    Em outras palavras, nenhuma varivel explicativa uma combinao linear das outras.Pode-se reescrever esta condio em termos da seguinte matriz, conhecida como matriz de design:

    [email protected]@mbarros.com 126

    Regresso Linear MRegresso Linear Mltiplaltipla

    =

    npnn

    p

    p

    xxx

    xxxxxx

    X

    ...1...

    ...1

    ...1

    21

    22221

    11211 X a matriz de design. Note que a coluna de unscorresponde ao termo constante da regresso

    A condio 2 pode ser reescrita como:Posto(X) = p + 1 = min(n,p+1)

    Nota: o posto de uma matriz o nmero de linhas (colunas) linearmente independentes.

    [email protected]@mbarros.com 127

    Regresso Linear MRegresso Linear Mltiplaltipla

    3) VARIVEIS EXPLICATIVAS NO SO ESTOCSTICAS

    4) DISTRIBUIO DOS ERROS

    Algumas conseqncias desta hiptese so:

    Todos os erros tm a mesma varincia (homocedasticidade)Todos os erros so descorrelatados (o que uma conseqncia da independncia).

    n 1,2,..., i para )N(0, iid so 2 =ie

    [email protected]@mbarros.com 128

    Regresso Linear MRegresso Linear Mltiplaltipla

    Modelo em Forma Matricial conveniente escrever o modelo em representao matricial como a seguir:

    =

    =

    =

    =

    npnn

    p

    p

    pnn xxx

    xxxxxx

    X

    e

    ee

    e

    y

    yy

    Y

    ...1................................

    ...1

    ...1

    ,...

    ,...

    ,...

    21

    22221

    11211

    1

    0

    2

    1

    2

    1

    Dimenses: Y n x 1, e n x 1, (p+1) x 1e X n x (p+1)

  • [email protected]@mbarros.com 129

    Regresso Linear MRegresso Linear Mltiplaltipla

    A equao de regresso mltipla pode ser escrita em forma matricial como:

    Pode-se escrever as hipteses sobre a distribuio dos erros em termos de uma distribuio Normal multivariada:

    eXY +=

    ( )1n x dimenso de zeros de vetor um 0 e

    n n x identidade matriz a I onde ,0 2INe n

    [email protected]@mbarros.com 130

    Regresso Linear MRegresso Linear Mltiplaltipla

    Soma do quadrado dos ResduosA soma do quadrado dos resduos (SSE) pode ser escrita em termos matriciais como:

    Onde b o vetor (p+1) x 1 de coeficientes estimados, ou seja, o vetor de estimadores dos s.O vetor o vetor nx1 de valores ajustados da regresso.

    ( ) ( ) ( ) ( )XbYXbYYYYYeeSSE ttt ===

    Y

    [email protected]@mbarros.com 131

    Regresso Linear MRegresso Linear Mltiplaltipla

    Estimadores de Mnimos QuadradosComo na regresso simples, o objetivo encontrar os bis (aqui: b0, b1, ..., bp) que minimizem a soma do quadrado dos resduos. Ou seja, temos que resolver a equao: ( ) ( ){ }

    { }

    YXXbXXbXYX

    bXbXbYXbYYb

    XbYXbYb

    SSE

    tt

    tt

    ttttt

    t

    =

    =+

    =

    +

    =

    =

    022

    02

    00

    Equaes Normais [email protected]@mbarros.com 132

    Regresso Linear MRegresso Linear Mltiplaltipla

    Estimadores de Mnimos QuadradosO sistema anterior (as equaes normais) pode ser resolvido pr-multiplicando pela inversa de XtX, e resulta em:

    Uma vez encontrados o vetor de estimadores b, pode-se obter o vetor de valores ajustados = Xb e o vetor de resduos:

    ( ) YXXXb tt 1=

    XbYYYe == Y

  • [email protected]@mbarros.com 133

    Regresso Linear MRegresso Linear Mltiplaltipla

    Estimadores de Mnimos QuadradosOs resduos e a matriz de design so descorrelatados, isto :

    A soma dos resduos para todas as observaes nula. Isso pode ser provado da equao anterior fazendo-se o produto da 1a. coluna de X (que s contm 1s) com os resduos.

    0. =eX t

    ( ) 011

    ==

    ==n

    iii

    n

    ii yye

    [email protected]@mbarros.com 134

    Regresso Linear MRegresso Linear Mltiplaltipla

    Propriedades dos EstimadoresSuponha que E(e) = 0, um vetor coluna de zeros de dimenso n, e Var(e) = 2I, onde I a matriz identidade de dimenso n. Ento:b no tendencioso para , isto : E(bi) = i para i = 0,1,2,..p

    A matriz de varincia-covarincia dos estimadores :

    ( ) ( ) 12 = XXbVAR t

    [email protected]@mbarros.com 135

    Regresso Linear MRegresso Linear Mltiplaltipla

    Estimador da varincia dos erros

    ( ) ( ) ( )

    1

    111

    2

    =

    =

    =

    =

    =

    pnYXbYY

    pnbXXbYY

    pnXbYXbY

    pnSSEs

    ttt

    tttt

    [email protected]@mbarros.com 136

    Regresso Linear MRegresso Linear Mltiplaltipla

    Anlise de varinciaNa anlise de varincia, o modelo completo (incluindo todas as variveis explicativas X1, X2, ..., Xp) comparado com o modelo constante, em que no esto presentes quaisquer variveis explicativas, apenas a constante 0 existe no modelo.

    J vimos que no modelo constante, o estimador de mnimos quadrados de 0 a mdia dos Yse portanto a soma do quadrado dos resduos neste modelo SYY = SST.

  • [email protected]@mbarros.com 137

    Regresso Linear MRegresso Linear Mltiplaltipla

    Tabela ANOVA

    claro que SSE < SYY, e novamente (como na regresso simples) a diferena entre ambos Ssreg, a soma de quadrados em Y explicada pelo modelo maior que NO explicada pelo modelo menor.

    Fontegraus de liberdade SS MS

    Regresso nos Xis p SSReg SSReg/pResduo n-p-1 SSE SSE/(n-p-1) = s^2TOTAL n-1 SST = SYY

    Tabela ANOVA

    [email protected]@mbarros.com 138

    Regresso Linear MRegresso Linear Mltiplaltipla

    Tabela ANOVAA importncia da regresso nos Xs determinada pelo tamanho relativo de SSRegem relao a SSE.A estatstica F a ser usada :

    Se a estatstica F grande ento o modelo incluindo os Xs significantemente melhor que o modelo constante. A distribuio desta estatstica EXATAMENTE F se os erros so iidNormais.

    ( ) ( )1,~/Re

    1//Re

    ReRe

    2 === pnpF

    spgSS

    pnSSEpgSS

    sidualMSgMSF

    [email protected]@mbarros.com 139

    Regresso Linear MRegresso Linear Mltiplaltipla

    O coeficiente de determinao (R2)Como na regresso simples:

    Fornece a proporo da variabilidade dos Ys explicada pela regresso nos Xs. Pode-se mostrar que o R2 o quadrado do coeficiente de correlao mltipla entre Y e os Xs, ou seja, o quadrado da MXIMA correlao entre Y e uma funo linear dos Xs.

    2 Re1t tSST SSE SSE SS g b X YR

    SST SST SST SST

    = = = =

    [email protected]@mbarros.com 140

    Regresso Linear MRegresso Linear Mltiplaltipla

    R2 ajustadoProposto por Theil para comparar modelos com nmero diferente de variveis:

    Exemplo numricoR2 = 0.90, p = 3, n = 20 obs, o R2 ajustado ser: 0.8813. Se o modelo passa agora a ter p = 5 variveis, o R2 ajustado cai para 0.8643.

    ( )2 2/( ) 11 1 1/( 1) 1adjSSE n p nR R

    SST n p n p

    = =

  • [email protected]@mbarros.com 141

    Regresso Linear MRegresso Linear Mltiplaltipla

    O clculo da estatstica F geral da regresso no costuma ser muito interessante.O fato que normalmente se sabe

    a priori que as variveis so relacionadas e ento j se espera que o valor da estatstica F seja grande.Mais interessante olhar para o teste de hipteses referentes a variveis individuais.

    [email protected]@mbarros.com 142

    Regresso Linear MRegresso Linear Mltiplaltipla

    Teste t para cada parmetro na regresso

    Sabe-se que:

    Isso nos permite formar estatsticas t:

    ( ) ( )( )

    i

    ii

    b de teindependen

    de principal diagonal da elemento simo-i o a onde

    212

    2

    12

    ~1

    ,~

    pn

    tiiii

    spnXXaNb

    p...., 2, 1, 0, i para == 1~ pnii

    ii tas

    bt

    [email protected]@mbarros.com 143

    Regresso Linear MRegresso Linear Mltiplaltipla

    O teste de hiptese compara o valor observado na amostra com percentisde interesse da distribuio t.

    Importante o caso da significncia de uma determinada varivel, por exemplo, Xk. Esta varivel sersignificante no modelo se a estatstica t associada ao seu coeficiente for diferente de zero.

    [email protected]@mbarros.com 144

    Regresso Linear MRegresso Linear Mltiplaltipla

    Teorema de Gauss-MarkovOs estimadores de mnimos quadrados ordinrios so BLUE (best linear unbiased estimators), ou seja, so os MELHORES estimadores LINEARES NO TENDENCIOSOS.Melhores em que sentido?No sentido de apresentarem a MENOR VARINCIA.Na classe dos estimadores lineares e no tendenciosos, os estimadores por mnimos quadrados so os que apresentam varincia mnima.

  • [email protected]@mbarros.com 145

    Regresso Linear MRegresso Linear Mltiplaltipla

    PrevisoOs resultados da estimao das equaes de regresso podem ser usados para prever a varivel dependente em valores das variveis explicativas diferentes daqueles que constavam da amostra original.

    Seja u um vetor (p+1) x 1 de valores observados novos das variveis explicativas X1, X2, ..., Xp, tal que o 1. elemento de u 1 (para levar em conta o termo constante da regresso).

    [email protected]@mbarros.com 146

    Regresso Linear MRegresso Linear Mltiplaltipla

    PrevisoEnto o valor ajustado no ponto u :

    E o erro padro do valor ajustado :

    Mas, no podemos esquecer que, a qualquer previso est associado um erro aleatrio, isto , a equao de previso :

    E portanto o erro padro da previso torna-se:

    .tY u b=

    ( ) 1. t terropadrao s u X X u=

    . tprevistoY u b e= +

    ( ) 1. . . 1 t tprevisaoe p s u X X u

    = +

    [email protected]@mbarros.com 147

    Regresso Linear MRegresso Linear Mltiplaltipla

    Estimao por Mxima VerossimilhanaSuponha que os erros do modelo so independentes, Normalmente distribudos e com varincia constante.Ento os Yi so independentes Normais com mdia:

    E varincia 2.

    0 1 1 2 2( ) ...i i i p ipE Y X X X = + + + +

    [email protected]@mbarros.com 148

    Regresso Linear MRegresso Linear Mltiplaltipla

    Estimao por Mxima VerossimilhanaEm termos vetoriais, podemos escrever que o vetor Y tem distribuio Normal multivariada de dimenso n com vetor de mdias X. e matriz de varincia-covarincia 2.I.Isso nos permite escrever (facilmente?) a verossimilhana:

    ( )( )

    ( ) ( )

    ( ) ( )

    20 1 / 2 22

    2/ 22

    0 1 121

    1 1, ,..., , exp22

    12 exp ...2

    tp n

    nn

    i i p ipi

    L Y X Y X

    Y X X

    =

    =

    =

  • [email protected]@mbarros.com 149

    Regresso Linear MRegresso Linear Mltiplaltipla

    Estimao por Mxima VerossimilhanaA log-verossimilhana :

    Da ltima expresso do lado direito vemos que maximizar a log-verossimilhana para os is equivalente a minimizar a soma de quadrado dos resduos e portanto o mtodo de mxima verossimilhana fornece os MESMOS estimadores dos isque o mtodo de mnimos quadrados.

    ( )

    ( ) ( )

    20 1

    2/ 22

    0 1 121

    , , ..., ,

    1ln 2 ...2 2

    p

    nn

    i i p ipi

    l

    n Y X X

    =

    =

    = +

    [email protected]@mbarros.com 150

    Regresso Linear MRegresso Linear Mltiplaltipla

    Estimao por Mxima VerossimilhanaE o estimador da varincia? um estimador tendencioso, dado por:

    J vimos que s2 um estimador no tendencioso de 2, portanto:

    ( ) ( ) ( )2

    2 11 t n p sSSEY Xb Y Xbn n n

    = = =)

    ( ) ( )2 22 1 1( ) n p s n pSSEE E En n n

    = = =

    )

    [email protected]@mbarros.com 151

    Regresso Linear MRegresso Linear Mltiplaltipla

    Variveis DummyAt agora, todas as variveis nos nossos modelos eram quantitativas. Neste caso, a magnitude da varivel de interesse. Na prtica, precisamos tambm incorporar o efeito de variveis qualitativas nos nossos modelos de regresso. Por exemplo, raa, sexo, regio do pas, estao do ano so todas variveis qualitativas.Aqui iremos considerar apenas variveis EXPLICATIVAS qualitativas a varivel dependente ser sempre quantitativa.

    [email protected]@mbarros.com 152

    Regresso Linear MRegresso Linear Mltiplaltipla

    Variveis DummyFatores qualitativas muitas vezes aparecem na forma de variveis binrias, por exemplo: uma pessoa homem ou mulher, uma famlia tem renda acima de 20 S.M. ou no. Nestes exemplos, a informao relevante pode ser capturada definindo-se uma varivel binria. Em estatstica, variveis binrias so geralmente chamadas de dummies. Ao definir uma dummy precisamos decidir quem ser o valor 0 e quem ser o 1 e esta escolha , at certo ponto, arbitrria.

  • [email protected]@mbarros.com 153

    Regresso Linear MRegresso Linear Mltiplaltipla

    Variveis DummyPor que usar os valores 0 e 1 para representar uma varivel qualitativa? Porque simplifica a interpretao dos resultados, mas a princpio voc poderia usar quaisquer valores.

    Considere o seguinte modelo:

    ( ) ( ) eeducacaomulhersalario +++= 210

    [email protected]@mbarros.com 154

    Regresso Linear MRegresso Linear Mltiplaltipla

    Variveis DummyOnde salario e educacao representam o salrio por hora trabalhada e o nmero de anos de educao formal, e mulher uma dummycom valor 1 se a pessoa mulher e 0 se homem.

    A interpretao do coeficiente 1 a diferena nos salrios devida ao sexo da pessoa, dado o mesmo nvel educacional. Ou seja, 1 nos diz se h discriminao contra as mulheres se 1 < 0 ento para o mesmo nvel de educao, os salrios das mulheres so menores que os dos homens.

    [email protected]@mbarros.com 155

    Regresso Linear MRegresso Linear Mltiplaltipla

    Variveis DummySe 1 < 0, os homens ganham uma quantidade fixa a mais por hora. A reta correspondente aos homens paralela das mulheres, mas estACIMA desta ltima para todos os nveis de educao os homens ganham mais, a diferena -1.

    Ou seja, as duas retas tm interceptos diferentes e o mesmo coeficiente angular. Na reta das mulheres, o intercepto 0 + 1 , que menor que o intercepto da reta dos homens (0).

    [email protected]@mbarros.com 156

    Regresso Linear MRegresso Linear Mltiplaltipla

    Variveis DummyImagine que voc quisesse incluir duas dummies, uma para homens e outra para mulheres. O que fazer? Retirar a constante, seno voc ter colinearidade perfeita.

    Mas, em termos de interpretao do modelo, no mais fcil interpretar os resultados deste ltimo do que o modelo original que propusemos.

  • [email protected]@mbarros.com 157

    Regresso Linear MRegresso Linear Mltiplaltipla

    Variveis DummyEm geral, se desejamos modelar g categorias, devemos criar g-1 variveis dummy num modelo que inclui uma constante. O grupo base o que est sendo omitido da especificao, e o intercepto da regresso representa o intercepto deste grupo. Os coeficientes das dummies so as diferenas entre o intercepto daquele grupo e do grupo base. Uma especificao alternativa incluir dummiespara todos os grupos e retirar a constante do modelo, mas isso torna a interpretao das diferenas entre grupos mais complicada.

    [email protected]@mbarros.com 158

    Regresso Linear MRegresso Linear Mltiplaltipla

    Variveis DummyExemplo (adaptado de Wooldridge)

    Os dados a seguir se referem a uma amostra de americanos em 1976. Alm das variveis salario, educ, mulher, adicionamos ao modelo a varivel tenure, que representa o nmero de anos no emprego atual.O modelo de regresso a seguir foi ajustado no software estatstico Minitab.

    [email protected]@mbarros.com 159

    Regresso Linear MRegresso Linear Mltiplaltipla

    Variveis DummyThe regression equation issalario = - 1.57 + 0.572 educ + 0.0254 exper + 0.141

    tenure - 1.81 mulher

    Predictor Coef SE Coef T PConstant -1.5679 0.7246 -2.16 0.031educ 0.57150 0.04934 11.58 0.000exper 0.02540 0.01157 2.20 0.029tenure 0.14101 0.02116 6.66 0.000mulher -1.8109 0.2648 -6.84 0.000

    S = 2.958 R-Sq = 36.4% R-Sq(adj) = 35.9%

    [email protected]@mbarros.com 160

    Regresso Linear MRegresso Linear Mltiplaltipla

    Variveis DummyAnalysis of Variance

    Source DF SS MS F PRegression 4 2603.11 650.78 74.40 0.000Residual Error 521 4557.31 8.75Total 525 7160.41

    Source DF Seq SSeduc 1 1179.73exper 1 432.52tenure 1 581.86mulher 1 408.99

  • [email protected]@mbarros.com 161

    Regresso Linear MRegresso Linear Mltiplaltipla

    Variveis DummyInterpretao dos resultados

    Todas as variveis significantes ao nvel 5%.Coeficiente de mulher = -1.81, indicando que o salrio mdio por hora de uma mulher, mantidos todos os outros fatores constantes, inferior ao de um homem em US$ 1.81.

    [email protected]@mbarros.com 162

    Regresso Linear MRegresso Linear Mltiplaltipla

    Variveis DummyComo j controlamos o efeito das outras variveis (educao, experincia e tenure), a varivel dummy captura o efeito no salrio que no pode ser explicado por estes fatores e que pode ser atribudo ao sexo da pessoa.

    Interpretao do coeficiente modelo na escala dos logs

    Se a varivel dependente est expressa como log, o coeficiente da dummy deve ser interpretado como um percentual. Em geral, se o coeficiente de uma varivel dummy x1, a diferena percentual exata em y quando x1 = 1 versus quando x1 = 0 : 100(exp() 1)

    [email protected]@mbarros.com 163

    Regresso Linear MRegresso Linear Mltiplaltipla

    Estudo de CasoConsidere a planilha ceosal1.xlsO objetivo prever o salrio do CEO (principal executivo) de uma empresa com base na performance recente da mesma e no setor em que ela atua.A planilha contm as seguintes variveis:salario = salrio do CEO em milhares de dlares de 1990var%_salario = variao percentual do salrio em 1989/1990vendas = vendas da empresa em 1990ROE = retorno da empresa 1989/1990var%ROE = variao % do ROE 1989/1990

    [email protected]@mbarros.com 164

    Regresso Linear MRegresso Linear Mltiplaltipla

    Estudo de Caso (continuao)retorno_ao = retorno da ao 1988 a 1990set_indus = dummy indicadora do setor indstriaset_finan = dummy indicadora do setor financeiro

    set_consumo = dummy indicadora do setor de bens de consumoset_transp = dummy indicadora do setor de transportes e concessionrias de servios pblicoslog_salario = logaritmo do salriolog_venda = logaritmo das vendas

  • [email protected]@mbarros.com 165

    Regresso Linear MRegresso Linear Mltiplaltipla

    Estudo de Caso (continuao)Ajuste um modelo para log(salario) em log(vendas), roe e nas variveis dummy. Use como grupo base(varivel dummy omitida) o setor de indstrias.O que voc conclui?Qual a diferena percentual em salrio, mantidas todas as outras variveis constantes, entre um CEO no setor transporte e concessionrias e outro no grupo base?

    [email protected]@mbarros.com 166

    Regresso Linear MRegresso Linear Mltiplaltipla

    Estudo de Caso (continuao)Qual a diferena percentual em salrio (mantidas todas as outras variveis constantes) entre um CEO no setor financeiro e outro no grupo base?E entre um no setor financeiro e um no setor de bens de consumo?

    [email protected]@mbarros.com 167

    Regresso Linear MRegresso Linear Mltiplaltipla

    Anlise dos ResduosLembre-se das hipteses bsicas sobre os erros:

    IndependnciaNormalidadeVarincia constante

    A anlise dos resduos deve se preocupar em verificar at que ponto estas hipteses esto sendo violadas e, se possvel, corrigir os problemas.

    [email protected]@mbarros.com 168

    Regresso Linear MRegresso Linear Mltiplaltipla

    Anlise dos ResduosLembre-se que os erros do modelo no so observveis e portanto as hipteses feitas no podem ser diretamente testadas NELES.O que fazer? Olhamos para os resduos, que so os estimadores dos erros do modelo e verificamos se os resduos so iid Normais com varincia constante.

  • [email protected]@mbarros.com 169

    Regresso Linear MRegresso Linear Mltiplaltipla

    Anlise dos ResduosQue tipo de comportamento voc quer identificar?

    Se os resduos so muito diferentes de uma Normal (atravs de um grfico de probabilidade Normal)Se existem padres bvios nos resduos (por exemplo, se y cresce, o resduo cresce)Se existe autocorrelao nos resduos.Na prtica alguns destes grficos, como a autocorrelao, no est disponveis no Excel, apenas softwares estatsticos permitem que voc faa uma anlise mais sofisticada.

    [email protected]@mbarros.com 170

    Regresso Linear MRegresso Linear MltiplaltiplaAnlise dos Resduos

    A seguir apresentamos os resultados e alguns grficos de resduos do modelo ajustado para o salrio dos CEOs.O modelo foi ajustado no Minitab.

    The regression equation islsalary = 4.59 + 0.257 lsales + 0.0112 roe + 0.158 finance + 0.181 consprod

    - 0.283 utilityPredictor Coef SE Coef T PConstant 4.5881 0.2950 15.55 0.000lsales 0.25719 0.03203 8.03 0.000roe 0.011152 0.004300 2.59 0.010finance 0.15796 0.08900 1.77 0.077consprod 0.18089 0.08477 2.13 0.034utility -0.28300 0.09923 -2.85 0.005S = 0.4598 R-Sq = 35.7% R-Sq(adj) = 34.1%Analysis of VarianceSource DF SS MS F PRegression 5 23.8110 4.7622 22.53 0.000Residual Error 203 42.9112 0.2114Total 208 66.7222

    [email protected]@mbarros.com 171

    Regresso Linear MRegresso Linear Mltiplaltipla

    Anlise dos ResduosUnusual Observations

    Obs lsales lsalary Fit SE Fit Residual St Resid15 7.4 7.6064 7.1103 0.1748 0.4961 1.17 X28 9.9 8.2543 7.2778 0.0761 0.9765 2.15R 62 6.3 5.5452 6.4528 0.0883 -0.9076 -2.01R 82 8.1 6.0890 7.0154 0.0684 -0.9263 -2.04R 87 7.9 8.3292 6.9367 0.0695 1.3925 3.06R

    108 9.1 8.8009 7.2000 0.0730 1.6009 3.53R 127 8.7 6.0568 7.1514 0.0741 -1.0946 -2.41R 129 5.7 5.8861 6.2583 0.1426 -0.3722 -0.85 X133 5.2 5.4072 6.3599 0.1146 -0.9527 -2.14R 164 8.7 9.3266 7.2639 0.0611 2.0628 4.53R 166 8.3 8.2014 6.9840 0.0871 1.2173 2.70R 174 7.7 9.6039 6.9599 0.0644 2.6439 5.81R R denotes an observation with a large standardized residualX denotes an observation whose X value gives it large influence.

    O MINITAB fornece uma lista de observaes com resduo padronizado grande ou que tm grande influncia na regresso.

    Valor ajustado

    Resduo Resduo padronizado

    [email protected]@mbarros.com 172

    Regresso Linear MRegresso Linear Mltiplaltipla

    Anlise dos Resduos Resduos x Distribuio Normal

    3210-1

    3

    2

    1

    0

    -1

    -2

    -3

    Nor

    mal

    Sco

    re

    Residual

    Normal Probability Plot of the Residuals(response is lsalary)

    Uma reta indica que os resduos so Normais quanto mais curvo este grfico, menos Normais os resduos

  • [email protected]@mbarros.com 173

    Regresso Linear MRegresso Linear Mltiplaltipla

    Anlise dos ResduosResduos x Valores Ajustados

    8.07.57.06.5

    3

    2

    1

    0

    -1

    Fitted Value

    Resi

    dual

    Residuals Versus the Fitted Values(response is lsalary)

    [email protected]@mbarros.com 174

    Regresso Linear MRegresso Linear Mltiplaltipla

    Anlise dos Resduos Histograma dos Resduos

    3210-1

    60

    50

    40

    30

    20

    10

    0

    Residual

    Freq

    uenc

    y

    Histogram of the Residuals(response is lsalary)

    [email protected]@mbarros.com 175

    Regresso Linear MRegresso Linear Mltiplaltipla

    Inadequao das Hipteses do Modelo: multicolinearidade

    Uma das hipteses do modelo de regresso mltipla que no ocorre multicolinearidade perfeita, ou seja, o posto da matriz X (p+1), igual ao nmero de s a serem estimados.

    O que acontece se esta hiptese for violada? A matriz (XtX) no poder ser invertida e portanto os estimadores de mnimos quadrados no podero ser calculados.

    [email protected]@mbarros.com 176

    Regresso Linear MRegresso Linear Mltiplaltipla

    MulticolinearidadeMas, este um caso extremo. Os problemas em que a inverso matemtica desta matriz impossvel so chamados de mal condicionados.

    Na prtica, o que se v alta correlao entre uma ou mais variveis. Qual o efeito disso?

  • [email protected]@mbarros.com 177

    Regresso Linear MRegresso Linear Mltiplaltipla

    MulticolinearidadeExemplo 1 multicolinearidade perfeita

    XtX no pode ser invertida (seu determinante zero)

    =

    =

    40202010

    6321

    XXX t

    [email protected]@mbarros.com 178

    Regresso Linear MRegresso Linear Mltiplaltipla

    MulticolinearidadeExemplo 2 multicolinearidade quaseperfeita

    XtX pode ser invertida (seu determinante pequeno mas diferente de zero). Note como os elementos da inversa de XtX so grandes!

    ( )

    =

    =

    =

    1000197019703881

    81.387.197.1910

    9.5321

    1XX

    XXX

    t

    t

    [email protected]@mbarros.com 179

    Regresso Linear MRegresso Linear Mltiplaltipla

    MulticolinearidadeExemplo 3 NO EXISTE multicolinearidade

    XtX pode ser invertida SEM PROBLEMAS. Note como os elementos da inversa de XtX so muito diferentes do exemplo anterior.

    ( )

    =

    =

    =

    10171729

    29171710

    5321

    1XX

    XXX

    t

    t

    [email protected]@mbarros.com 180

    Regresso Linear MRegresso Linear Mltiplaltipla

    MulticolinearidadeLembre-se que o estimador de mnimos quadrados :

    Dos exemplos anteriores, o efeito da multicolinearidade sobre este estimador deve ter ficado claro. Se as colunas de X forem muito dependentes (exemplo 2), XtX pode ser invertida mas seu determinante quase zero, e a inversa tem valores muito grandes.

    ( ) YXXXb tt 1=

  • [email protected]@mbarros.com 181

    Regresso Linear MRegresso Linear Mltiplaltipla

    MulticolinearidadeO impacto sobre os estimadores tambm grande. Qualquer pequena mudana numa das variveis pode mudar completamente o valor estimado do parmetro.Alm disso...

    Se h multicolinearidade, a varincia dos estimadores ser grande (enorme?).

    ( ) ( ) 12 = XXbVAR t

    [email protected]@mbarros.com 182

    Regresso Linear MRegresso Linear Mltiplaltipla

    MulticolinearidadeQual o impacto deste ltimo problema?Lembre-se que o desvio padro dos estimadores (com s substituindo ) entra no clculo das estatsticas t que avaliam a significncia dos parmetros.Ento, o que pode acontecer?O denominador da estatstica t sermuito grande, a estatstica t ser muito pequena, indicando que o parmetro no significante....

    [email protected]@mbarros.com 183

    Regresso Linear MRegresso Linear Mltiplaltipla

    MulticolinearidadeLogo, muitas vezes a multicolinearidade estar escondendo a significncia dos parmetros.Como saber se isso est acontecendo de fato?Olhe para o R2 e a estatstica F da regresso. Nenhum deles envolve o clculo da inversa de (XtX). Se o R2 for alto, a estatstica F for significante e existirem vrias estatsticas t insignificantes, um bom indcio de colinearidade.

    [email protected]@mbarros.com 184

    Regresso Linear MRegresso Linear Mltiplaltipla

    MulticolinearidadeComo e por que surge?Na verdade, est muitas vezes relacionada a um tamanho insuficiente de amostra. Por exemplo, no caso de dados econmicos, comum que diversas variveis, num determinado intervalo de tempo, se mexam na mesma direo, gerando a multicolinearidade.

  • [email protected]@mbarros.com 185

    Regresso Linear MRegresso Linear Mltiplaltipla

    MulticolinearidadeComo identificar?

    D uma olhada na matriz de correlao amostral das suas variveis explicativas.

    Se existem diversas variveis altamente correlacionadas, muito provavelmente voc vai enfrentar o problema da multicolinearidade.

    [email protected]@mbarros.com 186

    Regresso Linear MRegresso Linear Mltiplaltipla

    MulticolinearidadeComo resolver?

    Retire algumas das variveis altamente correlacionadas do seu modelo, isto , comece a rodar seqncias de modelos menores.

    Uma soluo automtica para isso o procedimento de regresso stepwise, que tem um nico problema: pode gerar modelos sem muito sentido fsico ou econmico.

    [email protected]@mbarros.com 187

    Regresso Linear MRegresso Linear Mltiplaltipla

    MulticolinearidadeE se a gente no fizer nada, o que acontece?

    Depende... Se o modelo for empregado para gerar previses, a multicolinearidade nem sempre um transtorno. Os estimadores continuam no tendenciosos o problema a varincia estimada!

    [email protected]@mbarros.com 188

    Regresso Linear MRegresso Linear Mltiplaltipla

    Inadequao das Hipteses do Modelo: heterocedasticidade

    Em muitas situaes prticas, a hiptese de que a varincia dos erros constante questionvel.

    Por exemplo, se uma varivel dependente positiva tem valores num intervalo que vai atmilhares, intuitivo que as respostas prximas de zero geralmente sero menos variveis que as respostas em valores altos, pois estas ltimas tem mais espao para oscilar.

  • [email protected]@mbarros.com 189

    Regresso Linear MRegresso Linear Mltiplaltipla

    HeterocedasticidadeComo identificar?

    Grficos de resduos versus valores ajustados ou variveis explicativas.Heterocedasticidade observada atravs de um padro como um cone aberto para a direita ou para a esquerda.Um padro parecido com uma noz pode ser observado se a varivel resposta um uma porcentagem percentuais altos ou baixos so menos variveis que aqueles prximos de 50%.

    [email protected]@mbarros.com 190

    Regresso Linear MRegresso Linear Mltiplaltipla

    HeterocedasticidadeComo resolver?

    Tranformaes para a estabilizao da varincia transformaes aplicadas varivel resposta Y.Algumas transformaes comuns so:raiz(Y) dados de contagensLog(Y) quando Y > 0 e o intervalo de valores possveis de Y muito largoLog(Y + 1) mesma situao que acima, mas alguns dos Y = 0

    [email protected]@mbarros.com 191

    Regresso Linear MRegresso Linear Mltiplaltipla

    HeterocedasticidadeComo resolver?

    1/Y quando a varivel resposta estamontoada perto de zero, mas decresce rpido, embora existam alguns valores altos.1/(Y + 1) mesma situao que acima, mas alguns Ys = 0Arc seno{ raiz(Y) } se 0 Y 1 (ou seja, Y uma proporo Binomial)

    [email protected]@mbarros.com 192

    Regresso Linear MRegresso Linear Mltiplaltipla

    Inadequao das Hipteses do Modelo: autocorrelao dos resduos

    Lembre-se que uma das hipteses fundamentais do modelo a independncia dos erros.Logo, se os resduos so correlacionados, esta hiptese foi violada.Por que? O que geralmente leva a este problema?O mais comum so os problemas de especificao.

  • [email protected]@mbarros.com 193

    Regresso Linear MRegresso Linear Mltiplaltipla

    Autocorrelao dos resduosAo omitir alguma varivel relevante, os resduos do modelo podero se tornar autocorrelacionados.

    Muitas vezes tambm procedimentos de dessazonalizao de sries temporais geram autocorrelao nos resduos.

    [email protected]@mbarros.com 194

    Regresso Linear MRegresso Linear Mltiplaltipla

    Autocorrelao dos resduosConseqncias

    Suponha o seguinte modelo:

    1 e iid so os e .e:onde

    1t

    10

  • [email protected]@mbarros.com 197

    Regresso Linear MRegresso Linear Mltiplaltipla

    Autocorrelao dos resduosComo detectar?

    ( )

    =

    =

    = n

    tt

    n

    ttt

    e

    eeDW

    1

    2

    2

    21

    onde n o nmero de observaes e t o t-simo resduo do modelo

    A estatstica de Durbin-Watson est relacionada com o estimador de (que mede a autocorrelao dos erros).

    Pode-se provar que:( )12 DW

    [email protected]@mbarros.com 198

    Regresso Linear MRegresso Linear Mltiplaltipla

    Autocorrelao dos resduosComo detectar?

    Note que o numerador da estatstica DW consiste na diferena ao quadrado entre resduos sucessivos, e o denominador apenas a soma dos quadrados dos resduos.

    Existem n-1 termos na soma no numerador e n no denominador (por que?)

    [email protected]@mbarros.com 199

    Regresso Linear MRegresso Linear Mltiplaltipla

    Autocorrelao dos resduosComo usar a estatstica DW?

    Se = 0 ento DW 2Se 0 < < 1 ento 0 < DW < 2 (caso mais comum na prtica)Se -1 < < 0 ento 2 < DW < 4

    Durbin e Watson derivaram a distribuio amostral de sua estatstica. Dependendo do valor encontrado, o teste pode ser inconclusivo.

    [email protected]@mbarros.com 200

    Regresso Linear MRegresso Linear Mltiplaltipla

    Autocorrelao dos resduosComo usar a estatstica DW?

    O teste mais comum o das hipteses:H0: = 0 versusH1: > 0

    A hiptese nula ser rejeitada se DW estiver longe de 2 (se DW for pequeno).

    Em geral preciso compara a estatstica DW com DOIS valores crticos, dL e dU. A hiptese nula rejeitada se DW < dL. Se DW cai no intervalo entre dL e dU, o teste inconclusivo, e se DW > dU , a hiptese nula no rejeitada.

  • [email protected]@mbarros.com 201

    Regresso Linear MRegresso Linear Mltiplaltipla

    Autocorrelao dos resduosLimitaes da estatstica DW

    No usar se o modelo contm, como varivel explicativa, a varivel dependente defasada.A estatstica DW no mede o efeito de autocorrelaes de ordem maior que 1. Tambm no captura efeitos MA nos erros.O modelo estimado deve incluir uma constante.

    [email protected]@mbarros.com 202

    Regresso Linear MRegresso Linear Mltiplaltipla

    Referncias mdulo de regressoGujarati, D. (2003) Basic Econometrics, McGraw-Hill, New York.Pindyck, R.S. & Rubinfeld, D. (1998) -Econometric Models and Economic Forecasts, McGraw-Hill, New York.Vasconcellos, M.A.S. & Alves, D. (editores) (2000) Manual de Econometria: nvel intermedirio, Ed. Atlas, So PauloWeisberg, S. (1980) Applied Linear Regression, John Wiley & Sons, New York.Wooldridge, J. M. (2000) Introductory Econometrics: A Modern Approach. South-Western College Publishing, a division of Thomson Learning.