cinthia - resumo gujarati

29
Cinthia de Souza Resumo dos capítulos 9, 10 e 11 do Gujarati. Capítulo 9 Modelos de regressão com variáveis binárias (dummies) O tipo de variáveis que temos trabalhado por enquanto era chamado variáveis proporcionais. Neste capítulo é envolvido não apenas as variáveis proporcionais, mas também variáveis de escala nominal. Tais variáveis são conhecidas ainda como variáveis indicadoras, de categoria, qualitativas ou binárias (dummies). 9.1 A natureza das variáveis dummies Em uma análise de regressão a variável dependente pode ser influenciada freqüentemente por variáveis de natureza qualitativa, como o gênero, raça, cor, religião, nacionalidade, etc. Tais variáveis em geral indicam a presença ou ausência de uma qualidade, de forma que é possível quantificá-la formulando valores de 1 e 0, em que 1 indica a presença daquele atributo e 0 determina a ausência do mesmo. Por exemplo, 1 indica que a pessoa é mulher; 0 indica que é homem. Tais variáveis são facilmente incorporadas aos modelos de regressão por meio dos modelos de análise de variância (ANOVA). Ex 9.1 Y = B1 + B2D2i + B3D3i + ui Yi = salário médio do professor na rede pública D2i = 1 se o estado for do Nordeste ou Norte central; 0 se não for D3i = se o estado pertencer a região Sul; 0 se não pertencer. Neste caso, o salário médio dos professores da região nordeste e centro norte será: D2i = 1; D3i = 0: E(Y) = B1 + B2 No sul: E(Y) = B1 + B3 No oeste: E(Y) = B1 Rodando o modelo: Y = 48014,615 +1524,099D2i 1721,027D3i Estes resultados indicam que o salário médio no oeste é de 48014,6015 reais, no nordeste é 48014,615 + 1524,099 = 49539; e na região sul é 48014,615 1721,027 = 46294. Tais números parecem diferentes, mas são eles estatisticamente diferentes um dos outros? Para saber, basta descobrir se cada um dos coeficientes angulares é estatisticamente significativo. Nesse caso os coeficientes não são significativos, visto que seus p valor são maiores que 0,05. Logo, estatisticamente não há diferença de salário de acordo com o estado. Advertência quanto ao uso das variáveis dummies

Upload: cinthia-de-souza

Post on 19-Jan-2016

183 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Cinthia - Resumo Gujarati

Cinthia de Souza – Resumo dos capítulos 9, 10 e 11 do Gujarati.

Capítulo 9 – Modelos de regressão com variáveis binárias (dummies) O tipo de variáveis que temos trabalhado por enquanto era chamado variáveis proporcionais. Neste capítulo é envolvido não apenas as variáveis proporcionais, mas também variáveis de escala nominal. Tais variáveis são conhecidas ainda como variáveis indicadoras, de categoria, qualitativas ou binárias (dummies). 9.1 A natureza das variáveis dummies Em uma análise de regressão a variável dependente pode ser influenciada freqüentemente por variáveis de natureza qualitativa, como o gênero, raça, cor, religião, nacionalidade, etc. Tais variáveis em geral indicam a presença ou ausência de uma qualidade, de forma que é possível quantificá-la formulando valores de 1 e 0, em que 1 indica a presença daquele atributo e 0 determina a ausência do mesmo. Por exemplo, 1 indica que a pessoa é mulher; 0 indica que é homem. Tais variáveis são facilmente incorporadas aos modelos de regressão por meio dos modelos de análise de variância (ANOVA). Ex 9.1 Y = B1 + B2D2i + B3D3i + ui Yi = salário médio do professor na rede pública D2i = 1 se o estado for do Nordeste ou Norte central; 0 se não for D3i = se o estado pertencer a região Sul; 0 se não pertencer. Neste caso, o salário médio dos professores da região nordeste e centro norte será: D2i = 1; D3i = 0: E(Y) = B1 + B2 No sul: E(Y) = B1 + B3 No oeste: E(Y) = B1 Rodando o modelo: Y = 48014,615 +1524,099D2i – 1721,027D3i Estes resultados indicam que o salário médio no oeste é de 48014,6015 reais, no nordeste é 48014,615 + 1524,099 = 49539; e na região sul é 48014,615 – 1721,027 = 46294. Tais números parecem diferentes, mas são eles estatisticamente diferentes um dos outros? Para saber, basta descobrir se cada um dos coeficientes angulares é estatisticamente significativo. Nesse caso os coeficientes não são significativos, visto que seus p valor são maiores que 0,05. Logo, estatisticamente não há diferença de salário de acordo com o estado. Advertência quanto ao uso das variáveis dummies

Page 2: Cinthia - Resumo Gujarati

1 – Para distinguir as três regiões, usamos apenas duas variáveis dummies. Isso ocorre pois se usássemos as 3, haveria colinearidade perfeita. Ou seja, se uma variável qualitativa tem m categorias, introduza m-1 variáveis binárias. 2 – A categoria que não é atribuída uma variável binária é conhecida como categoria de referência. 3 – O valor de B1 representa o valor médio da categoria de referência. 4 – Os coeficientes ligados as variáveis binárias são conhecidos como coeficientes diferenciais de intercepto, pois informam quanto a categoria que recebe o valor de 1 difere do valor médio da categoria de referência. 5 – A escolha da categoria de referência fica a critério do pesquisador. 9.3 Modelos ANOVA com duas variáveis qualitativas No modelo anterior havia uma variável qualitativa com três categorias; nesta seção consideraremos outro modelo com duas variáveis qualitativas. Ex 9.2 Y = 8,81 +1,099D2i – 1,672D3i Y = salário por hora D2 = estado civil; 1 = casado, 0 = outros D3 = região de residência; 1 = sul, 0 = outros Nesse caso a categoria de referência é não casado e não residente na região sul. O ganho médio dessa referência é de 8,81 reais por hora. Para os homens casados, esse valor é de 9,91. Já aqueles que moram no sul é de 7,14. Os ganhos são estatisticamente significativos, pois todos interceptos diferenciais são estatisticamente significativos. 9.4 Regressão com uma mistura de regressores quantitativos e qualitativos: modelos ANCOVA Os modelos de regressão que misturam a variáveis quantitativas e qualitativas são chamados de modelos de análise de covariância (ANCOVA). Ex 9.3 Y = B1 + B2D2i + B3D3i + B4Xi + ui Y = salário médio de professores Xi = gastos com escola pública por aluno D2i = 1 se o Estado for do nordeste ou do centro-norte; 0 caso contrário D3i = 1 se for da região sul; 0 caso contrário. Rodando o modelo: Y = 28694,918 – 2954,127D2i – 3112,194D3i + 2,3404Xi

Page 3: Cinthia - Resumo Gujarati

Ou seja: Quando o gasto com escolas aumenta em um dólar, o salário de um professor aumenta cerca de 2,34 reais. Os resultados são diferentes do modelo anterior pois agora acrescentamos os gastos. Nesse caso, o salário médio quando os gastos forem iguais a zero na régio oeste é 28694,918; na região nordeste é 25741 e no sul 25583. 9.5 A variável binária alternativa ao teste de Chow O teste de Chow foi usado para ver se havia diferença na relação entre poupança e renda nos EUA em dois períodos. O teste apenas informa se há diferença, todavia não indica qual seria essa diferença, que pode ser: interceptos distintos, inclinações distintas, ambos distintos ou ambos iguais. Para saber a origem deve-se fazer uma regressão múltipla como a seguinte: Y = A1 + A2Dt + B1Xt + B2(Dt, Xt) + ut Onde Y = poupança; X = renda; t = tempo; D = 1 para observações em 1982 – 1995; 0 caso contrário (observações em 1970 -1982) Função poupança para 70 – 95: E ( Y| Dt=0, Xt ) = A1 + b1Xt Para 82 – 95: E ( Y | Dt = 1, Xt ) = (A1 + A2) + (B1 + B2) Xt Na equação geral tem-se que A2 é o intercepto diferencial, B2 é o coeficiente angular diferencial (também chamado de deslocador de coeficiente angular), indicando quanto o coeficiente angular da função poupança do segundo período difere daquele do primeiro período. A introdução da variável binária D na forma multiplicativa (d x X) permite diferenciar entre os coeficientes angulares dos dois períodos, assim como a variável binária da forma aditiva permitiu distinguir entre os interceptos dos dois períodos. Ex 9.5 Resultados da regressão: Y = 1,0161 + 152,47Dt + 0,0803Xt – 0,0655(DtXt) Modelo 3: MQO, usando as observações 1970-1995 (T = 26) Variável dependente: SAVINGS

Coeficiente Erro Padrão razão-t p-valor const 1,01612 20,1648 0,0504 0,96027 INCOME 0,0803319 0,0144968 5,5413 0,00001 *** xd -0,0654694 0,0159824 -4,0963 0,00048 *** dummy 152,479 33,0824 4,6091 0,00014 ***

Page 4: Cinthia - Resumo Gujarati

Média var. dependente 162,0885 D.P. var. dependente 63,20446 Soma resíd. quadrados 11790,25 E.P. da regressão 23,14996 R-quadrado 0,881944 R-quadrado ajustado 0,865846 F(3, 22) 54,78413 P-valor(F) 2,27e-10 Log da verossimilhança -116,4125 Critério de Akaike 240,8250 Critério de Schwarz 245,8574 Critério Hannan-Quinn 242,2742 rô 0,167786 Durbin-Watson 1,648454

Para 70 – 81: Y = 1,0161 + 0,0803Xt Para 82 – 95: Y = (1,0161 +152,47) + (0,0803 – 0,0655)Xt Y = 153,49 + 0,0148Xt Como tanto o intercepto diferencial como os coeficientes angulares são estatisticamente significativos, tem-se que as regressões são distintas para os dois modelos. O intercepto e a inclinação são ambos distintos. 9.6 Efeitos de interação usando variáveis dummies No caso Y = A1 + A2D2i + A3D3i + BXi + ui Onde: Y = salário por hora X = escolaridade D2 = 1 se mulher, 0 se homem D3 = 1 se não branco e não espânico, 0 nos demais Nesse caso está implícito que o efeito da variável binária D2 é constante nas categorias de raça e que a binária D3 é constante nos dois gêneros. Todavia isso pode não ser verdade, pode haver interação entre as variáveis. O efeito das variáveis pode não ser aditivo como naquela equação, como também multiplicativo como na seguinte: Y = A1 + A2D2i + A3D3i + A4(D2iD3i) + BXi + ui Nesse caso A4 representa o efeito de ser mulher não branca e não hispânica. Primeiro será estimado o modelo com efeito aditivo: Y = -0,2610 – 2,3606D2i – 1,7327D3i +0,8028Xi Ou seja, mantendo tudo o mais constante, os ganhos médios das mulheres são menores em 2,36 reais e o ganho médio de trabalhadores não brancos e não hispânicos são 1,73 reais mais baixos. Incluindo a variável binária de interação: Y = -0,2610 – 2,3606D2i – 1,7327D3i + 2,1289D2iD3i + 0,8028Xi

Page 5: Cinthia - Resumo Gujarati

Nesse caso a variável interativa binária não deu estatisticamente significante. Porém se considerarmos que o nível de significância é 10% tem-se que: mantendo o nível de escolaridade constante, se acrescentarmos os três coeficientes de variável dummy teremos: -1,96 = ( -2,36 – 1,73 + 2,12) o que significa que o salário médio por hora de mulheres não brancas e não hispânicas é inferior em cerca de 1,96 reais. 9.7 O uso de variáveis dummies na análise sazonal Existem vários métodos para dessazonalizar uma série temporal, mas consideraremos apenas um deles: o método de variáveis binárias. Para exemplificar o caso, é apresentada uma tabela sobre a venda de quatro eletrodomésticos: lavadores de pratos, trituradores de lixo, lavadoras de roupas e geladeiras. Para exemplificar, pegaremos apenas o caso das geladeiras: Y = A1D1t + A2D2t + A3D3t + A4D4t + ut Em que Y = vendas de geladeiras e os D são variáveis binárias, onde cada uma apresenta 1 em um trimestre e zero nos demais. Nesse caso admitimos uma variável pra cada semestre, mas omitimos o intercepto. Rodando o modelo:

Modelo 1: MQO, usando as observações 1978:1-1985:4 (T = 32)

Variável dependente: FRIG

Coeficiente Erro Padrão razão-t p-valor

dq1 1222,12 59,9904 20,3720 <0,00001 ***

dq2 1467,5 59,9904 24,4622 <0,00001 ***

dq3 1569,75 59,9904 26,1667 <0,00001 ***

dq4 1160 59,9904 19,3364 <0,00001 ***

Média var. dependente 1354,844 D.P. var. dependente 235,6719

Soma resíd. quadrados 806142,4 E.P. da regressão 169,6785

R-quadrado 0,531797 R-quadrado ajustado 0,481632

F(3, 28) 10,60102 P-valor(F) 0,000079

Log da verossimilhança -207,5545 Critério de Akaike 423,1090

Critério de Schwarz 428,9720 Critério Hannan-Quinn 425,0524

rô 0,808979 Durbin-Watson 0,392512 Y = i222,125D1t + 1467,500D2t + 1569,750D3t + 1160,000D4t Cada coeficiente representa a venda média de geladeiras em cada trimestre. No caso de não suprimirmos a regressão e considerar o primeiro trimestre como referência, temos:

Page 6: Cinthia - Resumo Gujarati

Modelo 2: MQO, usando as observações 1978:1-1985:4 (T = 32)

Variável dependente: FRIG

Coeficiente Erro Padrão razão-t p-valor

const 1222,12 59,9904 20,3720 <0,00001 ***

dq2 245,375 84,8393 2,8922 0,00732 ***

dq3 347,625 84,8393 4,0975 0,00032 ***

dq4 -62,125 84,8393 -0,7323 0,47009

Média var. dependente 1354,844 D.P. var. dependente 235,6719

Soma resíd. quadrados 806142,4 E.P. da regressão 169,6785

R-quadrado 0,531797 R-quadrado ajustado 0,481632

F(3, 28) 10,60102 P-valor(F) 0,000079

Log da verossimilhança -207,5545 Critério de Akaike 423,1090

Critério de Schwarz 428,9720 Critério Hannan-Quinn 425,0524

rô 0,808979 Durbin-Watson 0,392512 Y = 1222,1250 + 245,37D2t + 347,62D3t – 62,12D4t Nesse caso, 1222,1250 é o valor médio de vendas pro primeiro trimestre, e os demais coeficientes nos dão a variação de vendas com relação a esse valor para cada trimestre. Para dessazonalizar a série, estimamos com base no modelo acima os valores de Y para cada observação e subtraímos dos mesmos os valores efetivos de Y, ou seja, diminuímos dele o valor dos reíduos da regressão. Se adicionarmos a variável quantitativa gastos com bens duráveis temos:

Modelo 4: MQO, usando as observações 1978:1-1985:4 (T = 32)

Variável dependente: FRIG

Coeficiente Erro Padrão razão-t p-valor

const 456,244 178,265 2,5594 0,01640 **

dq2 242,498 65,6259 3,6952 0,00099 ***

dq3 325,264 65,8148 4,9421 0,00004 ***

dq4 -86,0804 65,8432 -1,3074 0,20212

DUR 2,77342 0,623285 4,4497 0,00013 ***

Média var. dependente 1354,844 D.P. var. dependente 235,6719

Soma resíd. quadrados 465084,7 E.P. da regressão 131,2454

R-quadrado 0,729881 R-quadrado ajustado 0,689864

F(4, 27) 18,23901 P-valor(F) 2,30e-07

Log da verossimilhança -198,7539 Critério de Akaike 407,5077

Critério de Schwarz 414,8364 Critério Hannan-Quinn 409,9370

rô 0,689788 Durbin-Watson 0,566015 9.8 Regressão linear segmentada

Page 7: Cinthia - Resumo Gujarati

Tendo os dados sobre comissão, vendar e o valor do limiar X*(onde ocorre a mudança), a técnica das variáveis binárias pode ser usada para estimar os coeficientes angulares dos dois segmentos da regressão linear. Pode-se proceder da seguinte forma: Y = A1 + B1Xi +B2(Xi – X*)Di + ui Supondo o caso de comissão de vendas: Yi = comissão de vendas Xi = volume de vendas geradas pelo vendedor X* = limiar de vendas D = 1 de Xi>X*; 0 se Xi<X* Temos: E( Yi| Di = 0, Xi, X* ) = A1 + B1Xi e E ( Yi | Di = 1, Xi, X* ) = A1 – B2X* + (B1 + B2)Xi Ex 9.7 Relação entre custo total e produção

Modelo 7: MQO, usando as observações 1-10

Variável dependente: cost

Coeficiente Erro Padrão razão-t p-valor

const -145,717 176,734 -0,8245 0,43685

output 0,279126 0,0460081 6,0669 0,00051 ***

xd 0,0945 0,0825524 1,1447 0,28995

Média var. dependente 1507,600 D.P. var. dependente 1003,946

Soma resíd. quadrados 238521,5 E.P. da regressão 184,5928

R-quadrado 0,973706 R-quadrado ajustado 0,966193

F(2, 7) 129,6078 P-valor(F) 2,95e-06

Log da verossimilhança -64,58753 Critério de Akaike 135,1751

Critério de Schwarz 136,0828 Critério Hannan-Quinn 134,1793 De acordo com o modelo, o custo marginal da produção é de aproximadamente 28 centavos por unidade. Quando a produção ultrapassa X*, o custo marginal é de 28+9 = 37. Todavia, a variável binária não é significativa, o que significa que podemos excluir a variável binária. 9.10 Alguns aspectos técnicos A interpretação de variáveis dummies em regressões semilogarítmicas Ln Yi = B1 + B2Di + ui Onde Y = salário-hora e D = 1 para mulheres e 0 para homens. Função salário para homens: E( ln Yi | Di = 0 ) = B1 E ( ln Yi | Di = 1 ) = B1 + B2

Page 8: Cinthia - Resumo Gujarati

O intercepto B1 dá o logaritmo médio do salário-hora e o coeficiente angular dá a diferença no logaritmo médio dos ganhos por hora de homens e mulheres. Ex 9.8 Ln Yi = 2,17 – 0,24Di Ou seja: tomando o antilogarítimo de 2,17, encontramos 8,81, que corresponde ao salário mediano por hora dos homens. Ao retirarmos o antilogarítimo de 2,17 – 0,24 = 1,92, obtemos 6,87, que são os ganhos medianos por hora recebidos pelas mulheres. Variáveis dummies e heterocedasticidade No exemplo poupança-renda nos EUA para ou períodos de 70-81 e 82-95 foi testada a estabilidade estrutural supondo que a var(u1i) = var (u2i) = σ², ou seja, que a variância nos dois períodos era igual. Para não tirarmos conclusões precipitadas, deve-se checar se as variâncias são de fato iguais. Se elas não forem, os métodos aqui expostos podem não ser aplicáveis.

Capítulo 10 – Muticolinearidade: O que acontece se os regressores estiverem correlacionados? 10.1 A natureza da multicolinearidade Originalmente, o termo multicolinearidade significava a existência de uma relação linear “perfeita”, ou seja: A1B1 + A2X2 + .... + AkXk = 0 Hoje o termo é usado em sentido mais amplo, incluindo também variáveis que estão intercorrelacionadas, mas não perfeitamente: A1X1 +A2X2 + ... + AkXk + vi = 0 A multicolinearidade conforme assim definida diz respeito apenas a relações lineares. Se o X estivesse elevado ao quadrado, não haveria multicolinearidade, entretanto nessas equações há dificuldade para estimar os parâmetros. Não se pode ter multicolinearidade perfeita pois se houvesse os coeficientes das variáveis X seriam indeterminados e seus erros padrão infinitos. Quando a linearidade for menos que perfeita, os coeficientes serão determinados, mas terão um erro padrão alto. Exemplo de fontes de colinearidade: 1 – O método de coleta de dados empregado. 2 – Restrições ao modelo ou à população que está sendo amostrada 3 – Especificação do modelo 4 – Um modelo sobredeterminado

Page 9: Cinthia - Resumo Gujarati

5 – Existência de tendência comum 10.2 Estimação na presença de multicolinearidade perfeita Demonstração matemática de que quando há multicolinearidade perfeita os coeficientes não podem ser determinados e os erros padrão são infinitos, apenas a relação linear entre os coeficientes pode ser determinada. 10.3 Estimação na presença de multicolinearidade “alta”, mas “imperfeita” X3i = bx2i + vi Onde vi é um termo de erro estocástico tal que Σx2ivi = 0. Nesse caso, a estimação dos coeficientes é possível. Todavia as variâncias serão altas e os erros padrão também. Se vi for muito pequeno, a equação indicará linearidade quase perfeita. 10.4 Multicolinearidade: muito barulho por nada? Mesmo se a multicolinearidade for muito alta, os estimadores MQO conservarão a propriedade de melhores estimadores lineares não viesados. Segundo Achen, a multicolinearidade apenas dificulta a obtenção de estimativa dos coeficientes, da mesma forma que um baixo número de observações também o faz. É verdade que os estimados de MQO serão inviesados se forem perfeitamente colineares. Mas tal fato não diz nada a cerca das propriedades dos estimadores. Em segundo lugar, é verdade também que a variância também será mínima. Contudo isso não significa que a variância será pequena o suficiente. Terceiro, a multicolinearidade é essencialmente um fenômeno amostral, no sentido de que mesmo se ela não existir, a amostra elas podem estar perfeita e linearmente relacionadas. Por exemplo, no caso consumo, renda e riqueza na qual os economistas apontam a necessidade de utilizar as três variáveis: Consumo = B1 + B2Renda + B3Riqueza + ui Nesse caso pode haver uma alta colinearidade entre renda e riqueza. Embora teoricamente renda e riqueza sejam candidatos lógicos para explicar o comportamento do consumo, na prática pode ser difícil separa as influências de cada variável. Para avaliarmos os efeitos individuais da riqueza e da renda sobre o consumo, precisamos de um número suficiente de observações de amostra dos indivíduos ricos com baixa renda e com anta renda e baixa riqueza. Logo, o fato dos estimadores serem MELNT significa pouco. 10.5 Conseqüências práticas da multicolinearidade Em caso de alta colinearidade é provável que nos deparemos com as seguintes conseqüências: 1 – embora sejam os melhores estimadores lineares não viesados, os estimadores de MQO têm grandes variâncias e covariâncias, tornando difícil uma estimação precisa. 2 – Devido a conseqüência 1,os intervalos de confiança tendem a ser muito mais amplos, levando à aceitação imediata da “hipótese nula igual a zero” 3 – A razão t dos coeficientes tende a ser estatisticamente insignificante.

Page 10: Cinthia - Resumo Gujarati

4 – Embora a razão t de um ou mais coeficientes seja estatisticamente insignificante, R², a medida geral da qualidade do ajustamento, pode ser muito alto. 5 – Os estimadores de MQO e seus erros padrão podem ser sensíveis a pequenas alterações nos dados. Ex 10.1 Suponha a relação entre consumo, renda e riqueza

Modelo 1: MQO, usando as observações 1-10

Variável dependente: Y

Coeficiente Erro Padrão razão-t p-valor

const 24,7747 6,7525 3,6690 0,00798 ***

X2 0,941537 0,822898 1,1442 0,29016

X3 -0,0424345 0,0806645 -0,5261 0,61509

Média var. dependente 111,0000 D.P. var. dependente 31,42893

Soma resíd. quadrados 324,4459 E.P. da regressão 6,808041

R-quadrado 0,963504 R-quadrado ajustado 0,953077

F(2, 7) 92,40196 P-valor(F) 9,29e-06

Log da verossimilhança -31,58705 Critério de Akaike 69,17411

Critério de Schwarz 70,08186 Critério Hannan-Quinn 68,17830 Y = 24,77 + 0,94X2 – 0,042X3 Ou seja, a renda e a riqueza juntas explicam cerca de 96% da variação do consumo, mas nenhum dos coeficientes é significativo. Além disso, a variável riqueza tem o sinal errado. Apesar disso, o modelo é globalmente significante. Como já ressaltado, quando a colinearidade é alta, os testes dos regressores individuais não são confiáveis; em tais casos o teste F geral que indicará se Y está relacionado aos vários regressores. O fato do teste F ser significativo mas individualmente as variáveis serem insignificantes, significa que as duas variáveis estão tão correlacionadas que é impossível identificar o impacto isolado de cada uma. Se fizermos a regressão de X3 contra X2:

Modelo 3: MQO, usando as observações 1-10

Variável dependente: X3

Coeficiente Erro Padrão razão-t p-valor

const 7,54545 29,4758 0,2560 0,80442

X2 10,1909 0,164262 62,0405 <0,00001 ***

Média var. dependente 1740,000 D.P. var. dependente 617,7312

Soma resíd. quadrados 7123,273 E.P. da regressão 29,83972

R-quadrado 0,997926 R-quadrado ajustado 0,997667

F(1, 8) 3849,020 P-valor(F) 5,06e-12

Log da verossimilhança -47,03207 Critério de Akaike 98,06415

Critério de Schwarz 98,66932 Critério Hannan-Quinn 97,40028

Page 11: Cinthia - Resumo Gujarati

O que mostra que há uma colinearidade quase perfeita entre X3 e X2. Regressão de Y contra X2:

Modelo 4: MQO, usando as observações 1-10

Variável dependente: Y

Coeficiente Erro Padrão razão-t p-valor

const 24,4545 6,41382 3,8128 0,00514 ***

X2 0,509091 0,0357428 14,2432 <0,00001 ***

Média var. dependente 111,0000 D.P. var. dependente 31,42893

Soma resíd. quadrados 337,2727 E.P. da regressão 6,493003

R-quadrado 0,962062 R-quadrado ajustado 0,957319

F(1, 8) 202,8679 P-valor(F) 5,75e-07

Log da verossimilhança -31,78092 Critério de Akaike 67,56184

Critério de Schwarz 68,16701 Critério Hannan-Quinn 66,89797 Anteriormente a variável renda era estatisticamente insignificante, agora ela é altamente significante. Agora, a regressão de Y contra X3:

Modelo 5: MQO, usando as observações 1-10

Variável dependente: Y

Coeficiente Erro Padrão razão-t p-valor

const 24,411 6,8741 3,5512 0,00750 ***

X3 0,0497638 0,00374399 13,2917 <0,00001 ***

Média var. dependente 111,0000 D.P. var. dependente 31,42893

Soma resíd. quadrados 385,1233 E.P. da regressão 6,938330

R-quadrado 0,956679 R-quadrado ajustado 0,951264

F(1, 8) 176,6681 P-valor(F) 9,80e-07

Log da verossimilhança -32,44428 Critério de Akaike 68,88856

Critério de Schwarz 69,49373 Critério Hannan-Quinn 68,22469 Vemos que a riqueza agora está com o sinal correto e é altamente significativa. esse resultado mostra que uma forma de escapar da extrema colinearidade é excluir a variável colinear. Ex 10.2 Dados sobre consumo (C), renda pessoal real disponível (Yd), riqueza real (W), taxa de juros real (I) para os EUA de 1947-2000. Ln C = B1 +B2ln(Yd) + B3lnW + B4I + ut Nesse caso os coeficientes deram significativos o R² deu alto, e os sinais estão certos, não havendo motivos de se preocupar muito com a multicolinearidade. 10.7 - Detecção da multicolinearidade

Page 12: Cinthia - Resumo Gujarati

1 – A multicolinearidade é questão de grau, não de tipo 2 – É uma característica da amostra, não da população Sinais de colinearidade alta: 1 – R² alto mas poucas variáveis significativas; 2 – Alta correlação entre pares de regressores; 3 – Exame de correlações parciais 4 – Regressões auxiliares 5 – Autovalores e índice condicional 6 – Tolerância e fator de inflação da variância – quando R² é 1, o FIV tende ao infinito 7 – Diagrama de dispersão 10.8 – Medidas corretivas O que fazer se a multicolinearidade for alta? Não fazer nada: Blanchard diz que a multicolinearidade foge de nosso controle e é um problema de deficiência de dados (micronumerosidade) Procedimentos: 1 – Uma informação a priori: Suponha que o modelo Y = B1 + B2X2i + B3X3i + ui Onde y = consumo, X2 = renda e X3 = riqueza. Suponha que a relação linear entre renda e riqueza seja: B3 = 0,1B2. Pode-se efetuar a seguinte regressão: Y = B1 + B2X2 + 0,1B2X3i + ui = B1 + B2Xi + ui, em que Xi = X2i +0,1X3i. 2 – Combinando dados de corte transversal e de séries temporais Suponhamos que desejemos estudar a demanda por automóveis nos EUA e pressupomos que tenhamos dados de uma série temporal do número de carros vendidos, do preço médio do carro e da renda do consumidor. Suponha que: Ln Y = B1 + B2ln P + B3ln R + u Em que Y = numero de carros vendidos, P = preço médio, R = renda e t = tempo. Nosso objetivo é estimar as elasticidades preço e renda. Em séries temporais as variáveis preço e renda em geral tendem a ser altamente colineares. Se temos dados de corte transversal, podemos chegar a uma estimativa confiável da elasticidade renda B3, pois nesses dados os preços não variam muito. Seja B3 a elasticidade renda estimada por corte transversal. Usando a estimativa, pode-se escrever a regressão da série temporal como: Y* = B1 + B2ln P + u em que Y*= lnY - B3ln R, ou seja, Y* representa o valor de Y depois de removermos o efeito renda. Agora podemos estimar a elasticidade preço B2 por meio da regressão anterior.

Page 13: Cinthia - Resumo Gujarati

3 – Exclusões de variáveis e viés de especificação – Excluir variável que apresenta multicolinearidade, todavia pode levar a erros de especificação e a resultados viesados. 4 – Transformações de variáveis Y = B1 + B2X2i + B3X3i + ui Y(t-1) = B1 + B2X2i(t-1) + B3X3i(t-1) + ui Subtraindo uma equação da outra: Y – Y (t – 1) = B2 (X2 – X2(t-1)) + B3( X3 – X3 (t -1)) + Vt Tal equação é conhecida como forma de primeira diferença. Ela frequentemente reduz a gravidade da multicolinearidade. Outra forma é fazer um transformação proporcional, dividindo a equação por uma das variáveis altamente correlacionadas. 5 – Dados adicionais ou novos Mudar a amostra ou ampliá-la, visto que a multicolinearidade é um aspecto da amostra. Em outra amostra envolvendo as mesmas variáveis a multicolinearidade pode ser menor. 6 – Reduzindo a colinearidade em regressões polinomiais A colinearidade costuma se reduzir bastante quando as variáveis explanatórias são expressão na forma de desvios da média. 10.9 – A multicolinearidade é um mal necessário? Se a análise de regressão tiver como objetivo a previsão ou prognóstico, a multicolinearidade não é um problema tão grave, pois quanto mais alto R² melhor a previsão. Todavia as amostras futuras devem seguir a mesma relação linear das antigas, o que é difícil de ocorrer. 10.10 Um exemplo ampliado: os dados de Longley Srie temporal para os anos de 1947 – 1962 e referem-se a Y = numero de pessoas empregadas; X1 = deflator implícito dos preços no PNB; X2 = PNB; X3 = número de pessoas desempregadas; X4 = número de pessoas nas forças armadas; X5 = população não institucionalizada com mais de 14 anos; X6 = índex. Nesse caso o R² dá alto e poucas variáveis dão significantes, o que pode sugerir que temos problema de multicolinearidade. Ao analisar a tabela de correlação, vimos que muitas delas são altas. Para haver certeza da multicolinearidade, testa-se regressões auxiliares, de cada variável X contra as variáveis X remanescentes. Os R² são muito altos, o que sugere um grande problema de colinearidade. Aplicando o teste F na regressão, percebe-se que as variáveis são globalmente significantes. Para tentar corrigir o problema: Passe o PNB nominal para o real; a população esta diretamente correlacionada com o tempo, então retira-se o tempo; e não há razão para incluir X3. Efetuando-se essas alterações, os coeficientes estimados são significativos e os sinais fazem sentido.

Page 14: Cinthia - Resumo Gujarati

Capítulo 11 – Heterocedasticidade: O que acontece se a variância do erro não é constante? 11.1 A natureza da heterocedasticidade Uma das hipóteses importantes do modelo clássico de regressão linear é que a variância de cada termo de erro ui é um número constante e igual a σ². Tal hipótese é chamada de homocedasticidade, o seja, igual espalhamento (igual variância). Todavia, há vários fatores que contribuem para que as variâncias não sejam constantes, como os seguintes: 1 – De acordo com os modelos de erro – aprendizagem, comportamentos incorretos das pessoas tendem a diminuir com o tempo, esperando-se que σ² diminua. 2 – Conforme a renda aumenta, as pessoas tem mais renda discricionária, e portanto mais opções para escolher onde alocar sua renda. Por isso, é provável que σ² aumente com o tempo. 3 – A medida que as técnicas de coleta de dados se aprimoram, é provável que σ² diminua. 4 - A heterocedasticidade pode ocorrer como resultado de dados discrepantes. 5 – Se o modelo de regressão naão for especificado corretamente, também pode haver heterocedasticidade. 6 – Outra fonte da heterocedasticidade é a assimetria na distribuição de um ou mais regressores. Por exemplo, variáveis econômicas como renda, riqueza e educação, pois a distribuição de renda e riqueza costuma ser desigual. 7 – A heterocedasticidade também pode surgir da transformação incorreta de dados e da forma funcional incorreta. O problema da heterocedasticidade é provavelmente mais comum em dados de corte transversal do que nas séries temporais, visto que o primeiro lida com amostras que podem diferenciar geograficamente, economicamente, etc. e o segundo apenas lida com a diferença temporal. 11.2 – Estimativa dos MQO na presença da heterocedasticidade O que ocorre com os MQO e suas variâncias se introduzirmos a heterocedasticidade? Considerando o modelo: Y = B1 + B2Xi +ui A variância é dada por: Var B2 = Σxi² σ²/(Σxi²) Que é diferente da fórmula usual varB2= σ²/Σx1²

Page 15: Cinthia - Resumo Gujarati

Ainda haverá MELNT quando houver heterocedasticidade? O coeficiente B2 continuará sem ser tendencioso, pois para isso não é necessário que os termos de erro sejam homocedásticos. Porém, B2 deixa de ser o melhor estimador e a variância mínima não é dada por sua equação. 11.3 O método dos mínimos quadrados generalizados (MQG) Queremos montar um modelo em que as observações vindas de populações com maior variabilidade recebam menos peso do que as que possuem menor variabilidade. É possível fazelo pelo método MQG. Y = B1X1 +B2X2 + ui Dividindo ambos lados por σ: Y/ σ = B1X1/ σ +B2X2/ σ + ui/ σ Aplicando a fórmula da variância, percebe-se que ela será 1. Logo, uma forma de resolver o problema da heterocedasticidade é transformar a equação e depois aplicar o MQO. Diferença entre os MQO e os MQG Como Σui = Σwi(Yi – B1Xi – B2Xi)² Σwiui² = Σwi(Yi* – B1*Xi – B2*Xi)² Em que wi = 1/σ² Dessa forma, quando a variância aumenta, o peso será menor. Já no MQO, os pesos serão os mesmos quando a SQR for minimizada. A equação é chamada mínimos quadrados ponderados. 11.4 Consequências de usar MQO na presença de heterocedasticidade Os estimadores B2 e B2* ambos não são tendenciosos, todavia B2* é eficiente, ou seja, tem menor variância. Como ficará nossas testes no caso de considerar B2*? Se persistimos no uso dos procedimentos comuns de teste apesar da heterocedasticidade, quaisquer que sejam as conclusões a que chegarmos podem estar equivocadas. 11.5 - Detecção da heterocedasticidade Na maior parte dos casos que envolvem investigações econométricas, a heterocedasticidade pode ser uma questão de intuição, visto que apenas podemos de fato saber se ela existe se tivermos conhecimento da população inteira, o que é muito difícil ocorrer na área econômica. Métodos informais: Natureza do problema – Por exemplo, ao estudar o comportamento da renda sobre o consumo, espera-se variâncias desiguais entre os termos de erro. Método gráfico – Pode-se estimar a regressão como se não houvesse hetorocedasticidade e então fazer um gráfico dos resíduos elevados ao quadrado para ver se os mesmos possuem um padrão sistemático. Se possuírem, há heterocedasticidade.

Page 16: Cinthia - Resumo Gujarati

Métodos formais: Teste de Park – Park formaliza o método gráfico sugerindo que σ² seja uma função da variável explanatória Xi. A forma funcional por ele sugerida é: σi ² = σ² Xi^B*e^vi ou ln σi² = ln σ² + B ln Xi + vi Como σi² em geral não é conhecido, deve-se usar ui² como Proxy e calcular a regressão: Ln ui² = ln σ² + B ln Xi + v Se B for estatisticamente significativo, tem-se que a heterocedasticidade está presente.Esse teste é feito em dois passos: Primeiro fazemos a regressão de MQO desconsiderando a heterocedasticidade e depois se obtem o ui dessa regressão, e faz-se a regressão acima exposta. Todavia, vi pode também ser heterocedastico, e caímos no mesmo problema. Ex 11.1

Y = B1 + B2Xi + ui Onde Y = remuneração e X = produtividade.

Modelo 1: MQO, usando as observações 1-9

Variável dependente: r

Coeficiente Erro Padrão razão-t p-valor

const 1992,06 936,612 2,1269 0,07100 *

p 0,232999 0,0998528 2,3334 0,05235 *

Média var. dependente 4161,778 D.P. var. dependente 420,6625

Soma resíd. quadrados 796278,0 E.P. da regressão 337,2744

R-quadrado 0,437520 R-quadrado ajustado 0,357166

F(1, 7) 5,444885 P-valor(F) 0,052349

Log da verossimilhança -64,02760 Critério de Akaike 132,0552

Critério de Schwarz 132,4497 Critério Hannan-Quinn 131,2040 Salvando o erro e rodando com relação a X:

Modelo 2: MQO, usando as observações 1-9

Variável dependente: l_usq1

Coeficiente Erro Padrão razão-t p-valor

const 35,8268 38,3227 0,9349 0,38097

Page 17: Cinthia - Resumo Gujarati

l_p -2,80202 4,19613 -0,6678 0,52568

Média var. dependente 10,23844 D.P. var. dependente 1,414819

Soma resíd. quadrados 15,05470 E.P. da regressão 1,466517

R-quadrado 0,059886 R-quadrado ajustado -0,074416

F(1, 7) 0,445907 P-valor(F) 0,525681

Log da verossimilhança -15,08554 Critério de Akaike 34,17108

Critério de Schwarz 34,56553 Critério Hannan-Quinn 33,31986 Como não há significância no parâmetro, não há heterocedasticidade. Teste de Glejser – Depois de obter os resíduos da regressão MQO, Glejser sugere a regressão dos valores de ui absolutos contra a variável X. |ui| = B1 + B2Xi + vi Ex 11.2

Modelo 3: MQO, usando as observações 1-9

Variável dependente: uhat1

Coeficiente Erro Padrão razão-t p-valor

const 407,476 633,189 0,6435 0,54038

p -0,0203497 0,0675047 -0,3015 0,77183

Média var. dependente 217,9776 D.P. var. dependente 214,6654

Soma resíd. quadrados 363925,4 E.P. da regressão 228,0117

R-quadrado 0,012816 R-quadrado ajustado -0,128210

F(1, 7) 0,090875 P-valor(F) 0,771825

Log da verossimilhança -60,50410 Critério de Akaike 125,0082

Critério de Schwarz 125,4027 Critério Hannan-Quinn 124,1570 Novamente não há significância, portanto não há heterocedasticidade. Teste de correlação por ordem Spearman – o coeficiente de correlação de ordem precedente pode ser usado para detectar a heterocedasticidade como se segue, supondo Y = B0 + B1Xi + ui Etapa 1 – Ajuste a regressão aos dados em Y e X e obtenha os resíduos ui Etapa 2 – Usando o valor absoluto de u, ordene tanto ui quando X de acordo com uma ordem ascendente ou descentende e calcule o coeficiente de correlação Etapa 3 – Supondo que o coeficiente de correlação por ordem da população seja zero e n >8, a significância de Rs na amostra pode ser verificada pelo teste t a seguir: T = Rs (n-1)^1/2/(1 – r²)^1/2 Se o valor t exceder o valor t crítico, aceita-se a hipótese da heterocedasticidade, caso contrário rejeita-se. Ex 11.3

Page 18: Cinthia - Resumo Gujarati

Modelo 1: MQO, usando as observações 1-10

Variável dependente: E

Coeficiente Erro Padrão razão-t p-valor

Const 9,178 0,39338 23,3311 <0,00001 ***

Oi 0,689455 0,063399 10,8748 <0,00001 ***

Média var. dependente 12,97000 D.P. var. dependente 2,156875

Soma resíd. quadrados 2,652825 E.P. da regressão 0,575850

R-quadrado 0,936640 R-quadrado ajustado 0,928720

F(1, 8) 118,2624 P-valor(F) 4,52e-06

Log da verossimilhança -7,554586 Critério de Akaike 19,10917

Critério de Schwarz 19,71434 Critério Hannan-Quinn 18,44530 RS = 1 – 6 (110/(10*(100-1)) = 0.3333 Como t crítico = 0,99 Como t é menor que t crítico, não há heterocedasticidade. Teste de Goldfeld-Quandt – É aplicável quando se supõe que a variância heterocedastica relaciona-se positivamente com uma das variáveis explanatórias. Etapa 1 – Ordene as observações de acordo com os valores de X, a começar pelo valor mais baixo Etapa 2 - Omita c observações centrais e divida as remanescentes em dois grupos com observações (n-c)/2 em cada um. Etapa 3 – Ajuste as regressões separadamente, para as primeiras obsevações (n-c)/2 e para as últimas obtenha as somas dos quadrados dos resíduos. Etapa 4 – Calcula a razão SQR2/gl/SGR1/gl Se o valor calculado for maior que o crítico, rejeita-se a hipótese de homocedasticidade e aceita-se a heterocedasticidade. Teste de White – Y = b1 +b2x2 + b3x3 +ui Etapa 1 – Calcula-se o u da equação acima Etapa 2 – Faz- se a seguinte regressão U² = A1 + A2X2 + A3 X3 + A4X2² + A5X3² + A6X2X3 =v Etapa 3 – n*R² . se esse valor der maior que o qui quadrado crítico, há heterocedasticidade. Ex 11.4 Y = 3,4 + 0,69X para as 13 primeiras observações SQR = 377,17 Y = -28,02 + 0,79Xi para as 13 últimas SQR = 1536,8 ƛ = 1536,8/377,17 =4,07 F crítico = 2,82. Logo, rejeita-se a hipótese de homecedasticidade.

Page 19: Cinthia - Resumo Gujarati

11.6 - Medidas corretivas Quando σ² é conhecido: método dos mínimos quadrados ponderados Ex 11.7 Y/σ = B1 (1/ σ) + B2( Xi/ σi) + ui/ σi

Modelo 2: MQO, usando as observações 1-9

Variável dependente: YSIGMA

Coeficiente Erro Padrão razão-t p-valor

XSIGMA 153,865 16,6661 9,2322 0,00004 ***

s 3410,16 79,4293 42,9333 <0,00001 ***

Média var. dependente 4,373500 D.P. var. dependente 0,671417

Soma resíd. quadrados 0,124253 E.P. da regressão 0,133231

R-quadrado 0,999293 R-quadrado ajustado 0,999192

F(2, 7) 4947,196 P-valor(F) 9,40e-12

Log da verossimilhança 6,501524 Critério de Akaike -9,003048

Critério de Schwarz -8,608598 Critério Hannan-Quinn -9,854268 Y/σ = 3406,63 (1/σ) = 154,15 (X/σ) Quando σ² é desconhecido: White mostrou que esta estimativa pode ser realizada de modo que inferências estatísticas válidas assintoticamente possam ser feitas sobre os verdadeiros valores dos parâmetros. Os erros padrão corrigidos para a heterocedasticidade de White também são conhecidos como erros padrão robustos. Ex 11.8 Y = 832,91 – 1834,2 (Renda) + 1587,04 (Renda)² Ep MQO =(327,3); (829) e (519,1) Ep White: 460,9; 1243,0; 830. Hipóteses plausíveis sobre o padrão de heterocedasticidade H1- A variância do erro é proporcional a Xi² H2 – A variância do erro é proporcional a Xi. H3 – A variância do erro é proporcional ao quadrado do valor médio de Y H4 – uma transformação logarítmica reduz a heterocedasticidade quando comparada com a regressão sem log. 11.7 – Exemplos finais

Page 20: Cinthia - Resumo Gujarati

11.9 Teste de Parker

Modelo 6: MQO, usando as observações 1-64

Variável dependente: usq5

Coeficiente Erro Padrão razão-t p-valor

const 706,571 611,148 1,1561 0,25206

CM 6,74637 3,81189 1,7698 0,08167 *

Média var. dependente 1661,182 D.P. var. dependente 2337,366

Soma resíd. quadrados 3,28e+08 E.P. da regressão 2298,787

R-quadrado 0,048091 R-quadrado ajustado 0,032738

F(1, 62) 3,132272 P-valor(F) 0,081674

Log da verossimilhança -585,1649 Critério de Akaike 1174,330

Critério de Schwarz 1178,648 Critério Hannan-Quinn 1176,031 Como a variável não é significante ao nível de 5%, pode-se dizer que a homecedasticidade é válida. Teste de Glejser

Modelo 7: MQO, usando as observações 1-64

Variável dependente: uhat3

Coeficiente Erro Padrão razão-t p-valor

const 22,4779 6,8776 3,2683 0,00177 ***

CM 0,0635019 0,0428974 1,4803 0,14385

Média var. dependente 31,46341 D.P. var. dependente 26,11302

Soma resíd. quadrados 41492,54 E.P. da regressão 25,86957

R-quadrado 0,034138 R-quadrado ajustado 0,018559

F(1, 62) 2,191349 P-valor(F) 0,143852

Log da verossimilhança -297,9924 Critério de Akaike 599,9848

Critério de Schwarz 604,3026 Critério Hannan-Quinn 601,6858 Novamente, não há significância. Teste de White

Modelo 2: MQO, usando as observações 1-64

Variável dependente: usq1

Coeficiente Erro Padrão razão-t p-valor

const 1409,14 1345,64 1,0472 0,29935

FLR 32,9127 66,0349 0,4984 0,62008

Page 21: Cinthia - Resumo Gujarati

PGNP 0,0837315 0,963725 0,0869 0,93106

sq_FLR -0,442598 0,68304 -0,6480 0,51955

sq_PGNP -6,97963e-06 1,93904e-05 -0,3600 0,72019

fp -0,000341379 0,0141182 -0,0242 0,98079

Média var. dependente 1661,182 D.P. var. dependente 2337,366

Soma resíd. quadrados 3,32e+08 E.P. da regressão 2390,759

R-quadrado 0,036824 R-quadrado ajustado -0,046209

F(5, 58) 0,443486 P-valor(F) 0,816252

Log da verossimilhança -585,5414 Critério de Akaike 1183,083

Critério de Schwarz 1196,036 Critério Hannan-Quinn 1188,186 R²*n = 64* 0,036 =2,3 Qui quadrado crítico = 7,37 Logo, não há heterocedasticidade. Ex 11.10

Modelo 1: MQO, usando as observações 1-14

Variável dependente: pd

Coeficiente Erro Padrão razão-t p-valor

const 1337,87 5015,14 0,2668 0,79418

v 0,0437234 0,0277404 1,5762 0,14097

Média var. dependente 8235,286 D.P. var. dependente 9675,474

Soma resíd. quadrados 1,01e+09 E.P. da regressão 9166,328

R-quadrado 0,171516 R-quadrado ajustado 0,102475

F(1, 12) 2,484284 P-valor(F) 0,140972

Log da verossimilhança -146,5122 Critério de Akaike 297,0243

Critério de Schwarz 298,3025 Critério Hannan-Quinn 296,9060 Teste de Park

Modelo 2: MQO, usando as observações 1-14

Variável dependente: usq1

Coeficiente Erro Padrão razão-t p-valor

const -

7,24937e+07

5,49402e+07 -1,3195 0,21162

v 916,077 303,893 3,0145 0,01077 **

Média var. dependente 72018486 D.P. var. dependente 1,28e+08

Soma resíd. quadrados 1,21e+17 E.P. da regressão 1,00e+08

R-quadrado 0,430931 R-quadrado ajustado 0,383508

F(1, 12) 9,087057 P-valor(F) 0,010773

Log da verossimilhança -276,7337 Critério de Akaike 557,4675

Critério de Schwarz 558,7456 Critério Hannan-Quinn 557,3491

Page 22: Cinthia - Resumo Gujarati

Como o coeficiente de v é significante, há heterocedasticidade. Teste de Glejser

Modelo 3: MQO, usando as observações 1-14

Variável dependente: uhat1

Coeficiente Erro Padrão razão-t p-valor

const -1002,6 2316,15 -0,4329 0,67278

v 0,0463859 0,0128114 3,6207 0,00351 ***

Média var. dependente 6314,831 D.P. var. dependente 5883,350

Soma resíd. quadrados 2,15e+08 E.P. da regressão 4233,302

R-quadrado 0,522089 R-quadrado ajustado 0,482263

F(1, 12) 13,10927 P-valor(F) 0,003510

Log da verossimilhança -135,6964 Critério de Akaike 275,3928

Critério de Schwarz 276,6709 Critério Hannan-Quinn 275,2745 Como o parâmetro é significante, há heterocedasticidade. Teste de White

Modelo 4: MQO, usando as observações 1-14

Variável dependente: usq1

Coeficiente Erro Padrão razão-t p-valor

Const -

4,67463e+07

1,12224e+08 -0,4165 0,68502

V 577,657 1307,93 0,4417 0,66729

sq_v 0,000845629 0,00317114 0,2667 0,79466

Média var. dependente 72018486 D.P. var. dependente 1,28e+08

Soma resíd. quadrados 1,20e+17 E.P. da regressão 1,05e+08

R-quadrado 0,434586 R-quadrado ajustado 0,331783

F(2, 11) 4,227380 P-valor(F) 0,043453

Log da verossimilhança -276,6886 Critério de Akaike 559,3772

Critério de Schwarz 561,2944 Critério Hannan-Quinn 559,1998 R² = 0,4345 e n = 14 N*R² =6,09 O p-valor do qui-quadrado com valor 6,09 com 2gl (já que há dois regressores na equação) é de 0,047 Qui-quadrado(2): área à direita de 6,09 = 0,0475963 (à esquerda: 0,952404) Logo, como o p valor é muito pequeno, há heterocedasticidade.

Page 23: Cinthia - Resumo Gujarati

EXERCÍCIOS CAPÍTULO 9 9.21 a) Como a variável binária está em formato logarítmico, e o logaritmo de zero não existe, redefinido-a como 1 e 10 será possível obter logaritmos. b)

Modelo 4: MQO, usando as observações 1970-1995 (T = 26)

Variável dependente: l_SAVINGS

Coeficiente Erro Padrão razão-t p-valor

const -0,158881 0,765707 -0,2075 0,83745

l_INCOME 0,669504 0,107357 6,2362 <0,00001 ***

l_DUM -0,000293724 0,0580883 -0,0051 0,99601

Média var. dependente 4,999615 D.P. var. dependente 0,452228

Soma resíd. quadrados 0,623543 E.P. da regressão 0,164653

R-quadrado 0,878042 R-quadrado ajustado 0,867437

F(2, 23) 82,79456 P-valor(F) 3,10e-11

Log da verossimilhança 11,60324 Critério de Akaike -17,20648

Critério de Schwarz -13,43219 Critério Hannan-Quinn -16,11962

rô 0,521252 Durbin-Watson 0,925613 De acordo com o modelo, os dois termos de intercepto são iguais, pois o coeficiente da variável binária não é estatisticamente significativo. O valor do coeficiente de intercepto é –0,1589 no período de 70 – 81 e de -0,15-0,00029 no segundo período, pode-se dizer que ele representa o valor do logaritmo da poupança quando todos os regressores tomam o valor zero. Todavia, esse termo possui um significado mais mecânico do que econômico. A propensão marginal a poupar pode ser considerada igual nos dois períodos, valendo 0,66. c) para 1970 – 1981, o intercepto é -0,15. Já para 1982 – 1995, o intercepto é -0,15 – 0,00029. 9.22

Modelo 4: MQO, usando as observações 1978:1-1985:4 (T = 32)

Variável dependente: DISH

Coeficiente Erro Padrão razão-t p-valor

const 748,25 54,1253 13,8244 <0,00001 ***

dq2 8,25 76,5448 0,1078 0,91494

dq3 42,875 76,5448 0,5601 0,57985

Page 24: Cinthia - Resumo Gujarati

dq4 49,875 76,5448 0,6516 0,51999

Média var. dependente 773,5000 D.P. var. dependente 147,1194

Soma resíd. quadrados 656219,3 E.P. da regressão 153,0895

R-quadrado 0,021981 R-quadrado ajustado -0,082806

F(3, 28) 0,209770 P-valor(F) 0,888775

Log da verossimilhança -204,2623 Critério de Akaike 416,5245

Critério de Schwarz 422,3875 Critério Hannan-Quinn 418,4679

rô 0,913978 Durbin-Watson 0,174444

Modelo 5: MQO, usando as observações 1978:1-1985:4 (T = 32)

Variável dependente: FRIG

Coeficiente Erro Padrão razão-t p-valor

const 1222,12 59,9904 20,3720 <0,00001 ***

dq2 245,375 84,8393 2,8922 0,00732 ***

dq3 347,625 84,8393 4,0975 0,00032 ***

dq4 -62,125 84,8393 -0,7323 0,47009

Média var. dependente 1354,844 D.P. var. dependente 235,6719

Soma resíd. quadrados 806142,4 E.P. da regressão 169,6785

R-quadrado 0,531797 R-quadrado ajustado 0,481632

F(3, 28) 10,60102 P-valor(F) 0,000079

Log da verossimilhança -207,5545 Critério de Akaike 423,1090

Critério de Schwarz 428,9720 Critério Hannan-Quinn 425,0524

rô 0,808979 Durbin-Watson 0,392512

Modelo 6: MQO, usando as observações 1978:1-1985:4 (T = 32)

Variável dependente: WASH

Coeficiente Erro Padrão razão-t p-valor

const 1225,62 36,892 33,2219 <0,00001 ***

dq2 -45,25 52,1732 -0,8673 0,39315

dq3 1 52,1732 0,0192 0,98484

dq4 -106,875 52,1732 -2,0485 0,04999 **

Média var. dependente 1187,844 D.P. var. dependente 108,7996

Soma resíd. quadrados 304869,1 E.P. da regressão 104,3465

R-quadrado 0,169199 R-quadrado ajustado 0,080185

F(3, 28) 1,900810 P-valor(F) 0,152397

Log da verossimilhança -191,9965 Critério de Akaike 391,9929

Critério de Schwarz 397,8559 Critério Hannan-Quinn 393,9363

rô 0,739608 Durbin-Watson 0,551916

a) Os “coeficientes angulares” são, chamados de interceptos diferenciais, sendo o primeiro trimestre o de referência. Somente a variável binária do quarto trimestre para máquinas de lavar roupas é significativamente diferente da do primeiro em termos estatísticos, indicando que só para esse período há uma sazonalidade. Já no caso das vendas de geladeiras, há uma sazonalidade no terceiro e no segundo semestres,mas no quarto não.

Page 25: Cinthia - Resumo Gujarati

d) Diminuindo o resultado dos resíduos da regressão do valor das vendas, teremos os valores dessazonalizados. 9.12 (a) Poderia-se escolher o formato logarítimo por querer descobrir a semielasticidade, já que o coeficiente da variável renda em formato logarítmico é uma semielasticidade, representando a variação absoluta da expectativa de vida para uma variação percentual na renda. (b) Esse coeficiente mostra que se a renda per capita aumentar 1%, a expectativa média de vida aumenta em média 0,0939 anos. (c) Esse regressor foi incluído para contornar o efeito sobre a expectativa de vida dos aumentos crescentes da renda per capita acima do valor limite de US$1097. O regressor também informa o número de anos adicionais que se pode esperar viver quando a renda passa de US$1097. O valor do coeficiente estimado não é, entretanto, estatisticamente significativo, pois seu valor p é de 0,1618. (d) A equação da regressão para os países cuja renda per capita está abaixo do nível de 1097 dólares americanos é –2,40 + 9,39 lnXi , e para os países cuja renda está acima desse nível é –2,40 + (9,39–3,36) lnXi + (3,36)(7) = 21,12 + 6,03 lnXi. Embora numericamente as duas regressões pareçam diferentes, não o são estatisticamente, pois o coeficiente do último termo da equação é zero em termos estatísticos. Se considerarmos países mais ricos aqueles com renda per capita maior que US$1097, parece não haver entre estes e os outros mais pobres nenhuma diferença estatística perceptível na expectativa de vida.

CAP 11 11.11

Modelo 1: MQO, usando as observações 1-9

Variável dependente: R

Coeficiente Erro Padrão razão-t p-valor

const 1992,06 936,612 2,1269 0,07100 *

P 0,232999 0,0998528 2,3334 0,05235 *

Média var. dependente 4161,778 D.P. var. dependente 420,6625

Soma resíd. quadrados 796278,0 E.P. da regressão 337,2744

R-quadrado 0,437520 R-quadrado ajustado 0,357166

F(1, 7) 5,444885 P-valor(F) 0,052349

Log da verossimilhança -64,02760 Critério de Akaike 132,0552

Critério de Schwarz 132,4497 Critério Hannan-Quinn 131,2040 a) uhat1 1 -775,7709 2 -205,1284 3 165,7972 4 183,8684

Page 26: Cinthia - Resumo Gujarati

5 199,3065 6 54,5502 7 113,7094 8 150,4718 9 113,1957 b)

Modelo 2: MQO, usando as observações 1-9

Variável dependente: l_usq1

Coeficiente Erro Padrão razão-t p-valor

const 35,8268 38,3227 0,9349 0,38097

l_P -2,80202 4,19613 -0,6678 0,52568

Média var. dependente 10,23844 D.P. var. dependente 1,414819

Soma resíd. quadrados 15,05470 E.P. da regressão 1,466517

R-quadrado 0,059886 R-quadrado ajustado -0,074416

F(1, 7) 0,445907 P-valor(F) 0,525681

Log da verossimilhança -15,08554 Critério de Akaike 34,17108

Critério de Schwarz 34,56553 Critério Hannan-Quinn 33,31986

Como não há significância, não há heterocedasticidade. c)

Modelo 3: MQO, usando as observações 1-9

Variável dependente: uhat1

Coeficiente Erro Padrão razão-t p-valor

const 407,476 633,189 0,6435 0,54038

P -0,0203497 0,0675047 -0,3015 0,77183

Média var. dependente 217,9776 D.P. var. dependente 214,6654

Soma resíd. quadrados 363925,4 E.P. da regressão 228,0117

R-quadrado 0,012816 R-quadrado ajustado -0,128210

F(1, 7) 0,090875 P-valor(F) 0,771825

Log da verossimilhança -60,50410 Critério de Akaike 125,0082

Critério de Schwarz 125,4027 Critério Hannan-Quinn 124,1570

Como não há significância, não há heterocedasticidade.

Modelo 4: MQO, usando as observações 1-9

Variável dependente: uhat1

Coeficiente Erro Padrão razão-t p-valor

const 575,443 1284,25 0,4481 0,66764

praiz -3,71085 13,3084 -0,2788 0,78843

Média var. dependente 217,9776 D.P. var. dependente 214,6654

Soma resíd. quadrados 364600,3 E.P. da regressão 228,2230

R-quadrado 0,010985 R-quadrado ajustado -0,130303

Page 27: Cinthia - Resumo Gujarati

F(1, 7) 0,077749 P-valor(F) 0,788429

Log da verossimilhança -60,51244 Critério de Akaike 125,0249

Critério de Schwarz 125,4193 Critério Hannan-Quinn 124,1737

Como não há significância, não há heterocedasticidade. d) Se classificarmos os valores absolutos dos resíduos e os números da produtividade média em ordem ascendente e calcularmos o coeficiente de correlação por ordem de Spearman conforme (11.5.5), observaremos que vale -0,5167. Aplicando a fórmula t dada em (11.5.6), obtemos t = -0,8562, que não é estatisticamente significativo, pois seu valor crítico absoluto no nível de 5% com 7 gl é 2,447. Portanto, com base no teste de correlação por ordem, não há motivos para esperarmos heterocedasticidade.

11.1 a) Falsa. Os estimadores não são tendenciosos, mas ineficientes. b) Verdadeira, conforme explicitado na seção 11.4. c) Falsa. É provável mas não obrigatório que a a variância será superestimada. d) Falsa. Além da heterocedasticidade, tal padrão pode ser resultado de autocorrelação, erros de especificação de modelo etc. e) Verdadeira. Como os σ² verdadeiros não são diretamente observados, algum pressuposto a respeito da natureza da heterocedasticidade é inevitável. f) Verdadeira. g) Falsa. Heterocedasticidade tem a ver com a variância do termo de erro ui, não com a variância do regressor. Todavia erros de especificação podem resultar na heterocedasticidade.

11.15

a)

Modelo 8: MQO, usando as observações 1-81

Variável dependente: MPG

Coeficiente Erro Padrão razão-t p-valor

const 189,96 22,5288 8,4319 <0,00001 ***

HP 0,390433 0,0762458 5,1207 <0,00001 ***

SP -1,2717 0,233117 -5,4552 <0,00001 ***

WT -1,90327 0,185516 -10,2594 <0,00001 ***

Média var. dependente 33,83457 D.P. var. dependente 10,05541

Soma resíd. quadrados 947,4985 E.P. da regressão 3,507873

R-quadrado 0,882864 R-quadrado ajustado 0,878301

Page 28: Cinthia - Resumo Gujarati

F(3, 77) 193,4526 P-valor(F) 9,28e-36

Log da verossimilhança -214,5388 Critério de Akaike 437,0775

Critério de Schwarz 446,6553 Critério Hannan-Quinn 440,9203 Conforme as expectativas, MPG é positivamente relacionada a HP e negativamente a VM e PV. b) A priori, é de se esperar heterocedasticidade porque são dados em corte transversal abrangendo veículos diversos. c)

Modelo 4: MQO, usando as observações 1-81

Variável dependente: usq1

Coeficiente Erro Padrão razão-t p-valor

const 2531,25 3776,91 0,6702 0,50491

HP 2,66529 18,7519 0,1421 0,88738

VOL -12,0179 10,5 -1,1446 0,25623

SP -33,8977 80,3971 -0,4216 0,67457

sq_HP 0,00501676 0,0243224 0,2063 0,83718

sq_VOL 0,0137662 0,012219 1,1266 0,26370

sq_SP 0,108413 0,431857 0,2510 0,80251

cruz1 -0,0126738 0,0269613 -0,4701 0,63974

cruz2 -0,0229497 0,202137 -0,1135 0,90993

cruz3 0,0927597 0,106913 0,8676 0,38853

Média var. dependente 24,10525 D.P. var. dependente 59,93927

Soma resíd. quadrados 198479,0 E.P. da regressão 52,87229

R-quadrado 0,309439 R-quadrado ajustado 0,221904

F(9, 71) 3,535003 P-valor(F) 0,001143

Log da verossimilhança -430,9956 Critério de Akaike 881,9912

Critério de Schwarz 905,9357 Critério Hannan-Quinn 891,5980 Regressando os quadrados dos resíduos do modelo em (a) contra os três regressores, seus quadrados e seus produtos cruzados, obtemos um R² de 0,3094, que multiplicado pelo número de observações (81), dará 25,0646, valor com distribuição qui-quadrado com 9 gl (3 regressores, 3 quadrados de regressores e 3 produtos cruzados) sob a hipótese nula de que não há heterocedasticidade. O valor p de se obter um valor qui-quadrado de 25,0646 ou maior é, sob essa hipótese, 0,0029, que é muito pequeno. Temos, portanto, de rejeitar a hipótese nula, ou seja, há heterocedasticidade.

d) Comparando esses resultados com os obtidos com MQO, descobriremos que os valores dos coeficientes estimados são iguais, mas suas variâncias e erros-padrão são diferentes. Estes são mais altos nos procedimentos de White porque os |t| são menores, indicando que os erros-padrão estão subestimados nos resultados obtidos com MQO. e) Não existe uma fórmula simples para determinar a natureza exata da heterocedasticidade neste caso. Podemos, talvez, partir de alguns pressupostos simples e tentar diferentes transformações. Se, por exemplo, acharmos que a variável “culpada” é HP e que a variância do erro é proporcional a HP², podemos dividir a equação por HP. Naturalmente, qualquer outro regressor é um candidato tão bom quanto esse para a transformação. CAPÍTULO 10

Page 29: Cinthia - Resumo Gujarati

10.5 A - Sim. Dados de séries temporais econômicas tendem a evoluir na mesma direção, como acontece com as variáveis defasadas de renda neste caso. B - A transformação de primeira diferença é uma forma de diminuir o problema. 10.9 A - O coeficiente de correlação entre trabalho e capital é relativamente alto e aproximadamente igual a 0,698. B - Não. Apesar da correlação entre as duas variáveis, os coeficientes da regressão são estatisticamente significativos no nível de 5%. Excluir uma variável nessas condições acarretaria viés de especificação. C - Se for excluída a variável trabalho, o coeficiente do capital será tendencioso. 10.24 A - Dados o relativamente alto R² de 0,97, o valor F significativo e o coeficiente insignificante e impropriamente sinalizado coeficiente de log K, pode ser que haja colinearidade no modelo. B - A priori, espera-se que o impacto do capital sobre a produção seja positivo, o que não ocorre nesse caso devido provavelmente à colinearidade nos regressores. C - É uma função de produção tipo Cobb-Douglas, pois podemos escrever o modelo dado como Y = B1 8K*B2*L^B3*e^B4. D - Em média, ao longo do período estudado, um incremento de 1% no índice de uso real de mão-de-obra leva a um aumento de 0,11% do índice de produto real. No modelo, a variável t representa o tempo, que com freqüência é tomado como variável instrumental para mudança tecnológica. O coeficiente de 0,006 indica que ao longo do período estudado, a taxa de crescimento do produto real (como medida pelo índice de produto) foi de 0,6%, em média. E - Implicitamente, a equação assume que há retornos de escala constantes, ou seja, B3 + B2 = 1 Uma eventual vantagem da transformação pode ser a redução do problema da colinearidade. F - Dado que o coeficiente da relação capital/mão-de-obra é estatisticamente insignificante, o problema da colinearidade, ao que tudo indica, não foi resolvido. G - Como mencionado em anteriormente, o autor está tentando saber se há retornos de escala constantes. O teste F visto no Capítulo 8 poderia ser utilizado para descobrirmos se a restrição é válida. Mas como as variáveis dependentes são diferentes nos dois modelos, precisamos das somas dos quadrados dos resíduos restritas e irrestritas para usar a versão R² desse teste. (h) De acordo com (g), os valores de R² não são comparáveis. Para torná-los comparáveis, poderíamos adotar os procedimentos vistos no Capítulo 7.