cap 5 baum – specifying the functional form (especificando a forma funcional) henrique dantas...

CAP 5 BAUM – Specifying the functional form (especificando a

forma funcional)

Henrique Dantas Neder – prof. Instituto de Economia da

Universidade Federal de Uberlândia

Erro de especificação

• A consistência do estimador da regressão linear requer que a função de regressão da amostra corresponda a função de regressão subjacente ou o verdadeiro modelo de regressão para a variável de resposta (dependente) y:

i i iy x u

Erro de especificação (cont.)

• A teoria econômica freqüentemente fornece um guia na especificação do modelo, mas pode ser que ela não indique explicitamente como uma variável específica entre no modelo ou identifique a forma funcional.

• O modelo deve ser estimado em níveis para as variáveis; ou em uma estrutura logaritmica; como um polinomio em um ou mais dos regressores?

• Em geral a teoria se cala frente a estes pontos especificos e temos que utilizar estratégias empiricas.

Omissão de variáveis relevantes do modelo (subespecificação)

• Suponha que o verdadeiro modelo (população) é:

• com k1 e k2 regressores em dois subconjuntos, mas regredimos y somente sobre as variáveis x1 :

1 1 2 1y x x u

1 1y x u

Omissão de variáveis (cont.)• A solução de mínimos quadrados ordinários é:

• A menos que ou , a estimativade é viesada, desde que:

onde

'1 2X X 0 2β 0

ˆ1β

ˆ[E 1 1 1.2 2β | X] = β + P β

1.2 ' -1 '1 1 1 2P (X X ) X X

ˆ ' -1 ' ' -1 '1 1 1 1 1 1 1 1 1 2 2

' -1 ' ' -1 '1 1 1 1 2 2 1 1 1

β = (X X ) X y = (X X ) X (β X +β X +u)

= β + (X X ) X X β + (X X ) X u

Omissão de variáveis (cont.)

• é uma matriz k1xk2 refletindo a regressão de cada coluna de nas colunas de .

• Se k1=k2 e a variável única em é correlacionada com a variável única em , podemos prever a direção do viés. Mas se tivermos múltiplas variáveis em cada conjunto não podemos prever a natureza do viés dos coeficientes.

1.2P2X 1X

2X1X

Omissão de variáveis (cont.)* OMISSAO DE VARIAVEIS RELEVANTES NO MODELOmatrix drop _all* Vamos considerar o arquivo gpa2 do Wooldridge como dados de uma populaçãouse "f:\Minhas Webs\DADOS\DADOS WOOLDRIDGE\gpa2.dta", clear*Vamos verificar o tamanho N da população e calcular os valores dos parâmetros Countregress colgpa hsperc sat hsizematrix bpop = e(b)matrix list bpopmatrix betapop = e(b)matrix betapop = betapop'matrix list betapopmatrix beta1pop = J(2,1,0)matrix beta1pop[2,1] = betapop[1,1]matrix beta1pop[1,1] = betapop[4,1]

Omissão de variáveis (cont.)matrix beta2pop[1,1] = betapop[2,1]matrix beta2pop[2,1] = betapop[3,1]predict residuo, residuals* vamos selecionar uma amostra aleatória de tamanho n = 50sample 50, countregress colgpa hsperc sat hsizeregress colgpa hsperc * vamos gerar o valor da estimativa viesada do parâmetro beta1matrix b = e(b)matrix list bgen const = 1mkmat residuo, matrix(u) mkmat const hsperc, matrix(X1)mkmat sat hsize, matrix(X2)mkmat colgpa, matrix(Y)


* Vamos calcular a estimativa do parâmetro beta1 nesta ultima regressão

* (com omissão da variável sat) utilizando álgebra linear e empregando * a expressão da pagina 116 do Baum

matrix betahat1 = inv(X1'*X1)*X1'*Y matrix list betahat1matrix P1 = inv(X1'*X1)*X1'matrix P2 = inv(X1'*X1)*X1'*X2matrix betahat2 = beta1pop + P2*beta2pop + P1*umatrix list betahat1 matrix list betahat2

Omissão de variáveis (cont.)• Wooldridge (2006) apresenta na pg 90 um

quadro resumo para modelos de 2 variáveis:

Corr(x1,x2 > 0) Corr(x1,x2)<0

β2>0 Viés positivo Viés negativoβ2<0 Viés negativo Viés positivo

• Se a correlação entre X1 e X2 é nula na população, as estimativas de regressão são consistentes mas provavelmente serão viesadas em amostras finitas.


• Mais a frente será abordado um dos métodos para corrigir o viés devido a omissão de variáveis: em Baum, pg 216 é mostrado como o método das variáveis instrumentais pode solucionar o problema.

• Considere a relação entre a variável SAT (escores de testes de aptidão de estudantes), expend (gastos por aluno) e poverty (a proporção de pobres em cada distrito):


• Não podemos estimar esta equação porque não temos acesso a dados distritais sobre pobreza.

• Entretanto, este fator tem uma importante função no resultado educacional, sendo uma proxy da qualidade do ambiente familiar do estudante.

• Se temos uma proxy para pobreza, podemos incluí-la no modelo, como por exemplo, a renda mediana do distrito.

1 2 3expend + isat poverty u


• O sucesso desta estratégia dependerá da força da correlação entre esta proxy e a pobreza que é uma variável não observável.

• Se não temos uma proxy disponível, podemos estimar a equação ignorando a pobreza:

• O termo (processo) de perturbação aleatória nesta equação é composto por

1 2 ilog( ) expendi isat v

iv

3 i( poverty )iu


• Se expend e poverty são correlacionadas – e provavelmente são – a regressão gerará estimativas viesadas e inconsistentes de e

porque a hipótese de média condicional nula é violada.• Para derivar estimativas consistentes na equação

temos que encontrar uma variável instrumental, ou seja, uma variável que seja não correlacionada com os fatores não observáveis que afetam a variável dependente (inclusive a variável poverty) e altamente correlacionada com expend.

1 2


• Um possível instrumento para poverty seria a relação estudante-professor no distrito (stratio) já que ela deve ser negativamente correlacionada com expend.

• O método IV aqui poderia consistir em estimar um modelo em dois estágios:

1 2 i

i 3 4

log( ) expendhat

expendi i

i i

sat v

stratio


• Primeiramente estimamos o valor da variável expend através da segunda equação do sistema anterior.

• Em seguida utilizamos o valor desta estimativa como um dos regressores na primeira equação (expendhat).

Gráficos de adição de variáveis

• Tomando cada regressor por vez, o gráfico de adição de variáveis (“added-variable plot”) é baseado em duas séries de resíduos:

• A série c1 contem os resíduos da regressão de y contra todas as variáveis x exceto a variável xk que está sendo “testada”.

• A série c2 representa a informaçao (resíduo) de y que nao pode ser explicada por todos os outros regressores (exceto xk).

• O gráfico de adiçao de variáveis para xk é o diagrama de dispersao de c2 (no eixo dos y) versus c1 (no eixo dos x).


• Dois casos opostos são de interesse:• 1) Se a maioria dos pontos estao em torno de uma

linha horizontal na ordenada zero, a variável xk é irrelevante.

• 2) Se a maioria dos pontos estao em volta de uma linha vertical com abscissa zero o gráfico está indicando quase perfeita multicolinearidade.

• Se a inclinaçao de uma eventual relaçao linear entre c1 e c2 é significativa, xk tem uma importante contribuição no modelo além dos outros regressores.


• Temos diversos “outliers” (observaçoes que estão fora da linha), particularmante evidentes para os gráficos lnox e ldist. Baixos valores de E[lnox|X] e E[ldist|X] sao associados com preços mais elevados do que aqueles preditos pelo modelo.

• As estatisticas t testam a hipotese de que a linha de mínimos quadrados tem uma inclinaçao significativa (≠ 0). Estes testes sao identicos ao da regressao original.

Incluindo variáveis irrelevantes no modelo (sobreespecificaçao)

• Incluir variáveis irrelevantes no modelo na viola a hipótese de média condicional nula (pois seus coeficientes na população – parâmetros são nulos).

• Suponha que o verdadeiro modelo é:

Mas incluímos erroneamente diversas variáveis x2 no nosso modelo de regressão.

1 1y x u

Incluindo variáveis irrelevantes no modelo (sobre-especificação)

• Incluir variáveis irrelevantes no modelo não afeta o não viés das variáveis relevantes incluídas no modelo. Wooldridge(2006) lembra que para qualquer valor de , incluindo . Então concluímos que

para qualquer valor de .• No entanto, isto terá indesejáveis efeitos na

variância dos estimadores, como será visto mais tarde.

ˆ[ ]j jE j 0j

0 0 1 1 2 2ˆ ˆ ˆ[ ] , [ ] , [ ] 0E E E

0 1e

Incluindo variáveis irrelevantes no modelo (sobre-especificação)

• Baum (pg 121) analisando estimadores os efeitos da sobre-especificação nas propriedades dos OLS da regressão afirma que:

1) Incluir variáveis irrelevantes mantém as propriedades de não viés e consistência dos estimadores de .

2) No entanto os estimadores terão variância mais elevada (menos precisos) do que se o modelo fosse corretamente especificado.

3) Claramente, sobre-especificar custa mais do que sub-especificar o modelo e o modelo sobre-especificado gera estimativas não viesadas e consistentes para todos os seus parâmetros, inclusive os dos regressores irrelevantes, que tendem a zero.

20 1 u, e

A assimetria do erro de especificação

• Os custos do dois tipos de erro de especificação são assimétricos.

• Disto se conclui que uma estratégia melhor é iniciar com uma especificação geral (mesmo que sobre-especificada) e impor ao modelo restrições apropriadas.

• Muitas investigações empíricas contem muita busca por especificação (nesta estratégia do geral para o particular).

A assimetria do erro de especificação

• Limites da inferência estatística: podemos rodar 20 regressões a partir de 20 amostras aleatórias simples selecionadas de uma mesma população onde determinado regressor não existe no modelo verdadeiro, mas ao nível de significância de 5 % podemos esperar que uma destas 20 regressões amostrais mostre erroneamente uma relação entre a variável dependente e este regressor sobre-especificado .

Sub-especificação da forma funcional

• O modelo pode não refletir a relação algébrica correta entre a variável dependente e os regressores. Por exemplo, o verdadeiro modelo da população tem uma forma funcional quadrática e o estimamos na amostra como uma relação linear, omitindo o termo do regressor elevado ao quadrado:

20 1 1 2 1i i i iy x x u

Sub-especificação da forma funcional

• Em um sentido este problema é mais simples de lidar do que o problema de omissão de variáveis: na sub-especificação da forma funcional temos todas as variáveis consideradas e temos somente que escolher a forma apropriada em que elas entram na equação de regressão.

O teste RESET de Ramsey

• O teste RESET (regression specification error test) executa uma regressão aumentada que inclui os regressores originais, potencias dos valores preditos da regressão original e potencias dos regressores originais.

• H0: os coeficientes dos regressores adicionais = 0• O teste é simplesmente um teste Wald.• Ele baseia-se na idéia de que polinômios em podem aproximar uma variedade de relações

funcionais entre y e os regressores x.

jˆ e xy

Gráfico para verificação da especificação comando rvpplot ou menu Statistics => Linear models and related => Regression Diagnostics => Residual-versus-predictor plot

O gráfico mostra que a hipótese de homocedasticidade é violada

Erro de especificação – termos de interação

• Podemos considerar que no verdadeiro modelo da população é uma função de , de forma que o modelo deve ser especificado como:

/ jy x lx

1 2 2 ... ( . ) ...j j l l p j ly x x x x x u

/ j j p ly x x

O efeito de xj depende de xl

Erro de especificação – termos de interação

• Neste ultimo modelo estamos incluindo uma variável – taxachl – que é a interação entre lproptax – o logaritmo da média dos impostos de propriedades da comunidade e stratio – a relação estudante-professor no nosso modelo de determinação de preços de casas.

• Como o coeficiente do termo de interação é negativo, interpreta-se que a derivada parcial negativa de lprice com relação a lproptax (stratio) torna-se menos negativa (aproxima-se de zero) para maiores níveis de stratio (lproptax).

cap 5 baum – specifying the functional form (especificando a forma funcional) henrique dantas...

Documents