apêndice - wooldridge

134
5/16/2018 Apndice-Wooldridge-slidepdf.com http://slidepdf.com/reader/full/apendice-wooldridge 1/134 E ste apêndice trata de alguns aspectos matemáticos básicos que são usados na análise economé- trica. Sintetizamos várias propriedades do operador somatório, estudamos as propriedades das equações lineares e algumas não lineares e examinamos proporções e percentagens. Também apresentamos algumas funções especiais que frequentemente surgem na econometria aplicada, inclu- sive funções quadráticas e o logaritmo natural. As primeiras quatro seções exigem somente conheci- mento de álgebra básica. A Seção A.5 contém uma breve revisão de cálculo diferencial; embora não seja necessário o conhecimento de cálculo diferencial para entender a maior parte do texto, ele é usado em alguns apêndices de final de capítulo e em vários dos capítulos mais avançados da Parte III. A.1 O OPERADOR SOMATÓRIO E ESTATÍSTICAS DESCRITIVAS O operador somatório é uma forma abreviada bastante útil para manipular expressões que envolvam as somas de muitos números, e tem um papel-chave em estatística e na análise econométrica. Se {  x i : i 1, ..., n} representa uma sequência de n números, então, escrevemos a soma desses números como (A.1) Com essa definição, fica claramente demonstrado que o operador somatório tem as seguintes pro- priedades: PROPRIEDADE SOMA. 1: Para qualquer constante c, (A.2) PROPRIEDADE SOMA. 2: Para qualquer constante c, (A.3) . n i 1  cx i  c n i 1   x i . n i 1  c nc . n i 1   x i   x 1   x 2 ...  x n A 1 Ferramentas Matemáticas Básicas

Upload: rafaelcravo8664

Post on 18-Jul-2015

1.066 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 1/134

Este apêndice trata de alguns aspectos matemáticos básicos que são usados na análise economé-trica. Sintetizamos várias propriedades do operador somatório, estudamos as propriedades dasequações lineares e algumas não lineares e examinamos proporções e percentagens. Também

apresentamos algumas funções especiais que frequentemente surgem na econometria aplicada, inclu-

sive funções quadráticas e o logaritmo natural. As primeiras quatro seções exigem somente conheci-mento de álgebra básica. A Seção A.5 contém uma breve revisão de cálculo diferencial; embora nãoseja necessário o conhecimento de cálculo diferencial para entender a maior parte do texto, ele é usadoem alguns apêndices de final de capítulo e em vários dos capítulos mais avançados da Parte III.

A.1 O OPERADOR SOMATÓRIO E ESTATÍSTICAS DESCRITIVAS

O operador somatório é uma forma abreviada bastante útil para manipular expressões que envolvamas somas de muitos números, e tem um papel-chave em estatística e na análise econométrica. Se { xi:i 1, ..., n} representa uma sequência de n números, então, escrevemos a soma desses números como

(A.1)

Com essa definição, fica claramente demonstrado que o operador somatório tem as seguintes pro-priedades:

PROPRIEDADE SOMA. 1: Para qualquer constante c,

(A.2)

PROPRIEDADE SOMA. 2: Para qualquer constante c,

(A.3).n

i 1

 cxi  c 

n

i 1

  xi

.n

i 1

 c  nc

.

n

i 1

  xi   x

1   x

2...  x

n

A

1

Ferramentas Matemáticas Básicas

Page 2: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 2/134

Page 3: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 3/134

Um exemplo numérico simples mostra como isso funciona. Suponha que n 5 e  x1 6,  x2 1, x3 2, x4 0 e  x5 5. Então, x2 2, e a amostra dos desvios em relação à média é {4, 1, 4,2, 3}. A soma desses números é zero, exatamente o que a equação (A.6) diz.

Em nossa abordagem da análise de regressão no Capítulo 2, necessitamos conhecer alguns fatosalgébricos adicionais envolvendo desvios de médias amostrais. Um importante é que a soma dos des-vios quadrados é a soma dos xi quadrados menos n vezes o quadrado de x2:

(A.7)

Isso pode ser mostrado utilizando propriedades básicas do operador somatório:

Dado um conjunto de dados de duas variáveis, {( xi, yi): i 1, 2, ..., n}, também é possívelmostrar que

(A.8)

essa é uma generalização da equação (A.7). (Lá, yi  xi para todos i).A média é a medida da tendência central na qual nos concentraremos na maior parte deste texto.

Porém, algumas vezes é informativo usar a mediana (ou mediana amostral) para descrever o valor cen-tral. Para obter a mediana dos n números { x1, ..., xn}, primeiro ordenamos os valores de xi do menorpara o maior. Então, se n for ímpar, a mediana amostral será o número do meio das observações orde-nadas. Por exemplo, dados os números {4,8,2,0,21,10,18}, o valor da mediana será 2 (já que asequência ordenada é {10,4,0,2,8,18,21}). Se alterarmos o maior número dessa lista, 21, para odobro do seu valor, 42, a mediana continuará sendo 2. Em contraposição, a média amostral aumenta-ria de 5 para 8, uma mudança considerável. De forma geral, a mediana é menos sensível do que a média

a mudanças nos valores extremos (grandes ou pequenos) em uma lista de números. Essa é a razão pelaqual “rendas medianas” ou “valores imobiliários medianos” são frequentemente descritos, em vez dasmédias, quando resumimos os valores das rendas ou dos imóveis em uma cidade ou município.

Se n for par, não existe uma maneira única de definir a mediana, pois haverá dois números no cen-tro. Habitualmente, a mediana é definida como sendo a média dos dois valores do meio (novamente,depois de ordenar os números do menor para o maior). Usando essa regra, a mediana do conjunto denúmeros {4,12,2,6} seria (4 6)/2 5.

;n

i 1

( xi   x ) y

n

i 1

  xi  y

i  n( x   y)

n

i 1

( xi   x )( y

i   y )

n

i 1

  xi( y

i   y )

.n

i 1

  x2i

2n( x )2  n( x)2 n

i 1

  x2i  n ( x)2

 n

i 1

  x2i

2 x n

i 1

  xi  n( x )2

n

i 1

( xi   x)2 

n

i 1

( x 2i

2 xix   x 2)

.n

i 1

( xi   x)2 

n

i 1

  x2i  n( x)2

Apêndice A Ferramentas Matemáticas Básicas 3

Page 4: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 4/134

A.2 PROPRIEDADES DAS FUNÇÕES LINEARES

As funções lineares desempenham um papel importante em econometria, pois elas são simples deserem interpretadas e manipuladas. Se x e y forem duas variáveis relacionadas por

 y b0 b1 x, (A.9)

então, dizemos que y é uma função linear de x, e que b0 e b1 são dois parâmetros (números) descre-vendo essa relação. O intercepto é b0 e a inclinação é b1.

A característica que define uma função linear é que a alteração em  y é sempre b1 vezes a altera-ção em x:

 y b1 x, (A.10)

em que Δ significa “alteração”. Em outras palavras, o efeito marginal de x sobre y é constante e iguala b1.

EXEMPLO A.1

(Função Linear de Despesas com Habitação)

Suponha que a relação entre despesas mensais com habitação e a renda mensal seja

habitação 164 0,27 renda (A.11)

Então, para cada dólar adicional na renda, 27 centavos são gastos com habitação. Se a renda familiaraumentar em 200 dólares, então, os gastos com habitação aumentarão em (0,27)200 54 dólares. Essafunção está traçada na Figura A.1.

De acordo com a equação (A.11), uma família sem renda gasta 164 dólares com habitação, o que, éclaro, não pode ser literalmente verdadeiro. Para níveis baixos de renda, essa função linear não descreveriamuito bem a relação entre habitação e renda, motivo pelo qual acabaremos tendo de usar outros tipos defunções para descrever tais relações.

Em (A.11), a propensão marginal a consumir (PMgC) habitação por causa da renda é 0,27. Isso é dife-rente da propensão média a consumir (PMC), que é

164/renda 0,27.

A PMC não é constante, é sempre maior que a PMgC e se aproxima da PMgC conforme a renda aumenta.

As funções lineares são facilmente definidas para mais de duas variáveis. Suponha que y seja rela-cionada a duas variáveis, x1 e x2, na forma geral

habitação

renda

4 Introdução à Econometria

Page 5: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 5/134

 y b0 b1 x1 b2 x2. (A.12)

É bastante difícil visualizar essa função, pois seu gráfico é tridimensional. No entanto, b0

ainda é ointercepto (o valor de y quando x

1 0 e x

2 0), e b

1e b

2medem inclinações específicas. De (A.12),

a mudança em y, face a alterações em x1

e x2, é

Figura A.1

Gráfico de habitação 164 0,27 renda.

 y b1 x1 b2 x2. (A.13)

Se x2 não se alterar, isto é,  x2 0, então, teremos

 y b1 x1 se  x2 0,

de forma que b1

será a inclinação da relação na direção de x1:

Como ele indica como y se altera com x1, mantendo x2 fixo, b1 frequentemente é chamado deefeito parcial de x1 sobre  y. Como o efeito parcial envolve manter fixos outros fatores, ele estámuito estreitamente ligado à noção de  ceteris paribus. O parâmetro b2 tem uma interpretação seme-lhante: b2  y /  x2 se  x1 0, de forma que b2 é o efeito parcial de x2 sobre y.

1 se  x2 0. y

 x1

habitação

renda 0,27

habitação

1.514

164

5.000 renda

Apêndice A Ferramentas Matemáticas Básicas 5

Page 6: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 6/134

EXEMPLO A.2

(Demanda de CDs)

Para estudantes universitários, suponha que a quantidade mensal demandada de CDs seja relacionada como preço dos CDs e com a renda disponível pela equação

quantidade 120 9,8 preço 0,03 renda,

Figura A.2

Gráfico de quantidade  120 9,8  preço 0,03 renda, com renda fixada em 900 dólares.

em que preço está em dólares por disco e renda é medida em dólares.A curva de demanda é a relação entrequantidade e preço, mantendo a renda fixa assim como outros fatores). Isso está traçado em duas dimen-sões na Figura A.2, a um nível de renda de 900 dólares. A inclinação da curva de demanda,9,8, é o efei-

to parcial do preço sobre a quantidade: mantendo a renda fixa, se o preço dos CDs aumentar em um dólar,a quantidade demandada diminui 9,8. (Abstraímos o fato de que CDs somente podem ser comprados emunidades separadas.) Um aumento na renda simplesmente desloca a curva da demanda para cima (altera ointercepto), mas a inclinação continua a mesma.

A.3 PROPORÇÕES E PERCENTAGENS

Proporções e percentagens têm um papel tão importante na economia aplicada que é necessário sentir-se bem à vontade ao trabalhar com elas. Muitas grandezas publicadas na imprensa escrita estão na formade percentagens; por exemplo, taxas de juros, índices de desemprego e índices de formatura escolar.

quantidade

 preço9,8

15

preço

quantidade

147

6 Introdução à Econometria

Page 7: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 7/134

Uma habilidade importante é ser capaz de converter proporções em percentagens e vice-versa.Uma percentagem é facilmente obtida multiplicando-se a proporção por 100. Por exemplo, se a pro-porção de adultos em um município com diploma do ensino médio for 0,82, dizemos que 82% (82 porcento) dos adultos têm diploma do ensino médio. Outra maneira de pensar nas percentagens e propor-ções é a forma decimal de uma percentagem. Por exemplo, se a alíquota marginal do imposto de umafamília com rendimentos de 30.000 dólares anuais for 28%, então, a proporção do próximo dólar derendimento que será pago como imposto de renda será 0,28 (ou 28 centavos de dólar).

Quando usamos percentagens, com muita frequência precisamos convertê-las para a forma deci-mal. Por exemplo, se o imposto sobre vendas de um estado for 6% e 200 dólares forem gastos em umitem sujeito a esse imposto, então, o imposto sobre vendas que será pago será de 200(0,06) 12 dóla-res. Se o retorno anual de um certificado de depósito (CD) for 7,6% e investirmos 3.000 dólares em talCD no início do ano, então, nossa renda de juros será 3.000(0,076) 228 dólares. Por mais que gos-tássemos, a renda de juros não é obtida multiplicando 3.000 por 7,6.

Devemos ser cautelosos com proporções que algumas vezes são publicadas incorretamente comopercentagens na imprensa escrita. Se lermos, “a percentagem de alunos do ensino médio que tomambebidas alcoólicas é de 0,57”, sabemos que isso realmente significa 57% (e não pouco mais da meta-

de de um por cento, como o artigo literalmente sugere). Os torcedores de equipes de voleibol univer-sitário provavelmente estão familiarizados com recortes de jornais que dizem “Sua percentagem deaproveitamento foi de 0,372”. Eles, na realidade, querem dizer que a percentagem de aproveitamentofoi de 37,2%.

Em econometria, geralmente estamos interessados em medir as mudanças em várias grandezas.Seja x alguma variável, como, por exemplo, a renda de um indivíduo, o número de crimes cometidosem uma comunidade, ou os lucros de uma empresa. Façamos x0 e x1 representarem dois valores de x: x0 é o valor inicial e x1 é o valor subsequente. Por exemplo, x0 poderia ser a renda anual de um indiví-duo em 1994 e x1 a renda do mesmo indivíduo em 1995. A mudança proporcional em x, movendo--se de x0 para x1 algumas vezes chamada de mudança relativa, será simplesmente

( x1  x0)/  x0  x /  x0, (A.14)

assumindo, naturalmente, que x0 0. Em outras palavras, para obter a mudança proporcional, simples-mente dividimos a alteração em x pelo seu valor inicial. Essa é uma maneira de padronizar a alteraçãode forma a ela ser livre de unidades. Por exemplo, se a renda de um indivíduo for de 30.000 para 36.000dólares por ano, a alteração proporcional será 6.000/30.000 0,20.

É mais comum descrever alterações em termos de percentagens. A mudança percentual em x aoir de x0 para x1 será simplesmente 100 vezes a mudança proporcional:

% x 100( x /  x0); (A.15)

a notação “% x” é lida como “mudança percentual em x”. Por exemplo, quando a renda vai de 30.000para 33.750 dólares, a renda aumentou 12,5%; para obter esse resultado, simplesmente multiplicamosa alteração proporcional, 0,125, por 100.

Novamente, devemos estar prevenidos quanto a mudanças proporcionais que são publicadas comomudanças percentuais. A título de ilustração, no exemplo anterior, descrever a mudança percentual narenda como 0,125 é incorreto e pode induzir a confusões.

Apêndice A Ferramentas Matemáticas Básicas 7

Page 8: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 8/134

Quando examinamos alterações em coisas como montantes em dólares ou população, não haveráambiguidade sobre o que significa uma alteração percentual. Em contrapartida, a interpretação de cál-culos de mudanças percentuais pode ser complicada quando a variável de interesse for, ela mesma, umapercentagem, o que acontece com frequência em economia e em outras ciências sociais. Para ilustrar,seja x a percentagem de adultos com educação superior em uma cidade qualquer. Suponha que o valorinicial seja x0 24 (24% têm educação superior), e que o novo valor seja x1 30. Podemos compu-tar as duas grandezas para descrever como mudou a percentagem das pessoas com educação superior.A primeira é a alteração em x,  x. Nesse caso,  x  x1  x0 6: a percentagem de pessoas com edu-cação superior teria aumentado em seis pontos percentuais. Por outro lado, podemos calcular a altera-ção percentual em x usando a equação (A.15): % x 100[(30 24)/24] 25.

Nesse exemplo, a mudança em pontos percentuais e a mudança percentual são bastante diferen-tes. A mudança em pontos percentuais é simplesmente a mudança nas percentagens. A mudança per-centual é a mudança relativa ao valor inicial. De forma geral, devemos prestar muita atenção no núme-ro que está sendo calculado. O pesquisador cuidadoso torna essa distinção perfeitamente clara;infelizmente, na imprensa escrita como também em pesquisas acadêmicas, o tipo de alteração descri-to frequentemente não é claro.

EXEMPLO A.3

(O Aumento do Imposto sobre Vendas em Michigan)

Em março de 1994, os eleitores do estado norte-americano de Michigan aprovaram um aumento no impos-to sobre vendas de 4% para 6%. Na propaganda política, os defensores da medida referiam-se a esseaumento como sendo de dois pontos percentuais, ou um aumento de dois centavos por dólar. Os opositoresao aumento do imposto diziam tratar-se de um aumento de 50% na taxa do imposto.Ambas as afirmaçõesestão corretas; elas são apenas maneiras diferentes de medir o aumento no imposto sobre vendas.Naturalmente, cada grupo referiu-se à medida na forma mais favorável às suas posições.

Para uma variável tal como o salário, não faz sentido falar de “uma mudança em pontos percen-tuais do salário”, pois salário não é medido como uma percentagem. Podemos descrever uma alteraçãosalarial ou em dinheiro ou em termos percentuais.

A.4 ALGUMAS FUNÇÕES ESPECIAIS E SUAS PROPRIEDADES

Na Seção A.2, revimos as propriedades básicas das funções lineares. Já indicamos uma característicaimportante das funções como y b0 b1 x: uma alteração de uma unidade em x resulta em mesmaalteração em y, independente do valor inicial de  x. Como vimos anteriormente, isso é o mesmo quedizer que o efeito marginal de  x sobre y é constante, algo que não é prático para muitas relações eco-nômicas. Por exemplo, a importante noção econômica dos rendimentos marginais decrescentes não éconsistente com uma relação linear.

Para modelar uma diversidade de fenômenos econômicos, precisamos estudar várias funções nãolineares. Uma função não linear é caracterizada pelo fato de que a mudança em y em decorrência de umaalteração em x depende do valor inicial de x. Certas funções não lineares aparecem com frequência naeconomia empírica, de modo que é importante saber como interpretá-las. Uma compreensão completadas funções não lineares nos leva para o âmbito do cálculo diferencial. Aqui, simplesmente resumimos osaspectos mais significantes das funções, deixando para a Seção A.5 os detalhes de algumas derivações.

8 Introdução à Econometria

Page 9: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 9/134

Funções Quadráticas

Uma maneira simples de capturar rendimentos decrescentes é adicionarmos um termo quadrático auma relação linear. Considere a equação

 y b0 b1 x b2 x2, (A.16)

em que b0, b1 e b2 são parâmetros. Quando b1 0 e b2 0, a relação entre y e x tem a forma para-bólica mostrada na Figura A.3, em que b0 6, b1 8 e b2 2.

Quando b1 0 e b2 0, é possível mostrar (usando cálculo diferencial na próxima seção) que ovalor máximo da função ocorre no ponto

 x* b1 /(2b2). (A.17)

Por exemplo, se y 6 8 x 2 x2

(de modo que b1 8 e b2 2), então, o maior valor de y ocor-rerá em x* 8/4 2, e esse valor será 6 8(2) 2(2)2 14 (veja a Figura A.3).

O fato de a equação (A.16) implicar um efeito marginal decrescente de x sobre y é claramentevisualizado a partir de seu gráfico. Suponha que iniciemos com um valor baixo de  x e aumentemos x

pela mesma quantidade c. Isso terá um efeito maior sobre y do que se iniciarmos com um valor maiorde x e aumentarmos x pela mesma quantidade c. De fato, dado que x  x*, um aumento em x na rea-lidade diminui y.

Figura A.3

Gráfico de  y  6 8 x  2x2.

 x x*

 y

14

12

10

8

6

4

2

0

0 1 2 3 4

Apêndice A Ferramentas Matemáticas Básicas 9

Page 10: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 10/134

10 Introdução à Econometria

A afirmação de que x tem um efeito marginal decrescente sobre y é o mesmo que dizer que a incli-nação da função na Figura A.3 diminui conforme  x aumenta. Embora isso fique claro quando se olhao gráfico, normalmente queremos quantificar com que rapidez a inclinação está sendo alterada. Umaaplicação de cálculo diferencial fornece a inclinação aproximada da função quadrática como

(A.18)

para “pequenas” alterações em x. [O lado direito da equação (A.18) é a derivada da função na equa-ção (A.16) em relação a x]. Outra maneira de escrevermos isso é

 y (b1 2b2 x) x para  x “pequeno”. (A.19)

Para verificar o quanto essa aproximação funciona, considere novamente a função y 6 8 x 2 x2.

Em seguida, de acordo com a equação (A.19),  y (8 4 x) x. Agora, suponha que iniciemos com x 1 e alteremos x por  x 0,1. Usando (A.19),  y (8 4 x)(0,1) 0,4. Naturalmente, podemoscalcular a alteração exata encontrando os valores de y quando x 1 e x 1,1: y0 6 8(1) 2(1)2

12 e y1 6 8(1,1) 2(1,1)2 12,38, e, portanto, a alteração exata em y é 0,38. A aproximaçãoestá bastante próxima nesse caso.

Agora, suponha que iniciemos com x 1, mas alteremos x por uma grandeza maior:  x 0,5.Então, a aproximação produz  y 4(0,5) 2. A alteração exata é determinada encontrando-se a dife-rença em y quando x 1 e  x 1,5. O valor anterior de y era 12, e o último valor será 6 8(1,5) 2(1,5)2 13,5, portanto, a alteração efetiva será 1,5 (e não 2). A aproximação é pior nesse caso porquea alteração em x é maior.

Para muitas aplicações, a equação (A.19) poderá ser usada para calcular o efeito marginal aproxi-mado de x sobre y para qualquer valor inicial da x e alterações pequenas. Além disso, sempre podere-

mos calcular a alteração exata se necessário.

EXEMPLO A.4

(Uma Função Quadrática dos Salários)

Suponha que a relação entre salários por hora e número de anos na força de trabalho (exper ) seja dada por

salário 5,25 0,48 exper  0,008 exper 2. (A.20)

Essa função tem a mesma forma geral que aquela da Figura A.3. Usando a equação (A.17), exper terá umefeito positivo sobre salário até o ponto crítico, exper * 0,48/[2(0,008)] 30. O primeiro ano de expe-

riência vale aproximadamente 0,48, ou 48 centavos [veja (A.19) com x  0,  x  1]. Cada ano adicionalde experiência, aumenta o salário em menos que no ano anterior, refletindo um rendimento marginal decres-cente da experiência. Após 30 anos, um ano adicional de experiência, na verdade, reduziria o salário. Issonão é muito realista, mas é uma das consequências de usar uma função quadrática para capturar o efeitomarginal decrescente: em algum ponto, a função deverá atingir um valor máximo, e a curva começará adecrescer. Na prática, o ponto no qual isso acontece geralmente é suficientemente grande para não ter con-sequências, mas nem sempre isso ocorre.

inclinação 1 2 2 x, y

 x

Page 11: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 11/134

O gráfico da função quadrática em (A.16) terá uma forma de U se b1 0 e b2 0, caso em quehaverá um retorno marginal crescente. O valor mínimo da função estará no ponto b1 /(2b2).

O Logaritmo NaturalA função não linear que tem o papel mais importante na análise econométrica é o logaritmo natural.Neste texto, representamos o logaritmo natural, sobre o qual frequentemente nos referimos como afunção log, como

 y log( x). (A.21)

Você deve se lembrar de ter estudado diferentes símbolos do log natural; ln( x) ou loge( x) são os maiscomuns. Essas notações diferentes são úteis quando são usados logaritmos com várias e diferentesbases. Para nosso propósito, somente o logaritmo natural é importante, e assim log( x) simboliza o loga-ritmo natural em todo este livro. Essa notação corresponde à notação utilizada em muitos programas

estatísticos, embora alguns usem ln( x) [e a maioria das calculadoras usa ln( x)]. Os economistas usamtanto log( x) como ln( x), e é bom saber disso ao ler trabalhos de economia aplicada.

A função y log( x) é definida somente para  x 0, e está traçada na Figura A.4. Não é muitoimportante saber como os valores de log( x) são obtidos. Para nossos propósitos, podemos pensar nafunção como uma caixa preta: podemos inserir qualquer  x 0 e obter log( x) em uma calculadora ouem um computador.

Várias coisas ficam aparentes da Figura A.4. Primeiro, quando  y log( x), a relação entre  y e  x

exibe rendimentos marginais decrescentes. Uma importante diferença entre as funções log e quadráticana Figura A.3 é que, quando y log( x), o efeito de x sobre y nunca se torna negativo: a inclinação dafunção vai chegando cada vez mais perto de zero conforme x vai ficando maior, mas a inclinação nuncachega a zero e certamente nunca se torna negativa.

O seguinte também fica aparente da Figura A.4:

log( x) 0 para 0  x 1

log(1) 0

log( x) 0 para x 1.

Em particular, log( x) pode ser positivo ou negativo. Alguns fatos algébricos úteis sobre a funçãolog são:

log( x1 x2) log( x1) log( x2), x1, x2 0

log( x1 /  x2) log( x1) log( x2), x1, x2 0

log ( xc) clog( x), x 0, qualquer número c.

De vez em quando, precisaremos nos apoiar nessas propriedades.O logaritmo pode ser usado para várias aproximações que surgem em aplicações econométricas.

Primeiro, log(1  x)  x para x 0. Você pode testar isso com x 0,02, 0,1, e 0,5 para ver como aqualidade da aproximação se deteriora conforme x vai ficando maior. Ainda mais útil é o fato que a dife-

Apêndice A Ferramentas Matemáticas Básicas 11

Page 12: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 12/134

rença em logs pode ser usada para mudanças proporcionais aproximadas. Sejam x0 e x1 valores positivos.Então, é possível mostrar (usando cálculo diferencial) que

log( x1) log( x0)

( x1  x0)/  x0  x /  x0 (A.22)

Figura A.4

Gráfico de  y  log( x ).

para pequenas alterações em x. Se multiplicarmos a equação (A.22) por 100 e escrevermos log( x) log( x1) log( x0), então,

100log( x) % x (A.23)

para pequenas alterações em x. O significado de pequenas depende do contexto, e encontraremos váriosexemplos ao longo de todo este livro.

Por que devemos aproximar a mudança percentual usando (A.23) quando a mudança percentualexata é tão fácil de ser calculada? Logo veremos por que a aproximação em (A.23) é útil em econome-

tria. Primeiramente, vejamos o quanto é boa a aproximação em dois exemplos.Primeiro, suponha que x0 40 e x1 41. Então, a mudança percentual em x, indo de x0 para x1,

será de 2,5%, usando 100( x1 x0)/  x0. Agora, log(41) log(40) 0,0247 com quatro casas decimais,que multiplicado por 100 estará muito próximo de 2,5. A aproximação funciona muito bem. Agora,considere uma alteração bem maior:  x0 40 e  x1 60. A mudança percentual exata será de 50%.Porém, log(60) log(40) 0,4055, de modo que a aproximação produz 40,55% que está muito maislonge da alteração exata.

01

 y  log( x)

 y

 x

12 Introdução à Econometria

Page 13: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 13/134

Por que a aproximação em (A.23) é útil se ela só é satisfatória para mudanças pequenas? Paraconstruir a resposta, primeiro definimos a elasticidade de y em relação a x como

.(A.24)

Em outras palavras, a elasticidade de y em relação a x é a mudança percentual em y quando x aumen-ta em 1%. Essa noção deve ser familiar para quem já estudou economia introdutória.

Se y for uma função linear de x, y b0 b1 x, então, a elasticidade será

(A.25)

que claramente depende do valor de  x. (Isso é uma generalização do resultado bem conhecido dateoria básica da demanda: a elasticidade não é constante ao longo de uma curva de demanda emlinha reta.)

As elasticidades são de importância fundamental em muitas áreas de economia aplicada, não ape-nas na teoria da demanda. É conveniente em muitas situações ter modelos de elasticidade constante, ea função log nos possibilita especificar tais modelos. Se usarmos a aproximação em (A.23) tanto de  x

como de y, então, a elasticidade será aproximadamente igual a log( y)/  log( x). Portanto, um modelode elasticidade constante é aproximado pela equação

log( y) b0 b1log( x), (A.26)

e b1 será a elasticidade de y em relação a x (assumindo x, y

0).

EXEMPLO A.5

(Função Demanda de Elasticidade Constante)

Se q for a quantidade demandada e p for o preço, e essas duas variáveis estiverem relacionadas por

log(q) 4,7 1,25 log( p),

a elasticidade-preço da demanda será 1,25. Em linhas gerais, um aumento de 1% no preço leva a umaredução de 1,25% na quantidade demandada.

Para nossos propósitos, o fato de que b1 em (A.26) seja somente próximo da elasticidade não éimportante. Aliás, quando a elasticidade é definida com o uso de cálculo diferencial — como na SeçãoA.5 —, a definição será exata. Para os fins de análise econométrica, (A.26) define um modelo de elas-

ticidade constante. Tais modelos desempenham um papel muito importante na economia empírica.

, y

 x  x y  b

1  x y  b

 x

b0  b

1 x

. y x

   x y  % y

% x

Apêndice A Ferramentas Matemáticas Básicas 13

Page 14: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 14/134

Outras possibilidades para usar a função log frequentemente surgem nos trabalhos aplicados.Suponha que y 0 e

log( y) b0 b1 x. (A.27)

Então, log( y) b1 x, e assim 100 ⋅ log( y) (100 ⋅ b1) x. Consequentemente, quando y e x sãorelacionados pela equação (A.27),

% y (100b1) x. (A.28)

EXEMPLO A.6

(Equação Logarítmica dos Salários)

Suponha que salário por hora e anos de educação estejam relacionados por

log(salário) 2,78 0,094 educ.

Então, usando a equação (A.28),

%salário 100(0,094)educ 9,4 educ.

Por conseguinte, um ano a mais de educação aumenta o salário por hora em cerca de 9,4%.

Geralmente, a grandeza % y /  x é chamada semielasticidade de y em relação a x. A semielasti-

cidade é a alteração percentual em y quando x aumenta em uma unidade. O que acabamos de mostraré que, no modelo (A.27), a semielasticidade é constante e igual a 100 b1. No Exemplo A.6, podemosresumir convenientemente a relação entre salários e educação dizendo que um ano a mais de educação— começando com qualquer número — aumenta o salário em cerca de 9,4%. Esse é o motivo peloqual tais modelos desempenham um papel importante em economia.

Outra relação de algum interesse em economia aplicada é

 y b0 b1log( x), (A.29)

em que x 0. Como podemos interpretar essa equação? Se considerarmos a mudança em  y, obtemos y b1Δlog( x), que pode ser reescrito como  y (b1 /100)[100log( x)]. Portanto, usando a apro-

ximação em (A.23), temos

 y (b1 /100)(% x). (A.30)

Em outras palavras, b1 /100 é a variação unitária em y quando x aumenta em 1%.

14 Introdução à Econometria

Page 15: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 15/134

EXEMPLO A.7

(Função Oferta de Mão De Obra)

Assuma que a oferta de mão de obra de um trabalhador pode ser descrita como

horas 33 45,1 log(salário)

em que salário é salário por hora e horas são as horas trabalhadas por semana. Então, de (A.30),

horas (45,1/100)(% salário) 0,451 %salário.

Em outras palavras, um aumento de 1% no salário aumenta o número de horas trabalhadas por semana emcerca de 0,45, ou pouco menos que meia hora. Se o salário aumentar em 10%, então, horas 0,451(10) 4,51, ou cerca de quatro horas e meia. Não iríamos querer usar essa aproximação para alterações per-centuais muito maiores no salário.

A Função Exponencial

Antes de fechar esta seção, precisamos examinar uma função especial que está relacionada com o log.Como estímulo, considere a equação (A.27). Ali, log( y) é uma função linear de x. Mas como encontrar y propriamente dito como uma função de x? A resposta é dada pela função exponencial.

Escreveremos a função exponencial como y exp( x), que está traçada na Figura A.5. Pela FiguraA.5, vemos que exp( x) é definida para qualquer valor de x e é sempre maior que zero. Algumas vezes,a função exponencial é escrita como y e x, mas não usaremos essa notação. Dois importantes valoresda função exponencial são exp(0) 1 e exp(1) 2,7183 (para quatro casas decimais).

Figura A.5

Gráfico de  y  exp( x ).

 y

 x0

 y  exp( x)

Apêndice A Ferramentas Matemáticas Básicas 15

Page 16: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 16/134

A função exponencial é o inverso da função log no seguinte sentido: log[exp( x)]  x para qual-quer x, e exp[log( x)]  x para x 0. Em outras palavras, o log “desfaz” o exponencial, e vice-versa.(Essa é a razão de a função exponencial algumas vezes ser chamada de função antilog.) Em particular,note que log( y) b0 b1 x é equivalente a

 y exp(b0 b1 x).

Se b1 0, a relação entre x e y terá a mesma forma da Figura A.5. Portanto, se log( y) b0 b1 x comb1 0, então, x terá um efeito marginal crescente sobre  y. No Exemplo A.6, isso significa que maisum ano de educação leva a uma alteração maior no salário que o ano anterior de educação.

Dois fatos úteis sobre a função exponencial são exp( x1  x2) exp( x1)exp( x2) e exp[c log( x)] xc.

A.5 CÁLCULO DIFERENCIAL

Na seção anterior, expressamos várias aproximações que se fundamentavam em cálculo diferencial.Seja y  f ( x) para alguma função f . Então, para alterações pequenas em x,

(A.31)

em que df  / dx é a derivada da função  f , avaliada no ponto inicial  x0. Também escrevemos a derivadacomo dy / dx.

Por exemplo, se y log( x), então, dy / dx 1/  x. Usando (A.31), com dy / dx avaliada em x0, tere-mos  y (1/  x0) x, ou log( x)  x /  x0, que é a aproximação dada em (A.22).

Em econometria aplicada, ajuda recordar as derivadas de um punhado de funções, pois usamos a

derivada para definir a inclinação de uma função em determinado ponto. Poderemos, então, usar (A.31)para encontrar a alteração aproximada em y para alterações pequenas em x. No caso linear, a derivadaé simplesmente a inclinação da linha, como esperaríamos: se y b0 b1 x, então, dy / dx b1.

Se y  xc, então, dy / dx cxc1. A derivada de uma soma de duas funções é a soma das deriva-das: d [ f ( x) g( x)]/ dx df ( x)/ dx dg( x)/ dx. A derivada de uma constante multiplicada por qualquerfunção é aquela mesma constante multiplicada pela derivada da função: d [cf ( x)]/ dx c[df ( x)/ dx]. Essasregras simples nos possibilitam encontrar derivadas de funções mais complicadas. Outras regras, taiscomo as do produto, do quociente e da cadeia, serão familiares para aqueles que tiveram aulas de cál-culo diferencial, mas não as reveremos aqui.

Algumas funções que são usadas com frequência em economia, com suas derivadas, são

 y b0 b1 x b2 x2; dy / dx b1 2b2 x

 y b0 b1 /  x; dy / dx b1 /( x2

) y b0 b1 ; dy / dx (b1 /2) x1/2

 y b0 b1log( x); dy / dx b1 /  x

 y exp(b0 b1 x); dy / dx b1exp(b0 b1 x)

Se b0 0 e b1 1 nesta última expressão, obteremos dy / dx exp( x) quando y exp( x).

√ x

 y   x,df 

dx

16 Introdução à Econometria

Page 17: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 17/134

Na Seção A.4, dissemos que a equação (A.26) define um modelo de elasticidade constante quan-

do é usado cálculo diferencial. A definição da elasticidade no cálculo diferencial é . É possí-

vel mostrar, usando propriedades de logs e exponenciais, que, quando (A.26) se mantém,Quando y é uma função de múltiplas variáveis, a noção de derivada parcial torna-se importante.

Suponha que

 y  f ( x1, x2). (A.32)

Então, existirão duas derivadas parciais, uma em relação a x1 e outra em relação a x2. A derivada par-cial de y em relação a x1, aqui representada por  y /  x1, é exatamente a derivada normal de (A.32) emrelação a  x1, em que x2 é tratada como uma constante. De forma semelhante,  y /  x2 é exatamente aderivada de (A.32) em relação a x2, mantendo x1 fixo.

As derivadas parciais são tão úteis quanto as derivadas normais por praticamente as mesmas

razões. Podemos aproximar a mudança em y como

(A.33)

Portanto, o cálculo diferencial nos possibilita definir efeitos parciais em modelos não lineares damesma forma como podemos fazer em modelos lineares. De fato, se

 y b0 b1 x1 b2 x2,

então,

Isso pode ser reconhecido como os efeitos parciais definidos na Seção A.2.Um exemplo mais complicado é

 y 5 4 x1  x12 3 x2 7 x1 x2. (A.34)

Agora, a derivada de (A.34) em relação a x1 (tratando x2 como uma constante) é simplesmente

observe como isso depende de x1 e x2. A derivada de (A.34) em relação a x2 émodo que ela só depende de x1.

 x2 é 3 7 x1, de y

 x2

4 2 x1 7 x2; y

 x1

1 2. y

 x2

 y

 x1

 y , mantendo  x2 fixo. y

 x1

  Dx1

1.dy

dx  x y

dydx

 x y

Apêndice A Ferramentas Matemáticas Básicas 17

Page 18: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 18/134

18 Introdução à Econometria

EXEMPLO A.8

(Função de Salários com Interação)

Uma função relacionando salários com anos de educação e de experiência é

salário 3,10 0,41 educ 0,19 exper  0,004 exper 2 0,007 educexper . (A.35)

O efeito parcial de exper sobre salário é a derivada parcial de (A.35):

Essa é a mudança aproximada no salário causada pelo aumento da experiência em um ano. Observe queesse efeito parcial depende do nível inicial de exper e educ . Por exemplo, para um trabalhador que está ini-ciando com educ  12 e exper  5, o próximo ano de experiência aumentará o salário em cerca de 0,19 0,008(5) 0,007(12) 0,234, ou 23,4 centavos por hora. A alteração exata pode ser calculada com-putando (A.35) para exper  5, educ  12 e para exper  6, educ  12, e depois calculando a diferen-ça. Isso resultará em 0,23, que está muito perto da aproximação.

O cálculo diferencial tem um papel importante nas funções de minimização e maximização deuma ou mais variáveis. Se f ( x1, x2, ..., xk ) for uma função diferenciável de k variáveis, então, uma con-dição necessária para x*1, x

*

2, ..., x*

k  minimizar ou maximizar f para todos os possíveis valores de x j será

(A.36)

Em outras palavras, todas as derivadas parciais de f devem ser zero quando elas forem avaliadas em x*h.Essas são chamadas condições de primeira ordem para maximizar ou minimizar uma função. Na prá-tica, esperamos solucionar a equação (A.36) para x*h. Em seguida, poderemos usar outros critérios paradeterminar se minimizamos ou maximizamos a função. Não precisaremos desse processo aqui. [VejaSydsaeter e Hammond (1995) para uma explicação de cálculo diferencial multivariado e seu uso na oti-mização de funções.]

RESUMO

As ferramentas matemáticas examinadas aqui são cruciais para compreender a análise de regressão ea probabilidade e estatística que serão tratadas nos Apêndices B e C. O tópico sobre funções não linea-res — especialmente as funções quadráticas, logarítmicas e exponenciais — é fundamental para oentendimento da moderna pesquisa econômica aplicada. O nível de compreensão exigido para essasfunções não inclui um profundo conhecimento de cálculo diferencial, embora ele seja necessário paracertas derivações.

( x*

1,  x*

2, ..., x*

k ) 0,  j 1, 2, ..., k . f 

 x j

0,19 0,008 exper  0,007 educ.salárioexper 

Page 19: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 19/134

PROBLEMAS

A.1 A tabela seguinte contém valores referentes a despesas mensais com habitação de dez famílias.

(i) Encontre a média das despesas mensais com habitação.

(ii) Encontre a mediana das despesas mensais com habitação.

(iii) Se as despesas mensais com habitação fossem medidas em centenas de dólares, em vez deem dólares, quais seriam as despesas média e mediana?

(iv) Suponha que a família número 8 aumente suas despesas mensais com habitação para 900dólares, mas as despesas de todas as outras famílias permaneçam as mesmas. Calcule amédia e a mediana das despesas mensais com habitação.

A.2 Suponha que a seguinte equação descreva o relacionamento entre a média de aulas perdidasdurante um semestre ( perdidas) e a distância da escola (dist , medida em milhas):

 perdidas 3 0,2 dist .

(i) Desenhe um gráfico com linha, assegurando-se de rotular os eixos. Como você interpretao intercepto nessa equação?

(ii) Qual o número médio de aulas perdidas por alguém que more a cinco milhas de dis-tância?

(iii) Qual é a diferença no número médio de aulas perdidas por alguém que more a 10 milhasde distância e alguém que more a 20 milhas de distância?

A.3 No Exemplo A.2, a quantidade de CDs estava relacionada com o preço e a renda pela equaçãoquantidade 120 9,8 preço 0,03 renda. Qual seria a demanda por CDs se preço 15 e renda

200? O que isso sugere sobre o uso de funções lineares para descrever curvas de demanda?

Apêndice A Ferramentas Matemáticas Básicas 19

Família Despesas Mensais com Habitação (Dólares)

1 300

2 440

3 350

4 1.100

5 640

6 480

7 450

8 700

9 670

10 530

Page 20: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 20/134

A.4 Suponha que a taxa de desemprego nos Estados Unidos vá de 6,4% em um ano para 5,6% nopróximo.

(i) Qual seria o decréscimo em pontos percentuais na taxa de desemprego?

(ii) Qual seria a percentagem de queda da taxa de desemprego?

A.5 Suponha que o retorno sobre as ações de determinada empresa vá de 15% em um ano para 18%no ano seguinte. Os acionistas majoritários afirmam que “os lucros sobre as ações somente aumen-taram 3%”, enquanto o presidente da empresa afirma que “os lucros sobre as ações da empresaaumentaram 20%”. Reconcilie essas discordâncias.

A.6 Suponha que a Pessoa A ganhe 35.000 dólares por ano e a Pessoa B ganhe 42.000 dólares porano.

(i) Encontre a percentagem exata pela qual o salário da Pessoa B excede o da Pessoa A.

(ii) Agora, use a diferença em logs naturais para encontrar a diferença percentual aproximada.

A.7 Suponha que o seguinte modelo descreva a relação entre o salário anual (salário) e o número de

anos de experiência prévia (exper ) no mercado de trabalho:

log(salário) 10,6 0,027 exper .

(i) Qual será o salário quando exper  0? E quando exper  5? (Sugestão: você precisarátrabalhar com exponencial.)

(ii) Use a equação (A.28) para aproximar o aumento percentual em salário quando exper 

aumenta em cinco anos.

(iii) Use os resultados da parte (i) para calcular a diferença percentual exata no salárioquando exper  5 e exper  0. Comente como isso se compara com a aproximação na

parte (ii).A.8 Sejam cresprpempr o crescimento proporcional no emprego, em nível de município, de 1990 a1995, e tximpvend a taxa do imposto sobre vendas do município, declarada como uma proporção.Interprete o intercepto e a inclinação na equação

cresprpempr  0,043 0,78 tximpvend .

A.9 Suponha que o rendimento de certa colheita (em alqueires por acre) esteja relacionado com aquantidade de fertilizante (em libras por acre) como

(i) Desenhe um gráfico com essa relação, usando diversos valores para fertilizante.

(ii) Descreva como a forma dessa relação se compara com a de uma função linear entre ren-dimento e fertilizante.

rendimento 120 0,19 . fertilizante

20 Introdução à Econometria

Page 21: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 21/134

Este apêndice trata dos conceitos-chave de probabilidade básica. Os Apêndices B e C são essen-cialmente de recapitulação; eles não pretendem substituir um curso sobre probabilidade ou esta-tística. Porém, todos os conceitos sobre probabilidade e estatística que usamos neste livro são

discutidos nesses apêndices.A probabilidade por si só é de interesse dos estudiosos de negócios, economia e outras ciências

 sociais. Por exemplo, considere o problema de uma empresa aérea que este ja tentando decidir quantasreservas aceitar para um voo com 100 lugares disponí veis. Se menos de 100 pessoas quiserem fazerreservas, então todas deverão ser aceitas. Mas e se mais de 100 pessoas solicitarem reserva? Uma solu-ção segura seria aceitar no máximo 100 reservas. Porém, como algumas pessoas fazem reservas e nãocomparecem para o embarque, existe alguma probabilidade de que o avião não lote mesmo que sejamfeitas 100 reservas. Isso resultará em perda de receita para a empresa aérea. Uma estratégia diferenteseria aceitar mais de 100 reservas e esperar que algumas pessoas não compareçam para embarque, eassim o número final de passageiros seria o mais próximo possí vel de 100. Essa decisão corre o riscode a companhia aérea ter de compensar as pessoas que não puderam embarcar devido à venda de umnúmero de assentos maior que o da capacidade do avião.

Uma ques tão natural nesse contexto é: pode mos deci dir sobre o número ótimo (ou o melhor) dereservas que a compa nhia aérea deveria fazer? Esse não é um pro blema trivial. Contudo, levando-se

em consideração certas informações (sobre os custos da empresa aérea e a frequência das pessoas dei-xarem de comparecer para o embarque), podemos usar probabilidade básica para chegar a uma solução.

B.1 VARIÁVEIS ALEATÓRIAS E SUAS DISTRIBUIÇÕES DE PROBABILIDADE

Suponha que joguemos para o alto uma moeda dez vezes e contemos o número de vezes em que dêcara. Esse é um exemplo de um experimento. De forma geral, um experimento é qualquer procedi-mento que possa, pelo menos em teoria, ser repetido indefinidamente, e tem um con junto de resulta-dos bem definido. Poderíamos, em princí pio, continuar tirando cara ou coroa repetidamente. Antes deatirarmos a moeda, sabemos que o número de caras que aparecerá será um inteiro entre 0 e 10, e, por-tanto, os resultados do experimento são bem definidos.

Uma variável aleatória é aquela que assume valores numéricos e tem um resultado que é deter-minado por um experimento. No exemplo da moeda, o número de caras que aparecerá em dez lancesde uma moeda é um exemplo de uma variável aleatória. Antes de atirarmos a moeda dez vezes, nãosabemos quantas vezes vai dar cara. Ao lançarmos a moeda dez vezes e contarmos o número de vezesque deu cara, obteremos o resultado da variável aleatória para essa particular verificação do experimen-to. Outra verificação poderá produzir um resultado diferente.

B

21

Fundamentos da Probabilidade

Page 22: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 22/134

No exemplo das reservas da empresa aérea mencionado anteriormente, o número de pessoas quecomparece para o embarque é uma variável aleatória: antes de qualquer voo, não sabemos quantas pes-soas comparecerão para embarque.

Para analisar os dados coletados em economia e nas ciências sociais, é importante ter-se um conhe-cimento básico das variáveis aleatórias e de suas propriedades. Seguindo as convenções tradicionais deprobabilidade e estatística, ao longo dos Apêndices B e C, representaremos as variáveis aleatórias com letras maiúsculas, em geral W , X , Y e Z ; os resultados particulares das variáveis aleatórias são repre-sentados pelas minúsculas correspondentes, w, x, y e z. Por exemplo, no experimento da moeda, seja X o número de vezes que apareceu cara em dez lances da moeda. Nesse caso,  X não está associado comqualquer valor em particular, mas sabemos que X assumirá um valor do con junto {0, 1, 2, ..., 10}. Umresultado particular seria, digamos, x 6.

Indicamos cole ções gran des de variá veis alea tó rias pelo uso de subs cri tos. Por exem plo, seregis trar mos a renda do ano pas sado de 20 famí lias esco lhi das aleato ria men te nos Estados Unidos,poderemos representar essas variáveis aleatórias por X 1, X 2, ..., X 20; os resultados particulares seriamrepresentados por x1, x2, ..., x20.

Como afirmado na definição, as variáveis aleatórias sempre são estabelecidas para assumir valo-

res numéricos, mesmo quando descrevem eventos qualitativos. Por exemplo, considere jogar umaúnica moeda, na qual os dois resultados são cara e coroa. Podemos definir uma variável aleatória daseguinte forma: X  1 se der cara, e X  0 se der coroa.

Uma variável aleatória que somente pode assumir os valores zero e um é chamada variável alea-

tória de Bernoulli (ou binária). Em probabilidade básica, é tradição chamar o evento X  1 de “suces-so” e o evento X  0 de “fracasso”. A nomenclatura sucesso-fracasso pode não corresponder à nossanoção de sucesso e fracasso em determinadas aplicações, mas é uma terminologia útil que adotaremos.

Variáveis Aleatórias Discretas

Uma variável aleatória discreta é a que somente assume um número finito ou infinito enumerável devalores. A noção de “infinito enumerável” significa que, embora um número infinito de valores possaser assumido por uma variável aleatória, esses valores podem ser postos em uma correspondência um--a-um com os números inteiros positivos. Como a distinção entre “infinito enumerável” e “infinito nãoenumerável” é um pouco sutil, nos concentraremos nas variáveis aleatórias discretas que assumemsomente um número finito de valores. Larsen e Marx (1986, Capítulo 3) apresentam uma abordagemdetalhada sobre o assunto.

Uma variável aleatória de Bernoulli é o exemplo mais simples de uma variável aleatória discreta.A única coisa que precisamos para descrever completamente o comportamento de uma variável alea-tória de Bernoulli é a probabilidade que ela assume no valor um. No exemplo da moeda, se ela for “jus-ta”, então, P( X  1) 1/2 (lê-se como “a probabilidade de que X seja igual a um é de 0,5). Como asoma das probabilidades deve ser igual à unidade, P( X  0) 1/2.

Os cientistas sociais estão interessados em mais do que cara ou coroa, e, portanto, devemos con-siderar situações mais gerais. Novamente, considere o exemplo em que a empresa aérea tem de deci-dir quantas reservas aceitar para um voo com 100 lugares disponí veis. Esse problema pode ser anali-

sado no contexto de diversas variáveis aleatórias de Bernoulli da seguinte maneira: para um passageiroselecionado aleatoriamente, defina uma variável aleatória de Bernoulli como X  1 se a pessoa apare-cer para embarque, e X  0 se não aparecer.

Não há nenhuma razão para pensar que a probabilidade de qualquer passageiro em particular com-parecer para embarque ser 1/2; em princí pio, a probabilidade pode ser qualquer número entre zero eum. Chame esse número u, de forma que

22 Introdução à Econometria

Page 23: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 23/134

P( X  1) u (B.1)

P( X  0) 1 u. (B.2)

Por exemplo, se u 0,75, existirá 75% de probabilidade de que um passageiro apareça para o embar-que após ter feito a reserva e 25% de probabilidade de que o passageiro não apareça. Intuitivamente, ovalor de u é fundamental para determinar a estratégia da companhia aérea quanto à aceitação de reser-vas. Os métodos para estimar u, considerando os dados históricos de reservas das companhias aéreas,são tópicos de estatística matemática, que veremos no Apêndice C.

De forma mais geral, qualquer variável aleatória discreta é completamente descrita listando seuspossí veis valores e a probabilidade associada que ela assume para cada valor. Se X assumir os k possí-veis valores { x1, ..., xk }, as probabilidades p1, p2, ..., pk serão definidas por

 p j P( X  x j), j 1, 2, ..., k , (B.3)

em que cada p j estará entre zero e um e

 p1  p2 ...  pk  1. (B.4)

A equação (B.3) é lida como: “A probabilidade de X assumir o valor x j é igual a p j”.As equações (B.1) e (B.2) mostram que as probabilidades de sucesso e fracasso de uma variável

aleatória de Bernoulli são determinadas inteiramente pelo valor de u. Como as variáveis aleatórias deBernoulli são tão frequentes, temos uma notação especial para elas: X  Bernoulli(u) é lida como “ X tem uma distribuição de Bernoulli com probabilidade de sucesso igual a u.”

A função densidade de probabilidade (fdp) de X resume as informações relativas aos possí veisresultados de X e as probabilidades correspondentes:

 f ( x j)  p j, j 1, 2, ..., k , (B.5)

com f ( x) 0 de qualquer x não igual a x j para algum j. Em outras palavras, para qualquer número real x, f ( x) será a probabilidade que a variável aleatória X assumirá para o valor particular de x. Quando lida-mos com mais de uma variável aleatória, algumas vezes é útil subscrever a fdp em questão: f  X é a fdpde X , f Y é a fdp de Y , e assim por diante.

Dada a fdp de qualquer variável aleatória discreta, é simples calcular a probabilidade de qualquerevento envolvendo aquela variável aleatória. Por exemplo, suponha que X seja o número de pontos fei-tos por um jogador de basquetebol a cada dois lances livres, de forma que X pode assumir os três valo-

res {0,1,2}. Assuma que a fdp de X seja dada por

 f (0) 0,20, f (1) 0,44, e f (2) 0,36.

A soma das três probabilidades é igual a um, como deveria ser. Usando essa fdp, podemos calcu-lar a probabilidade de que o jogador converta  pelo menos um lance livre: P( X  1) P( X  1) P( X  2) 0,44 0,36 0,80. A fdp de X é mostrada na Figura B.1.

Apêndice B Fundamentos da Probabilidade 23

Page 24: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 24/134

Figura B.1

A fdp do número de lances livres convertidos a cada duas tentativas.

Variáveis Aleatórias Contínuas

Uma variável X será uma variável aleatória contí nua se assumir qualquer valor real com probabili-

dade zero. Essa definição é um tanto quanto contraintuitiva, já que em qualquer aplicação acabaremosobservando algum resultado para uma variável aleatória. A idéia é que uma variável aleatória contí nua X pode assumir tantos valores possí veis que não podemos enumerá-los ou compará-los com os intei-ros positivos, de modo que a consistência lógica garante que X pode assumir cada valor com probabi-lidade zero. Embora as medidas sejam sempre discretas na prática, as variáveis aleatórias que assumemnumerosos valores são melhor tratadas como contí nuas. Por exemplo, a medida mais refinada do preçode um bem é em termos de centavos. Podemos nos imaginar relacionando todos os possí veis valores depreços ordenadamente (mesmo que a lista possa continuar indefinidamente), o que tecnicamente fazcom que preço seja uma variável aleatória discreta. Porém, existem tantos valores possí veis de preçosque o uso da mecânica das variáveis aleatórias discretas não é viável.

Podemos definir uma função densidade de probabilidade para variáveis aleatórias contí nuas, e,como acontece com as variáveis aleatórias discretas, a fdp fornecerá informações sobre os prováveis

resultados da variável aleatória. Porém, como também não faz sentido discutir a probabilidade de queuma variável aleatória contí nua assuma um valor em particular, usamos a fdp de uma variável aleató-ria contí nua somente para computar eventos envolvendo uma diversidade de valores. Por exemplo, sea e b forem constantes onde a b, a probabilidade de X estar entre os números a e b, P(a  X  b),será a área sob a fdp entre os pontos a e b, como mostrado na Figura B.2. Se você estiver familiariza-do com cálculo diferencial, você reconhecerá isso como a integral da função f entre os pontos a e b. Aárea total sob a fdp deve sempre ser igual a um.

( x)

0 1 2 x

0,44

0,36

0,20

( x)

0 1 2 x

0,44

0,36

0,20

24 Introdução à Econometria

Page 25: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 25/134

Figura B.2

A probabilidade que X este ja entre os pontos a e b.

Ao computar probabilidades para variáveis aleatórias contí nuas, é mais fácil trabalhar com a fun-

ção de distribuição cumulativa (fdc). Se X for qualquer variável aleatória, então, sua fdc será defini-da por qualquer numero x real pela equação

F ( x) P( X  x). (B.6)

Para variá veis alea tó rias dis cre tas, (B.6) será obti da soman do a fdp para todos os valo res x j tais que x j  x. Para uma variável aleatória contí nua, F ( x) será a área sob a fdp, f , à esquerda do ponto x. ComoF ( x) é simplesmente uma probabilidade, ela estará sempre entre 0 e 1. Além disso, se  x1  x2, então,P( X  x1) P( X  x2), isto é, F ( x1) F ( x2). Isso significa que uma fdc é uma função crescente (oupelo menos não decrescente) de x.

Duas propriedades importantes das fdcs que são úteis no cálculo de probabilidades são as seguintes:

Para qualquer número c, P( X  c) 1 F (c). (B.7)

Para quaisquer números a b, P(a  X  b) F (b) F (a). (B.8)

( x)

a b x

( x)

a b x

Apêndice B Fundamentos da Probabilidade 25

Page 26: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 26/134

Em nosso estudo da econometria, usaremos as fdcs para calcular probabilidades somente de variáveisaleatórias contí nuas, caso em que não importa se as desigualdades nas especificações probabilísticassão estritas ou não. Ou seja, para uma variável aleatória contí nua X ,

P( X  c) P( X  c) (B.9)

e

P(a X b) P(a X b) P(a X b) P(a X b). (B.10)

Combinadas com (B.7) e (B.8), as equações (B.9) e (B.10) expandem bastante os cálculos de probabi-lidade que podem ser feitos com o uso de fdcs contí nuas.

As funções de distribuições cumulativas foram tabuladas para todas as distribuições contí nuasimportantes em probabilidade e estatística. A mais conhecida delas é a distribuição normal, da qual tra-

taremos com algumas distribuições relacionadas na Seção B.5

B.2 DISTRIBUIÇÕES CONJUNTAS, DISTRIBUIÇÕES CONDICIONAIS EINDEPENDÊNCIA

Em economia, geralmente estamos interessados na ocorrência de eventos que envolvem mais de umavariável aleatória. No exemplo das reservas da companhia aérea anteriormente referido, esta pode estarinteressada na probabilidade de que uma pessoa que faz uma reserva compareça para embarque e queseja uma pessoa que viaje a negócios; esse é um exemplo de uma probabilidade con junta. Ou a empresaaérea pode estar interessada na seguinte probabilidade condicional: condicional à pessoa ser uma pes-soa que viaje a negócios, qual é a probabilidade de que ela compareça para embarque? Nas próximas

duas subseções, formalizaremos a noção de distribuições con junta e condicional e a importante noçãode independência das variáveis aleatórias.

Distribuições Conjuntas e Independência

Sejam X e Y variáveis aleatórias discretas. Então, ( X ,Y ) têm uma distribuição con junta, que é total-mente definida pela função densidade de probabilidade con junta de ( X ,Y ):

 f  X ,Y ( x, y) P( X  x,Y  y), (B.11)

em que o lado direito é a probabilidade de que X  x e Y  y. Quando X e Y são contí nuas, uma fdp

con junta também pode ser definida, mas não trataremos de tais detalhes, pois fdps con juntas de variá-veis aleatórias contí nuas não são explicitamente usadas neste livro.Em um caso, é fácil obter a fdp con junta se forem dadas as fdps de X e Y . Em particular, as variá-

veis aleatórias X e Y são independentes se, e somente se,

 f  X ,Y ( x, y)  f  X ( x) f  y( y) (B.12)

26 Introdução à Econometria

Page 27: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 27/134

para todos os x e y, quando f  X for a fdp de X e f Y for a fdp de Y . No contexto de mais de uma variávelaleatória, as fdps f  X e f Y são frequentemente chamadas funções de densidade de probabilidade mar gi-nal para distingui-las da fdp con junta f  X,Y . Essa definição de independência é válida para variáveis alea-tórias discretas e contí nuas.

Para entendermos o significado de (B.12) é mais fácil lidar com o caso discreto. Se X e Y foremdiscretas, então, (B.12) será a mesma coisa que

P( X  x,Y  y) P( X  x)P(Y  y); (B.13)

em outras palavras, a probabilidade de que X  x e Y  y é o produto das duas probabilidades P( X  x)e P(Y  y). Uma implicação de (B.13) é que as probabilidades con juntas são razoavelmente fáceis deserem calculadas, já que elas apenas exigem o conhecimento de P( X  x) e P(Y  y).

Se as variáveis aleatórias não forem independentes, então, elas são dependentes.

EXEMPLO B.1

(Arremessos de Lances Livres)

Considere um jogador de basquetebol fazendo dois lances livres. Seja X uma variável aleatória de Bernoulliigual a um se ele converter o primeiro arremesso, e zero, caso contrário. Seja Y uma variável aleatória deBernoulli igual a um se ele converter o segundo arremesso. Suponha que ele seja um jogador que converte80% dos arremessos, de forma que P( X  1) P(Y  1) 0,8. Qual é a probabilidade de o jogador con-verter os dois arremessos?

Se X e Y forem independentes, podemos facilmente responder a essa pergunta: P( X  1, Y  1) P( X  1)( P(Y  1) (0,8)(0,8) 0,64. Portanto, existe 64% de probabilidade de converter ambos os lan-ces livres. Se a probabilidade de converter o segundo arremesso depender de o primeiro arremesso ter sidoconvertido — isto é, X e Y não são independentes — então, esse cálculo simples não será válido.

A independência de variáveis aleatórias é um conceito muito importante. Na próxima subseção,mostraremos que, se X e Y forem independentes, conhecer resultado de X não altera as probabilidadesdos possí veis resultados de Y , e vice-versa. Um fato útil sobre a questão da independência é que se X e Y  forem independentes e definirmos novas variáveis aleatórias g( X ) e h(Y ) para quaisquer funções ge h, então, essas novas variáveis aleatórias também serão independentes.

Não há necessidade de parar em duas variáveis aleatórias. Se X 1, X 2, ..., X n forem variáveis alea-tórias discretas, então, suas fdps con juntas serão f ( x1, x2, ..., xn) P( X 1 x1, X 2 x2, ..., X n xn). Asvariáveis aleatórias X 1, X 2, ..., X n serão variáveis aleatórias independentes se, e somente se, suas fdpscon juntas forem o produto das fdps individuais para quaisquer ( x1, x2, ..., xn). Essa definição de inde-pendência também é válida para variáveis aleatórias contí nuas.

A noção de independência desempenha um papel importante na obtenção de algumas distribuiçõesclássicas em probabilidade e estatística. Anteriormente, definimos uma variável aleatória de Bernoullicomo uma variável aleatória zero-um indicando se ocorre algum evento ou não. Frequentemente, esta-mos interessados no número de sucessos em uma sequência de ensaios de Bernoulli independentes.

Um exemplo-padrão de ensaios de Bernoulli independentes é jogar repetidamente uma moeda.Como o resultado de qualquer lance particular não tem nada a ver com os resultados dos outros lan-ces, a independência é uma hipótese apropriada.

Apêndice B Fundamentos da Probabilidade 27

Page 28: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 28/134

A independência é muitas vezes uma aproximação razoável em situações mais complicadas. Noexemplo das reservas da companhia aérea, suponha que a companhia aceite n reservas para determinadovoo. De cada i 1, 2, ..., n, seja Y a variável aleatória de Bernoulli indicando se o passageiro i apare-ce para embarque: Y i 1 se o passageiro i aparecer para embarque, e Y i 0, caso contrário. Definindou novamente como a probabilidade de sucesso (usando as reservas), cada Y i terá uma distribuição deBernoulli (u). Como uma aproximação, podemos assumir que os Y i são independentes entre si, emboraisso não seja exatamente verdadeiro na realidade: algumas pessoas via jam em grupo, o que signi fi caque se uma pes soa com pa re ce rá ou não para embarque não é verda dei ra men te inde pen den te de se as outras pessoas comparecerão ou não. Porém, modelar esse tipo de dependência é complexo, de modoque podemos querer usar a independência como uma aproximação.

A variável de interesse principal é o número total de passageiros que comparecem para embarquedas n reservas; chamemos essa variável de X . Como cada Y i será igual à unidade quando uma pessoacomparece para embarque, podemos escrever X  Y i Y 2 ... Y n. Agora, assumindo que cada Y item probabilidade de sucesso θ e que os Y i são independentes, é possí vel mostrar que X tem uma dis-tribuição binomial. Isto é, a função densidade de probabilidade de X é

(B.14)

em que , e para qualquer inteiro n, n! (lê-se “fatorial de n”) é definido como n! n

(n 1) (n 2)...1. Por convenção, 0! 1. Quando uma variável aleatória X tem a fdp dada em (B.14),escrevemos X  Binomial(n,u). A equação (B.14) pode ser usada para calcular P( X  x) para qualquervalor de x de 0 a n.

Se o voo tiver 100 lugares disponí veis, a empresa aérea estará interessada em P( X  100).Suponha, inicialmente, que n 120, de modo que a companhia aérea aceitará 120 reservas, e que aprobabilidade de que cada pessoa compareça para embarque seja u 0,85. Então, P( X  100) P( X  101) P( X  102) ... P( X  120), e cada uma das probabilidades na soma poderá ser encon-trada pela equação (B.14) com n 120, u 0,85 e o valor apropriado de x (101 a 120). Esse é umcálculo difí cil de ser feito manualmente, mas muitos programas estatísticos possuem comandos paracomputar esse tipo de probabilidade. Nesse caso, a probabilidade de que mais de 100 pessoas compa-recerão para embarque é cerca de 0,659, o que provavelmente é um risco de excesso de reservas maiordo que a companhia aérea dese ja tolerar. Se, em vez disso, o número de reservas for 110, a probabili-dade de que mais de 100 pessoas comparecerão para embarque será de apenas 0,024.

Distribuições Condicionais

Em econometria, geralmente estamos interessados em como uma variável aleatória, vamos chamá-laY , está relacionada com uma ou mais das outras variáveis. Por enquanto, suponha que haja somente

uma variável em cujos efeitos estamos interessados, vamos chamá-la X . O máximo que podemos sabersobre como X afeta Y está contido na distribuição condicional da Y , dado X . Essa informação é resu-mida pela função de densidade de probabilidade condicional, definida por

 f Y | X ( y | x)  f  X ,Y ( x, y)/  f  X ( x) (B.15)

n

 x

n!

 x!(n x)!

 f ( x) ,  x 0, 1, 2, ..., n,n

 xu x(1 u)n x

n

 x

n!

 x!(n x)!

 f ( x) ,  x 0, 1, 2, ..., n,n

 xu x(1 u)n x

28 Introdução à Econometria

Page 29: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 29/134

para todos os valores de x de tal forma que f  X ( x) 0. A interpretação de (B.15) é mais fácil de ser vistaquando X e Y são discretas. Então,

 f Y | X ( y | x) P(Y  y | X  x), (B.16)

em que o lado direi to é lido como “a pro ba bi li da de de Y  y em decor rên cia de X  x.” Quando Y é con tí nuo, f Y | X ( y | x) não é inter pre ta da dire ta men te como uma pro ba bi li da de, pelas razões expli ca-das ante rior men te, mas as pro ba bi li da des con di cio nais são encon tra das com pu tan do áreas sob a fdpcon di cio nal.

Uma característica importante das distribuições condicionais é que, se X e Y forem variáveis alea-tórias independentes, o conhecimento dos valores assumidos por X não nos diz nada sobre a probabi-lidade de que Y assuma diversos valores (e vice-versa). Isto é, f Y | X ( y | x)  f Y ( y) e f  X |Y ( x | y)  f  X ( x).

EXEMPLO B.2

(Arremessos de Lances Livres)

Considere novamente o exemplo dos lances livres no basquetebol, quando dois lances livres devem ser ten-tados. Assuma que a densidade condicional seja

 f Y | X (1|1) 0,85, f Y | X (0|1) 0,15

 f Y | X (1|0) 0,70, f Y | X (0|0) 0,30.

Isso significa que a probabilidade de o jogador converter o segundo lance depende de o primeiro lance tersido convertido: se o primeiro lance foi convertido, a probabilidade de converter o segundo lance é de 0,85;se o primeiro lance foi perdido, a probabilidade de converter o segundo lance é de 0,70. Isso implica que X 

eY 

não são independentes; eles são dependentes.Ainda podemos computar P( X  1, Y  1) desde que conheçamos P( X  1). Assuma que a probabi-lidade de converter o primeiro lance livre seja 0,8, isto é, P( X  1) 0,8. Então, de (B.15), teremos

P( X  1,Y  1) P(Y  1| X  1)⋅P( X  1) (0,85)(0,8) 0,68.

B.3 CARACTERÍSTICAS DAS DISTRIBUIÇÕES DE PROBABILIDADE

Para muitos propósitos, estaremos interessados em somente alguns poucos aspectos das distribuiçõesdas variáveis aleatórias. As características de interesse podem ser classificadas em três categorias:medidas de tendência central, medidas de variabilidade ou intervalo e medidas de associação entre d-

uas variáveis aleatórias. Trataremos desta última na Seção B.4.

Uma Medida de Tendência Central: O Valor Esperado

O valor esperado é um dos mais importantes conceitos da probabilidade que encontraremos em nossoestudo da econometria. Se X for uma variável aleatória, o valor esperado (ou esperança) de X , represen-tado por E( X ) e algumas vezes por m X , ou simplesmente m, é uma média ponderada de todos os possí veis

Apêndice B Fundamentos da Probabilidade 29

Page 30: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 30/134

30 Introdução à Econometria

valores de X . Os pesos são determinados pela função de densidade de probabilidade. Algumas vezes,o valor esperado é chamado média populacional, especialmente quando queremos enfatizar que  X representa alguma variável em uma população.

A definição precisa do valor esperado é mais simples no caso em que X é uma variável aleatóriadiscreta assumindo um número finito de valores, digamos, { x1, ..., xk ). Seja f ( x) a função de densidadede probabilidade de X . O valor esperado de X será a média ponderada

(B.17)

Essa expressão é facilmente calculada dados os valores da fdp de cada possí vel resultado de X .

EXEMPLO B.3

(Calculando um Valor Esperado)Suponha que X assuma os valores 1, 0 e 2 com probabilidades 1/8, 1/2 e 3/8, respectivamente. Então,

E( X ) (1)(1/8) 0(1/2) 2(3/8) 5/8.

Esse exemplo ilustra uma coisa curiosa sobre os valores esperados: o valor esperado de X pode s-er um número que não é sequer um possí vel resultado de X . Sabemos que X assume os valores 1, 0e 2, ainda que seu valor esperado seja 5/8. Isso torna o valor esperado deficiente para resumir a ten-dência central de certas variáveis aleatórias discretas, mas cálculos como o que acabamos de mostrarpodem ser úteis, como veremos mais tarde.

Se X for uma variável aleatória contí nua, então, E( X ) será definido como uma integral:

(B.18)

que assumimos como bem definida. Isso ainda pode ser interpretado como uma média ponderada. Paraas distribuições contí nuas mais comuns, E( X ) é um número que é um possí vel resultado de X . Nestelivro, não precisaremos calcular valores esperados usando integração, embora utilizemos de algunsresultados bem conhecidos de probabilidade de valores esperados de variáveis aleatórias especiais.

Dada uma variável aleatória X e uma função g(), podemos criar uma nova variável aleatória g( X ).Por exemplo, se  X for uma variável aleatória, então,  X 2 e log( X ) (se X  0) também serão variáveisaleatórias. O valor esperado de g( X ) será, de novo, simplesmente uma média ponderada:

( B . 1 9 )

ou, para uma variável aleatória contí nua,

E[g( X )] g( x j) f  X ( x j)Σk 

 j 1

E( X )  f ( x)dx,∫ x

E( X )  x1 f ( x1)  x2 f ( x2) ...  xk f ( xk ) Σk 

 j 1

 x jf ( x

 j)

E[g( X )] g( x j) f  X ( x j)Σk 

 j 1

E( X )  f ( x)dx,∫ x

E( X )  x1 f ( x1)  x2 f ( x2) ...  xk f ( xk ) Σk 

 j 1

 x jf ( x

 j)

Page 31: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 31/134

(B.20)

EXEMPLO B.4

(Valor Esperado de  X 2)

Para a variável aleatória no Exemplo B.3, seja g( X )  X 2. Então,

E( X 2) (1)2(1/8) (0)2(1/2) (2)2(3/8) 13/8.

No Exemplo B.3, calculamos E( X ) 5/8, de forma que [E( X )]2 25/64. Isso mostra que E( X 2)não é o mesmo que [E( X )]2. De fato, para uma função não linear g( X ), E[g( X )] ∞ g[E( X )] (exceto emcasos muito especiais).

Se X e Y forem variáveis aleatórias, então, g( X ,Y ) será uma variável aleatória para qualquer fun-ção g, e assim poderemos definir sua esperança. Quando X e Y são ambas discretas, assumindo os valo-res { x1, x2, ..., xk } e { y1, y2, ..., ym}, respectivamente, o valor esperado será

em que  f  X ,Y será a fdp con junta de ( X ,Y ). A definição é mais complicada para variáveis aleatórias con-tí nuas, pois envolve integração; não precisamos dela aqui. A extensão para mais de duas variáveis alea-tórias é fácil de ser feita.

Propriedades dos Valores Esperados

Em econometria, não nos preocupamos muito em calcular os valores esperados de diversas distribui-ções; os cálculos principais já foram feitos muitas vezes, e em grande parte os aceitaremos sem ques-tionar. Teremos que manipular alguns valores esperados usando umas poucas regras simples. Elas sãotão importantes que as rotulamos:

PROPRIEDADE E.1

Para qualquer constante c, E(c) c.

PROPRIEDADE E.2

Para quaisquer constantes a e b, E(aX  b) aE( X ) b.

Uma impli cação útil de E.2 é que, se m E( X ), e definirmos uma nova variável aleatória como Y  X  m, então, E(Y ) 0; em E.2, considere a 1 e b m.

Como um exemplo da propriedade E.2, seja X a temperatura medida em graus Celsius, ao meio-diade determinado dia, em determinada localidade; suponha que a temperatura esperada seja E( X ) 25.Se Y for a temperatura medida em graus Fahrenheit, então, Y  32 (9/5) X . Pela propriedade E.2, atemperatura esperada em Fahrenheit será E(Y ) 32 (9/5)⋅E( X ) 32 (9/5)⋅25 77.

De forma geral, é fácil cal cu lar o valor espe ra do de uma fun ção linear de diver sas variá veisalea tó rias.

E[g( X , Y )] g( xh, y j)  f  X,Y ( xh, y j),Σk 

h 1Σm

 j 1

E[g( X )]  f  X ( x)dx.∫ g( x)

E[g( X , Y )] g( xh, y j)  f  X,Y ( xh, y j),Σk 

h 1Σm

 j 1

E[g( X )]  f  X ( x)dx.∫ g( x)

Apêndice B Fundamentos da Probabilidade 31

Page 32: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 32/134

PROPRIEDADE E.3

Se {a1, a2, ..., an} forem constantes e { X 1, X 2, ..., X n} forem variáveis aleatórias, então,

E(a1 X 1 a2 X 2 ... an X n) a1E( X 1) a2E( X 2) ... anE( X n).

Ou, usando a notação de somatórios,

(B.21)

Como um caso especial dessa equação, temos (com cada a1 1)

(B.22)

de forma que o valor esperado da soma será a soma dos valores esperados. Essa propriedade é usadacom frequência para derivações em estatística matemática.

EXEMPLO B.5

(Encontrando a Receita Esperada)

Sejam X 1, X 2 e X 3 os números de pizzas pequenas, médias e grandes, respectivamente, vendidas durante o diaem uma pizzaria. Elas são variáveis aleatórias com valores esperados E( X 1) 25, E( X 2) 57 e E( X 3) 40.Os preços das pizzas pequena, média e grande são 5,50, 7,60 e 9,15 (em dólares). Portanto, a receita espe-rada das vendas de pizzas em determinado dia será

isto é, 936,70 dólares. A receita efetiva de qualquer dia particular geralmente será diferente desse valor, masessa é a receita esperada.

Também podemos usar a propriedade E.3 para mostrar que se X Binomial(n,u), então, E( X ) nu. Ou seja, o número esperado de sucessos em n  ensaios de Bernoulli é simplesmente o número de ensaios vezes a probabilidade de sucesso de qualquer ensaio particular. Isso será facilmente observadoescrevendo X como X  Y 1 Y 2 ... Y n, em que cada Y i Bernoulli(u). Então,

Podemos aplicar esse resulta do no exemplo das reser vas da compa nhia aérea, quan do ela acei tan 120 reservas, e a probabilidade de comparecimento para embarque é u 0,85. O número esperadode pessoas comparecendo para embarque é 120(0,85) 102. Portanto, se há 100 lugares disponí veis,

E( X ) E(Y i) n .Σn

i 1Σn

i 1

E(5,50 X 1 7,60 X 2 9,15 X 3) 5,50 E( X 1) 7,60 E( X 2) 9,15 E( X 3) 5,50(25) 7,60(57) 9,15(40) 936,70,

E( X i) E( X i),Σn

i 1Σn

i 1

E( ai X i) aiE( X i).Σn

i 1Σn

i 1

E( X ) E(Y i) n .Σn

i 1Σn

i 1

E( X i) E( X i),Σn

i 1Σn

i 1

E( ai X i) aiE( X i).Σn

i 1Σn

i 1

E(5,50 X 1 7,60 X 2 9,15 X 3) 5,50 E( X 1) 7,60 E( X 2) 9,15 E( X 3) 5,50(25) 7,60(57) 9,15(40) 936,70,

32 Introdução à Econometria

Page 33: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 33/134

o número esperado de pessoas que comparecerão para embarque é grande demais; isso terá algumainfluência na conclusão de ser uma boa idéia a companhia aceitar 120 reservas.

Na realidade, o que a companhia aérea poderia fazer seria definir uma função do lucro que consi-derasse a receita ganha por lugar vendido e o custo por passageiro que seja impedido de embarcar. Essafunção do lucro será aleatória, pois o número efetivo de pessoas que comparecerão para embarque éaleatório. Seja r a receita líquida correspondente a cada passageiro. (Para simplificar, você pode pensarnisso como sendo o preço da passagem). Seja i a indenização devida a cada passageiro que não puderembarcar. Nem r nem i são aleatórios; eles são assumidos como conhecidos pela companhia aérea. SejaY o lucro do voo. Então, com 100 lugares disponí veis,

Y  rX se X  100

100r  i( X  100) se X  100.

A primeira equação mostra o lucro se não mais que 100 pessoas comparecerem para embarque; a segun-da equação é o lucro se mais de 100 pessoas comparecerem para embarque. (Nesse último caso, a recei-

ta líquida da venda de passagens é 100r , pois foram vendidos todos os 100 lugares, e, então, i( X  100)é o custo de aceitar mais de 100 reservas). Usando o fato de que  X  tem uma distribuição Binomial(n,0,85), onde n é o número de reservas feitas, os lucros esperados, E(Y ) poderão ser encontrados comouma função de n (e r e i). Calcular E(Y ) diretamente seria muito difí cil, mas poderá ser encontrado rapi-damente usando-se um computador. Uma vez os valores de r e i  tenham sido dados, o valor de n quemaximiza os lucros esperados poderá ser encontrado pesquisando-se diferentes valores de n.

Outra Medida de Tendência Central: A Mediana

O valor esperado é somente uma possibilidade para definir a tendência central de uma variável aleató-ria. Outra medida de tendência central é a mediana. Uma definição geral de mediana é complicada demais para nosso propósito. Se X for uma variável contí nua, então, a mediana de X , digamos m, seráum valor tal que metade da área de uma fdp está à esquerda de m, e a outra metade está à direita de m.

Quando X for uma variável discreta e assumir um número ímpar finito de valores, a mediada será obti-da ordenando-se os possí veis valores de X e então selecionando-se o valor que estiver no centro. Por exem-plo, se X assumir os valores {4,0,2,8,10,13,17}, então, o valor mediano de X será 8. Se X assumir umnúmero par de valores, existirão, na realidade, dois valores medianos; algumas vezes calcula-se a médiadesses números para obter um único valor mediano. Assim, se X assumir os valores {5,3,9,17}, os valo-res medianos serão 3 e 9; se calcularmos a média desses números obteremos uma mediana igual a 6.

Em geral, a mediana, algumas vezes indicada por Med( X ), e o valor esperado E( X ), são diferen-tes. Nenhum é “melhor” que o outro como uma medida de tendência central; ambos são maneiras váli-das de indicar o centro da distribuição de X . Em um caso especial, a mediana e o valor esperado (oumédia) são os mesmos. Se X tiver uma distribuição simétrica em torno do valor m, então, m será tantoo valor esperado como a mediana. Matematicamente, a condição será f (m  x)  f (m  x) para todo x.Esse caso está ilustrado na Figura B.3.

Medidas de Variabilidade: Variância e Desvio-Padrão

Embora a tendência central de uma variável aleatória seja valiosa, ela não nos diz tudo que queremossaber sobre a distribuição de uma variável aleatória. A Figura B.4 mostra as fdp de duas variáveis alea-tórias com a mesma média. Claramente, a distribuição de X é mais concentrada em relação à sua médiaque a distribuição de Y . Gostaríamos de ter uma maneira simples de sintetizar as diferenças na disper-são das distribuições.

Apêndice B Fundamentos da Probabilidade 33

Page 34: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 34/134

Figura B.3

Uma distribuição de probabilidade simétrica.

Variância

Para uma variável aleatória X , seja m E( X ). Há várias maneiras de medir quanto X está distante de

seu valor esperado, mas a mais simples de trabalhar algebricamente é a diferença elevada ao quadrado,( X  m)2. (A elevação ao quadrado serve para eliminar o sinal da medida da distância, e trata, sime-tricamente, valores acima e abaixo de m. Essa distância em si é uma variável aleatória, já que ela podemudar a cada resultado de X . Da mesma forma que precisamos de um número para resumir a tendên-cia central de X , precisamos de um número que nos informe o quanto X está distante de m, em média.Um desses números é a variância, que nos informa a distância esperada de X até sua média:

Var( X ) E( X  m)2]. (B.23)

A variância é algumas vezes representada por s2 x, ou simplesmente s2, quando o contexto é claro. De

(B.3), deduz-se que a variância é sempre não negativa.

Como um instrumento computacional, é interessante observar que

s2 E( X 2 2 X m m2) E( X 2) 2m2 m2 E( X 2) m2. (B.24)

( x)

 x

( x)

 x

34 Introdução à Econometria

Page 35: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 35/134

Figura B.4

Variáveis aleatórias com a mesma média, mas com distribuições diferentes.

Usando (B.23) ou (B.24), não precisamos fazer a distinção entre variáveis aleatórias discretas e contí-nuas: a definição de variância é a mesma em qualquer dos casos. Na maioria da vezes, primeiro calcu-lamos E( X ), depois E( X 2), e, então, usamos a fórmula de (B.4). Por exemplo, se  X  Bernoulli(u),

então, E( X ) u, e como X 2 X , E( X 2) u. Deduz-se da equação (B.24) que Var( X ) E( X 2) m2 u u2 u(1 u).

São apresentadas a seguir duas importantes propriedades da variância.

PROPRIEDADE VAR.1

Var( X ) 0 se, e somente se, houver uma constante c, de tal forma que P( X  c) 1, em cujo caso,E( X ) c.

Essa primeira propriedade diz que a variância de qualquer constante é zero, e se uma variável aleató-ria tiver variância zero, então, ela será essencialmente constante.

PROPRIEDADE VAR.2

Para quaisquer constantes a e b, Var(aX  b) a2Var( X ).Isso significa que a adição de uma constante a uma variável aleatória não altera a variância, mas a mul-tiplicação de uma variável aleatória por uma constante aumenta a variância por um fator igual ao qua-drado daquela constante. Por exemplo, se X representar a temperatura em graus Celsius e Y  32 (9/5) X for a temperatura em graus Fahrenheit, então, Var(Y ) (9/5)2Var( X ) (81/25)Var( X ).

fdp

 f Y 

 f  X 

 X,Y 

fdp

 f Y 

 f  X 

 X,Y 

Apêndice B Fundamentos da Probabilidade 35

Page 36: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 36/134

Desvio-Padrão

O desvio-padrão de uma variável aleatória, representado por dp( X ), é simplesmente a raiz quadradapositiva da variância: dp( X ) . O desvio-padrão algumas vezes é representado por s x, ou

simplesmente s, quando a variável aleatória é entendida. Duas propriedades do desvio-padrão resul-tam das propriedades VAR.1 e VAR.2.

PROPRIEDADE DP.1

Para qualquer constante c, dp(c) 0.

PROPRIEDADE DP.2

Para quaisquer constantes a e b,

dp(aX  b) |a |dp( X ).

Em particular, se a 0, então, dp(aX ) adp( X ).

Essa última propriedade faz com que seja mais natural trabalhar com o desvio-padrão do que coma variância. Por exemplo, suponha que X seja uma variável aleatória medida em milhares de dólares, diga-mos renda. Se definirmos Y  1.000 X , então, Y será a renda medida em dólares. Suponha que E( X ) 20e dp( X ) 6. Então, E(Y ) 1,000E( X ) 20.000 e dp(Y ) 1.000⋅dp( X ) 6.000, de forma que o valoresperado e o desvio-padrão crescem pelo mesmo fator, 1.000. Se tivéssemos trabalhado com a variância,teríamos Var(Y ) (1.000)2Var( X ), de forma que a variância de Y é um milhão de vezes maior que avariância de X .

Padronizando uma Variável Aleatória

Como uma aplicação das propriedades da variância e do desvio-padrão — e um tópico de interesse prá-

tico por si mesmo — suponha que, dada uma variável aleatória X , definamos uma nova variável alea-tória subtraindo sua média m e dividindo o resultado por seu desvio-padrão s:

(B.25)

que podemos escrever como Z  aX  b, em que a ≡ (1/ s) e b ≡(m / s). Então, de acordo com a pro-priedade E.2,

E( Z ) aE( X ) b (m / s) (m / s) 0.

Da propriedade Var.2,

Var( Z ) a2Var( X ) (s2 / s2) 1.

Portanto, a variável aleatória  Z tem uma média zero e uma variância (e portanto um desvio-padrão)igual a um. Esse procedimento algumas vezes é referido como padronização da variável aleatória X , e

Z , X m

s

Var(√ X )

Z , X m

s

Var(√ X )

36 Introdução à Econometria

Page 37: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 37/134

 Z é chamado uma variável aleatória padronizada. (Em cursos introdutórios de estatística, ele algu-mas vezes é chamado de transformação-z de  X ). É importante lembrar que o desvio-padrão, não avariância, aparece no denominador de (B.25). Como veremos, essa transformação é frequentementeutilizada na inferência estatística.

Como um exemplo especí fico, suponha que E( X ) 2 e Var( X ) 9. Então, Z  ( X  2)/3 terá umvalor esperado igual a zero e variância igual a um.

Assimetria e Curtose

Podemos usar a versão padronizada de uma variável aleatória para definir outras características dadistribuição de uma variável aleatória. Três características são descritas pelo uso do que é chamado demomentos de ordem superior . Por exemplo, o terceiro momento de uma variável aleatória Z na (B.25)é usado para determinar se uma distribuição é simétrica em relação à sua média. Podemos escrever

E ( Z 3) E [( X  m)3]/ s3.

Se X tiver uma distribuição simétrica em relação a m, então Z terá uma distribuição simétrica emrelação a zero. (A divisão por s3 não muda se a distribuição for simétrica). Isso significa que adensidade de Z em quaisquer dois pontos z e  z é a mesma, o que significa que, na computação deE ( Z 3), valores positivos de z3 quando z 0 serão exatamente neutralizados com o valor negativo ( z)3

 z3. Por conseguinte, se X for simétrica em relação a zero, então E ( Z ) 0. Geralmente, E [( X  m)3]/ s3

é vista como um indicador de assimetria na distribuição de X . Num cenário estatístico, podemos usardados para estimar E ( Z 3) com a finalidade de determinar se uma distribuição populacional subjacenteaparenta ser simétrica. (O Exercício em Computador 5.4, no Capítulo 5, fornece uma ilustração).

Também pode ser explicativo computar o quarto momento de Z,

E ( Z 4) E [( X  m)4]/ s4.

Como Z 4 0, E ( Z 4) 0 (e, em qualquer caso interessante, estritamente maior que zero). Semse ter um valor de referência é difícil interpretar valores de E ( Z 4), mas valores maiores significam queas caudas na distribuição de X são mais espessas. O quarto momento E ( Z 4) é chamado um indicadorde curtose na distribuição de X . Na Seção B.5 obteremos E ( Z 4) da distribuição normal.

B.4 CARACTERÍSTICAS DAS DISTRIBUIÇÕES CONJUNTAS ECONDICIONAIS

Medidas de Associação: Covariância e CorrelaçãoEmbora a fdp con jun ta de duas variá veis alea tórias descre va com ple ta men te a relação entre elas, éútil ter medi das resu mi das de como, em média, duas variá veis alea tó rias variam entre si. Como acon-te ce com o valor espe ra do e a variância, isso é seme lhante ao usar um único núme ro para resu miralgu ma coisa de uma dis tri buição inteira, que, nesse caso, é uma dis tribui ção con jun ta de duas variá-veis alea tó rias.

Apêndice B Fundamentos da Probabilidade 37

Page 38: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 38/134

38 Introdução à Econometria

Covariância

Seja m X  E( X ), e mY  E(Y ), e considere a variável aleatória ( X  m X )(Y  mY ). Agora, se X e Y esti-veram acima de suas respectivas médias, então, ( X  m X )(Y  mY ) 0. Isso também será verdadeiro

se X  m X e Y  mY . Por outro lado, se X  m X e Y  mY , ou vice-versa, então, ( X  m X )(Y  mY ) 0.Como, então, esse produto poderá nos dar qualquer informação sobre a relação entre X e Y ?A covariância entre duas variáveis aleatórias X e Y , algumas vezes chamada de covariância popu-

lacional para enfatizar que ela se refere à relação entre duas variáveis descrevendo uma população, édefinida como o valor esperado do produto ( X  m X )(Y  mY ):

Cov( X ,Y ) E[ X  m X )(Y  mY )], (B.26)

que algumas vezes é representado por s XY . Se s XY  0, então, em média, quando X estiver acima desua média, Y também estará acima de sua média. Se s XY  0, então, em média, quando X estiver acimade sua média, Y estará abaixo de sua média.

Algumas expressões úteis para calcular Cov( X ,Y ) são as seguintes:

Cov( X ,Y ) E[ X  m X )(Y  mY )] E[( X  m X )Y ]

E[ X (Y  mY )] E( XY ) m X mY .(B.27)

Decorre de (B.27) que, se E( X ) 0 ou E(Y ) 0, então, Cov( X ,Y ) E( X ,Y ).A covariância mede o grau de dependência linear entre duas variáveis aleatórias. Uma covariân-

cia positiva indica que duas variáveis aleatórias se movem na mesma direção, enquanto uma covariâncianega ti va indi ca que elas se movem em dire ções opos tas. Interpretar a magnitude de uma cova-riância pode ser um pouco difí cil, como veremos brevemente.

Como a covariância é uma medida de como duas variáveis aleatórias estão relacionadas, é natu-

ral perguntar como a covariância está relacionada à noção de independência. Isso é dado pela seguin-te propriedade.

PROPRIEDADE COV.1

Se X e Y forem independentes, então, Cov( X ,Y ) 0.

Essa propriedade decorre da equação (B.27) e do fato de que E( XY ) E( X )E(Y ) quando X e Y sãoindependentes. É importante lembrar que a inversa de COV.1 não é verdadeira: covariância zero entre

 X e Y não implica que X e Y sejam independentes. De fato, existem variáveis aleatórias X de tal formaque, se Y  X 2, Cov( X ,Y ) 0. [Qualquer variável aleatória com E( X ) 0 e E( X 3) 0 tem essa pro-priedade]. Se Y  X 2, então, X e Y serão claramente não independentes: conhecendo X conheceremosY . Parece bastante estranho que X e X 2 possam ter covariância zero, e isso revela um ponto fraco dacovariância como uma medida geral de associação entre duas variáveis aleatórias. A covariância é útil

em contextos em que as relações são pelo menos aproximadamente lineares.A segunda mais importante propriedade da covariância envolve covariâncias entre funções lineares.

PROPRIEDADE COV.2

Para quaisquer constantes a1, b1 , a2 e b2,

Cov(a1 X  b1,a2Y  b2) a1a2Cov( X ,Y ). (B.28)

Page 39: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 39/134

Uma implicação importante de COV.2 é que a covariância entre duas variáveis aleatórias pode ser alte-rada simplesmente pela multiplicação de uma ou de ambas as variáveis aleatórias por uma constante.Isso é importante em economia, pois variáveis monetárias, taxas de inflação etc. podem ser definidascom diferentes unidades de medida sem que seja alterado seu significado.

Finalmente, é útil saber que o valor absoluto da covariância entre quaisquer duas variáveis alea-tórias está limitado pelo produto de seus desvios-padrão; isso é conhecido como a desigualdade deCauchy-Schwartz.

PROPRIEDADE COV.3

|Cov( X ,Y )| dp( X )dp(Y ).

Coeficiente de Correlação

Suponha que queremos conhecer a relação entre o grau de educação e os rendimentos anuais da popu-lação que trabalha. Poderíamos chamar de X a educação e de Y os rendimentos, computando a seguirsua covariância. Entretanto, a resposta que obteremos dependerá de como escolheremos medir a edu-

cação e os rendimentos. A propriedade COV.2 implica que a covariância entre educação e rendimen-tos dependerá de se os rendimentos são medidos em dólares ou milhares de dólares, ou se a educaçãoé medida em meses ou anos. É bastante claro que a maneira como mediremos essas variáveis não teráinfluência no quanto elas estão fortemente relacionadas. Mas a covariância entre elas efetivamentedepende das unidades de medida.

O fato de a covariância depender das unidades de medida é uma deficiência que é compensadapelo coeficiente de correlação entre X e Y :

(B.29)

o coeficiente de correlação entre X e Y algumas vezes é representado por r  XY (e é algumas vezes cha-mado de correlação populacional).Como s X e sY são positivos, Cov( X ,Y ) e Corr( X ,Y ) sempre têm o mesmo sinal, e Corr( X ,Y ) 0

se, e somente se, Cov( X ,Y ) 0. Algumas das propriedades da covariância são transferidas para a cor-relação. Se X e Y forem independentes, então, Corr( X ,Y ) 0, mas correlação zero não implica inde-pendência. (Como a covariância, o coeficiente de correlação também é uma medida de dependência linear). Porém, a magnitude do coeficiente de correlação é mais fácil de interpretar do que o tamanhoda covariância, devido à seguinte propriedade.

PROPRIEDADE CORR.1

1 Corr( X ,Y ) 1.

Se Corr( X ,Y ) 0 ou, equivalentemente, Cov( X ,Y ) 0, não haverá relação linear entre X e Y , e X e Y são chamadas de variáveis não correlacionadas; caso contrário, X e Y serão cor relacionadas. Corr( X ,Y )1 indica uma relação linear positiva perfeita, o que significa que podemos escrever Y  a bX para algumaconstante a e alguma constante b 0. Corr( X ,Y )1 indica uma relação linear negativa perfeita, de formaque Y  a bX para alguma constante b 0. Os casos extremos de correlação positiva ou negativa igual àunidade raramente ocorre. Valores de RHO XY próximos de 1 ou1 indicam fortes relações lineares.

Como mencionado antes, a correlação entre X e Y não varia em relação às unidades de medida de X ou Y . Isso é especificado de forma mais geral como segue.

Corr(X,Y) ;Cov( X ,Y )

dp( X ) dp(Y )

s XY 

s X s

Corr(X,Y) ;Cov( X ,Y )

dp( X ) dp(Y )

s XY 

s X s

Apêndice B Fundamentos da Probabilidade 39

Page 40: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 40/134

PROPRIEDADE CORR.2

Para as constantes a1, b1, a2 e b2, com a1a2 0,

Corr(a1X b1,a2Y  b2) Corr( X ,Y ).

Se a1a2 0, então,

Corr(a1X b1,a2Y  b2) Corr( X ,Y ).

Como um exemplo, suponha que a correlação entre rendimentos e educação da população que traba-lha seja 0,15. Essa medida não depende de se os rendimentos estão medidos em dólares, milhares dedólares, ou qualquer outra unidade; ela também não depende de se a educação está medida em anos,trimestres, meses etc.

Variância da Soma de Variáveis Aleatórias

Agora que já definimos covariância e correlação, podemos completar nossa relação das principais pro-priedades da variância.

PROPRIEDADE VAR.3

Para as constante a e b,

Var(aX  bY ) a2Var( X ) b2Var(Y ) 2abCov( X ,Y ).

Segue imediatamente que, se X e Y forem não correlacionadas — de forma que Cov( X ,Y ) 0 —, então,

Var( X  Y ) Var( X ) Var(Y ) (B.30)

e

Var( X  Y ) Var( X ) Var(Y ). (B.31)

Neste último caso, observe como a variância da diferença é a soma, não a diferença, das variâncias.Como um exemplo de (B.30), seja X os lucros ganhos por um restaurante durante uma noite de

sexta-feira e Y os lucros ganhos na noite do sábado seguinte. Então, Z  X  Y será os lucros das duasnoites. Suponha que X e Y  tenham, cada uma, um valor esperado de 300 dólares e um desvio-padrãode 15 dólares (de forma que a variância será 255). O lucro esperado das duas noites será E( Z ) E(Y )

2⋅(300) 600 dólares. Se X e Y forem independentes e, portanto, não correlacionadas, a variânciado lucro total será a soma das variâncias: Var( Z )Var( X )Var(Y ) 2(225) 450. Portanto, o des-vio-padrão do lucro total será ou aproximadamente 21,21 dólares.

As expressões (B.30) e (B.31) estendem-se para mais de duas variáveis aleatórias. Para especifi-car essa extensão, precisamos de uma definição. As variáveis aleatórias X e Y serão variáveis aleató-

rias não correlacionadas duas a duas se cada variável no con junto for não correlacionada com cadaoutra variável do con junto. Isto é, Cov( X i, X  j) 0 para todo i ∞ j.

450√450√

40 Introdução à Econometria

Page 41: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 41/134

PROPRIEDADE VAR.4

Se { X 1, ..., X n) forem variáveis aleatórias não-correlacionadas duas a duas e {ai: i 1, ..., n} foremconstantes, então,

Var(a1 X 1 ... an X n) a12Var( X 1) ... an

2Var( X n).

Em notação de somatórios, podemos escrever

(B.32)

Um caso especial da propriedade VAR.4 ocorre quando consideramos ai 1 para todos os i.Então, para variáveis aleatórias não correlacionadas duas a duas, a variância da soma será a soma dasvariâncias:

(B.33)

Como variáveis aleatórias independentes são não correlacionadas (veja a propriedade COV.1), a variân-cia de uma soma de variáveis aleatórias independentes é a soma das variâncias.

Se as variáveis X i não forem não correlacionadas duas a duas, então, a expressão

será muito mais complicada; precisaremos adicionar no lado direito de (B.32) os termos 2aia jCov( xi, x j)para todo i  j.

Podemos usar (B.33) para derivarmos a variância de uma variável aleatória binomial. Definimos X  Binomial(n,u) e escrevemos X  Y 1, ... Y n, em que Y i são variáveis aleatórias independentesde Bernoulli(u). Então, de (B.33), Var( X ) Var(Y 1) ... Var(Y n) nu(1 u).

No exemplo das reservas da companhia aérea com n 120 e u 0,85, a variância do número depassageiros que comparecem para embarque seria 120(0,85)(0,15) 15,3, e, assim, o desvio-padrãoseria aproximadamente 3,9.

Expectativa Condicional

A covariância e a correlação medem a relação linear entre duas variáveis aleatórias e as tratam sime-tricamente. Muitas vezes, em ciências sociais, gostaríamos de explicar uma variável, chamada Y , emtermos de outra variável, digamos  X . Além disso, se Y  for relacionada com  X de uma maneira não linear, gostaríamos de ser informados sobre isso. Chamemos Y de variável explicada e  X de variávelexplicativa. Por exemplo, Y poderia ser o salário por hora e X poderia ser o número de anos de educa-ção formal.

Já introduzimos a noção de função de densidade de probabilidade condicional de Y , dado  X .

Assim, poderíamos querer ver como a distribuição dos salários é alterada pelo nível de educação.Porém, em geral, queremos ter uma maneira simples de resumir essa distribuição. Um único númeronão será suficiente, visto que a distribuição de Y , dado X  x, geralmente depende do valor de  x. Noentanto, podemos resumir a relação entre Y e X verificando a expectativa condicional de Y , dado X ,algumas vezes chamada média condicional. A idéia é a seguinte: suponha que saibamos que X assu-miu um valor particular, digamos x. Então, poderemos calcular o valor esperado de Y em decorrênciade conhecermos esse resultado de X . Representamos esse valor esperado por E(Y | X  x), ou algumasvezes E(Y | x) como forma abreviada. De forma geral, quando x muda, E(Y | x) também muda.

Var ai X i seráΣn

i 1

Var X i Var( X i).Σ

n

i 1Σ

n

i 1

Var ai X i ai

2Var( X i).Σ

n

i 1Σn

i 1

Var ai X i seráΣn

i 1

Var X i Var( X i).Σ

n

i 1Σ

n

i 1

Var ai X i ai

2Var( X i).Σ

n

i 1Σn

i 1

Apêndice B Fundamentos da Probabilidade 41

Page 42: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 42/134

Quando Y for uma variável aleatória discreta assumindo valores { y1, ..., yn}, então,

Quando Y for contí nua, E(Y | x) será definida pela inte gra ção de yf Y | X ( y | x) sobre todos os valo res pos-sí veis de y. Assim como no caso da expectativa incondicional, a expectativa con di cio nal é uma médiaponderada de possí veis valores de Y , mas agora os pesos refletem o fato de que X assumiu um valorespecí fico. Assim, E(Y | x) é apenas alguma função de x, que nos diz como o valor esperado de Y variacom x.

Como um exemplo, seja ( X ,Y ) a população de todas as pessoas que trabalham, na qual  X é anosde educação, e Y é o salário por hora. Então, E(Y | X  12) será o salário médio por hora de todas aspessoas da população com 12 anos de educação (em termos gerais, correspondente à educação de ensi-no médio). E(Y | X  16) será o salário médio por hora de todas as pessoas com 16 anos de educação.O gráfico de valores esperados com vários níveis de educação fornece informações importantes sobre

como os salários e a educação estão relacionados. Veja a Figura B.5, para uma ilustração.

Figura B.5

O valor esperado do salário por hora considerando vários níveis de edu cação.

Em princí pio, o valor esperado do salário por hora pode ser encontrado a cada nível de educação,e essas expectativas podem ser resumidas em uma tabela. Como a educação pode variar amplamente —e pode até mesmo ser medida em frações de um ano —, essa é uma maneira excessivamente trabalho-sa de se mostrar a relação entre o salário médio e o grau de educação. Em econometria, geralmente

E (SALÁRIO | EDUC )

4 8 12 16 20 EDUC 

E(Y | x)  y j f Y | X ( y j | x).Σm

 j 1

E(Y | x)  y j f Y | X ( y j | x).Σm

 j 1

E (SALÁRIO | EDUC )

4 8 12 16 20 EDUC 

42 Introdução à Econometria

Page 43: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 43/134

especificamos funções simples que capturam essa relação. Como um exemplo, suponha que o valoresperado de SALÁRIO, dado EDUC , seja a função linear

E(SALÁRIO |EDUC ) 1,05 0,45 EDUC .

Se essa relação for válida na população das pessoas que trabalham, o salário médio das pessoascom 8 anos de educação será 1,05 0,45(8) 4,65, ou 4,65 dólares. O salário médio das pessoas com16 anos de educação será 8,25 dólares. O coeficiente de EDUC  implica que cada ano de educaçãoaumenta o salário por hora esperado em 0,45, ou 45 centavos de dólar.

As expectativas condicionais também podem ser funções não lineares. Por exemplo, suponha queE(Y | x) 10/  x, onde X é uma variável aleatória que sempre será maior que zero. Essa função está tra-çada na Figura B.6. Isso poderia representar uma função de demanda, na qual Y seria a quantidadedemandada e  X seria o preço. Se Y e  X  forem relacionadas nesta forma, uma análise de associação linear, tal como uma análise de correlação, seria incompleta.

Figura B.6Gráfico de E(Y | x ) 10/ x .

Propriedades da Expectativa Condicional

Várias propriedades básicas das expectativas condicionais são úteis para derivações em análise econo-métrica.

PROPRIEDADE EC.1

E[c( X ) | X ] c( X ), para qualquer função c( X ).

Essa primeira propriedade significa que funções de X comportam-se como constantes quando cal-culamos a expectativa condicional de X . Por exemplo, E( X 2 | X ) X 2. Intuitivamente, isso simplesmen-te significa que, se conhecermos X , também conheceremos X 2.

E(Y|x) 10

E(Y|x) 10 x

2

1

1 5 10 x

E(Y|x) 10

E(Y|x) 10 x

2

1

1 5 10 x

Apêndice B Fundamentos da Probabilidade 43

Page 44: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 44/134

PROPRIEDADE EC.2

Para as funções a( X ) e b( X ),

E[a( X )Y  b( X )| X ] a( X )E(Y | X ) b( X ).

Por exemplo, podemos calcular com facilidade a expectativa condicional de uma função tal como XY  2 X 2: E( XY  2 X 2 | X ) X E(Y | X ) 2 X 2.

A próxima propriedade interliga as noções de independência e expectativas condicionais.

PROPRIEDADE EC.3

Se X e Y forem independentes, então, E(Y | X ) E(Y ).

Essa propriedade significa que, se X e Y forem independentes, então, o valor esperado de Y , dado X ,não dependerá de X , caso em que E(Y | X ) sempre será igual ao valor esperado (incondicional) de Y . Noexemplo do salário e educação, se salário fosse independente de educação, então, os salários médiosdas pessoas com educação de ensino médio e com cursos superiores seriam os mesmos. Como quase cer-tamente esse resultado seria falso, não podemos assumir que salário e educação sejam independentes.

Um caso especial da propriedade EC.3 é o seguinte: se U e X forem independentes e E(U ) 0,então, E(U | X ) 0.

Também existem propriedades da expectativa condicional que têm a ver com o fato de E(Y | X ) seruma função de X , digamos E(Y | X ) m( X ). Como X é uma variável aleatória, m( X ) também será umavariável aleatória. Além disso, m( X ) tem uma distribuição de probabilidade e, portanto, um valor espe-rado. De forma geral, o valor esperado de m( X ) pode ser muito difí cil de ser calculado de forma dire-ta. A lei das expectativas iteradas diz que o valor esperado de m( X ) é simplesmente igual ao valoresperado de Y . Escrevemos isso da seguinte maneira.

PROPRIEDADE EC.4

E[E(Y | X )] E(Y ).

Essa propriedade é de difí cil compreensão à primeira vista. Ela significa que, se primeiro obtiver-mos E(Y | X ) como uma função de X e considerarmos seu valor esperado (em relação à distribuição de X , é claro), então, acabaremos obtendo E(Y ). Isso não é tão óbvio, mas pode ser derivado utilizando adefinição dos valores esperados.

Um exemplo de como usar a propriedade EC.4, considere Y  SALÁRIO e X  EDUC , em queSALÁRIO está medido em horas e EDUC em anos. Suponha que o valor esperado de SALÁRIO, dadoEDUC , seja E(SALÁRIO |EDUC ) 4 0,60 EDUC . Além disso, E(EDUC ) 11,5. Então, a lei dasexpectativas iteradas sugere que E(SALÁRIO) E(4 0,60 EDUC ) 4 0,60 E(EDUC ) 4 0,60(11,5) 10,90, ou 10,90 dólares por hora.

A próxima propriedade especifica uma versão mais geral da lei das expectativas iteradas.

PROPRIEDADE EC.4

E(Y | X ) E[E(Y | X , Z )| X ].

Em outras palavras, podemos encontrar E(Y | X ) em duas etapas. Primeiro, encontramos E(Y | X , Z ) paraqualquer outra variável aleatória Z. Em seguida, encontramos o valor esperado de E(Y | X , Z ), condicio-nal em X .

PROPRIEDADE EC.5

Se E(Y | X ) E(Y ), então, Cov( X ,Y ) 0 [como também Corr( X ,Y ) 0]. De fato, qualquer função de X é não correlacionada com Y .

44 Introdução à Econometria

Page 45: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 45/134

Essa propriedade significa que, se o conhecimento de X não altera o valor esperado de Y , então, X e Y devem ser não correlacionadas, o que implica que, se X e Y forem correlacionadas, então, E(Y | X ) devedepender de X . A inversa da propriedade EC.5 não é verdadeira: se X e Y forem não correlacionadas,E(Y | X ) poderá ainda depender de X . Por exemplo, suponha que Y  X 2. Então, E(Y | X )  X 2, que cla-ramente é uma função de X . Porém, como mencionado em nossa discussão sobre covariância e corre-lação, é possí vel que X e X 2 sejam não correlacionadas. A expectativa condicional captura a relação não linear entre X e Y que uma análise de correlação deixaria passar despercebida.

As propriedades EC.4 e EC.5 têm duas implicações importantes: se U e X forem variáveis aleató-rias, de forma que E(U | X ) 0, então, E(U ) 0, e U e X serão não correlacionadas.

PROPRIEDADE EC.6

Se E(Y 2) e E[g( X )2] para alguma função g, então, E{[Y  m( X )]2 | X } E{[Y  g( X )]2 | X } eE{[Y  m( X )]2} E{[Y  g( X )]2}.

A propriedade EC.6 é muito útil em contextos de previsão ou de pro jeções. A primeira desigualdadediz que, se medirmos a inexatidão da previsão como o erro quadrático de previsão esperado, condicio-

nal em  X , então, a média condicional será melhor que qualquer outra função de  X para prever Y . Amédia condicional também minimiza o erro quadrático de previsão esperado incondicional.

Variância Condicional

Dadas as variáveis aleatórias X e Y , a variância de Y , condicional em X  x, será simplesmente a variân-cia associada à distribuição condicional de Y , dado X  x: E{[Y  E(Y | x)]2| x}. A fórmula

Var(Y | X  x) E(Y 2 | x) [E(Y | x)]2

é frequentemente útil para os cálculos. Somente ocasionalmente teremos que calcular uma variânciacondicional. Entretanto, teremos que fazer hipóteses a respeito e manipular as variâncias condicionaispara certos tópicos na análise de regressão.

Como um exemplo, definaY 

POUPANÇAe

 X 

 RENDA(ambas medidas em termos anuais,para a população de todas as famí lias). Suponha que Var(POUPANÇA | RENDA) 400 0,25

 RENDA. Isso diz que, conforme aumente a renda, a variância dos níveis de poupança também aumen-ta. É importante verificar que a relação entre as variâncias de POU PAN ÇA e RENDA é totalmente sepa-rada da relação entre os valores esperados de POU PAN ÇA e RENDA.

Estabelecemos, portanto, uma propriedade importante da variância condicional.

PROPRIEDADE VC.1

Se X e Y forem independentes, então, Var(Y | X ) Var(Y ).

Essa propriedade é bastante clara, pois a distribuição de Y , dado X , não depende de X , e Var(Y | X )é apenas uma característica dessa distribuição.

B.5 A DIS TRI BUI ÇÃO NOR MAL E OUTRAS DIS TRI BUI ÇÕES A ELA RELA-CIO NA DAS

A Distribuição Normal

A distribuição normal e as derivadas dela são as distribuições mais amplamente usadas em estatísticae econometria. Assumir que variáveis aleatórias definidas para populações são normalmente distribuí-

Apêndice B Fundamentos da Probabilidade 45

Page 46: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 46/134

das simplifica os cálculos de probabilidade. Além disso, nos valeremos pesadamente da distribuiçãonormal e de outras a ela relacionadas para conduzir inferência em estatística e econometria — mesmoquando a população básica não for necessariamente normal. Precisamos adiar os detalhes, mas tenha

certeza de que essas distribuições irão surgir muitas vezes ao longo deste livro.Uma variável aleatória normal é uma variável aleatória contí nua que pode assumir qualquer valor.Sua função de densidade de probabilidade tem a forma familiar de um sino traçada na Figura B.7.

Matematicamente, a fdp de X pode ser escrita como

(B.34)

em que m E( X ) e s2 Var( X ). Dizemos que X tem uma distribuição normal com valor esperado me variância s2, escrita como X  Normal(m,s 2). Como a distribuição normal é simétrica em relação am, m também é a mediana de  X . A distribuição normal é algumas vezes chamada de distribuição deGauss em homenagem ao famoso estatístico C. F. Gauss.

Algumas variáveis aleatórias parecem seguir em linhas gerais uma distribuição normal. As alturas

e pesos do ser humano, resultados de provas e índices de desemprego municipais possuem fdps comaproximadamente a forma na Figura B.7. Outras distribuições, como as da renda, não parecem seguira função de probabilidade normal. Na maioria dos paí ses, a renda não é simetricamente distribuí da emtorno de qualquer valor; a distribuição é inclinada em direção à extremidade superior. Em alguns casos,uma variável pode ser transformada para atingir a normalidade. Uma transformação popular é o lognatural, que faz sentido para variáveis aleatórias positivas. Se X for uma variável aleatória positiva, talcomo a renda, e Y  log( X ) tiver uma distribuição normal, então, dizemos que X tem uma distribuiçãolognor mal. É possí vel constatar que a distribuição lognormal se ajusta bastante bem à distribuição derenda de muitos paí ses. Outras variáveis, como preços de mercadorias, parecem ser bem descritas quan-do utilizada a distribuição lognormal.

Figura B.7

A forma geral de uma função de densidade de probabilidade normal.

 f  x para umavariável aleatória normal

x

 f √

( x) exp[ ( x )2 /2 2],  x ,1

s 2p

 f  x para umavariável aleatória normal

x

 f √

( x) exp[ ( x )2 /2 2],  x ,1

s 2p

46 Introdução à Econometria

Page 47: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 47/134

A Distribuição Normal-Padrão

Um caso especial da distribuição normal ocorre quando a média for zero e a variância (e, portanto, odesvio-padrão) for a unidade. Se uma variável aleatória Z tiver uma distribuição Normal(0,1), dizemosque ela tem um distribuição normal-padrão. A fdp de uma variável aleatória normal-padrão é repre-sentada por f(z); de (B.34), com m 0 e s2 1, ela é dada por

(B.35)

A função de distribuição cumulativa normal-padrão é representada por ( z) e é obtida como aárea sob f, à esquerda de z; veja a Figura B.8. Lembre-se de que ( z) P( Z  z); como Z é contí nua,( z) P( Z  z) também é contí nua.

Figura B.8

A função de distribuição cumulativa normal-padrão.

Não existe fórmula simples que possa ser usada para obter os valores de Φ( z) [pois Φ( z) é a inte-gral da função em (B.35), e essa integral não tem forma única]. No entanto, os valores de ( z) sãofacilmente tabulados; eles são dados para  z entre 3,1 e 3,1 na Tabela G.1 no Apêndice G. Para

 z 3,1, ( z) será menor que 0,001, e para z 3,1, ( z) será maior que 0,999. A maioria dos pro-gramas estatísticos e econométricos inclui comandos simples para computar valores da fdc normal-

-padrão, e assim podemos frequentemente evitar totalmente as tabelas impressas para obter as proba-bilidades para qualquer valor de z.

Usando fatos básicos da probabilidade — e, em particular, as propriedades (B.7) e (B.8) em rela-ção às fdcs —, podemos usar a fdc normal-padrão para calcular a probabilidade de qualquer eventoenvolvendo uma variável aleatória normal-padrão. As fórmulas mais importantes são

P( Z  z) 1 ( z), (B.36)

1

03 0 3 z

0,5

( z) exp( z2 /2),  z

√.

1

2p

1

03 0 3 z

0,5

( z) exp( z2 /2),  z

√.

1

2p

Apêndice B Fundamentos da Probabilidade 47

Page 48: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 48/134

P( Z   z) P( Z  z) (B.37)

e

P(a  Z  b) (b) (a). (B.38)

Como Z é uma variável aleatória contí nua, todas as três fórmulas são válidas, sejam ou não restritas asdesigualdades. Citamos alguns exemplos: P( Z  0,44) 1 0,67 0,33, P( Z  0,92) P( Z 0,92) 1 0,821 0,179, e P(1  Z  0,5) 0,692 0,159 0,533.

Outra expressão útil é que, para qualquer c 0,

P(| Z | c) P( Z  c) P( Z  c)

2P( Z  c) 2[1 (c)].(B.39)

Assim, a probabilidade de que o valor absoluto de Z seja maior que alguma constante c positiva serásimplesmente duas vezes a probabilidade P( Z  c); isso reflete a simetria da distribuição normal--padrão.

Na maioria das aplicações, iniciamos com uma variável aleatória normalmente distribuí da, X Normal(m,s 2), onde m é diferente de zero e s2 ∞ 1. Qualquer variável aleatória normal pode ser trans-formada em uma normal padrão usando a seguinte propriedade.

PROPRIEDADE NORMAL.1

Se X  Normal(m,s 2), então, ( X  m)/ s Normal(0,1).

A propriedade Normal.1 mostra como transformar qualquer variável aleatória normal em uma normal--padrão. Assim, suponha que X Normal(3,4), e que gostaríamos de calcular P( X  1). As etapas sem-pre envolvem a normalização de X para uma normal-padrão:

EXEMPLO B.6

(Probabilidades para uma Variável Aleatória Normal)

Primeiro, vamos calcular P(2  X  6) quando X  Normal(4,9) (usar ou é irrelevante, pois X é umavariável aleatória contínua). Agora

P(2  X  6) P P( 2/3  Z  2/3)

(0,67) ( 0,67) 0,749 0,251 0,498.

2 4

  : 4

6 4

3

P( X  1) P( X  3 1 3) P

P( Z  1) ( 1) 0,159.

 X  3

21

P(2  X  6) P P( 2/3  Z  2/3)

(0,67) ( 0,67) 0,749 0,251 0,498.

2 4

  : 4

6 4

3

P( X  1) P( X  3 1 3) P

P( Z  1) ( 1) 0,159.

 X  3

21

48 Introdução à Econometria

Page 49: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 49/134

EXEMPLO B.6 (continuação)

Agora, vamos calcular P(| X | 2):

P(| X | 2) P( X  2) P( X  2) P[( X  4)/3 (2 4)/3] P[( X  4)/3 (2 4)/3]

1 (2/3) (2)

1 0,251 0,023 0,772.

Propriedades Adicionais da Distribuição Normal

Terminamos esta subseção reunindo vários outros fatos sobre as distribuições normais que usaremosmais tarde.

PROPRIEDADE NORMAL.2

Se X  Normal(m,s 2), então, aX  b Normal(am b, a2m2).

Assim, se X  Normal(1,9), então, Y  2 X  3 será distribuí da como normal com média 2E( X ) 3 5 e variância 22

⋅9 36; dp(Y ) 2dp( X ) 23 6.Anteriormente, explicamos como, em geral, correlação zero e independência não são a mesma

coisa. No caso de variáveis aleatórias normalmente distribuí das, é possí vel constatar que a correlaçãozero é suficiente para a independência.

PROPRIEDADE NORMAL.3

Se X e Y forem con junta e normalmente distribuí das, então, elas serão independentes se, e somente se,Cov( X ,Y ) 0.

PROPRIEDADE NORMAL.4Qualquer combinação linear de variáveis aleatórias independentes e identicamente normalmente dis-tribuí das tem uma distribuição normal.

Por exemplo, sejam  X i, para i 1, 2 e 3, variáveis aleatórias independentes distribuí das comoNormal(m,s 2). Defina W  X 1 2 X 2 3 X 3. Então, W será normalmente distribuí da; precisamos sim-plesmente encontrar sua média e sua variância. Agora,

E(W ) E( X 1) 2E( X 2) 3E( X 3) m 2m 3m 0.

Além disso,

Var(W ) Var( X 1) 4Var( X 2) 9Var( X 3) 14s2.

A propriedade Normal.4 também conclui que a média das variáveis aleatórias independentes nor-malmente distribuí das tem uma distribuição normal. Se Y 1, Y 2, ...,Y n forem variáveis aleatórias inde-pendentes e cada uma for distribuí da como Normal(m,s 2), então,

Y  Normal(m,s2 / n). (B.40)

Esse resultado é crí tico para a inferência com respeito à média em uma população normal.

Apêndice B Fundamentos da Probabilidade 49

Page 50: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 50/134

Outras características da distribuição normal merecem ser conhecidas, embora elas não tenhamum papel importante neste livro. Como uma variável aleatória normal é simétrica em relação à suamédia, ela tem zero de assimetria, isto é, E [ X  m)3] 0. Além disso, pode ser demonstrado que

E [X m)4]/ s4 3,

ou E ( Z 4) 3, em que Z tem uma distribuição normal padrão. Como a distribuição normal é tão preva-lente em probabilidade e estatísticas, o indicador de curtose de qualquer determinada variável aleatória

 X (na qual exista o quarto momento) é frequentemente definido como sendo E [X m)4]/ s4 3, istoé, relativo ao valor da distribuição normal padrão. Se E [X m)4]/ s4 3, então a distribuição de X terácaudas mais gordas do que a distribuição normal (uma ocorrência algo comum, como por exem-plo, com a distribuição t que será apresentada brevemente); Se E [X m)4]/ s4 3, então a distribuiçãoterá caudas mais magras do que a normal (uma situação mais rara).

A Distribuição Qui-Quadrado

A distribuição qui-quadrado é obtida diretamente das variáveis aleatórias independentes normais

 padrões. Sejam Z i, i 1,2,...,n variáveis aleatórias independentes, cada uma distribuí da como normal--padrão. Defina uma nova variável aleatória como a soma dos quadrados de Z i:

(B.41)

Figura B.9

A distribuição qui-quadrado com vários graus de liberdade.

gl 2

gl 4

gl 8

 ( x)

 x

X  Z i2.Σ

n

i 1

gl 2

gl 4

gl 8

 ( x)

 x

X  Z i2.Σ

n

i 1

50 Introdução à Econometria

Page 51: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 51/134

Então, X terá o que é conhecido como distribuição qui-quadrado com n graus de liberdade (ou glabreviadamente). Escrevemos isso como X   x2

n. Os gl em uma distribuição qui-quadrado correspon-dem ao número de termos na soma em (B.41). O conceito de graus de liberdade desempenhará umpapel importante em nossas análises estatísticas e econométricas.

A fdp de uma distribuição qui-quadrado com diversos graus de liberdade é mostrada na FiguraB.9; não precisaremos da fórmula dessa fdp e, portanto, não a reproduzimos aqui. Pela equação (B.41),fica claro que uma variável aleatória qui-quadrada é sempre não negativa, e que, diferentemente da dis-tribuição normal, a distribuição qui-quadrado não é simétrica em torno de qualquer ponto. É possí velmostrar que, se X  x2

n, o valor esperado de X será n [o número de termos em (B.41)], e a variância de X será 2n.

A Distribuição t 

A distribuição t é o burro de carga na estatística clássica e nas análises de regressão múltipla. Obtemos umadistribuição t a partir de uma variável aleatória normal-padrão e de uma variável aleatória qui-quadrada.

Suponhamos que Z tenha uma distribuição normal-padrão e que X tenha uma distribuição qui-qua-

drado com n graus de liberdade. Adicionalmente, suponhamos que Z e X sejam independentes. Então,a variável aleatória

(B.42)

terá uma distribuição  t com n graus de liberdade. Vamos representar isso como T  t n. A distribuiçãot obtém seus graus de liberdade da variável aleatória qui-quadrada no denominador de (B.42).

Figura B.10

A distribuição t  com vários graus de liberdade.

gl 24

gl 1

3 0 3

gl 2

T Z 

√ X  / n

gl 24

gl 1

3 0 3

gl 2

T Z 

√ X  / n

Apêndice B Fundamentos da Probabilidade 51

Page 52: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 52/134

A fdp da distribuição t tem uma forma semelhante à da distribuição normal-padrão, exceto pelofato de que ela é mais espalhada e, portanto, tem mais área nos extremos. O valor esperado de umavariável aleatória com distribuição t é zero (no sentido exato, o valor esperado somente existirá paran 1), e a variância será n /(n 2) para n 2. (Não existe variância de n 2 devido à distribuiçãoser tão espalhada.) A fdp da distribuição t está traçada na Figura B.10 para vários graus de liberdade.Conforme os graus de liberdade vão ficando maiores, a distribuição t se aproxima da distribuição nor-mal-padrão.

A Distribuição  F 

Outra distribuição importante na estatística e na econometria é a distribuição F . Em particular, a dis-tribuição F será usada para testar hipóteses no contexto de análise de regressão múltipla.

Para definir uma variável aleatória F , sejam X 1  x2k 1

e X 2  x2k 2

e X 1 e X 2 sejam independentes.Então, a variável aleatória

(B.43)

terá uma distribuição  F com (k 1, k 2) graus de liberdade. Representamos isso como F  F k 1,k 2. A fdpda distribuição F com diferentes graus de liberdade é mostrada na Figura B.11.

Figura B.11

A distribuição  F k 1,k 2para vários graus de liberdade, k 1 e k 2.

gl 6,20

gl 6,08

gl 2,08

0

 ( x)

 x

F ( X 

1 / k 

1)

( X 2 / k 

2)

gl 6,20

gl 6,08

gl 2,08

0

 ( x)

 x

F ( X 

1 / k 

1)

( X 2 / k 

2)

52 Introdução à Econometria

Page 53: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 53/134

A ordem dos graus de liberdade em F k 1,k 2 é crí tica. O inteiro k 1 é chamado de numerador dosgraus de liber dade, por ele estar associado à variável qui-quadrada no numerador. Da mesma forma, ointeiro k 2 é chamado de denominador dos graus de liber dade, por ele estar associado à variável qui-quadrada no denominador. Isso pode ser um pouco complicado, pois (B.43) também pode ser escritacomo ( X 1k 2)/( X 2k 1), de forma que k 1 aparece no denominador. Apenas lembre-se de que o numeradorgl é o inteiro associado à variável qui-quadrada no numerador de (B.43); de forma semelhante, umaassociação é válida para o denominador gl.

RESUMO

Neste apêndice, revisamos os conceitos de probabilidade que são necessários em econometria. A maio-ria desses conceitos deve ser familiar a você de seus cursos introdutórios de probabilidade e estatística.Alguns dos tópicos mais avançados, como as características das expectativas condicionais, não preci-sam ser dominados agora — haverá tempo para tal quando esses conceitos surgirem, no contexto da aná-lise de regressão na Parte 1.

Em um curso introdutório de estatística, o foco está no cálculo de médias, variâncias, covariân-cias, e assim por diante, para distribuições particulares. Na Parte 1, não precisaremos de tais cálculos:na maioria das vezes, recorremos às propriedades das expectativas, das variâncias etc., que explicamosneste apêndice.

PROBLEMAS

B.1 Suponha que um aluno do ensino médio está se preparando para prestar o exame vestibular.Explique por que a nota do vestibular dele é adequadamente vista como uma variável aleatória.

B.2 Defina X como uma variável aleatória distribuí da como Normal(5,4). Encontre as probabilida-

des dos seguintes eventos(i) P( X  6)

(ii) P(X 4)

(iii) P(| X  5| 1)

B.3 Muito se fala sobre o fato de que certos fundos mútuos têm desempenho superior ao do merca-do ano após ano (isto é, o retorno por manter quotas nos fundos mútuos é maior que o retorno depossuir um portfólio como o da S&P 500). Em termos concretos, considere um período de dez anose que a população de fundos mútuos seja os 4.170 reportados no The Wall Street Journal de 1o de janeiro de 1995. Ao dizermos que o desempenho relativo ao mercado é aleatório, queremos dizer quecada fundo tem uma possibilidade 50-50 de ter desempenho superior ao do mercado em qualquerano e que o desempenho é independente de ano para ano.

(i) Se o desempenho relativo ao mercado for realmente aleatório, qual será a probabilidadede que qualquer fundo particular tenha um desempenho superior ao do mercado em todosos dez anos?

(ii) Encontre a probabilidade de que pelo menos um fundo dos 4.170 tenha um desempenhosuperior ao do mercado em todos os dez anos. Qual sua conclusão sobre sua resposta?

(iii) Se você possuir um programa estatístico que calcule probabilidades binomiais, encontre aprobabilidade de que pelo menos cinco fundos tenham desempenho superior ao do mer-cado em todos os dez anos.

Apêndice B Fundamentos da Probabilidade 53

Page 54: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 54/134

B.4 Para um municí pio selecionado aleatoriamente nos Estados Unidos, seja X a proporção de adul-tos com mais de 65 anos que este jam empregados, ou a taxa de emprego das pessoas mais velhas.Então, X estará restrita a um valor entre zero e um. Suponha que a função de distribuição cumulati-va de X seja dada por F( x) 3 x2 2 x3 para 0  x 1. Encontre a probabilidade de que a taxa deemprego das pessoas mais velhas seja de pelo menos 0,6 (60%).

B.5 Um pouco antes da sele ção dos jura dos para o jul gamen to por assas si na to de O. J. Simpsonem 1995, uma pesquisa de opinião constatou que 20% da população adulta acreditava que Simpson erainocente (após a maioria das provas físicas do caso ter se tornada pública). Ignore o fato de que esses20% sejam uma estimativa baseada em uma subamostra da população; a título ilustrativo, considereesse número como a porcentagem verdadeira das pessoas que achavam que Simpson era inocente,antes da seleção dos jurados. Assuma que os 12 jurados tenham sido selecionados aleatória e inde-pendentemente da população (embora isso não tenha sido verdade).

(i) Encontre a probabilidade de que no júri havia pelo menos um membro que acreditava nainocência de Simpson antes da seleção dos jurados. [Sugestão: Defina a variável aleatória

 X  Binomial(12;0,20) como o número de jurados que acreditavam na inocência de

Simpson.](ii) Encontre a probabilidade de que no júri havia pelo menos dois membros que acreditavam

na inocência de Simpson. [Sugestão: P( X  2) 1 P( X  1), e P( X  1) P( X  0) P( X  1).]

B.6 (Exige cálculo integral.) Seja X a sentença prisional, em anos, das pessoas condenadas por roubode veí culos em determinado estado dos Estados Unidos. Suponha que a fdp de  X seja dada por

 f ( x) (1/9) x2, 0  x 3.

Use integração para encontrar a sentença prisional esperada.B.7 Se um jogador de basquetebol converte 74% dos lances livres que faz, então, em média, quan-tos ele converterá em um jogo com oito lances livres?

B.8 Suponha que um aluno de uma universidade este ja fazendo três cursos, em determinado semes-tre: um curso de dois créditos, um curso de três créditos e um curso de quatro créditos. A nota espe-rada no curso de dois créditos é 3,5, enquanto a nota esperada nos cursos de três e quatro créditos é3,0. Qual será a nota média global esperada no semestre? (Lembre-se de que cada curso é pondera-do pela sua participação no número total de unidades de créditos.)

B.9 Seja X o salário anual dos professores universitários nos Estados Unidos, medido em milharesde dólares. Suponha que a média salarial seja 52,3 com um desvio-padrão de 14,6. Encontre a médiae o desvio-padrão quando o salário é medido em dólares.

B.10 Suponha que, em uma grande universidade, a nota média de graduação, GPA, e a nota do examevestibular, SAT , este jam relacionadas pela expectativa condicional E(GPA|SAT ) 0,70 0,002 SAT .

(i) Encontre a GPA esperada quando SAT  800. Encontre E(GPA|SAT  1.400). Comentesobre a diferença.

(ii) Se a SAT média da universidade for 1.100, qual será a GPA média? (Sugestão: use a pro-priedade EC.4.)

(iii) Se a nota do exame do vestibular (SAT) de um aluno é 1.100, isso significa que ele ou elaterá a nota obtida na parte ii? Explique.

54 Introdução à Econometria

Page 55: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 55/134

C.1 POPULAÇÕES, PARÂMETROS E AMOSTRAGEM ALEATÓRIA

A

inferência estatística envolve o conhecimento de dados sobre uma população, dada a disponibi-lidade de uma amostra dessa população. Por população, entendemos qualquer grupo de tópicos

bem defi ni do, que pode ria ser de indi ví duos, empre sas, cida des, ou mui tas outras pos sibi li da-des. Por “conhecimento” podemos entender várias coisas, que de um modo geral dividimos nas cate-gorias de estimação e testes de hipóteses.

Alguns exemplos podem ajudar a compreender esses termos. Na população de todos os adultostrabalhadores nos Estados Unidos, os economistas especializados na área de trabalho estão interessa-dos em estudar o retorno da educação, indicado pelo aumento percentual médio nos rendimentos, dadomais um ano de educação. Seria impraticável e caro obter informações sobre os rendimentos e grausde educação da totalidade da população trabalhadora nos Estados Unidos, mas podemos obter dadosde um subcon junto da população. Usando os dados coletados, um economista poderá informar que sua melhor estimativa do retorno de mais um ano de educação é de 7,5%. Esse é um exemplo da estimati-va por ponto. Ou, poderá descrever uma faixa, tal como “o retorno da educação está entre 5,6% e9,4%”. Esse é um exemplo de uma estimativa por inter valo.

Um economista especializado em urbanismo pode querer saber se assistir a programas de televi-

são sobre prevenção de crimes em determinada região está associado a índices de criminalidade maisbaixos na vizinhança dessa região. Após comparar os índices de criminalidade da redondeza com e semtais programas em uma amostra da população, ele poderá chegar a uma de duas conclusões: os progra-mas de TV sobre prevenção de crimes realmente afetam a criminalidade, ou não. Esse exemplo situa-sena rubrica dos testes de hipóteses.

O primeiro passo na inferência estatística é identificar a população de interesse. Isso pode pare-cer óbvio, mas é importante ser bastante especí fico. Logo que tenhamos identificado a população,poderemos especificar um modelo para a relação populacional de interesse. Tais modelos envolvemdistribuições de probabilidade ou características de distribuições de probabilidade, e elas dependem deparâmetros desconhecidos. Parâmetros são simplesmente constantes que determinam as direções e inten-si dades da rela ção entre variá veis. No exemplo ante rior da eco no mia do tra ba lho, o parâ me tro deinteresse é o retorno da educação na população.

Amostragem

Para revisar a inferência estatística, concentramo-nos no cenário mais simples possí vel. Seja Y umavariável aleatória representando uma população com uma função de densidade de probabilidade f ( y;u),que depende do único parâmetro u. A função de densidade de probabilidade (fdp) de Y é assumida

C

55

Fundamentos de Estatística

Matemática

Page 56: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 56/134

como conhecida, exceto quanto ao valor de u; valores diferentes de u implicam diferentes distribuiçõespopulacionais, e, portanto, estamos interessados no valor de u. Se pudermos obter certos tipos de amos-tras da população, então, poderemos descobrir alguma coisa sobre u. O esquema de amostragem maisfácil de trabalhar é a amostragem aleatória.

AMOSTRAGEM ALEATÓRIASe Y 1,Y 2, ...,Y n forem variáveis aleatórias independentes com uma função de densidade de probabilida-de f ( y;u) comum, então, {Y 1, Y 2, ..., Y n} é definida como uma amostra aleatória a partir de f ( y;u) [ouuma amostra aleatória a partir da população representada por f ( y;u)].

Quando {Y 1, ..., Y n} é uma amostra aleatória a partir da função de densidade f ( y;u), também dizemosque as Y i são amostras independentes e identicamente distribuí das (ou i.i.d.) a partir de  f ( y;u). Em alguns casos, não precisaremos especificar em sua totalidade qual é a distribuição comum.

A natureza aleatória de Y 1, Y 2, ..., Y n na definição de amostragem aleatória reflete o fato que sãopossí veis muitos resultados diferentes antes da amostragem ter sido efetivamente realizada. Por exem-plo, se a renda familiar for obtida de uma amostra de n 100 famí lias nos Estados Unidos, as rendas

que observaremos em geral diferirão para cada amostra diferente de 100 famí lias. Uma vez obtida umaamostra, teremos um con junto de números, digamos, { y1, y2, ..., yn}, que constituirá os dados com osquais trabalharemos. Se é ou não apropriado assumir que a amostra é proveniente de um esquema alea-tório de amostragem, exige conhecimento sobre o efetivo processo de amostragem.

Amostras aleatórias a partir de uma distribuição de Bernoulli são frequentemente usadas para ilus-trar conceitos estatísticos, e elas também surgem em aplicações empí ricas. Se Y 1, Y 2, ..., Y n forem variá-veis aleatórias independentes e cada uma for distribuí da como Bernoulli(u), de forma que P(Y i 1)

0 e P(Y i 0) 1 – u, então, {Y 1, Y 2, ..., Y n} constituirá uma amostra aleatória a partir da distribuiçãode Bernoulli(u). Como ilustração, considere o exemplo das reservas da empresa aérea desenvolvido noApêndice B. Cada Y i mostra se o passageiro i comparece para embarque; Y i 1 se o passageiro com-parece e Y i 0, caso contrário. Dessa forma, u é a probabilidade de uma pessoa, escolhida aleatoria-mente na população de todas as pessoas que fizeram reserva, comparecer para o embarque.

Em muitas outras aplicações, as amostras aleatórias podem ser assumidas como retiradas de umadistribuição normal. Se {Y 1, ..., Y n} for uma amostra aleatória a partir de uma população Normal(m,s2),então, a população será caracterizada por dois parâmetros, a média m e a variância s

2. O interesse prin-cipal geralmente reside em m, mas s

2 é de interesse por si mesma, pois fazer inferências sobre m fre-quentemente exige conhecimento de s

2.

C.2 PROPRIEDADES DOS ESTIMADORES EM AMOSTRAS FINITAS

Nesta seção, estudaremos as chamadas propriedades dos estimadores em amostras finitas. O termo “amos-tra finita” advém do fato de que as propriedades são válidas para uma amostra de qualquer tamanho, nãoimportando o quanto ela é grande ou pequena. Algumas vezes, elas são chamadas de propriedades deamostras pequenas. Na Seção C.3, trataremos das “propriedades assimptóticas”, que estão relacionadas ao

comportamento dos estimadores conforme o tamanho da amostra cresce sem limites.

ESTIMADORES E ESTIMATIVASPara estudar as propriedades dos estimadores, devemos definir o que entendemos por estimador. Dadauma amostra aleatória {Y 1, Y 2, ..., Y n} retirada de uma distribuição populacional que dependa de umparâmetro desconhecido u, um estimador de u é uma regra que atribui a cada resultado possí vel daamostra um valor de u. A regra é especificada antes de extrair qualquer amostra; em particular, a regraserá a mesma independentemente dos dados efetivamente obtidos.

56 Introdução à Econometria

Page 57: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 57/134

Como um exemplo de um estimador, seja {Y 1, ..., Y n} uma amostra aleatória de uma populaçãocom média m. Um estimador natural de m é a média da amostra aleatória:

(C.1)

Y é chamado de média amostral, mas, diferentemente do discutido no Apêndice A, no qual definimosa média amostral de um con junto de números como uma estatística descritiva, Y agora é visto comoum estimador. Dado qualquer resultado das variáveis aleatórias Y 1, ..., Y n, usamos a mesma regra paraestimar m: simplesmente calculamos suas médias. Para resultados de dados efetivos { y1, ..., yn}, a esti-mativa será simplesmente a média da amostra:

Y  ( y1  y2 ...  yn)/ n.

EXEMPLO C.1

(Taxas de Desemprego nas Cidades)

Suponha que obtemos a seguinte amostra de taxas de desemprego de dez cidades nos Estados Unidos:

Nossa estimativa da taxa média de desemprego nas cidades dos Estados Unidos será  y 6,0. Cada amos-tra geralmente resulta em uma estimativa diferente. Porém, a regra para obter a estimativa é a mesma, inde-pendente de quais ou quantas cidades aparecem na amostra.

De forma mais geral, um estimador W de um parâmetro u pode ser expresso como uma fórmulamatemática resumida:

W  h(Y 1,Y 2, ..., Y n), (C.2)

Y Y i.n 1

∑n

i 1

Y Y i.n 1

∑n

i 1

Apêndice C Fundamentos de Estatística Matemática 57

Cidade Taxa de Desemprego

1 5,1

2 6,4

3 9,2

4 4,1

5 7,5

6 8,3

7 2,6

8 3,5

9 5,8

10 7,5

Page 58: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 58/134

para alguma função h conhecida das variáveis aleatórias Y 1, Y 2, ..., Y n. Como no caso especial da médiaamostral, W é uma variável aleatória, porque ela depende da amostra aleatória: se obtivermos diferen-tes amostras aleatórias da população, o valor de W pode mudar. Quando um con junto particular denúmeros, digamos { y1, y2, ..., yn}, é agregado na função h, obtemos uma estimativa de u, representadapor w h( y1, y2, ..., yn). Algumas vezes W é chamado de estimador por ponto e w de estimativa porponto, para distingui-los dos estimadores por intervalo e das estimativas por intervalo, aos quais retor-naremos na seção C.5.

Para avaliar os procedimentos de estimação, estudamos várias propriedades da distribuição deprobabilidade da variável aleatória W . A distribuição de um estimador é muitas vezes chamada de suadistribuição amostral, pois essa distribuição descreve a probabilidade de vários resultados de W entrediferentes amostras aleatórias. Como há um número ilimitado de regras para combinar dados para esti-mar parâmetros, precisamos de algum critério lógico para fazer a escolha entre os estimadores, ou pelomenos para eliminar a consideração de alguns estimadores. Portanto, devemos abandonar o âmbito daestatística descritiva, na qual calculamos coisas como média amostral para simplesmente resumir umacervo de dados. Na estatística matemática, estudamos as distribuições amostrais dos estimadores.

Inexistência de ViésEm prin cí pio, a tota li da de da dis tri bui ção amos tral de W pode ser obti da, dada a dis tri bui ção de pro-ba bi li da de de Y i e a fun ção h. Em geral, é mais fácil enfa ti zar algu mas pou cas carac te rís ti cas da dis-tri bui ção de W ao o ava liar mos como um esti ma dor de u. A pri mei ra pro prie da de impor tan te de umesti ma dor envol ve seu valor espe ra do.

ESTIMADOR NÃO VIESADOUm estimador W de u será não viesado se

 E (W ) u, (C.3)

para todos os possí veis valores de u.

Se um estimador for não viesado, então, sua distribuição de probabilidade terá um valor esperado igualao parâmetro que ele supostamente estará estimando. A inexistência de viés não significa que a esti-mativa que obteremos com qualquer amostra particular será igual a u, ou mesmo muito próxima de u.Particularmente, se pudéssemos extrair indefinidamente amostras aleatórias de Y da população, calcu-lar uma estimativa a cada vez, e depois calcularmos a média dessas estimativas de todas as amostrasaleatórias, obteríamos u. Esse experimento ideal é abstrato porque, na maior parte das aplicações,temos apenas uma amostra aleatória com que trabalhar.

Para um estimador viesado, definimos seu viés conforme segue.

VIÉS DE UM ESTIMADORSe W for um estimador de u, seu viés é definido como

Viés(W ) E(W ) u. (C.4)

58 Introdução à Econometria

Page 59: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 59/134

A Figura C.1 mostra dois estimadores; o primeiro não tem viés, e o segundo tem um viés positivo.

Figura C.1

Um estimador sem viés, W 1, e um estimador com viés positi vo, W 2.

A inexistência de viés em um estimador e o tamanho de qualquer possí vel viés dependem da dis-tribuição de Y e da função h. A distribuição de Y geralmente está fora de nosso controle (embora fre-quentemente escolhamos um modelo para essa distribuição): ela pode ser determinada pela natureza oupor forças sociais. Entretanto, a escolha da regra h é nossa, e se quisermos um estimador não viesado,então, precisaremos escolher h de maneira apropriada.

É possí vel mostrar que alguns estimadores podem ser não viesados de forma bastante genérica.Mostraremos agora que a média amostral

Y é um estimador não viesado da média populacional m,

independente da distribuição populacional sub jacente. Usamos as propriedades dos valores esperados(E.1 e E.2) das quais tratamos na seção B.3:

Para os testes de hipóteses, precisaremos estimar a variância s2 de uma população com média m.

Definindo {Y 1, ..., Y n} como a amostra aleatória da população com E(Y ) m e Var(Y ) s2, definimos

o estimador como

E(Y ) E (1/  n)E (1/ n)

(1/ n) (1/  n)(n ) .Σn

i 1

m

Σn

i 1

E(Y i)Σ

n

i 1

Y i (1/ n)Σ

n

i 1

Y i

 f (w)

fdp de W 1 fdp de W 2

E(W 1) E(W 2) W 

E(Y ) E (1/  n)E (1/ n)

(1/ n) (1/  n)(n ) .Σn

i 1

m

Σn

i 1

E(Y i)Σ

n

i 1

Y i (1/ n)Σ

n

i 1

Y i

 f (w)

fdp de W 1 fdp de W 2

E(W 1) E(W 2) W 

Apêndice C Fundamentos de Estatística Matemática 59

Page 60: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 60/134

(C.5)

que normalmente é chamado de variância amostral. É possí vel mostrar que S2 é um estimador não-viesado de s

2: E(S2) s2. A divisão por n 1, em lugar de n, leva em conta o fato de que a média m

é estimada, em vez de conhecida. Se m fosse conhecida, um estimador não viesado de s2

(Y i m)2, mas na prática m é raramente conhecida.Embora a inexistência de viés tenha um certo apelo como uma propriedade de um estimador —

de fato, seu antônimo, “viesado”, tem decididamente conotações negativas —, ela não está livre de pro-blemas. Um ponto fraco da inexistência de viés é que alguns estimadores razoáveis, e até mesmo muitobons, são viesados. Brevemente veremos um exemplo.

Um outro ponto fraco importante da inexistência de viés é que existem estimadores não viesadosque de fato são estimadores bastante pobres. Considere estimar a média m de uma população. Em lugarde usar a média amostral

Y para estimar m, suponha que, após coletar uma amos tra de tama nho n, des-

cartemos todas as observa ções, exceto a pri mei ra. Ou seja, nosso estimador de m será sim plesmenteW  Y 1. Esse estimador será não viesado, pois E(Y ) m. Esperançosamente, você perceberá que igno-rar todas as observações, exceto a primeira, não é um método prudente de estimação: ele joga fora amaioria das informações da amostra. Por exemplo, com n 100, obteremos 100 resultados da variá-vel aleatória Y , mas usaremos somente a primeira delas para estimar E(Y ).

A Variância Amostral dos Estimadores

O exemplo no final da subseção anterior mostra que precisamos de critérios adicionais para avaliar osestimadores. A inexistência de viés somente garante que a distribuição amostral de um estimador temum valor médio igual ao parâmetro que ela supostamente está estimando. Isso é bom, mas também pre-cisamos saber o quanto está espalhada a distribuição de um estimador. Um estimador pode ser igual au, em média, mas também pode estar muito longe com probabilidade grande. Na Figura C.2, W 1 e W 2

são ambos estimadores não viesados de u. Contudo, a distribuição de W 1 está mais firmemente centra-lizada em torno de u: a probabilidade de W 1 ser maior que qualquer determinada distância de u é menorque a pro babi li da de de W 2 ser maior que a mesma dis tân cia de u. O uso da W 1 como nosso esti ma-dor sig ni fi ca que é menos pro vá vel que venha mos a obter uma amostra alea tória que pro du za umaestima ti va muito afas tada de u.

Para resumir a situação mostrada na Figura C.2, apoiamo-nos na variância (ou desvio-padrão) deum estimador. Recorde-se que isso produz uma medida única da dispersão na distribuição. A variânciade um estimador é frequentemente chamada de variância amostral, pois ela é a variância associada auma distribuição amostral. Lembre-se, a variância amostral não é uma variável aleatória; ela é umaconstante, mas pode ser desconhecida.

Agora obteremos a variância da média amostral para estimar a média m de uma população:

(C.6)

Var(Y ) Var (1/ n2)Var (1/ n

2)

(1/ n2) (1/ n

2)(n

2)

2 / n.Σ

n

i 1

s2

Σn

i 1

Var(Y i)Σ

n

i 1

Y i(1/ n) Σ

n

i 1

Y i

seria n1

Σn

i 1

,S2 1

n 1 Σn

i 1

(Y i

Y )2

seria n1

Σn

i 1

Var(Y ) Var (1/ n2)Var (1/ n

2)

(1/ n2) (1/ n

2)(n

2)

2 / n.Σ

n

i 1

s2

Σn

i 1

Var(Y i)Σ

n

i 1

Y i(1/ n) Σ

n

i 1

Y i

,S2 1

n 1 Σn

i 1

(Y i

Y )2

60 Introdução à Econometria

Page 61: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 61/134

Figura C.2

Distribuições amostrais de dois estimadores não viesados de u.

Observe como usamos as propriedades da variância das Seções B.3 e B.4 (VAR.2 e VAR.4), assimcomo a independência dos Y i. Para resumir: se {Y i: i 1, 2, ..., n) for uma amostra aleatória de uma

população com média m e variância s

2

, então,

Y terá a mesma média da população, mas sua variânciaamostral será igual à variância populacional, s2, dividida pelo tamanho da amostra.Uma implicação importante de Var(Y ) s2 / n é que ela pode ficar muito próxima de zero aumen-

tando do tamanho da amostra n. Essa é uma característica-chave de um estimador razoável, e voltaremosa ele na Seção C.3.

Como sugerido pela Figura C.2, entre os estimadores não viesados, preferimos o estimador coma menor variância. Isso nos possibilita desconsiderar certos estimadores. Para uma amostra aleatóriacom média m e variância s

2, sabemos que Y será não viesado, e Var(Y ) s

2 / n. E quanto ao estima-dor Y 1, que é simplesmente a primeira observação extraí da? Como Y 1 é uma extração aleatória da popu-lação, Var(Y 1) s

2. Assim, a diferença entre Var(Y 1) e Var(Y ) poderá ser grande mesmo para amostrasde tamanhos pequenos. Se n 10, então, Var(Y 1) será dez vezes maior que Var(Y ) s

2 /10. Isso nosoferece uma maneira formal para excluir Y 1 como um estimador de m.

Para enfatizar esse ponto, a Tabela C.1 contém o resultado de um pequeno estudo simulado.Usando o programa estatístico Stata, 20 amostras aleatórias de tamanho 10 foram geradas a partir deuma distribuição normal, com m 2 e s2

1; nesse caso, estamos interessados em estimar m. Paracada uma das 20 amostras aleatórias, compu ta mos duas estimativas, y1 e y; esses valo res estão descri-tos na Tabela C.1. Como pode ser visto na tabela, os valo res de y1 são muito mais dis per sos que osde  y: y1 varia de 0,64 a 4,27, enquanto y varia somen te de 1,16 a 2,58. Além disso, em 16 dos 20casos,  y está mais próximo de m 2 que  y1. A média de  y1 na simula ção está em torno de 1,89,enquan to a de y é de 1,96. O fato de que essas médias estão próximas de 2 ilustra a inexistência de viés

 f (w)

fdp de W 1

fdp de W 2

w

 f (w)

fdp de W 1

fdp de W 2

w

Apêndice C Fundamentos de Estatística Matemática 61

Page 62: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 62/134

de ambos os estimadores (e poderíamos obter essas médias mais próximas de 2 se utilizássemos maisde 20 amostras). Mas a comparação apenas dos resultados médios entre as extrações aleatórias masca-ra o fato de que a média amostral

Y é muito superior a Y 1 como um estimador de m.

Tabela C.1

Simulação de Estimadores para uma Distribuição Normal(m,1) com m 2

EficiênciaA comparação das variâncias de

Y e Y 1 na subseção anterior é um exemplo de um método genéricopara comparar diferentes estimadores não viesados.

62 Introdução à Econometria

Amostra y1– y

1 0,64 1,98

2 1,06 1,43

3 4,27 1,65

4 1,03 1,88

5 3,16 2,346 2,77 2,58

7 1,68 1,58

8 2,98 2,23

9 2,25 1,96

10 2,04 2,11

11 0,95 2,15

12 1,36 1,93

13 2,62 2,02

14 2,97 2,10

15 1,93 2,18

16 1,14 2,10

17 2,08 1,94

18 1,52 2,21

19 1,33 1,16

20 1,21 1,75

Page 63: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 63/134

EFICIÊNCIA RELATIVASe W 1 e W 2 forem dois estimadores não viesados de u, W 1 será eficiente com relação a W 2 quandoVar(W 1) Var(W 2) para qualquer u, com desigualdade estrita para pelo menos um valor de u.

Anteriormente, mostramos que, para estimar a média populacional m, Var(Y ) Var(Y 1) para qual-quer valor de s

2 sempre que n 1. Assim, Y é eficiente em relação a Y 1 para estimar m. Não podemos

sempre escolher entre os estimadores não viesados com base no critério de menor variância: dados doisestimadores não viesados de u, um poderá ter menor variância para alguns valores de u, enquanto ooutro poderá ter menor variância para outros valores de u.

Se restringirmos nossa atenção para certa classe de estimadores, poderemos mostrar que a médiaamostral tem a menor variância. O Problema C.2 pede que você mostre que

Y tem a menor variânciaentre todos os estimadores não viesados que também sejam funções lineares de Y 1, Y 2, ..., Y n. As hipó-teses são que os Y i têm média e variância comuns, e que eles são não correlacionadas dois a dois.

Se não restringirmos nossa atenção aos estimadores não viesados, então, não terá sentido compararas variâncias. Por exemplo, quando estimamos a média populacional m, podemos usar um estimador tri-vial que seja igual a zero, independente da amostra extraí da. Naturalmente, a variância desse estimador

será zero (já que será o mesmo valor para qualquer amostra aleatória). Porém, o viés desse estimador será–m, e assim ele será um estimador muito pobre quando |m| for grande.Uma manei ra de compa rar esti ma do res que não sejam neces sa ria mente não vie sa dos é cal cu lar

o erro quadrá ti co médio (EQM) dos esti ma do res. Se W for um esti ma dor de u, então, o EQM deW será defi nido como EQM(W ) E[(W – u)2]. O EQM mede o quan to o esti ma dor está dis tante, emmédia, de u. É possí vel mos trar que EQM(W ) Var(W ) [Viés(W )]2, de forma que EQM(W )depen de da variância e do viés (se algum esti ver pre sen te). Isso nos pos si bi li ta compa rar dois esti-ma do res quan do houver viés em um ou ambos.

C.3 PROPRIEDADES ASSIMPTÓTICAS DOS ESTIMADORES OU PROPRIE-DADES DOS ESTIMADORES EM AMOSTRAS GRANDES

Na Seção C.2, encontramos o estimador Y 1 da média populacional m, e vimos que, embora ele fosse não-viesado, era um estimador pobre, pois sua variância poderia ser muito maior que a da média amostral. Umacarac te rís tica notá vel de Y 1 é que ele tem a mesma variância para qual quer tamanho de amostra.Parece razoável exi gir que qualquer pro cedimento de estimação se aprimore con forme o tamanho daamos tra se torne maior. Para estimar uma média popu la cio nal m,

Y melho ra no sen ti do de que suavariân cia vai se tornando menor conforme n vai ficando maior; Y 1 não melhora nesse sen ti do.

Podemos excluir certos estimadores absurdos estudando as propriedades assimptóticas ou deamostras grandes dos estimadores. Além disso, podemos dizer alguma coisa positiva sobre os estima-dores que não são não viesados e cujas variâncias não são encontradas com facilidade.

A aná li se assimp tó ti ca envolve a apro xi ma ção das caracterís ticas da dis tri bui ção amos tral deum estima dor. Essas apro xima ções depen dem do tamanho da amos tra. Infelizmente, estamos obri-ga to ria men te limi ta dos quan to ao que pode mos dizer com res pei to a o quan to uma amos tra precisaser “grande” para que uma aná lise assimp tó ti ca seja apro pria da; isso depen de da dis tri buição popu-la cio nal sub ja cen te. Porém, apro xi ma ções de amos tras grandes têm se mos tra do fun cionar bem paratama nhos de amos tras tão pequenas quan to n 20.

ConsistênciaA primeira propriedade assimptótica dos estimadores se refere à provável distância que o estimadorfica do parâmetro que ele supostamente estará estimando conforme o tamanho da amostra cresça inde-finidamente.

Apêndice C Fundamentos de Estatística Matemática 63

Page 64: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 64/134

64 Introdução à Econometria

CONSISTÊNCIASeja W n um esti ma dor de u com base em uma amostra Y 1, Y 2, ..., Y n de tamanho n. Então, W n seráum estimador con sis ten te de u se, para cada 0,

P(|W n u ´) → 0 conforme n → `. (C.7)

Se W n não for consistente para u, então, dizemos que ele é inconsistente.

Quando W n é consistente, também dizemos que u é o limite de probabilidade de W n, escrito comoplim(W n) u.

Ao contrário da inexistência de viés — que é uma característica de um estimador para um determi-nado tamanho de amostra —, a consistência envolve o comportamento da distribuição amostral do esti-mador conforme o tamanho da amostra n fica maior. Para destacar isso, indexamos o estimador pelotamanho da amostra declarando essa definição, e continuaremos com essa convenção por toda esta seção.

A equação (C.7) parece técnica e pode ser muito difí cil de ser determinada com base nos princí-pios fundamentais da probabilidade. Por outro lado, a interpretação da (C.7) é direta. Ela significa quea distribuição de W n se torna cada vez mais concentrada em torno de u, o que grosso modo significaque, para amostras de tamanhos maiores, será cada vez menos provável que W n fique muito afastadode u. Essa tendência está ilustrada na Figura C.3.

Figura C.3

As distribuições amostrais de um estimador consistente para três tamanhos de amostra.

wn(W )

n 16

n 40

n 4

wn(W )

n 16

n 40

n 4

Page 65: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 65/134

Se um estimador não for consistente, ele não nos ajudará na obtenção de informações sobre u,mesmo com uma quantidade ilimitada de dados. Por essa razão, a consistência é um requisito mínimode um estimador usado em estatística ou econometria. Encontraremos estimadores que são consisten-tes sob certas hipóteses e inconsistentes quando essas hipóteses falham. Quando os estimadores sãoinconsistentes, em geral podemos encontrar seus limites de probabilidade, e será importante saber oquanto esses limites de probabilidade estão distantes de u.

Como observamos antes, estimadores não viesados não são necessariamente consistentes, masaqueles cujas variâncias tendem para zero conforme o tamanho da amostra cresce são consistentes. Issopode ser estabelecido formalmente: se W n for um estimador não viesado de u e Var(W n) → confor-me n → , então, plim(W n) u. Estimadores não viesados que usam a totalidade da amostra de dadosgeralmente terão uma variância que se reduzirá para zero conforme o tamanho da amostra cresça,sendo, portanto, consistentes.

Um bom exemplo de um estimador consistente é a média de uma amostra aleatória extraí da deuma população com média m e variância s

2. Já mostramos que a média amostral é não viesada para m.Na equação (C.6), derivamos Var(Y n) s

2 / n para qualquer amostra de tamanho n. Portanto, Var(Y n)→ 0 conforme n → , e, portanto,

Y n é um estimador consistente de m (além de ser não viesado).

A conclusão que

Y n é consistente para m é válida mesmo se Var(

Y n) não existir. Esse resultadoclássico é conhecido como a lei dos grandes números (LGN).

LEI DOS GRANDES NÚMEROSSejam Y 1, Y 2, ..., Y n variáveis aleatórias independentes e identicamente distribuí das com média m. Então,

plim(Y n) m. (C.8)

A lei dos grandes números significa que, se estivermos interessados em estimar a média populacionalm, poderemos chegar arbitrariamente próximos de m, escolhendo uma amostra suficientemente gran-de. Esse resultado fundamental pode ser combinado com propriedades básicas dos limites de probabi-

lidade para mostrar que estimadores razoavelmente complicados são consistentes.

PROPRIEDADE PLIM.1Seja u um parâmetro e defina um novo parâmetro, g g(u) para alguma função contínua g(u).Suponha que plim(W n) u. Defina um estimador de g como Gn g(W n). Então,

plim(Gn) g. (C.9)

Isso é em geral definido como

plim g(W n) g(plim W n) (C.10)

para uma função contí nua g(u).

A hipótese de que g(u) é contí nua é um requisito técnico que frequentemente tem sido descrito deforma não técnica como “uma função que pode ser traçada sem precisar levantar o lápis do papel”.Como todas as funções que encontramos neste livro são contí nuas, não apresentamos uma definição

Apêndice C Fundamentos de Estatística Matemática 65

Page 66: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 66/134

formal de função contí nua. São exemplos de funções contí nuas g(u) a bu para constantes a e b,g(u) u

2, g(u) 1/ u, g(u) g(u) exp(u), e muitas outras variantes destas. Não precisaremoscitar novamente a hipótese de continuidade.

Como um exemplo importante de um estimador consistente, mas viesado, considere estimar o des- vio-padrão, s, de uma população com média m e variância s

2. Já afirmamos que a variância amos-tral é não viesada para s2. Usando a lei dos grandes números e um pouco deS

2

n (Y i Y )21

n 1 Σn

i 1

,√u

S2

n (Y i Y )21

n 1 Σn

i 1

,√u

66 Introdução à Econometria

álgebra, também é possí vel mostrar que S2

n é consistente para s2. O estimador natural de é

(em que a raiz quadrada é sempre a raiz quadrada positiva). Sn, que é chamado desvio-

 padrão amostral, não é um estimador não viesado porque o valor esperado da raiz quadrada não é araiz quadrada do valor esperado (veja a Seção B.3). No entanto, de acordo com a PLIM.1, plim

, de modo que Sn é um estimador consistente de s.A seguir algumas outras propriedades úteis do limite de probabilidade:

PROPRIEDADE PLIM.2

Se plim(T n)

a e plim(U n)

b, então,(i) plim(T n U n) a b;(ii) plim(T nU n) ab;(iii) plim(T n / U n) a / b, desde que b 0.

Esses três fatos sobre os limites de probabilidade nos possibilitam combinar estimadores consistentesde várias maneiras para obter outros estimadores consistentes. Por exemplo, seja {Y 1, ..., Y n} umaamostra aleatória de tamanho n dos rendimentos anuais da população de trabalhadores com ensinomédio completo e seja a média populacional dada por mY . Seja { Z 1, ..., Z n} uma amostra aleatória dosrendimentos anuais da população de trabalhadores com curso superior completo e seja a média popu-lacional dada por m Z . Queremos estimar a diferença porcentual dos rendimentos anuais entre os doisgrupos, que será g 100(m Z – mY )/ mY . (Essa será a porcentagem pela qual os rendimentos médios

daqueles com curso superior diferirão dos rendimentos médios daqueles com ensino médio). Como

Y né consistente para mY , e Z n é consistente para m Z , decorre de PLIM.1 e da parte (iii) de PLIM.2 que

Gn 100 ( Z n – Y n)/ 

Y n

é um estimador consistente de gGn é simplesmente a diferença percentual entre  Z n e

Y n na amostra,de modo que ele é um estimador natural. Gn não é um estimador não viesado de g, mas ainda assim éum bom estimador, a menos que n seja pequeno.

Normalidade Assimptótica

Consistência é uma proprieda de dos esti madores por ponto. Embora ela nos informe que a distribui-ção do estimador está se concentran do em torno do parâmetro conforme o tama nho da amos tra vaifican do maior, ela nada nos diz sobre a forma daque la distri bui ção para uma amostra de determinadotama nho. Para construir esti ma dores por intervalo e para testar hipó te ses, preci samos de uma manei-ra de aproximar a distri bui ção de nossos estimadores. A maioria dos esti ma do res eco no métricos pos-sui dis tribuições que são bem aproximadas por uma distri bui ção normal para amostras grandes, o quemotiva a seguinte definição.

2s√S

nplim√ S

2n

S S√n

2

n

s2√

Sn

plim√ S2n

2s√

S S√n

2

n

s2√

Page 67: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 67/134

NORMALIDADE ASSIMPTÓTICASeja { Z n: n 1, 2, ...} uma sequência de variáveis aleatórias, de forma que para todos os números z,

P( Z n  z) → ( z) conforme n → , (C.11)

em que ( z) é a função de distribuição cumulativa normal-padrão. Então, diz-se que Z n tem um distri-buição nor mal-padrão assimptótica. Nesse caso, frequentemente escrevemos Z n a

˜ Normal(0,1). (O “a”acima do til significa “assimptoticamente” ou “aproximadamente”).

A Propriedade (C.11) significa que a função de distribuição cumulativa de Z n se aproxima cadavez mais da fdc da distribuição normal-padrão conforme o tamanho n da amostra vai ficando maior.Quando a normalidade assimptótica é válida, teremos, para n grande, a aproximação P( Z n  z) ( z). Dessa forma, as probabilidades concernentes a Z n poderão ser aproximadas pelas probabilidadesnormais padrão.

O teorema do limite central (TLC) é um dos resultados mais poderosos em probabilidade e esta-tística. Ele afirma que a média de uma amostra aleatória de qualquer população (com variância finita),

quando padronizada, tem uma distribuição normal-padrão assimptótica.

TEOREMA DO LIMITE CENTRALSeja {Y 1, Y 2, ..., Y n} uma amostra aleatória com média m e variância s2. Então,

(C.12)

tem uma distribuição normal-padrão assimptótica.

A variável Z n em (C.12) é a versão padronizada de Y n : subtraí mos E(Y n) m e dividimos por

dp(Y n) s / . Dessa forma, independentemente da distribuição populacional de Y ,  Z n terá médiazero e variância um, que coincide com a média e a variância da distribuição normal-padrão.Notadamente, a totalidade da distribuição de Z n se aproxima arbitrariamente da distribuição normal--padrão conforme n vai ficando maior.

Podemos escrever a variável padronizada na equação (C.12) como (Y n m)/ s, que mostra quedevemos multiplicar a diferença entre a média amostral e a média populacional pela raiz quadrada dotamanho da amostra, para obtermos uma distribuição limitada proveitosa. Sem a multiplicação por

, apenas teríamos (Y n m)/ s, que converge em probabilidade para zero. Em outras palavras, a dis-tribuição de (Y n m)/ s simplesmente cai para um único ponto conforme n → , que sabemos nãopoder ser uma boa aproximação para a distribuição de (Y n m)/ s para amostras de tamanhos razoá-veis. A multiplicação por garante que a variância de Z n permaneça constante. Na prática, é comumtratarmos

Y n como aproximadamente normalmente distribuí da com média m e variância s2 / n, e isso

nos dá os procedimentos estatísticos corretos, pois leva à variável padronizada na equação (C.12).A maio ria dos estima do res encontra dos em estatística e econo me tria pode ser escri ta como fun-ções de médias amos trais, caso em que pode mos aplicar a lei dos gran des números e o teorema dolimi te cen tral. Quando dois estimadores consisten tes têm dis tri bui ções nor mais assimptóticas, sele-cio namos o esti mador com a menor variância assimptótica.

√n

√n

√n

√n

 Z n

Y n

m

√s /  n

√n

√n

√n

√n

 Z n

Y n

m

√s /  n

Apêndice C Fundamentos de Estatística Matemática 67

Page 68: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 68/134

Além da média amostral padronizada em (C.12), muitas outras estatísticas que dependem de médias amostrais acabam sendo assimptoticamente normais. Uma estatí tica importante é obtida pelasubstituição de s por seu estimador consistente Sn na equação (C.12):

(C.13)

também tem uma distribuição normal-padrão aproximada para n grande. As distribuições exatas (amos-tra finita) de (C.12) e (C.13) não são, definitivamente, as mesmas, mas a diferença será com frequên-cia pequena o suficiente para ser ignorada para n grande.

Em toda esta seção, cada estimador tem tido um subscrito n para enfatizar a natureza da análiseassimptótica ou de amostra grande. A continuação dessa convenção confundirá a notação sem forne-cer informações adicionais, uma vez que os fundamentos da análise assimptótica tenham sido com-preendidos. De agora em diante, eliminaremos o subscrito n e confiaremos que você se lembrará queos estimadores dependem do tamanho da amostra, e que propriedades como consistência e normalida-

de assimptótica referem-se ao crescimento do tamanho da amostra sem limites.

C.4 MÉTODOS GERAIS DE ESTIMAÇÃO DE PARÂMETROS

Até aqui, usamos a média amostral para ilustrar as propriedades dos estimadores finitos e de amostrasgrandes. É natural perguntar se há métodos gerais de estimação que produzem estimadores com boaspropriedades, tais como a inexistência de viés, consistência e eficiência.

A resposta é sim. Uma abordagem detalhada de vários métodos de estimação está além do escopodeste trabalho; aqui apresentamos somente uma discussão informal. Um exame completo é feito porLarsen e Marx (1986, Capítulo 5).

Método dos MomentosDado um parâmetro u aparecendo em uma distribuição populacional, usualmente existem muitasmaneiras para obter estimadores não viesados e consistentes de u. Tentar todas as diferentes possibili-dades e compará-las com base nos critérios das seções C.2 e C.3 não é prático. Felizmente, algunsmétodos têm mostrado ter boas propriedades gerais e, na maior parte, a lógica deles é intuitivamenteinteressante.

Nas seções anteriores, estudamos a média amostral como um estimador não viesado da médiapopulacional e a variância amostral como um estimador não viesado da variância populacional. Essesestimadores são exemplos de estimadores obtidos pelo método dos momentos. De forma geral, a esti-mação pelo método dos momentos é feita da seguinte maneira: o parâmetro u é mostrado como rela-cionado com algum valor esperado na distribuição de Y , em geral E(Y ) ou E(Y 2) (embora algumas vezessejam usadas escolhas menos comuns). Suponha, por exemplo, que o parâmetro de interesse, u, sejarelacionado com a média populacional como u g(m) para alguma função g. Como a média amostralY é um estimador não viesado e consistente de m, é natural substituir m por

Y , o que nos dará o esti-mador g(Y ) de u. O estimador g(Y ) será consistente para u, e se g(m) for uma função linear de m, então,g(Y ) também será não viesado. O que fizemos foi substituir o momento populacional, m, por seu equi-valente amostral,

Y . É daí que vem o nome “método dos momentos”.Tratamos de mais dois estimadores pelo método dos momen tos que serão úteis para nossa dis-

cussão sobre a análise de regressão. Recorde-se de que a covariância entre duas variáveis aleatórias

Y n

m

S √n

/  n

Y n

m

S √n

/  n

68 Introdução à Econometria

Page 69: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 69/134

 X e Y é definida como s XY  E[( X  m X )(Y  mY )]. O método dos momen tos suge re estimar s XY por

Este será um estimador consistente de s XY , mas ele será viesado essencial-

 mente pela mesma razão que a variância amostral será viesada se n, em lugar de n 1, for usado comodivisor. A covariância amostral é definida como

(C.14)

É possí vel mostrar que este é um estimador não viesado de s XY . (A substituição de n por n 1 não fazdiferença se o tamanho da amostra crescer indefinidamente, de modo que este estimador ainda seráconsistente.)

Como dis cutimos na seção B.4, a covariân cia entre duas variáveis mui tas vezes é difí cil de serinter pretada. Em geral, estamos mais inte ressa dos na cor re lação. Como a correla ção popu lacional ér  XY  s XY  /(s X sY ), o método dos momentos sugere estimar r  XY como

(C.15)

que é chamado coeficiente de correlação amostral (ou, abreviadamente, correlação amostral).Observe que cancelamos a divisão por n 1 na covariância amostral e nos desvios-padrão amostrais.Na realidade, poderíamos dividir cada um deles por n e chegar na mesma fórmula final.

É possí vel mostrar que o coeficiente de correlação amostral estará sempre no intervalo [1,1],

como deveria ser. Como S XY , S X e SY  são consistentes em relação ao parâmetro populacional corres-pondente,  R XY  é um estimador consistente da correlação populacional, r  XY . Entretanto,  R XY  será umestimador viesado por duas razões. Primeiro, S X e SY são estimadores viesados de s X  e sY , respectiva-mente. Segundo, R XY é uma razão de estimadores, e assim ele não seria não viesado, mesmo se S X e SY fossem. Para nosso propósito, isso não é importante, embora o fato de não existir um estimador não-viesado de r  XY seja um resultado clássico em estatística matemática.

Máxima Verossimilhança

Outro méto do geral de esti ma ção é o da máxima veros si mi lhança, um assun to tra ta do em muitos cur-sos introdutó rios de esta tís ti ca. Um breve resu mo do caso mais simples será suficien te aqui. Seja{Y 1, Y 2, ..., Y n} uma amos tra aleató ria da distri bui ção populacio nal  f ( y;u). Devido à hipó tese deamostragem alea tória, a distri bui ção con jun ta de {Y 1, Y 2, ..., Y n} será simples men te o pro du to dasden si da des:  f ( y1;u) f ( y2;u) ⋅⋅⋅  f ( yn;u). No caso dis creto, isso será P(Y 1  y1, Y 2  y2, ..., Y n  yn).Agora, defi na a função de veros similhan ça como

V (u;Y 1, ...,Y n)  f (Y 1;u) f (Y 2;u) ⋅⋅⋅ f (Y n;u),

que será uma variável aleatória, pois ela depende do resultado da amostra aleatória {Y 1, Y 2, ..., Y n}. Oestimador de máxima verossimilhança de u, vamos chamá-lo de W , será o valor de u que maximiza

, R XY 

S XY 

S X SY 

Σn

i 1

( X i

X )(Y i

Y )

Σn

i 1

( X i

X )21/2

Σn

i 1

(Y i

Y )2

1/2

.S XY 

1

n 1 Σn

i 1

( X i

X )(Y i

Y )

n1

( X i X  )(Y i Y  ).Σn

i 1

, R XY 

S XY 

S X SY 

Σn

i 1

( X i

X )(Y i

Y )

Σn

i 1

( X i

X )21/2

Σn

i 1

(Y i

Y )2

1/2

.S XY 

1

n 1 Σn

i 1

( X i

X )(Y i

Y )

n1

( X i X  )(Y i Y  ).Σn

i 1

Apêndice C Fundamentos de Estatística Matemática 69

Page 70: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 70/134

a função de verossimilhança. (Esse é o motivo pelo qual escrevemos V como uma função de u, seguidoda amostra aleatória). Claramente, esse valor depende da amostra aleatória. O princí pio da máximaverossimilhança diz que, de todos os valores possí veis de u, o valor que torna a verossimilhança dodado observado a maior deve ser escolhido. Intuitivamente, esse é um método razoável de estimar u.

Geralmente, é mais conveniente trabalhar com a função log-verossimilhança, que é obtida toman-do-se o log natural da função de verossimilhança:

(C.16)

quando usamos o fato de que o log do produto é a soma dos logs. Como (C.16) é a soma de variá veisaleatórias independentes e identicamente distribuí das, analisar os estimadores que decorrem de (C.16)é relativamente fácil.

A estimação da máxima verossimilhança (EMV) em geral é consistente e algumas vezes não vie-sada. Mas também o são muitos outros estimadores. A atração da EMV é que ela geralmente fornece

o estimador mais assimptoticamente eficiente quando o modelo populacional  f ( y;u) é corretamenteespecificado. Além disso, a EMV algumas vezes é o estimador não viesado de variância mínima;isto é, ela tem a menor variância entre os estimadores não viesados de u. [Veja Larsen e Marx (1986,Capítulo 5) para verificar essas afirmações.]

No Capítulo 17, precisaremos da máxima verossimilhança para estimar os parâmetros de modeloseconométricos mais avançados. Em econometria, estamos quase sempre interessados na distribuiçãode Y condicional a um con junto de variáveis explicati vas, digamos X 1, X 2, ..., X k . Depois, substituí-mos a densi dade em (C.16) por  f (Y 1| X i1, ...,  X ik ; u1, ..., u p), em que é permiti da a essa den sida dedepender de p parâmetros, u1, ..., u p. Felizmente, para aplicações bem-sucedidas de métodos de máxi-ma verossimilhança, não precisamos nos aprofundar muito nos problemas computacionais ou na teo-ria estatística de amostras grandes. Wooldridge (2002, Capítulo 13) trata da teoria da estimação pormáxima verossimilhança.

Mínimos Quadrados

Um terceiro tipo de estimador, e um que tem um papel importante ao longo de todo este livro, é cha-mado de estimador de mínimos quadrados. Já vimos um exemplo de mínimos quadrados: a médiaamostral

Y é um estimador de mínimos quadrados da média populacional, m. Já sabemos que Y é um

estimador pelo método dos momentos. O que o torna um estimador de mínimos quadrados? É possí-vel mostrar que o valor de m que torna a soma dos desvios quadrados

tão pequena quanto possí vel é m

Y . Demonstrar isso não é difí cil, mas omitiremos a álgebra.Para algumas distribuições importantes, inclusive a normal e a de Bernoulli, a média amostral Y 

também é o estimador de máxima verossimilhança da média populacional m. Assim, os princí pios dosmínimos quadrados, do método dos momentos e da máxima verossimilhança muitas vezes resultam nomesmo estimador. Em outros casos, os estimadores são semelhantes, mas não idênticos.

(Y i m)2

Σn

i 1

log[V ( ; Y 1, …, Y n)] log [ f (Y i; )],Σn

i 1

(Y i m)2

Σn

i 1

log[V ( ; Y 1, …, Y n)] log [ f (Y i; )],Σn

i 1

70 Introdução à Econometria

Page 71: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 71/134

C.5 ESTIMAÇÃO POR INTERVALO E INTERVALOS DE CONFIANÇA

A Natureza da Estimação por Intervalo

Uma estimativa por ponto obtida a partir de uma amostra particular não fornece, por si só, informaçõessuficientes para testar teorias econômicas ou para explicar detalhes de decisões. Uma estimativa porponto poderá ser a melhor suposição do pesquisador do valor da população, mas, por sua natureza, elanão fornece informação sobre o quanto é “provável” que ela deva estar próxima do parâmetro popula-cional. Como um exemplo, suponha que um pesquisador descreva, com base em uma amostra aleató-ria de trabalhadores, que os subsí dios de treinamento de pessoal aumentam o salário por hora em 6,4%.Como poderemos saber se ou não esse número está próximo do efeito na população de trabalhadoresque podem ter sido treinados? Como não conhecemos o valor da população, não podemos saber oquanto está próxima uma estimativa de determinada amostra. Porém, podemos fazer afirmações envol-vendo probabilidades, e é aqui que entra a estimação por intervalo.

Já conhecemos uma maneira de avaliar a incerteza em um estimador: encontre seu desvio-padrãoamostral. Informar o desvio-padrão do estimador, com a estimativa por ponto, fornece alguma infor-

mação sobre a precisão de nossa estimativa. Porém, mesmo se o problema da dependência do desvio- padrão em relação a parâmetros populacionais desconhecidos for ignorada, informar o desvio-padrãodo estimador, com a estimativa por ponto, não significa qualquer afirmação direta sobre onde o valorda população provavelmente estará em relação à estimativa. Essa limitação é superada pela construçãode um intervalo de confiança.

Ilustramos o conceito de um intervalo de confiança com um exemplo. Suponha que a populaçãotem uma distribuição Normal(m,1) e seja {Y 1, ..., Y n} uma amostra aleatória dessa população.(Assumimos que a variância da população é conhecida e igual a unidade para o fim desta ilustração; depois mostraremos o que fazer no caso mais real em que a variância é desconhecida.) A média amos-tral,

Y , tem uma distribuição normal com média m e variância 1/ n: Y ~ Normal(m,1/ n). A partir daí pode-

mos padronizar Y , e como a versão padronizada de

Y tem uma distribuição normal-padrão, teremos

O evento entre parênteses é idêntico ao evento Y  1,96/  m

Y  1,96/ , e, portanto,

P(Y 1,96/  m Y  1,96/  0,95. (C.17)

A equa ção (C.17) é inte res san te por nos infor mar que a pro ba bi li da de de o inter va lo alea tó rio[Y  1,96/ ,

Y  1,96/ ] conter a média populacional m é de 0,95, ou 95%. Essa informação nospermite construir uma estimativa por inter valo de m, que é obtida pela agregação do resultado amos-tral da média, – y. Assim,

[ y 1,96/ , y 1,96/ ] (C.18)

é um exemplo de uma estimativa por intervalo de m. Ela também é chamada de intervalo de confiançade 95%. Uma notação abreviada desse intervalo é – y 1,96/ .√n

√n√n

√n√n

√n√n

√n√n

P 0,95.√ 1,96

1/  n

1,96

√n

√n √n

√n √n

√n

P 0,95.√ 1,96

1/  n

1,96

√n

√n√n

Apêndice C Fundamentos de Estatística Matemática 71

Page 72: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 72/134

72 Introdução à Econometria

É fácil calcular o intervalo de confiança na equação (C.18), logo que os dados da amostra { y1, y2,..., yn} sejam observados;  y é o único fator que depende dos dados. Por exemplo, suponha que n 16e que a média dos 16 pontos de dados seja 7,3. Então, o intervalo de confiança de 95% de m será 7,3 1,96/  7,3 0,49, que podemos escrever na forma de intervalo como [6,81; 7,79]. Por cons-trução,

 y 7,3 está no centro desse intervalo.Ao contrário de seu cálculo, o significado de um intervalo de confiança é mais difí cil de entender.

Quando dizemos que a equação (C.18) é um intervalo de confiança de 95% de m, queremos dizer queo intervalo aleatório

[Y  1,96/ , Y  1,96/ ] (C.19)

contém m com uma probabilidade de 0,95. Em outras palavras, antes de extrair a amostra aleatória,existe 95% de possibilidade de que (C.19) contenha m. A equação (C.19) é um exemplo de um estima-dor por intervalo. Ele é um intervalo aleatório, pois as extremidades mudam com diferentes amostras.

Um intervalo de confiança muitas vezes é interpretado da seguinte maneira: “a probabilidade deque m este ja no intervalo (C.18) é de 95%”. Isso é incorreto. Uma vez que a amostra tenha sido obser-vada e – y tenha sido calculado, os limites do intervalo de confiança serão simplesmente números (6,81e 7,79 no exemplo dado). O parâmetro populacional, m, embora desconhecido, também será apenasalgum número. Portanto, m estará ou não no intervalo (C.18) (e nunca saberemos com certeza se issoé verdadeiro). A probabilidade não desempenha papel algum, uma vez que o intervalo de confiançatenha sido calculado para os dados disponí veis. A interpretação probabilística advém do fato de que,para 95% de todas as amostras aleatórias, o intervalo de confiança construí do contém m.

Para destacar o significado de um intervalo de confiança, a Tabela C.2 contém cálculos para 20amostras aleatórias da distribuição Normal(2,1) com amostras de tamanho n 10. Para cada uma das20 amostras,  y é obtido, e (C.18) é calculado como  y 1,96/ 

 y 0,62 (cada qual arredondadopara duas casas decimais). Como é possí vel ver, o intervalo muda com cada amostra aleatória.Dezenove dos 20 intervalos contêm o valor populacional de m. Somente na amostra número 19 m não

está no intervalo de confiança. Em outras palavras, 95% das amostras resultam em um intervalo de con-fiança que contém m. Nem sempre esse é o caso com somente 20 amostras, mas funcionou dessamaneira nessa simulação em particular.

Tabela C.2

Intervalos de Confiança Simulados para uma Distribuição Normal(m,1) com m 2.

√10

√n√n

√16

√10

√n√n

√16

Amostra – y Intervalo de 95% Contém m?

1 1,98 (1,36;2,60) Sim

2 1,43 (0,81;2,05) Sim

3 1,65 (1,03;2,27) Sim

4 1,88 (1,26;2,50) Sim

5 2,34 (1,72;2,96) Sim

6 2,58 (1,96;3,20) Sim

(Continua...)

Page 73: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 73/134

Tabela C.2 (continuação)

Intervalos de Confiança Simulados para uma Distribuição Normal(m,1) com m 2.

Intervalos de Confiança para a Média de uma População Normalmente

DistribuídaO intervalo de confiança derivado na equação (C.18) ajuda a ilustrar como construir e interpretar inter-valos de confiança. Na prática, a equação (C.18) não é muito útil para a média de uma população nor-mal porque ela assume que a variância é conhecida e igual à unidade.

É fácil estender (C.18) para o caso no qual o desvio-padrão s é conhecido e pode ser qualquervalor: o intervalo de confiança de 95% será

[– y 1,96s / ,– y 1,96s ]. (C.20)

Portanto, desde que s seja conhecido, um intervalo de confiança para m será prontamente cons-

truí do. Para possibilitar o uso de s desconhecido, precisaremos usar uma estimativa. Seja

(C.21)

o desvio-padrão amostral. Então, obtemos um intervalo de confiança, que dependerá inteiramente dosdados observados, pela substituição de s na equação (C.20) por sua estimativa, s. Infelizmente, isso

s 1

n 1 Σn

i 1

( yi

y)21/2

√n√n

s 1

n 1 Σn

i 1

( yi

y)21/2

√n√n

Apêndice C Fundamentos de Estatística Matemática 73

Amostra

– yIntervalo de 95% Contém m?

7 1,58 (0,96;2;20) Sim

8 2,23 (1,61;2,85) Sim

9 1,96 (1,34;2,58) Sim

10 2,11 (1,49;2,73) Sim

11 2,15 (1,53;2,77) Sim

12 1,93 (1,31;2,55) Sim

13 2,02 (1,40;2,64) Sim

14 2,10 (1,48;2,72) Sim

15 2,18 (1,56;2,80) Sim

16 2,10 (1,48;2,72) Sim

17 1,94 (1,32;2,56) Sim

18 2,21 (1,59;2,83) Sim

19 1,16 (0,54;1,78) Não

20 1,75 (1,13;2,37) Sim

Page 74: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 74/134

não preservará o nível de confiança de 95%, porque s depende da amostra especificada. Em outras pala-vras, o intervalo aleatório [Y  1,96(S / )] não mais conterá m com probabilidade 0,95, pois a cons-tante s foi substituí da pela variável aleatória S.

Como devemos proceder? Em vez de usar a distribuição normal-padrão, devemos recorrer à dis-tribuição t . A distribuição t surge do fato de que

(C.22)

em que Y é a média amostral e S é o desvio-padrão amostral da amostra aleatória {Y 1, ..., Y n}. Não pro-

varemos (C.22); uma prova cuidadosa pode ser encontrada em diversos lugares [por exemplo, Larsene Marx (1988, Capítulo 7)].

Para construir um intervalo de confiança, seja c o 97,5o percentil na distribuição t n1. Em outraspalavras, c é o valor tal que 95% da área em t n1 estará entre c e c: P(c t n1 c) 0,95. (Ovalor de c depende dos graus de liberdade n 1, mas não tornamos isso explí cito.) A escolha da c está

ilustrada na Figura C.4. Uma vez c tenha sido escolhido de maneira apropriada, o intervalo aleatório[Y  cS / ,

Y  cS / ] conterá m com probabilidade 0,95. Para uma determinada amostra, ointervalo de confiança de 95% será calculado como

[ – y c s / , – y c s / ]. (C.23)

Figura C.4

O 97,5o percentil, c , em uma distribuição t .

Área 0,25

Área 0,95

Área 0,25

C 0 C

√n√n

√n√n

t n 1

,Y  m

S / √n

√n

√n √n

√n√n

√n

t n 1

,Y  m

S / √n

Área 0,25

Área 0,95

Área 0,25

C 0 C

74 Introdução à Econometria

Page 75: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 75/134

Os valores de c para vários graus de liberdade podem ser obtidos da Tabela G.2 no Apêndice G(disponível no livro Introdução à Econometria, 4a edição). Por exemplo, se n 20, de forma que gl

seja n 1 19, então, c 2,093. Assim, o intervalo de confiança de 95% será [– y 2,093(s / )],em que – y e s são os valores obtidos da amostra. Mesmo se s s (o que será muito pouco provável), ointervalo de confiança em (C.23) será mais amplo que o de (C.20), pois c 1,96. Para poucos grausde liberdade, (C.23) será muito mais amplo.

De forma mais geral, seja c

o percentil 100(1 a) na distribuição t n1. Então, um intervalo deconfiança de 100(1 a)% será obtido como

[ – y c /2s/  , – y c

 /2s / ]. (C.24)

A obtenção de c /2 exige que se escolha a e o conhecimento dos graus de liberdade n 1; depois, a

tabela G.2 poderá ser usada. Na maior parte do tempo, nos concentraremos em intervalos de confiançade 95%.

Existe uma maneira simples de se lembrar como construir um intervalo de confiança para a média deuma distribuição normal. Recorde que dp(Y ) s / . Assim, s / é a estimativa por ponto de dp(Y ). Avariável aleatória associada, S / , algumas vezes é chamada de erro-padrão de

Y . Como o que aparecenas fórmulas é a estimativa por ponto s / , definimos o erro-padrão de – y como ep(– y ) s / . Então,(C.24) pode ser escrita abreviadamente como

[ – y c /2ep(– y )]. (C.25)

Essa equação mostra porque a noção do erro-padrão de uma estimativa desempenha um papel impor-tante em econometria.

EXEMPLO C.2

(Efeitos dos Subsídios de Treinamento de Pessoal sobre a Produtividade dos Trabalhadores)

Holzer, Block, Cheatham e Knott (1993) estudaram os efeitos dos subsídios de treinamento de pessoal sobrea produtividade dos trabalhadores, coletando informações sobre “taxas de rejeição” de uma amostra deempresas industriais de Michigan que haviam recebido subsídios de treinamento de pessoal em 1988. ATabela C.3 relaciona as taxas de rejeição — medidas como o número de itens, de cada 100 produzidos, quenão estavam em condições de uso e, portanto, seriam rejeitados — para 20 empresas. Cada uma dessasempresas recebeu subsídios de treinamento de pessoal em 1988; não houve subsídios em 1987. Estamosinteressados em construir um intervalo de confiança para a mudança na taxa de rejeição de 1987 para 1988,para a população de todas as empresas industriais que poderiam ter recebido subsídios.

Assumimos que a mudança nas taxas de rejeição tem uma distribuição normal. Como n 20, um

intervalo de confiança de 95% da mudança média nas taxas de rejeição m será [– y  2,093ep(– y )], em queep(– y )  s/ . O valor 2,093 é o 97,5o percentil em uma distribuição t 19. Para os valores amostrais especí-ficos, – y  1,15 e ep(– y ) 0,54 (arredondados para duas casas decimais), e, assim, o intervalo de confian-ça de 95% será [2,28,0,02]. O valor zero foi excluído desse intervalo, de modo que concluímos que, comconfiança de 95%, a mudança média nas taxas de rejeição na população não será zero.

√n

√n√n√n

√n√n

√n√n

√20

√n

√n√n

√n

√n√n

√n√n

√20

Apêndice C Fundamentos de Estatística Matemática 75

Page 76: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 76/134

EXEMPLO C.2 (continuação)

Tabela C.3

Taxas de Rejeição de 20 Empresas Industriais de Michigan.

Neste ponto, o Exemplo C.2 é bastante ilustrativo, pois ele tem algumas imperfeições potencial-

mente sérias como uma análise econométrica. De forma mais importante, ele assume que qualquerredução sistemática nas taxas de rejeição deve-se aos subsí dios de treinamento de pessoal. Entretanto,muita coisa pode acontecer no decurso do ano para alterar a produtividade dos trabalhadores. A partirdessa análise, não temos meios de saber se a queda na média das taxas de rejeição é atribuí vel aos sub-sí dios de treinamento ou se, pelo menos parcialmente, outra causa externa foi a responsável.

76 Introdução à Econometria

Empresa 1987 1988 Alteração

1 10 3 7

2 1 1 0

3 6 5 1

4 0,45 0,5 0,05

5 1,25 1,54 0,29

6 1,3 1,5 0,2

7 1,06 0,8 0,268 3 2 1

9 8,18 0,67 7,51

10 1,67 1,17 0,5

11 0,98 0,51 0,47

12 1 0,5 0,5

13 0,45 0,61 0,16

14 5,03 6,7 1,67

15 8 4 4

16 9 7 2

17 18 19 1

18 0,28 0,2 0,08

19 7 5 2

20 3,97 3,83 0,14

Média 4,38 3,23 1,15

Page 77: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 77/134

Uma Regra Prática Simples para um Intervalo de Confiança de 95%

O intervalo de confiança em (C.25) pode ser calculado para qualquer tamanho de amostra e qualquernível de confiança. Como vimos na seção B.4, a distribuição t se aproxima da distribuição normal-

-padrão conforme os graus de liberdade aumentam. Particularmente, para a 0,05, c /2→ 1,96 quandon → , embora c

 /2 seja sempre maior que 1,96 para cada n. Uma regra prática para um intervalo deconfiança aproximado de 95% é

[– y 2ep(– y )]. (C.26)

Em outras palavras, obtemos – y e seu erro-padrão e depois calculamos – y mais e menos duas vezesseu erro-padrão para obter o intervalo de confiança. Isso é um pouco amplo demais para n muito grande,e estreito demais para n pequeno. Como podemos ver pelo exemplo C.2, mesmo para um n tão pequenocomo 20, (C.26) está muito próximo do intervalo de confiança de 95% da média de uma distribuiçãonormal. Isso significa que podemos chegar muito próximos de um intervalo de confiança de 95% sem

termos de recorrer às tabelas t .

Intervalos de Confiança Assimptóticos para Populações Não Normais

Em algumas aplicações, a população é claramente não normal. Um caso destacado é a distribuição deBernoulli, na qual a variável aleatória assume somente os valores zero e um. Em outros casos, a popula-ção não normal não tem qualquer distribuição-padrão. Isso não tem importância, desde que o tamanho daamostra seja suficientemente grande para que o teorema do limite central produza uma boa aproximaçãoda distribuição da média amostral –Y . Para n grande, um intervalo de confiança de 95% aproximado será

[– y 1,96ep(– y )], (C.27)

em que o valor 1,96 é o 97,5o percentil na distribuição normal-padrão. Mecanicamente, calcular um inter-valo de confiança aproximado não difere do caso normal. Uma pequena diferença é o fato de o númeroque multiplica o erro-padrão vir da distribuição normal-padrão, em vez da distribuição t , pois estamosusando um tratamento assimptótico. Como a distribuição t se aproxima da normal-padrão à medida queos gl aumentam, a equação (C.25) também é perfeitamente legí tima como um intervalo aproximado de95%; alguns preferem essa equação a (C.27), pois a primeira é exata para populações normais.

EXEMPLO C.3

(Discriminação Racial na Contratação de Trabalhadores)

O Urban Institute conduziu um estudo em 1988, em Washington, D.C., para examinar a extensão da discrimina-

ção racial na contratação de trabalhadores. Cinco duplas de pessoas foram entrevistadas para várias ofertas deemprego. Em cada dupla, uma pessoa era negra, e a outra branca. Todos portavam currículos indicando que tinham virtualmente os mesmos graus de experiência, educação e outros fatores que determinavam a qualifica-ção para os cargos. A ideia era tornar os indivíduos tão semelhantes quanto possível, com exceção da raça. Cadapessoa da mesma dupla se candidatou ao mesmo emprego, e os pesquisadores registraram quem recebeu umaoferta de emprego. Esse é um exemplo de uma análise pareadas, na qual cada observação consiste de dados

Apêndice C Fundamentos de Estatística Matemática 77

Page 78: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 78/134

EXEMPLO C.3 (continuação)

sobre duas pessoas (ou duas empresas, duas cidades etc.) que são tidas como semelhantes em muitos aspectos,mas diferentes em uma característica importante.

Seja uN  a pro ba bi li da de de que a pes soa negra rece ba uma ofer ta de emprego e uB seja a proba bi-li da de de que a pes soa branca rece ba a ofer ta. Estamos basi ca men te inte res sados na diferen ça uN  uB.Seja N i  uma variá vel de Bernoulli igual a um se a pessoa negra con seguir uma ofer ta de empre go doempre ga dor i , e zero, caso con trá rio. Semelhantemente, Bi  1 se a pessoa bran ca con se guir uma ofer tade empre go do empre ga dor i , e zero, caso con trário. Agrupando as cinco duplas de pes soas, houve umtotal de n 241 obser va ções (pares de entre vis tas com os can di da tos). Estimadores não viesa dos de uN 

e uB são–N e

–B, as frações de entrevistas para as quais foram oferecidas propostas de emprego aos negros

e brancos, respectivamente.Para colocar tudo isso em uma estrutura para calcular um intervalo de confiança de uma média popu-

lacional, defina uma nova variável Y i  N i  Bi . Agora, Y i  pode assumir três valores: 1 se a pessoa negranão recebeu a proposta de emprego, mas a pessoa branca recebeu, 0 se ambas as pessoas conseguiram ounão o emprego, e 1 se a pessoa negra conseguiu o emprego e a pessoa branca não. Então, m E(Y i )

E(N i ) E(Bi ) uN  uB.A distribuição de Y i  certamente não é normal — ela é discreta e assume somente três valores. No entan-to, um intervalo de confiança aproximado de uN  uB pode ser obtido usando métodos de amostras grandes.

Usando os 241 pon tos de dados observados,–b 0,224 e –w  0,357, de modo que – y  0,224

0,357 0,133. Assim, 22,4% dos can didatos negros rece beram ofer ta de emprego, enquanto a ofer tade empre go foi oferecida a 35,7% dos brancos. Isso é evi dência prima facie de discrimina ção contra os negros, mas pode mos descobrir muito mais calculan do um inter va lo de confian ça para m. Para cal cu lar uminterva lo de confian ça aproxima do de 95%, pre cisa mos do des vio-padrão da amos tra. Obtemos s  0,482[usan do a equa ção (C.21)]. Usando (C.27), obte re mos um IC de 95% de m uN  uB como 0,133 1,96(0,482/ ) 0,133 0,031 [0,164, 0,102]. O IC de 99% será 0,133

2,58(0,482/ ) [0,213, 0,053]. Naturalmente, esse intervalo contém um leque mais amplo devalores que o IC de 95%. Mas mesmo o IC de 99% não con tém o valor zero. Portanto, estamos bastanteconfiantes que a diferença populacional uN  uB não é zero.

Antes de nos dirigir aos testes de hipóteses, é bom revermos as várias quantidades populacionaise amostrais que indicam dispersões nas distribuições populacionais e nas distribuições amostrais dosestimadores. Essas quantidades aparecem com frequência na análise estatística, e extensões delas sãoimportantes para a análise de regressão no texto principal. A quantidade s é o desvio-padrão popula-cional (desconhecido); ela é um indicador da dispersão na distribuição de Y . Quando dividimos s por

, obtemos o desvio-padrão amostral de Y  (a média da amostra). Embora s seja uma característica

fixa da população, dp(Y ) s / contrai para zero na medida em que n → ; nosso estimador de m

se torna cada vez mais preciso na medida em que o tamanho da amostra cresce.A estimativa de s de uma amostra específica, s , é chamada de desvio-padrão amostral porque ela

é obtida da amostra. (Também chamamos de variável explicativa oculta, S , que muda entre diferentes

amostras, o desvio-padrão amostral). Como – y, como uma estimativa de m, s é nossa “melhor suposição”na s, dado a amostra à mão. A quantidade s/ é o que chamamos de erro-padrão de – y, e é nossa mel-hor estimativa de s / . Intervalos de confiança do parâmetro populacional m dependem diretamentede ep(– y) s/ . Como este erro-padrão é contraído para zero, na medida em que o tamanho daamostra aumenta, uma amostra de tamanho grande geralmente significa um intervalo de confiançamenor. Portanto, vemos claramente que uma vantagem de se ter mais dados é que isso produz resul-tados de intervalos de confiança mais estreitos. O conceito do erro-padrão de uma estimativa, que na

√n√n

√n

√n√n

√241√241

√n√n

√n

√n√n

√241√241

78 Introdução à Econometria

Page 79: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 79/134

vasta maioria dos casos contrai para zero na taxa 1/ . tem um papel fundamental no teste de hipóte-ses (como veremos na próxima seção), nos intervalos de confiança e em testes no conceito de regressãomúltipla (como discutido no Capítulo 4).

C.6 TESTES DE HIPÓTESES

Até agora, revimos como avaliar estimadores por ponto, e vimos — no caso de uma média populacio-nal — como construir e interpretar intervalos de confiança. Entretanto, algumas vezes a questão na qualestamos interessados tem uma resposta sim ou não bem definida. Eis alguns exemplos: (1) Um progra-ma de treinamento de pessoal efetivamente aumenta a produtividade média dos trabalhadores? (veja oexemplo C.2); (2) os negros são discriminados na contratação de trabalhadores? (veja o exemplo C.3);(3) leis estaduais mais rigorosas contra dirigir embriagado reduzem o número de prisões por esse deli-to? Os métodos para responder a tais questões, usando uma amostra de dados, são conhecidos comotestes de hipóteses.

Fundamentos dos Testes de Hipóteses

Para ilustrar os problemas envolvidos com os testes de hipóteses, considere um exemplo sobre eleições.Suponha que haja dois candidatos em uma eleição, Candidatos A e B. O Candidato A recebeu 42% dosvotos populares, enquanto o Candidato B recebeu 58%. Esses números supostamente representam asporcentagens verdadeiras da população votante e serão tratados como tais.

O Candidato A está convencido de que um número maior de pessoas deve ter votado nele, e,assim, ele gostaria de investigar se a eleição foi burlada. Conhecendo um pouco de estatística, esse can-didato contrata uma empresa de consultoria para aleatoriamente extrair uma amostra de 100 eleitorespara registrar se cada pessoa votou ou não nele. Suponha que, para a amostra coletada, 53 pessoas vota-ram no Candidato A. Essa estimativa amostral de 53% claramente excede o valor populacional oficialde 42%. O Candidato A deve concluir que a eleição foi realmente uma fraude?

Embora pareça que tenha havido uma menor contagem de votos para o Candidato A, não podemoster certeza disso. Mesmo se apenas 42% da população tenha votado no Candidato A, é possí vel que, emuma amostra de 100 eleitores, observemos 53 pessoas que realmente votaram no Candidato A. A ques-tão é: o quanto é forte a evidência amostral contra a porcentagem oficial de 42% divulgada?

Uma maneira de proceder é montar um teste de hipótese. Seja u a proporção verdadeira da popu-lação que votou no Candidato A. A hipótese de que os resultados divulgados são precisos pode ser defi-nida como

H0: u 0,42. (C.28)

Esse é um exemplo de uma hipótese nula. Sempre representamos a hipótese nula por H0. Nos testes

de hipóteses, a hipótese nula tem papel semelhante ao de um réu em julgamento em muitos sistemas judiciais: da mesma forma que se presume que um réu é inocente até que sua culpa seja provada, ahipótese nula é presumida como verdadeira até que os dados sugiram fortemente o contrário. No exem-plo em questão, o Candidato A deverá apresentar evidências bastante fortes contra (C.28) para ter direitoa uma recontagem dos votos.

A hipótese alternativa no exemplo da eleição é que a proporção verdadeira dos votantes noCandidato A na eleição seja maior que 0,42:

√n√n

Apêndice C Fundamentos de Estatística Matemática 79

Page 80: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 80/134

H1: u 0,42. (C.29)

Para concluir que H0 é falsa, e H1 é verdadeira, precisamos ter evidência “além da dúvida razoável” con-tra H0. Quantos votos dos 100 seriam necessários para sentir que a evidência seria fortemente contra H0?A maioria das pessoas concordaria que a observação de 43 votos em uma amostra de 100 eleitores nãoseria suficiente para reverter os resultados originais da eleição; tal resultado está bem dentro da varia-ção amostral esperada. Por outro lado, não precisaremos observar 100 votos para o Candidato A paralançarmos dúvidas sobre H0. Se 53 em 100 é um número suficiente para rejeitar H0, isso é muito menosclaro. A resposta dependerá de como quantificamos a expressão “além da dúvida razoável”.

Antes de falarmos do problema de quantificação da imprecisão em testes de hipóteses, devemosevitar alguma possível confusão. Você deve ter notado que as hipóteses nas equações (C.28) e (C.29)não exaurem todas as possibilidades: poderia ser que u fosse menor que 0,42. Para a aplicação à mão,não estamos particularmente interessados naquela possibilidade; ela não tem nada a ver com transfor-mar os resultados da eleição. Portanto, podemos simplesmente afirmar desde o início que estamosignorando alternativas u com u 0,42. Não obstante, alguns autores preferem declarar hipóteses nulas

e alternativas, de forma que elas sejam exaustivas, caso em que nossa hipótese nula deverá ser H0: u

0,42. Declarada desta maneira, a hipótese nula é uma hipótese nula combinada , pois ela permite maisde um valor sob H0. [Em contrapartida, a equação (C.28) é um exemplo de uma hipótese nula simples ].Para estes tipos de exemplos, não importa se declaramos a hipótese nula como na (C.28) ou como umanula combinada : o valor mais difícil de rejeitar se será . (Isto é, se rejeitarmos o valor u 0,42, con-tra u 0,42, então logicamente teremos que rejeitar qualquer valor < 0,42). Portanto, nosso procedi-mento de teste baseado na (C.28) leva ao mesmo teste como se H0: u 0,42. Neste livro, sempredeclaramos uma hipótese nula como hipótese nula simples.

Nos testes de hipóteses, podemos cometer dois tipos de enganos. Primeiro, podemos rejeitar a hipó-tese nula quando na verdade ela é verdadeira. Esse é o chamado erro tipo I. No exemplo das eleições,um erro tipo I ocorrerá se rejeitarmos H0 quando a proporção verdadeira das pessoas que votaram noCandidato A for de fato 0,42. O segundo tipo de erro é a impossibilidade de rejeitar H0 quando ela for

efetivamente falsa. Esse é o chamado erro tipo II. No exemplo das eleições, um erro tipo II ocorreráse u 0,42, mas não pudermos rejeitar H0.Após termos tomado a decisão de rejeitar ou não a hipótese nula, ou nossa decisão foi correta ou

cometemos um erro. Nunca saberemos com certeza se um erro foi cometido. Porém, podemos calcu-lar a probabilidade de cometer um erro tipo I ou um erro tipo II. As regras dos testes de hipóteses sãoconstruí das para fazer com que a probabilidade de cometer um erro tipo I seja muito pequena. Deforma geral, definimos o nível de significância (ou simplesmente o nível) de um teste como a proba-bilidade de um erro tipo I; isso é geralmente representado por a. Simbolicamente, temos

a P(Rejeitar H0 |H0). (C.30)

O lado direito da equação é lido como: “A probabilidade de rejeitar H0 supondo que H0 seja verdadeira”.Os tes tes clássi cos de hipó te ses exigem que ini cial men te espe ci fi que mos um nível de sig ni fi-cân cia do teste. Quando especi fi ca mos um valor de a, esta mos essen cialmen te quanti fi can do nossatole rân cia para um erro tipo I. Valores comuns de a são 0,10, 0,05, e 0,01. Se a 0,05, o pes qui sa-dor esta rá que rendo fal sa men te rejei tar H0 em 5% das vezes, de manei ra a detec tar des vios em rela-ção a H0.

Uma vez determinado o nível de significância, então, gostaríamos de minimizar a probabilidadede um erro tipo II. Alternativamente, gostaríamos de maximizar o poder de um teste contra todas as

80 Introdução à Econometria

Page 81: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 81/134

alternativas relevantes. O poder de um teste é simplesmente um menos a probabilidade de um erro tipoII. Matematicamente,

p(u) P(Rejeitar H0 |u) 1 P(Tipo II |u),

em que u representa o valor efetivo do parâmetro. Naturalmente, gostaríamos que o poder seja igual àunidade sempre que a hipótese nula for falsa. Mas isso é impossí vel de ser atingido mantendo pequeno onível de significância. Em vez disso, preferimos que nosso teste maximize o poder para determinado nívelde significância.

Testes de Hipóteses sobre a Média em uma População Normal

Para testar a hipótese nula contra uma alternativa, precisamos escolher uma estatística de teste (ou esta-tística, resumidamente) e um valor crí tico. A escolha da estatística e do valor crí tico é baseada na con-veniência e no dese jo de maximizar o poder do teste, dado um nível de significância do teste. Nestasubseção examinaremos como testar hipóteses para a média de uma população normal.

Uma estatística de teste, representada por T , é alguma função da amostra aleatória. Quando cal-culamos a estatística para um determinado resultado, obtemos um resultado da estatística de teste, quedenominaremos t .

Dada uma estatística de teste, podemos definir uma regra de rejeição que determine quando H0

deve ser rejeitada em favor de H1. Neste texto, todas as regras de rejeição são baseadas na comparaçãodo valor de uma estatística de teste, t , com um valor crí tico, c. Os valores de t que resultam na rejei-ção da hipótese nula são coletivamente conhecidos como região de rejeição. Para determinarmos ovalor crí tico, primeiro devemos decidir sobre um nível de significância do teste. Em seguida, dado a,o valor crí tico associado com a é determinado pela distribuição de T , assumindo que H0 seja verdadeira.Escreveremos esse valor crí tico como c, omitindo o fato de que ele depende de a.

Testar hipóteses sobre a média m de uma população Normal(m,s2) é simples. A hipótese nula édefinida como

H0: m m0, (C.31)

em que m0 é um valor que especificamos. Na maioria das aplicações, m0 0, mas o caso generaliza-do não é mais difí cil do que isso.

A regra de rejeição que escolheremos dependerá da natureza da hipótese alternativa. As três alter-nativas de interesse são

H1: m m0, (C.32)

H1: m m0, (C.33)

e

H1: m ∞ m0. (C.34)

Apêndice C Fundamentos de Estatística Matemática 81

Page 82: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 82/134

A equação (C.32) produz uma alternativa unilateral, como também (C.33). Quando a hipótese alter-nativa for (C.32), a hipótese nula será efetivamente H0: m m0, já que somente rejeitaremos H0 quandom m0. Isso será apropriado quando estivermos interessados no valor de m somente quando m for pelomenos tão grande quanto m0. A equação (C.34) é uma alternativa bilateral. Ela será apropriada quandoestivermos interessados em qualquer desvio da hipótese nula.

Considere primeiro a alternativa (C.32). Intuitivamente, deveríamos rejeitar H0 em favor de H1

quando o valor da média amostral, – y, fosse “suficientemente” maior que m0. Mas como devemos deter-minar quando – y é grande o suficiente para que H0 seja rejeitada ao nível de significância escolhido? Isso requer que se conheça a probabilidade de rejeitar a hipótese nula quando ela for verdadeira. Em vez detrabalhar diretamente com – y, usamos sua versão padronizada, na qual s é substituí do pelo desvio- padrão amostral, s:

t  (– y m0)/ s (– y m0)/ep(– y ), (C.35)

em que ep(– y) s / é o erro-padrão de – y . Dada a amostra de dados, é fácil obter t . A razão pela qualtrabalhamos com t é que, de acordo com a hipótese nula, a variável aleatória

T  (Y  m0)/ S

tem uma distribuição t n1. Agora, suponha que tenhamos nos fixado em um nível de significância de5%. Então, o valor crí tico c será determinado de forma que P(T  c |H0) 0,05; ou seja, a probabili-dade de um erro tipo I é de 5%. Uma vez encontrado c, a regra de rejeição será

t  c, (C.36)

em que c é o percentil 100(1 a) em uma distribuição t n1; em forma de porcentagem, o nível de sig-nificância é 100 a%. Esse é um exemplo de um teste monocaudal, pois a região de rejeição está emuma extremidade da distribuição t . Para um nível de significância de 5%, c será o 95o percentil na dis-tribuição t n1; isso está ilustrado na Figura C.5. Um nível diferente de significância leva a um valorcrí tico diferente.

A estatística na equação (C.35) muitas vezes é chamada de estatística  t para testar H0: m m0.A estatística t mede a distância de – y a m0 em relação ao erro-padrão de – y, ep(– y).

EXEMPLO C.4

(Efeito das Zonas Industriais sobre os Investimentos Empresariais)

Na população de cidades onde foram criadas zonas industriais em determinado estado [veja o caso de Indianaem Papke (1994)], seja Y a mudança percentual nos investimentos do ano anterior ao ano posterior em que

uma cidade se tornou uma zona industrial. Assuma que Y tem uma distribuição Normal(m,s2

). A hipótese nulade que zonas industriais não têm efeito nos investimentos é H0: m 0; a alternativa de que elas têm um efei-to positivo é H1: m 0. (Assumimos que elas não têm um efeito negativo). Suponha que queremos testar H0

ao nível de 5%. O teste estatístico nesse caso será

(C.37).t  y

s /  n√

 y

ep( y)

√n

√n

√n

.t  y

s /  n√

 y

ep( y)

√n

√n

√n

82 Introdução à Econometria

Page 83: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 83/134

EXEMPLO C.4 (continuação)

Figura C.5

Região de rejeição para um teste ao nível de significância de 5% contra a alternati va unilateral m m0.

Suponha que temos uma amostra de 36 cidades onde foram criadas zonas industriais. Nesse caso, o valor crí-tico será c  1,69 (veja Tabela G.2), e rejeitamos H0 em favor de H1 se t  1,69. Suponha que a amostra pro-

duza – y  8,2 e s 23,9. Então, t  2,06 e H0 será, portanto, rejeitada ao nível de 5%. Assim, concluímosque, ao nível de significância de 5%, as zonas industriais têm um efeito sobre o investimento médio. O valorcrítico de 1% será 2,44, e, portanto, H0 não será rejeitada ao nível de 1%. A mesma limitação do Exemplo C.2é válida neste caso: não controlamos os outros fatores que possam afetar o investimento nas cidades ao longodo tempo, e, portanto, não podemos afirmar que o efeito seja causal.

A regra de rejeição é semelhante para a alternativa unilateral (C.33). Um teste com nível de sig-nificância 100 a% rejeitará H0 contra (C.33) sempre que

t  c; (C.38)

em outras pala vras, esta mos pro curan do por valo res nega ti vos da esta tís tica t — o que impli ca que– y m0 — que este jam suficientemente distantes de zero para rejeitar H0.

Para alternativas bilaterais, devemos ter cuidado na escolha do valor crí tico, de forma que o nívelde significância do teste ainda seja a. Se H1 for dada por H1: m ∞ m0, então, rejeitaremos H0 se – y esti-ver distante da m0 em valor absoluto: um – y muito maior ou muito menor que m0 fornece evidência con-tra H0 em favor de H1. Um nível 100 a% para o teste é obtido pela regra de rejeição

Área 0,95

Área 0,05

0

C rejeição

Área 0,95

Área 0,05

0

C rejeição

Apêndice C Fundamentos de Estatística Matemática 83

Page 84: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 84/134

| t | c, (C.39)

em que | t | é o valor abso lu to da esta tís ti ca t em (C.35). Isso pro duz um teste bicau dal. Agora pre-ci sa mos ser cui da dosos na esco lha do valor crí ti co: c é o 100(1 a /2) per cen til na dis tri bui çãot n1. Por exem plo, se a 0,05, então, o valor crí ti co será o 97,5o per cen til na dis tri bui ção t n1.Isso garan te que H0 será rejei ta da em somen te 5% das vezes quan do ela for ver da dei ra (veja aFigura C.6). Por exem plo, se n 22, então, o valor crí ti co c será 2,08, o 97,5o percentil em uma dis-tribuição t 21 (veja a Tabela G.2). O valor abso lu to da esta tís ti ca t deve exce der 2,08 para rejei tar H0

con tra H1 ao nível de 5%.É importante conhecer a linguagem apropriada dos testes de hipóteses. Algumas vezes, a frase

apropriada “não podemos rejeitar H0 em favor de H1 ao nível de significância de 5%” é substituí da por“aceitamos H0 ao nível de significância de 5%”. A última construção é incorreta. Com o mesmo con- junto de dados, geralmente existem muitas hipóteses que não podem ser rejeitadas. No exemplo ante-rior das eleições, seria logicamente inconsistente dizer que H0: u 0,42 e H0: u 0,43 são ambas“aceitas”, pois somente uma delas pode ser verdadeira. Entretanto, é completamente possí vel que

nenhuma dessas hipóteses seja rejeitada. Por essa razão, sempre dizemos “não ser possí vel rejeitar H0”em vez de “aceitar H0”.

Figura C.6

Região de rejeição para um teste ao nível de significância de 5% contra a alternati va bilateral H1: m ∞ m0.

região derejeição

Área 0,025 Área 0,025

Área 0,95

C

0 região derejeiçãoC

região derejeição

Área 0,025 Área 0,025

Área 0,95

C

0 região derejeiçãoC

84 Introdução à Econometria

Page 85: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 85/134

Testes Assimptóticos para Populações Não Normais

Se o tamanho da amostra for suficientemente grande para invocar o teorema do limite central (vejaSeção C.3), a mecânica dos testes de hipóteses de médias populacionais será a mesma, seja ou não nor-

mal a distribuição amostral. A justificação teórica vem do fato que, de acordo com a hipótese nula,

T  (Y  m0)/ S a

˜ Normal(0,1).

Portanto, com n grande, podemos comparar a estatística t em (C.35) com os valores crí ticos deuma distribuição normal-padrão. Como a distribuição t n1 converge para a distribuição normal-padrãoà medida que n vai ficando maior, os valores crí ticos de t e da distribuição normal-padrão ficarão muitopróximos com n extremamente grande. Como a teoria assimptótica é baseada em n crescendo sem limi-tes, ela não pode nos informar quais valores crí ticos são os melhores, se da normal-padrão ou de t . Paravalores moderados de n, digamos entre 30 e 60, é tradicional usar a distribuição t, pois sabemos queela é correta para populações normais. Para n 120, a escolha entre as distribuições t e normal-padrãoé largamente irrelevante, porque os valores crí ticos são praticamente os mesmos.

Como os valores crí ticos escolhidos usando a distribuição normal-padrão ou a distribuição t serãosomente aproximadamente válidos para populações não normais, nosso níveis de significância escolhi-dos serão também apenas aproximados; assim, para populações não normais, nossos níveis de signifi-cância serão realmente assimptóticos. Dessa forma, se escolhermos um nível de significância de 5%,mas nossa população for não normal, então, o nível de significância efetivo será maior ou menor que5% (e não teremos como saber qual será o caso). Quando o tamanho da amostra é grande, o nível designificância efetivo estará muito próximo de 5%. De modo prático, a distinção não é importante, e,portanto, não mais usaremos a qualificação “assimptótico”.

EXEMPLO C.5

(Discriminação Racial na Contratação de Trabalhadores)

No estudo do Urban Institute sobre a discriminação racial na contratação de trabalhadores (veja o exemploC.3), estamos essencialmente interessados em testar H0: m 0 contra H1: m 0, em que m uN  uB éa diferença em probabilidades de que negros e brancos recebam ofertas de emprego. Recorde que m é amédia populacional da variável Y  N  B, em que N e B são indicadores binários. Usando as n 241comparações de duplas, obtivemos – y  0,133 e ep(– y ) 0,482/ 0,031. A estatística t para tes-tar H0: m 0 é t  0,133/0,0314,29. Você se lembrará do Apêndice B que a distribuição normal--padrão é, para propósitos práticos, indistinguível da distribuição t com 240 graus de liberdade. O valor4,29 está tão distante da extremidade esquerda da distribuição que rejeitamos H0 a qualquer nível razoá-vel de significância. Aliás, o valor crítico (do teste unilateral) de 0,005 (metade de um porcento) está em tornode 2,58. Um valor t de 4,29 é evidência muito forte contra H0 em favor de H1. Portanto, concluímos queexiste discriminação na contratação de trabalhadores.

Cálculo e Uso de  p-Valores

O requi si to tra di cional de se esco lher um nível de sig ni fi cân cia antes do tempo quer dizer que dife-rentes pesqui sa do res, usan do os mes mos dados e o mesmo proce di men to para testar a mesma hipó-te se pode riam ter mi nar com con clu sões diferen tes. A divulga ção do nível de signi fi cân cia no qual

√241

√n

√241

√n

Apêndice C Fundamentos de Estatística Matemática 85

Page 86: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 86/134

esta mos fazen do nosso teste resol ve este pro blema até certo ponto, mas não eli mi na com ple ta men teo pro ble ma.

Para fornecer mais informação, podemos fazer a seguinte pergunta: qual é o maior nível de signi-ficância no qual poderíamos conduzir nosso teste e ainda não conseguir rejeitar a hipótese nula? Essevalor é conhecido como o  p-valor de um teste (algumas vezes chamado de prob-valor ). Comparadocom a escolha de um nível de significância antes do tempo e a obtenção de um valor crí tico, calcularum p-valor é um pouco mais difí cil. Entretanto, com o advento da computação rápida e barata, p-valo-res são agora razoavelmente fáceis de serem obtidos.

Como ilustração, considere o problema de testar H0: m 0 em uma população Normal(m,s2). Nossaestatística de teste nesse caso será T  ⋅

Y  / S, e assumimos que n é grande o suficiente para tratar T 

como uma distribuição normal-padrão sob H0. Suponha que o valor observado de T para nossa amostraseja t  1,52. (Observe como pula mos o passo da esco lha de um nível de sig ni fi cância.) Agora que já vimos o valor t , pode mos encon trar o maior nível de signi fi cân cia no qual não con segui ría mosrejei tar H0. Esse será o nível de signifi cân cia associado ao uso de t como nosso valor crí tico. Comonosso teste esta tís tico T tem uma dis tri buição normal-padrão sob H0, teremos

 p-valor P(T  1,52|H0) 1 (1,52) 0,065, (C.40)

em que () representa a fdc normal-padrão. Em outras palavras, o p-valor neste exemplo é simplesmen-te a área à direita de 1,52, o valor observado da estatística de teste, em uma distribuição normal-padrão.Veja a Figura C.7 a título de ilustração.

Como p-valor 0,065, o maior nível de sig ni fi cância no qual pode re mos conduzir este teste enão con seguir rejeitar H0 será de 6,5%. Se exe cutar mos o teste a um nível abai xo de 6,5% (como, porexemplo, 5%), não rejeitaremos H0. Se executarmos o teste a um nível maior que 6,5% (como, por exem-plo,10%), rejeitaremos H0. Com o p-valor à mão, poderemos conduzir o teste em qualquer nível.

O p-valor nesse exemplo tem outra interpre tação útil: ele é a probabilidade de que observemosum valor de T tão gran de quanto 1,52 quando a hipótese nula for ver dadeira. Se a hipó tese nula for

efeti vamente verda dei ra, observa re mos um valor de T  tão grande quanto 1,52 devido ao acaso desomente em 6,5% das vezes. Se isso será sufi cien te men te peque no para rejeitar H0 depende rá de nossatole rância de um erro tipo I. O  p-valor tem uma interpretação seme lhante em todos os outros casos,como vere mos.

De forma geral, p-valores pequenos são evidência contra H0, já que eles indicam que o resultadodos dados ocorrerá com pequena probabilidade se H0 for verdadeira. No exemplo anterior, se t tivesseum valor maior, digamos t  2,85, então, o p-valor teria sido 1 (2,85) 0,002. Isso significariaque, se a hipótese nula fosse verdadeira, observaríamos um valor de T tão grande quanto 2,85 com pro-babilidade 0,002. Como interpretamos isso? Ou obtivemos uma amostra bastante incomum ou a hipó-tese nula é falsa. A menos que tivéssemos uma tolerância muito pequena para um erro tipo I, teríamosrejeitado a hipótese nula. Por outro lado, um p-valor grande é uma fraca evidência contra H0. Se tivés-semos obtido t  0,47 no exemplo anterior, então, p-valor 1 (0,47) 0,32. A observação deum valor de T maior que 0,47 aconteceria com probabilidade 0,32, mesmo quando H0 fosse verdadei-ra; isso seria suficientemente grande para que não houvesse dúvida quanto a H0, a menos que tivésse-mos uma tolerância muito alta para o erro tipo I.

Para testarmos hipóteses sobre uma média populacional usando a distribuição t , precisamos detabelas detalhadas para computar p-valores. A Tabela G.2 somente nos possibilita colocar delimitadoresnos p-valores. Felizmente, muitos programas estatísticos e econométricos agora computam p-valoresde forma rotineira, e eles também fornecem cálculos de fdcs para a distribuição t e outras usadas nacomputação dos p-valores.

√n√n

86 Introdução à Econometria

Page 87: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 87/134

Apêndice C Fundamentos de Estatística Matemática 87

Figura C.7

O  p-valor quando t  1,52 para a alternati va unilateral m m0.

EXEMPLO C.6

(Efeitos dos Subsídios de Treinamento de Pessoal sobre a Produtividade dos Trabalhadores)

Considere novamente os dados de Holzer et al. (1993) no Exemplo C.2. De uma perspectiva de plane jamento,há duas questões de interesse. Primeiro, qual será nossa melhor estimativa da alteração da média nas taxas

de rejeição, m? Já obtivemos isso para a amostra de 20 empresas listadas na Tabela C.3: a média amostralda alteração nas taxas de rejeição foi de 1,15. Em relação à taxa média de rejeição inicial em 1987, issorepresenta uma queda na taxa de rejeição de cerca de 26,3% (1,15/4,38 0,263) que é um efeitonada desprezível.

Também gostaríamos de saber se a amostra fornece forte evidência de um efeito na população deempresas industriais que poderiam ter recebido subsídios de treinamento de pessoal. A hipótese nula é H0:m 0, que foi testada contra H1: m 0, onde m é a alteração média nas taxas de rejeição. Sob a hipótesenula, os subsídios de treinamento de pessoal não têm efeito sobre as taxas de rejeição. A hipótese alterna-tiva estabelece que existe um efeito. Não nos importamos com a alternativa m 0, de modo que a hipótesenula será efetivamente H0: m 0.

Como – y  1,15 e ep(– y ) 0,54, t  1,15/0,54 2,13. Esse valor está abaixo do valor críticode 1,73 ao nível de 5% (de uma distribuição t 19), mas acima do valor crítico de 2,54. O p-valor nesse

caso será computado da seguinte forma

 p-valor P(T 19 2,13), (C.41)

em que T 19 representa uma variável aleatória com distribuição t , com 19 graus de liberdade. A desigualda-de é o oposto de (C.40), pois a hipótese alternativa tem a forma de (C.33). A probabilidade em (C.41) é aárea à esquerda de 2,13 em uma distribuição t 19 (veja a Figura C.8).

0 1,52

área 0,065

 p-valor 

0 1,52

área 0,065

 p-valor 

Page 88: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 88/134

EXEMPLO C.4 (continuação)

Usando a Tabela G.2, o máximo que poderemos dizer é que o p-valor estará entre 0,025 e 0,01, masele estará mais próximo de 0,025 (já que o 97,5o percentil é cerca de 2,09). Utilizando um programa esta-

tístico, como o Stata, podemos computar o p-valor exato. Ele será 0,023, que é evidência razoável contra H0.Isso certamente é evidência suficiente para rejeitar a hipótese nula de que os subsídios de treinamento depessoal não têm qualquer efeito ao nível de significância de 2,5% (e, portanto, ao nível de 5%).

O cálculo de um p-valor para um teste bilateral é semelhante, mas devemos considerar a naturezabilateral da regra de rejeição. Para testes t sobre médias populacionais, o p-valor é computado como

P(|T n1 | | t |) 2P(T n1 | t |), (C.42)

em que t é o valor da estatística do teste e T n1 é uma variável aleatória t . (Para n grande, substituaT n1 por uma variável aleatória normal-padrão). Assim, compute o valor absoluto da estatística t ,encontre a área à direita desse valor em uma distribuição t n1, e multiplique a área por dois.

Figura C.8

O  p-valor quando t  2,13 com 19 graus de liberdade para a alternati va unilateral μ  0.

Para populações não normais, o p-valor exato pode ser difí cil de ser obtido. No entanto, podemosencontrar  p-valores assimptóticos usando os mesmos cálculos. Esses  p-valores serão válidos paraamostras de tamanhos grandes. Para n maior que, digamos, 120, também é possí vel usar a distribuiçãonormal-padrão. A Tabela G.1 é suficientemente detalhada para obtermos p-valores exatos, mas tambémpodemos usar um programa estatístico ou econométrico.

área  p-valor  0,023

2,13 0

área  p-valor  0,023

2,13 0

88 Introdução à Econometria

Page 89: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 89/134

EXEMPLO C.7

(Discriminação Racial na Contratação de Trabalhadores)

Usando os dados pareados do Urban Institute (n 241), obtivemos t  4,29. Se Z for uma variável alea-tória normal-padrão, P( Z   4,29) será, em sentido prático, zero. Em outras palavras, o p-valor (assimptó-tico) deste exemplo será em essência zero. Isso será evidência bastante forte contra H0.

RESUMO SOBRE COMO UTILIZAR  p-VALORES(i) Escolha um teste estatístico T e decida sobre a natureza da alternativa. Isso determinará se a

regra de rejeição será t  c, t  c, ou | t | c.(ii) Use o valor observado da estatística t como o valor crí tico e calcule o nível de significância

correspondente do teste. Esse será o p-valor. Se a regra de rejeição for da forma t  c, então, p-valor P(T  t ). Se a regra de rejeição for t  c, então, p-valor P(T  t ); se a regra de rejei ção for| t | c, então, p-valor P(|T | | t |).

(iii) Se um nível de significância a tiver sido escolhido, então, rejeitaremos H0 ao nível 100a%se p-valor a. Se p-valor a, então, não podemos rejeitar H0 ao nível 100α %. Portanto, um p-valorpequeno leva à rejeição de H0.

A Relação entre Intervalos de Confiança e Testes de Hipóteses

Como tanto a construção de intervalos de confiança como de testes de hipóteses envolvem definiçõesde probabilidade, é natural pensar que eles sejam de alguma forma interligados. Realmente, eles sãorelacionados. Após um intervalo de confiança ter sido construí do, podemos conduzir uma diversidadede testes de hipóteses.

Os intervalos de confiança sobre os quais temos discutido são todos de natureza bilateral. (Nestelivro, não teremos a necessidade de construir intervalos de confiança unilaterais.) Assim, intervalos deconfiança podem ser usados para testes contra alternativas bilaterais. No caso de uma média popula-cional, a hipótese nula é dada por (C.31), e a alternativa é (C.34). Suponha que tenhamos construí doum intervalo de confiança de 95% para m. Então, se o valor hipotético de m sob H0, m0, não for o inter-valo de confiança, então, H0: m m0 será rejeitada contra H1: m ∞ m0 ao nível de 5%. Se m0 perma-necer nesse intervalo, não poderemos rejeitar H0 ao nível de 5%. Observe como qualquer valor de m0

pode ser testado uma vez tenha sido construí do um intervalo de confiança, e como um intervalo de con-fiança contém mais de um valor, haverá muitas hipóteses nulas que não serão rejeitadas.

EXEMPLO C.8

(Subsídios de Treinamento e Produtividade dos Trabalhadores)

No exemplo de Holzer et al., construímos um intervalo de confiança de 95% para a alteração média na taxa

de rejeição m como [2,28,0,02]. Como o zero foi excluído desse intervalo, rejeitamos H0: m 0 contraH1: m ∞ 0 no nível de 5%. Esse intervalo de confiança de 95% também significa que não podemos rejeitarH0: m 2 no nível de 5%. De fato, existirá uma série contínua de hipóteses nulas que não serão rejeita-das, dado esse intervalo de confiança.

Apêndice C Fundamentos de Estatística Matemática 89

Page 90: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 90/134

Significância Prática versus Estatística

Nos exemplos utilizados até agora, produzimos três tipos de evidências concernentes aos parâmetrospopulacionais: estimativa por ponto, intervalos de confiança e testes de hipóteses. Essas ferramentas

para obter informações sobre os parâmetros populacionais são igualmente importantes. Existe umacompreensí vel tendência dos estudantes de se concentrarem nos intervalos de confiança e nos testes dehipóteses, pois são coisas às quais podemos anexar níveis de confiança ou de significância. Mas emqualquer trabalho precisamos também interpretar as magnitudes das estimativas por ponto.

O sinal e a magnitude da – y determina sua significância prática e nos permite examinar uma inter-venção ou um efeito político, e se o efeito estimado é “grande” ou “pequeno”. Por outro lado, a sig-

nificância estatística da – y depende da magnitude de sua estatística t . Para testar H0: m 0, a estatísti-ca t é simplesmente t  – y /ep(– y). Em outras palavras, a significância estatística depende da razão de – ycom seu erro-padrão. Consequentemente, uma estatística t pode ser grande, pois – y é grande ou ep(– y)é pequena. Em aplicações, é importante examinarmos tanto a significância prática como a significân-cia estatística, estando ciente de que uma estimativa pode ser estatisticamente significante sem serespecialmente grande num sentido prático. Se uma estimativa é importante praticamente depende do

contexto como também de nosso julgamento. Assim não existem regras definidas para determinar asignificância prática.

EXEMPLO C.9

(Efeito da Largura de Rodovias sobre o Tempo de Viagem)

Seja Y a alteração no tempo de via gem, medi da em minutos, de via jantes em uma área metro poli ta na, doperío do anterior ao perío do poste rior do alarga mento de uma rodovia. Assuma que Y  Normal(m,s2). Ahipó te se nula de que o alargamento não reduz o tempo de via gem será H0: m 0; a alter na tiva que elereduz o tempo de via gem será H1: m 0. Suponha que uma amos tra aleató ria de via jan tes de tama nhon 900 foi obtida para determi nar a efeti vida de do pro jeto da rodo via. A alte ração média no tempo devia gem será com puta da como – y  3,6, e o desvio-padrão da amos tra será  s 32,7; assim, ep(– y )

32,7/1 —

900  1,09. A estatística t será 3,61/1,093,30, que é bem significante estatisticamente; op -valor será em essência 0,0005. Assim, concluímos que o alargamento da rodovia terá um efeito significan-te sobre o tempo médio de viagem.

Se o resultado do teste de hipótese for tudo o que foi divulgado sobre o trabalho, ele será enganoso.Divulgar somente a significância estatística mascara o fato de que a redução estimada de 3,6 minutos namédia do tempo de viagem é muito pequena. Para sermos honestos, deveremos informar a estimativa porponto de 3,6, com o teste de significância.

Encontrar estimativas por ponto que sejam estatisticamente significantes sem ter significânciaprática frequentemente ocorre quando trabalhamos com amostras grandes. Para discutir porque isso ocor-re, é útil termos a seguinte definição.

CONSISTÊNCIA DE UM TESTEUm teste consistente rejeita H0 com probabilidade que se aproxime de um conforme o tamanho daamostra cresce, sempre que H1 for verdadeira.

Uma outra maneira de dizer que um teste é consistente é que, conforme o tamanho da amostratende ao infinito, o poder do teste se aproxima cada vez mais da unidade, sempre que H1 for verdadeira.Todos os tes tes que exa mi namos neste livro têm essa proprie dade. No caso dos tes tes de hipóteses

90 Introdução à Econometria

Page 91: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 91/134

sobre uma média popula cio nal, a consis tên cia dos tes tes é uma con sequência, porque a variância deY con verge para zero con for me o tamanho da amos tra aumenta. A estatística t para testar H0: m 0é T 

Y  /(S / ). Como plim(Y ) m e plim(S) s, segue que se, digamos m 0, T vai ficando cada

vez maior (com alta probabilidade) conforme n → . Em outras palavras, independente de o quanto m

está perto de zero, podemos estar quase certos de que H0: m 0 será rejeitada, devido ao tamanho sufi-cientemente grande da amostra. Isso não fornece nenhuma informação sobre m ser grande em um sen-tido prático.

C.7 OBSERVAÇÕES SOBRE NOTAÇÃO

Em nossa revisão de probabilidade e estatística neste capítulo e no Apêndice B, tivemos o cuidado deusar convenções-padrão para representar variáveis aleatórias, estimadores e estatísticas de testes. Porexemplo, usamos W para indicar um estimador (variável aleatória) e w para representar uma estimativaespecí fica (resultado da variável aleatória W ). Fazer a distinção entre um estimador e uma estimativa éimportante para a compreensão de vários conceitos sobre estimação e testes de hipóteses. Porém, fazer

essa distinção de forma rápida se tornará um peso na análise econométrica, pois os modelos são maiscomplicados: muitos parâmetros e variáveis aleatórias estarão envolvidos, e a obediência às conven-ções habituais da probabilidade e da estatística exigirá muitos símbolos extras.

No texto principal, usamos uma convenção mais simples que é amplamente usada em econometria.Se u for um parâmetro populacional, a notação u (“teta chapéu”) será usada para representar tanto umestimador como uma estimativa de u. Essa notação é útil no sentido de que ela propicia uma maneirasimples de integrar um estimador ao parâmetro populacional que supostamente ela estará estimando.Assim, se o parâmetro populacional for b, então, b denotará um estimador ou uma estimativa de b; seo parâmetro for s

2, s2será um estimador ou uma estimativa de s

2; e assim por diante. Algumas vezes,examinaremos dois estimadores do mesmo parâmetro, caso em que necessitaremos de uma notaçãodiferente como, por exemplo, u (“teta til”).

Embora o abandono das convenções sobre probabilidade e estatística para indicar estimadores,

variáveis aleatórias e estatísticas de testes coloque mais responsabilidade sobre seus ombros, isso não seráum grande problema, uma vez que a diferença entre um estimador e uma estimativa seja compreendida.Se estivermos tratando das propriedades estatísticas de u — como, por exemplo, deduzir se ele é ou nãonão viesado ou consistente —, então, estaremos necessariamente vendo u como um estimador. Por outrolado, se escrevermos algo como u 1,73, então, representaremos claramente uma estimativa por pontoa partir de determinada amostra de dados. A confusão que pode surgir com o uso de u para representarambas será mínima se você tiver um bom entendimento de probabilidade e de estatística.

RESUMO

Discutimos sobre tópi cos de esta tísti ca mate má tica que são muito usa dos na aná li se eco nomé trica.

A noção de um esti ma dor, que é sim plesmen te uma regra de combi nação de dados para estimar umparâ me tro popu la cio nal, é funda men tal. Tratamos de várias proprie da des dos esti ma do res. As maisimpor tan tes pro prie da des das amos tras pequenas são a ine xis tên cia de viés e a efi ciên cia, sendo queesta últi ma depende das compa rações das variâncias quan do os estima do res forem não vie sa dos. Aspro prieda des das amos tras grandes rela cio nam-se com a sequência dos esti ma do res obti dos con for-me o tama nho da amos tra aumen ta, e em econome tria depende-se delas. Qualquer esti ma dor de valiaé con sis ten te. O teo re ma do limite cen tral impli ca que, em amos tras gran des, a distri bui ção amos tralda maio ria dos estimadores será aproxi ma damen te nor mal.

√n√n

Apêndice C Fundamentos de Estatística Matemática 91

Page 92: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 92/134

A distribui ção amostral de um esti ma dor pode ser usada para a construção de intervalos de con-fian ça. Vimos isso na estima ção da média de uma dis tribuição normal e no cál culo de intervalos deconfiança aproximados em casos não normais. O teste de hipótese clássico, que exige a especificaçãode uma hipótese nula, de uma hipótese alternativa e de um nível de significância, é executado compa-rando-se uma estatística de teste com um valor crí tico. Alternativamente, pode-se calcular um p-valorque nos possibilite conduzir um teste em qualquer nível de significância.

PROBLEMAS

C.1 Sejam Y 1, Y 2, Y 3 e Y 4 variáveis aleatórias independentes e identicamente distribuí das de uma

população com média m e variância representa a média dessas qua-

tro variáveis aleatórias.(i) Quais são o valor esperado e a variância de

Y em termos de m e s2?

(ii) Agora, considere um estimador diferente de m:

Esse é um exemplo de uma média ponderada dos Y i. Mostre que W também é um estima-dor não viesado de m. Encontre a variância de W .

(iii) Com base em suas respostas nas partes (i) e (ii), qual estimador de m você prefere, Y ou W ?

C.2 Esta é uma versão mais generalizada do Problema C.1. Sejam Y 1, Y 2, ..., Y n n variáveis aleató-rias não correlacionadas comparativamente, com média comum m e variância comum s2. Seja

Y amédia da amostra.

(i) Defina a classe dos estimadores lineares de m como

W a a1Y 1 a2Y 2 ... anY n,

em que os ai são constantes. Que restrição sobre os ai é necessária para que W a seja umestimador não-viesado de m?

(ii) Encontre Var(W a).(iii) Para quaisquer números a1, a2, ... , an, a seguinte desigualdade é válida: (a1 a2 ...

an)2 / n a2

1 a2

2 ... a2

n. Use isso, com as partes (i) e (ii), para mostrar que Var(W a) Var(Y ) sempre que W a for não viesado, de forma que

Y seja o melhor estimador linear 

não viesado. [Sugestão: Em que se transforma a desigualdade quando ai satisfaz a restri-ção da parte (i)?]

C.3 Seja Y a média amostral de uma amostra aleatória com média m e variância s2. Considere dois

estimadores alternativos de m: W 1 [(n 1)/ n] Y e W 2 Y  /2.(i) Mostre que W 1 e W 2 são ambos estimadores viesados de m e encontre os vieses. O que

acontece com os vieses conforme n → ? Comente sobre quaisquer diferenças importan-tes no viés para os dois estimadores conforme o tamanho da amostra aumenta.

(ii) Encontre os limites de probabilidade de W 1 e W 2. {Sugestão: Use as propriedades PLIM.1e PLIM.2; para W 1, observe que plim[(n 1)/ n] 1.} Qual estimador é consistente?

(iii) Encontre Var(W 1) e Var(W 2).

W Y 1 Y 2 Y 3 Y 4.1

2

1

4

1

8

1

8

2. Y  (Y1 Y2 Y3 Y4)

1

4

W Y 1 Y 2 Y 3 Y 4.1

2

1

4

1

8

1

8

2. Y  (Y1 Y2 Y3 Y4)

1

4

92 Introdução à Econometria

Page 93: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 93/134

(iv) Demonstre que W 1 é um estimador melhor que Y  se m estiver “próximo” de zero.

(Considere tanto o viés como a variância.)

C.4 Para variáveis aleatórias positivas X e Y , suponha que o valor esperado de Y , dado X , seja E(Y | X )

u X . O parâmetro desconhecido u mostra como o valor esperado de Y muda com X .(i) Defina a variável aleatória Z  Y  /  X . Mostre que E( Z ) u. [Sugestão: Use a PropriedadeEC.2 em con junto com a lei das expectativas iteradas, a Propriedade EC.4. Em particular,primeiro mostre que E( Z | X ) u e, então, use EC.4.]

(ii) Utilize a parte (i) para provar que o estimador é não viesado para u,

quando {( X i,Y i): i 1, 2, ..., n} for uma amostra aleatória.(iii) Explique por que o estimador W 2

Y  /  X , onde as barras superiores significam médias das

amostras, não é o mesmo que W 1. Apesar disso, mostre que W 2 também é não viesado para u.(iv) A tabela seguinte contém dados sobre a produção de milho de diversas regiões de Iowa.

O United States Department of Agriculture (USDA) faz a previsão dos hectares1 de milhoem cada região com base em fotos de saté li te. Os pes qui sa do res con tam o núme ro de

“ pixels2

” de milho na foto do satélite (em oposição a, por exemplo, número de pixels desoja ou de terra não cultivada) e usam esses números para prognosticar o número efetivode hectares. Para desenvolver uma equação de previsão para ser usada de forma generali-zada para as regiões, o USDA entrevistou agricultores em regiões selecionadas para obtera produção de milho em hectares. Seja Y i produção de milho na região i e X i núme-ro de pixels de milho na foto do satélite da região i. Existem n 17 observações de oito regiões. Utilize essa amostra para computar as estimativas de u desenvolvidas nas partes(ii) e (iii). As estimativas são semelhantes?

W 1 n1

(Y i X i)Σn

i 1

W 1 n1

(Y i X i)Σn

i 1

Apêndice C Fundamentos de Estatística Matemática 93

Imagem Produção de Milho Pixels de Milho

1 165,76 374

2 96,32 209

3 76,08 253

4 185,35 432

5 116,43 367

6 162,08 361

7 152,04 288

8 161,75 369

9 92,88 206

10 149,94 316

1 Medida agrária igual a 10.000 metros quadrados. (N. do T.)2 Unidade de informação que descreve um ponto em uma imagem gráfica computadorizada; é o menor ponto

de luz cuja cor e luminosidade podem ser controlados na tela. (N. do T.)

(Continua...)

11 64,75 145

Page 94: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 94/134

12 127,07 35513 133,55 295

14 77,70 223

15 206,39 459

16 108,33 290

17 118,17 307

C.5 Seja Y uma variável alea tó ria de Bernoulli(u) com 0 u 1. Suponha que estamos interessa-dos em esti mar a razão de pro babi li dades, g u /(1 u), que é a proba bilida de de êxito sobre aprobabilida de de fracasso. Dada uma amostra aleatória {Y 1, ..., Y n}, sabe mos que um esti mador

con sistente e não viesa do de u éY , a pro porção de êxitos em n ten tati vas. Um estima dor natural de

g é G Y  /(1

Y ), a propor ção de êxitos sobre a propor ção de fracassos na amos tra.

(i) Por que G não é um estimador não viesado de g?(ii) Use PLIM.2(iii) para mostrar que G é um estimador consistente de g.

C.6 Você foi contratado pelo governador para examinar se um imposto sobre bebidas alcoólicasreduziu o consumo de bebidas alcoólicas em seu estado. Você tem condições de obter, para umaamostra de pessoas selecionadas aleatoriamente, a diferença no consumo de bebidas alcoólicas (emonças) dos anos anterior e posterior à instituição do imposto. Para i-ésima pessoa que foi extraí da alea-toriamente da amostra da população, Y i representa a alteração no consumo de bebidas alcoólicas.Trate-as como uma amostra aleatória de uma distribuição Normal(m,s2).

(i) A hipótese nula é que não houve mudança na média de consumo de bebidas alcoólicas.Represente isso formalmente, em termos de m.

(ii) A hipótese alternativa é que houve um declí nio no consumo de bebidas alcoólicas; esta-beleça a hipótese alternativa em termos de m.(iii) Agora suponha que o tamanho de sua amostra seja n 900 e que você obtenha as esti-

mativas – y 32,8 e s 466,4. Calcule a estatística t do teste de H0 contra H1; obtenhao p-valor do teste. (Devido ao grande tamanho da amostra, use apenas a distribuição nor-mal-padrão tabulada na Tabela G.1.) Você rejeita H0 ao nível de 5%? E ao nível de 1%?

(iv) Você diria que a queda estimada do consumo é grande, em magnitude? Comente sobre asignificância prática ver sus a significância estatística dessa estimativa.

(v) O que foi implicitamente assumido em sua análise sobre outros determinantes do consu-mo de bebidas alcoólicas ao longo do período de dois anos, para inferir causalidade entrea alteração do imposto e o consumo de bebidas alcoólicas?

C.7 A nova administração de uma padaria alega que os trabalhadores agora são mais produtivos do

que eram sob a administração anterior, razão pela qual os salários foram “aumentados de formageral”. Sejam W bi o salário do trabalhador i sob a administração antiga e o salário do trabalhador i

após a mudança. A diferença será Di W ai W bi . Assuma que os Di são uma amostra aleatória deuma distribuição Normal(m,s2).

(i) Usando os dados seguintes de 15 trabalhadores, construa um intervalo de confiança exatode 95% para m.

(ii) Escreva formalmente a hipótese nula de que não houve alteração na média dos salários.Em particular, qual é o E( Di) de acordo com H0? Se você fosse contratado para verificar

94 Introdução à Econometria

Imagem Produção de Milho Pixels de Milho

(...continuação)

Page 95: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 95/134

Jogador AT – AC

Mark Price 429-188

Trent Tucker 833-345

Dale Ellis 1.149-472

Craig Hodges 1.016-396

Danny Ainge 1.051-406

Byron Scott 676-260

Reggie Miller 416-159

Larry Bird 1.206-455

Jon Sundvold 440-166

Brian Tayllor 417-157

C.8 O jornal The New York Times (05/02/1990) publicou a atuação dos dez melhores arremessado-res de três pontos da NBA. A tabela seguinte resume esses dados:

 Nota: AT arremessos tentados e AC arremessos convertidos. Nota: AT arremessos tentados e AC arremessos convertidos.

a validade da alegação da nova administração, qual seria a hipótese alternativa relevanteem termos de m E( Di)?

(iii) Teste a hipótese nula da parte (ii) contra a alternativa declarada, aos níveis de 5% e 1%.(iv) Obtenha o p-valor do teste na parte (iii).

Apêndice C Fundamentos de Estatística Matemática 95

3 9,00 9,25

4 10,50 10,00

5 11,40 12,00

6 8,75 9,50

7 10,00 10,25

8 9,50 9,50

9 10,80 11,50

10 12,55 13,10

11 12,00 11,50

12 8,65 9,00

13 7,75 7,75

14 11,25 11,50

15 12,65 13,00

Trabalhador Salário Antes Salário Depois

1 8,30 9,25

2 9,40 9,00

Page 96: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 96/134

Para um determinado jogador, o resultado de um arremesso especí fico pode ser modelado como umavariável de Bernoulli (zero-um): se Y i for o resultado do arremesso i, então, Y i 1 se o arremessofor convertido, e Y i 0 se o arremesso foi perdido. Seja u a probabilidade de conversão de qualquerdeterminada tentativa de arremesso de três pontos. O estimador natural de u será

Y  AC  /  AT .(i) Estime u para Mark Price.(ii) Encontre o desvio-padrão do estimador

Y em termos de u e o número de arremessos ten-tados, n.

(iii) A distribuição assimptótica de (Y  u)/ep(Y ) será normal-padrão quando ep(Y )

Use esse fato para testar H0: u 0,5 contra H1: u 0,5 para Mark Price.Use um nível de significância de 1%.

C.9 Suponha que um ditador militar de um país sem nome promova um plebiscito (um voto de con-fiança sim/não) e afirme que teve o apoio de 65% dos votantes. Um grupo de direitos humanos sus-peita que houve jogo sujo e contrata você para verificar a validade da afirmação do ditador. Você temum orçamento que lhe possibilita fazer uma amostragem aleatória de 200 votantes no país.

(i) Defina X como o número de votos sim obtidos da amostra aleatória de 200 de toda a popu-lação votante. Qual será o valor esperado de  X se, realmente, 65% de todos os votantesapoiaram o ditador?

(ii) Qual será o desvio-padrão de X , novamente assumindo que a fração verdadeira de votossim tenha sido 0,65?

(iii) Agora, você coleta sua amostra de 200, e descobre que 115 pessoas efetivamente votaramsim. Use o TLC para aproximar a probabilidade de que você encontraria 115 ou menosvotos sim de uma amostra aleatória de 200 se, realmente, 65% de toda a população tivessevotado sim.

(iv) Como você explicaria a relevância do número na parte (iii) para alguém que não temconhecimento de estatística?

C.10 Antes de uma greve ter prematuramente terminado com a temporada de 1994 da liga principalde beisebol, Tony Gwynn, do San Diego Padres, tinha 165 rebatidas válidas em 419 rebatidas, para

uma média de reba tidas de 0,394. Houve muita discus são se Gwynn seria um rebatedor potencialde 0,400 rebatidas válidas naquele ano. Esse problema pode ser expresso em termos da probabilidadede Gwynn fazer uma rebatida válida em uma de suas oportunidades de rebater; vamos chamá-la u.Seja Y i o indicador Bernoulli(u) igual a unidade se Gwynn fizer uma rebatida válida na sua i-ésimavez de rebater, e zero, caso contrário. Então, Y 1, Y 2, ..., Y n será uma amostra aleatória de uma distri-buição de Bernoulli, em que u será a probabilidade de êxito, e n 419.

Nossa melhor estimativa por ponto de u será a média de rebatidas de Gwynn, que simplesmenteserá a proporção dos êxitos: – y 0,394. Usando o fato de que construa um inter-valo de confiança aproximado de 95% para u, usando a distribuição normal-padrão. Você diria que háforte evidência contra a possibilidade de que Gwynn teria sido um rebatedor potencial de 0,400 reba-tidas válidas? Explique.

ep(– y ) , y√ (1  y)/ n

.Y √ (1 Y )/ n

ep(– y ) , y√ (1  y)/ n

.Y √ (1 Y )/ n

96 Introdução à Econometria

Page 97: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 97/134

Este apêndice resume os conceitos de álgebra matricial, inclusive da álgebra de probabilidade,necessária para o estudo de modelos de regressão linear múltipla usando matrizes, do Apêndice E.Nada deste material é usado no texto principal.

D.1 DEFINIÇÕES BÁSICAS

DEFINIÇÃO D.1 (MATRIZ)Uma matriz é um arran jo retangular de números. Mais precisamente, uma matriz m n tem m  linhas e n

colunas. O inteiro positivo m é denominado dimensão da linha, e n é denominado dimensão da coluna.Usamos letras maiúsculas em negrito para representar as matrizes. Podemos escrever, de forma

geral, uma matriz de ordem m n como

em que aij

representa o elemento na i-ésima linha e na j

-ésima coluna. Por exemplo, a25

corresponde aonúmero na segunda linha e na quinta coluna de A. Um exemplo especí fico de uma matriz 2 3 é

(D.1)

em que a13

7. A forma abreviada A [aij] é frequentemente usada para definir operações de matrizes.

DEFINIÇÃO D.2 (MATRIZ QUADRADA)

Uma  matriz quadrada tem o mesmo número de linhas e colunas. A dimensão de uma matriz quadradaé dada por seus números de linhas e colunas.

DEFINIÇÃO D.3 (VETORES)(i) Uma matriz 1 m é chamada vetor linha (de dimensão m) e pode ser escrita como x ( x

1, x

2, ..., x

m).

A , 2

4

1

5

7

0

A [aij] ,a

11

a21

:

am

1

a12

a22

am

2

a13

a23

am

3

a1n

a2n

amn

A , 2

4

1

5

7

0

A [aij] ,a

11

a21

:

am

1

a12

a22

am

2

a13

a23

am

3

a1n

a2n

amn

D

97

Resumo de Álgebra Matricial

Page 98: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 98/134

(ii) Uma matriz n 1 é chamada vetor coluna e pode ser escrita como

DEFINIÇÃO D.4 (MATRIZ DIAGONAL)Uma matriz quadrada  A é uma  matriz diagonal quando todos os seus elementos fora da diagonalforem zeros, isto é, a

ij 0 para todos i ∞ j. Podemos sempre escrever uma matriz diagonal como

DEFINIÇÃO D.5 (MATRIZES IDENTIDADE E NULA)(i) A matriz identidade n n, chamada de I, ou algumas vezes I

npara enfatizar sua dimensão, é a

 matriz diagonal com a unidade (um) em cada posição diagonal, e zero nas outras posições:

(ii) A matriz nula m n, chamada de 0, é a matriz m n com zero em todas as entradas. Ela

não precisa ser um matriz quadrada.

D.2 OPERAÇÕES COM MATRIZES

Adição de Matrizes

Duas matrizes A e B, cada uma de dimensão m n, podem ser somadas elemento a elemento: A B

[aij

bij]. Mais precisamente,

Por exemplo,

Matrizes de ordens diferentes não podem ser somadas.

.30 1

7

3

314 0

2

4

3 2

4

1

5

7

0

A B .

a11

b11

a21

b21

am1

bm1

a12

b12

a22

b22

am2

bm 2

a1n

b1n

a2n

b2n

amn

bmn

I In

.1

0

0

0

1

0

0

0

0

0

0

1

A .a11

0

0

0

a22

0

0

0

0

0

0

ann

 y.

 y

1

 y2

 yn

.30 1

7

3

314 0

2

4

3 2

4

1

5

7

0

A B .

a11

b11

a21

b21

am1

bm1

a12

b12

a22

b22

am2

bm 2

a1n

b1n

a2n

b2n

amn

bmn

I In

.1

0

0

0

1

0

0

0

0

0

0

1

A .a11

0

0

0

a22

0

0

0

0

0

0

ann

 y.

 y

1

 y2

 yn

98 Introdução à Econometria

Page 99: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 99/134

Multiplicação Escalar

Dado qualquer número real g (frequentemente chamado de escalar), uma multiplicação escalar é defi-nida como gA [ga

ij], ou

Por exemplo, se g = 2, A é a matriz na equação (D.1), então,

Multiplicação de Matrizes

Para multiplicar a matriz A pela matriz B de maneira a formar o produto AB, a dimensão das colunas

de A deve ser igual à dimensão das linhas de B. Portanto, seja A uma matriz m n e seja B uma matrizn  p. Então, a multiplicação de matrizes será definida como

Em outras palavras, o (i, j)-ésimo elemento da nova matriz AB é obtido pela multiplicação de cadaelemento na i

-ésima linha de A pelo elemento correspondente na j-ésima coluna de B e somando-se esses

n produtos. Um esquema pode ajudar a tornar esse processo mais transparente:

em que, pela definição do operador somatório no Apêndice A,

Por exemplo,

aik bkj ai1b1 j ai2b2 j ... ainbnj.Σn

k  1

A B AB

i-ésima linha →

,

0 p j

-ésimacoluna (i, j)

-ésimoelemento

o

n

k  1

aik b

kj b

1 j

b2 j

b3 j

bnj

ai1a

i2a

i3… a

in↑

AB = .Σn

k  1

aik b

kj

. A 4

8

2

10

14

0

A .= a11

a21

am1

a12

a22

am2

a1n

a2n

amn

aik bkj ai1b1 j ai2b2 j ... ainbnj.Σn

k  1

A B AB

i-ésima linha →

,

0 p j

-ésimacoluna (i, j)

-ésimoelemento

o

n

k  1

aik b

kj b

1 j

b2 j

b3 j

bnj

ai1a

i2a

i3… a

in↑

AB = .Σn

k  1

aik b

kj

. A 4

8

2

10

14

0

A .= a11

a21

am1

a12

a22

am2

a1n

a2n

amn

Apêndice D Resumo de Álgebra Matricial 99

Page 100: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 100/134

Também podemos multiplicar uma matriz e um vetor. Se A for uma matriz n m e y for um vetorm 1, Ay será um vetor de ordem n 1. Se x for um vetor 1 n, xA será um vetor 1 m.

A adição de matrizes, a multiplicação escalar e a multiplicação de matrizes podem ser combina-das de várias maneiras, e essas operações satisfazem várias regras das operações básicas com númerosque nos são familiares. Na lista de propriedades seguinte, A, B e C são matrizes com dimensões apro-priadas para aplicar cada operação, e a e b são números reais. A maioria dessas propriedades pode serilustrada facilmente a partir das definições.

PRO PRIE DA DES DA MUL TI PLI CA ÇÃO DE MATRI ZES: (1) (a b)A aA bA; (2) a(A B) aA aB; (3) (ab)A a(bA); (4) a(AB) (aA)B; (5) A B B A; (6) (A B) C

A (B C); (7) (AB)C A(BC); (8) A(B C) AB AC; (9) (A B)C AC BC; (10)

IA AI A; (11) A 0 0 A A; (12) A – A 0; (13) A0 0A 0; e (14) AB BA, mesmoquando ambos os produtos forem definidos.

A última propriedade merece um comentário adicional. Se A for n m e B for m  p, então, AB serádefinida, mas BA somente será definida se n  p (a ordem de linha da A é igual a ordem de coluna daB). Se A for m n e B for n m, então, AB e BA serão ambas definidas, mas normalmente não serãoa mesma matriz; de fato, elas possuem dimensões diferentes, a menos que A e B sejam ambas matri-zes quadradas. Mesmo quando A e B são quadradas, AB BA, exceto sob circunstâncias especiais.

Transposta

DEFINIÇÃO D6 (TRANSPOSTA)Seja A [a

ij

] uma matriz m n. A trans pos ta de A, cha mada de A (A linha), é a matriz de ordemn m, obtida intercambiando as linhas e colunas de A. Podemos escrevê-la como A [a ji].

Por exemplo,

PRO PRIE DA DES DA TRANS POS TA: (1) (A) A; (2) (aA) = aA para qualquer escalar a; (3)

(A B) A B; (4) (AB) BA, quando A for m n e B for n k ; (5) xx , onde  x

é um vetor n 1; e (6) se A for uma matriz n k com linhas dadas pelos vetores 1 k a1, a2, ..., an,

de forma que possamos escrever

então, A (a91 a92 . . . a9n).

A ,a1

a2

a n

 x2

i∑n

i 1

A , A .2

1

7

4

5

0 2

4

1

5

7

0

. 1

1

0

2

12

24

1

10

1

3

1

2

0

6

0

0

0

1

0 2

4

1

1

0

0

 x2

i∑n

i 1

A ,a1

a2

a n

A , A .2

1

7

4

5

0 2

4

1

5

7

0

. 1

1

0

2

12

24

1

10

1

3

1

2

0

6

0

0

0

1

0 2

4

1

1

0

0

100 Introdução à Econometria

Page 101: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 101/134

DEFINIÇÃO D.7 (MATRIZ SIMÉTRICA)Uma matriz quadrada A é uma matriz simétrica se, e somente se, A A.

Se X for qualquer matriz n k , XX é sempre definida e é uma matriz simétrica, como poderá ser vistopela aplicação das primeira e quarta propriedades da transposta (veja o Problema D.3).

Multiplicação de Matrizes Particionadas

Seja A uma matriz n k com linhas dadas pelos vetores 1 k a1, a2, ...,  an, e seja B uma matriz n m

com linhas dadas pelos vetores 1 m b1,  b2, ...,  bn;

Então,

onde para cada i,  ai bi é uma matriz k  m. Portanto, AB pode ser escrita como a soma de n matrizes,cada uma delas sendo k  m. Como um caso especial, temos

em que  ai ai é uma matriz k 

k de todos os i.

Traço

O traço de uma matriz é uma operação bastante simples definida somente para matrizes quadradas.

DEFINIÇÃO D.8 (TRAÇO)Para qualquer matriz A n n, o traço de uma matriz A, representado por tr(A), será a soma dos ele-mentos de sua diagonal. Matematicamente,

PRO PRIE DA DES DO TRAÇO: (1) tr(In) n; (2) tr(A) tr(A); (3) tr(A B) tr(A) tr(B); (4)tr(aA) atr(A), para qualquer escalar a; e (5) tr(AB) tr(BA), onde A é m n e B é n m.

Inversa

A noção da inversa de uma matriz é muito importante para matrizes quadradas.

tr(A) aii.Σn

i 1

A A a i  aiΣn

i 1

A B a i bi,Σn

i 1

A , B . b

1

 b2

 b n

 a

1

 a2

 a n

tr(A) aii.Σn

i 1

A A a i  aiΣn

i 1

A B a i bi,Σn

i 1

A , B . b

1

 b2

 b n

 a

1

 a2

 a n

Apêndice D Resumo de Álgebra Matricial 101

Page 102: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 102/134

DEFINIÇÃO D.9 (INVERSA)Uma matriz A n n tem uma inversa, representada por A1, desde que A1A In e AA1

In.Nesse caso, A é chamada de inversível ou não singular . Caso contrário, ela será chamada de não inver-

sí vel ou singular .

PRO PRIE DA DES DA INVE R SA: (1) Se existir uma inversa, ela será única; (2) (aA)1 (1/ a)A1,

se a ∞ 0 e A for inversí vel; (3) (AB)1 B1A1, se A e B forem ambas n n e inversí veis; e (4)

(A)1 (A1).

Não nos preocuparemos com a mecânica de cálculo da inversa de uma matriz. Qualquer texto de álge-bra matricial contém exemplos detalhados de tais cálculos.

D.3 INDEPENDÊNCIA LINEAR E POSTO DE UMA MATRIZ

Para um con junto de vetores tendo a mesma dimensão, é importante saber se um vetor pode ser expresso

como uma combinação linear dos demais vetores.

DEFINIÇÃO D.10 (INDEPENDÊNCIA LINEAR)Seja {x1, x2, ..., xr } um con junto de vetores n 1. Eles serão vetores linearmente independentes se,e somente se,

1x1 2x2 ... r xr  0 (D.2)

implicar que a1 a2 ... ar  0. Se (D.2) se sustentar para um con junto de escalares que nãosejam todos zeros, então, {x1, x2, ..., xr } será linearmente dependente.

A afirmação de que {x1, x2, ..., xr } será linearmente dependente é equivalente a dizer que pelo menosum vetor no con junto pode ser escrito como uma combinação linear dos demais.

DEFINIÇÃO D.11 (POSTO)(i) Seja A uma matriz n m. O posto de uma matriz A, denotada posto(A), é o número máximo decolunas linearmente independentes de A.

(ii) Se A for n m e posto(A) m, então, A terá posto de colunas com pletas.Se A for n m, seu posto será no máximo m. Uma matriz terá posto de colunas completas se suascolunas formarem um con junto linearmente independente. Por exemplo, a matriz 3 2

poderá ter no máximo posto 2. De fato, seu posto será apenas um porquê a segunda coluna é três vezesa primeira coluna.

1

20

3

60

1

20

3

60

102 Introdução à Econometria

Page 103: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 103/134

PRO PRIE DA DES DO POSTO: (1) posto(A) = posto(A); (2) Se A for n k , então, posto(A)

min(n,k ); e (3) Se A for k  k e posto(A) k , então, A será não singular.

D.4 FORMAS QUADRÁTICAS E MATRIZES POSITIVAS DEFINIDAS

DEFINIÇÃO D.12 (FORMA QUADRÁTICA)Seja A uma matriz simétrica n n. A forma quadrática associada à matriz A será a função de valorreal definida para todos os vetores  x n 1:

DEFINIÇÃO D.13 (POSITIVA DEFINIDA E POSITIVA SEMIDEFINIDA)(i) Uma matriz simétrica A é positiva definida (p.d.) se

xAx 0 para todos os vetores x n 1, exceto x 0.

(ii) Uma matriz simétrica A é positiva semidefinida (p.s.d.) se

xAx 0 para todos os vetores n 1.

Se uma matriz for positiva definida ou positiva semidefinida, ela será automaticamente assumida comosendo simétrica.

PRO PRIE DA DES DAS MATRI ZES POSI TI VAS DEFI NI DAS E POSI TI VAS SEMI DE FI NI DAS:(1)Uma matriz positiva definida tem elementos diagonais que são estritamente positivos, enquanto uma matriz p.s.d. tem elementos diagonais não negativos; (2) Se A for uma p.d., então, A1 existe e seráp.d.; (3) Se X for n k , então, XX e XX serão p.s.d.; e (4) Se X for n k e posto(X) k , então,XX será p.d. (e, portanto, não singular).

D.5 MATRIZES IDEMPOTENTES

DEFINIÇÃO D.14 (MATRIZ IDEMPOTENTE)Seja A uma matriz simétrica n n. Então, A é uma  matriz idempotente se, e somente se, AA A.

Por exemplo,

é uma matriz idempotente, como é possí vel verificar pela multiplicação direta.

1

0

0

0

0

0

0

0

1

 f (x) x Ax aii x2

i 2 aij xi x j.Σn

i 1Σ

 j iΣ

n

i 1

1

0

0

0

0

0

0

0

1

 f (x) x Ax aii x2

i 2 aij xi x j.Σn

i 1Σ

 j iΣ

n

i 1

Apêndice D Resumo de Álgebra Matricial 103

Page 104: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 104/134

PROPRIEDADES DAS MATRIZES IDEMPOTENTES: Seja A uma matriz idempotente n n. (1) posto(A) tr(A), e (2) A é positiva semidefinida.

Podemos construir matrizes idempotentes de forma bem generalizada. Seja X uma matriz n k 

com posto(X) k . Defina

P X(XX)1X

M In X(XX)1X In P.

Então, P e M serão matrizes simétricas idempotentes, com posto(P) k e posto(M) n k . Os postossão obtidos com mais facilidade usando a Propriedade 1: tr(P) tr[(XX)1XX] (da Propriedade 5 dotraço) tr(Ik ) k (pela Propriedade 1 do traço). Facilmente segue que tr(M) tr(In) tr(P) n k .

D.6 DIFERENCIAÇÃO DE FORMAS LINEARES E QUADRÁTICAS

Para um dado vetor a n 1, considere a função linear definida por

 f (x)  ax,

para todos os vetores x n 1. A derivada de f em relação a x será o vetor 1 n das derivadas parciais,que é simplesmente

∂ f (x)/  x  a.

Para uma matriz simétrica n n A, defina a forma quadrática

g(x) xAx.

Então,

∂g(x)/  x 2xA,

que é um vetor 1 n.

D.7 MOMENTOS E DISTRIBUIÇÕES DE VETORES ALEATÓRIOS

Para derivar o valor esperado e a variância dos estimadores MQO usando matrizes, precisamos definiro valor esperado e a variância de um vetor aleatório. Como seu nome sugere, um vetor aleatório é sim-plesmente um vetor de variáveis aleatórias. Também precisamos definir a distribuição normal multiva-riada. Esses conceitos são simples extensões daqueles tratados no Apêndice B.

104 Introdução à Econometria

Page 105: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 105/134

Valor Esperado

DEFINIÇÃO D.15 (VALOR ESPERADO)(i) Se y for um vetor aleatório n 1, o valor esperado de y, representado por E(y), é o vetor dos valo-

res esperados: E( y) [E( y1), E( y2),..., E( yn)].(ii) Se Z for uma matriz aleatória n m, E(Z) é a matriz n m dos valores esperados: E(Z)

[E( zij)].

PRO PRIE DA DES DO VALOR ESPE RA DO: (1) Se A for uma matriz m n e b for um vetor n 1,onde ambos são não aleatórios, E(Ay b) AE(y)  b e (2) Se A for p n e B for m k , ondeambas são não aleatórios, E(AZB) AE(Z)B.

Matriz de Variância-Covariância

DEFINIÇÃO D.16 (MATRIZ DE VARIÂNCIA-COVARIÂNCIA)Se y for um vetor aleatório n 1, sua matriz de variância-covariância, representada por Var(y) édefinida como

em que s2 j Var( y j) e sij Cov( yi, y j). Em outras palavras, a matriz de variância-covariância tem as

variâncias de cada elemento de y em sua diagonal, com os termos de covariância fora dela. ComoCov( yi, y j) Cov( y j, yi), segue imediatamente que uma matriz de variância-covariância é simétrica.

PRO PRIE DA DES DA VARIÂNCIA: (1) Se a for um vetor não aleatório n 1, então, Var(ay)

 a[Var(y)] a 0; (2) Se Var(ay) 0 para todo a ∞ 0, Var( y) é positiva definida; (3) Var(y) E[(y

m)(y m)], onde m E(y); (4) Se os elementos de y forem não correlacionados, Var(y) é uma matrizdiagonal. Se, além disso, Var( y j)

2 para j 1, 2, ..., n, então Var(y) 2  I n e (5) Se  A for uma

 matriz não aleatória m n e b for um vetor não aleatório n 1, então, Var(Ay b)  A[Var( y)] A.

Distribuição Normal Multivariada

A distribuição normal de uma variável aleatória foi discutida em alguma medida no Apêndice B.Precisamos estender a distribuição normal aos vetores aleatórios. Não forneceremos uma expressão dafunção de distribuição de probabilidade, já que não precisaremos dela. É importante saber que um vetoraleatório normal multivariado é totalmente caracterizado por sua média e pela matriz de variância-covariância. Portanto, se y for um vetor aleatório normal multivariado n 1, com média m e matriz devariância-covariância , escrevemos yNormal(m,). Agora, apresentamos várias propriedades úteis

da distribuição normal multivariada.PRO PRIE DA DES DA DIS TRI BUI ÇÃO NOR MAL MUL TI VA RIA DA: (1) Se yNormal(m,), então,cada elemento de y é normalmente distribuí do; (2) Se y Normal(m,), então, yi e y j, quaisquer doiselementos de y, serão independentes se, e somente se, eles forem não-correlacionados, isto é, ij 0;(3) Se y Normal(m,), então, A y b Normal(Am b,AA), em que A e  b são não aleatórios;(4) Se y Normal(0,), então, para matrizes A e B não aleatórias, Ay e By serão independentes se, esomente se, AB 0. Particularmente, se s2In, então, AB 0 será necessária e suficiente para

Var(y) ,1

2

21

n1

12

2

2

n2

1n

2n

n

2Var(y) ,

1

2

21

n1

12

2

2

n2

1n

2n

n

2

Apêndice D Resumo de Álgebra Matricial 105

Page 106: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 106/134

106 Introdução à Econometria

a independência de Ay e By; (5) Se  y Normal(0,2In), A é uma matriz não aleatória k  n, e B éuma matriz simétrica idempotente n n, então, Ay e yBy serão independentes se, e somente se, AB

0; e (6) Se  y Normal(0,2In) e A e B forem matrizes simétricas idempotentes não aleatórias,então, yAy e  yBy serão independentes se, e somente se, AB 0.

DISTRIBUIÇÃO QUI-QUADRADONo Apêndice B, definimos uma variável aleatória qui-quadrada como a soma dos quadrados dasvariáveis aleatórias normais-padrão independentes. Em notação vetorial, se u Normal(0,In), então,uu ~ x2

n

PRO PRIE DA DES DA DIS TRI BUI ÇÃO QUI-Q UA DRA DO: (1) Se u Normal(0,In) e A for uma matriz simétrica idempotente n n com posto(A) q, então, uAu x2

q ; (2) Se u Normal(0,In) eA e B forem matrizes simétricas idempotentes n n de tal forma que AB 0, então, uAu e uBu

serão variáveis aleatórias qui-quadradas independentes; e (3) Se zNormal(0,C) onde C é uma matriznão singular m m, então, zC1

 z  x2m .

DISTRIBUIÇÃO t 

Também já definimos a distribuição  t no Apêndice B. Agora adicionamos uma propriedade importante.

PRO PRIE DA DE DA DIS TRI BUI ÇÃO t : Se u Normal(0,In),  c é um vetor não aleatório n 1, A éuma matriz não aleatória simétrica idempotente n n com posto q, e Ac 0, então,{cu /(cc)1/2}/(uAu)1/2 t q.

DISTRIBUIÇÃO f 

Recorde-se de que uma variável aleatória  F é obtida tomando-se duas variáveis aleatórias qui-qua-dradas independentes e encontrando-se a razão entre elas, padronizadas pelos graus de liberdade.

PRO PRIE DA DE DA DIS TRI BUI ÇÃO f : Se u Normal(0,In) e A e B forem matri zes simé tricas

idem po ten tes não aleatórias n n com posto(A) k 1, posto(B) k 2 e AB 0, então,(uAu / k 1)/(uBu / k 2) F k 1,k 2.

RESUMO

Este apêndice contém uma forma condensada das informações básicas necessárias ao estudo do modelo linear clássi co usando matrizes. Embora o material aqui apresentado não dependa de outros, ele éapre sentado com a intenção de servir como uma revi são para os leitores fami liariza dos com álgebramatricial e estatística multivariada, e será amplamente usado no Apêndice E.

Page 107: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 107/134

PROBLEMAS

D.1 (i) Encontre o produto AB usando

(ii) BA existe?

D.2 Se A e B forem matrizes diagonais n n, demonstre que AB BA.

D.3 Seja X qualquer matriz n k . Mostre que XX é uma matriz simétrica.

D.4 (i) Use as propriedades do traço para demonstrar que tr(AA) tr(AA) para qualquer matrizA n m.

(ii) Para verifique se tr(AA) = tr(AA).

D.5 (i) Use a definição da inversa para provar o seguinte: se A e B forem matrizes não singularesn n, então, (AB)1

B1A1.

(ii) Se A, B e C forem todas matrizes não singulares n n, encontre (ABC)1 em termos deA1, B1 e C1.

D.6 (i) Mostre que, se A for uma matriz positiva definida, simétrica n n, então, A deve ter ele-mentos diagonais estritamente positivos.

(ii) Escreva uma matriz simétrica 2 2 com elementos diagonais estritamente positivos quenão seja positiva definida.

D.7 Seja A uma matriz positiva definida, simétrica n n. Mostre que, se P for qualquer matriz nãosingular n n, então, PAP será positiva definida.

D.8 Prove a Propriedade 5 das variâncias dos vetores, usando a Propriedade 3.

A = ,2

0

0

3

1

0

A , B .0

1

3

1

8

0

6

0

0 2

4

1

5

7

0

A = ,2

0

0

3

1

0

A , B .0

1

3

1

8

0

6

0

0 2

4

1

5

7

0

Apêndice D Resumo de Álgebra Matricial 107

Page 108: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 108/134

Este apêndice deriva vários resultados da estimação do modelo de regressão linear múltipla usan-do notação matricial e álgebra de matrizes (veja um resumo no Apêndice D). O material apre-sentado aqui é muito mais avançado do que aparece no texto deste livro.

E.1 O MODELO E A ESTIMAÇÃO DE MÍNIMOS QUADRADOS ORDINÁRIOS

Em todo este Apêndice, usamos o subscrito t para indexar observações e n para representar o tamanhoda amostra. É útil escrevermos o modelo de regressão linear múltipla com k parâmetros, como segue:

 yt 5 b0 b1 xt 1 b2 xt 2 ... bk  xtk  ut , t  1, 2, ..., n, (E.1)

em que yi é a variá vel dependen te para a observa ção t , e  xij, j = 1, 2, ..., k são as variáveis inde pen-dentes. Em geral, chamamos o inter cepto de b0 e fazemos b1, ..., bk  represen tar os parâmetros deinclinação.

Para cada t , defina um vetor 1 k , xt = (1, xt 2, ..., xtk ) e seja b = (b0, b1, ..., bk ) o vetor k  1 detodos os parâmetros. Então, podemos escrever (E.1) como

 yt  xt b ut , t  1, 2, ..., n. (E.2)

[Alguns autores preferem definir xt  como um vetor coluna, caso em que  xt  é substituí do por x9t  em(E.2). Matematicamente, faz mais sentido defini-lo como um vetor linha]. Podemos escrever (E.2) emnotação matricial completa, definindo apropriadamente os dados dos vetores e matrizes. Seja  y o vetorn 1 das observações de y: o t -ésimo elemento de y é yt . Seja X o vetor n k das observações das variá-veis explicativas. Em outras palavras, a t -ésima linha de X consistirá do vetor xt . Escrito em detalhe:

.11

1

 x11 x21

 xn1

 x12 x22

 xn2

 x1k 

 x2k 

 xnk 

x1x2

xnX

n k 

.11

1

 x11 x21

 xn1

 x12 x22

 xn2

 x1k 

 x2k 

 xnk 

x1x2

xnX

n k 

E

108

O Modelo de Regressão Linear

em Forma Matricial

Page 109: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 109/134

Apêndice E O Modelo de Regressão Linear em Forma Matricial 109

Finalmente, seja u o vetor n 1 dos distúrbios não observados. Então, podemos escrever (E.2)de todas as n observações em notação matricial:

 y Xb u. (E.3)

Lembre-se, como X é n k e b é k  1, Xb será n 1.A estimação de b prossegue minimizando a soma dos quadrados dos resí duos, como na Seção

3.2. Defina a função da soma dos quadrados dos resí duos para qualquer possí vel vetor de parâmetrosb (k  1) 1 como

O vetor (k  1) 1 das estimativas de mínimos quadrados ordinários, b (b0, b1, ..., bk ), minimiza

SQR(b) de todos os possí veis vetores b (k  1) 1. Isso é um problema no cálculo multivariado. Paraque bminimize a soma dos quadrados dos resí duos, ele deve satisfazer a condição de primeira ordem

∂SQR(b)/ ∂b 0. (E.4)

Usando o fato que a deri vada de ( yt  xt b)2 em relação a b é o vetor 1 (k  1) 2( yt  xt b)xt ,(E.4) é equiva len te a

(E.5)

(Dividimos por 2 e tomamos a transposta.) Podemos escrever essa condição de primeira ordem como

que, exceto pela nova convenção notacional, é idêntica às condições de primeira ordem da equação(3.13). Queremos escrevê-las na forma matricial para torná-las mais úteis. Usando a fórmula da mul-tiplicação particionada do Apêndice D, vemos que (E.5) é equivalente a

X( y Xb) 0 (E.6)

ou

( yt ˆ0

ˆ1 xt 1 ... ˆ

k  xtk ) 0

 xt2( yt ˆ0

ˆ1 xt 1 ... ˆ

k  xtk ) 0

 xtk ( yt ˆ0

ˆ1 xt 1 ... ˆ

k  xtk ) 0,∑n

t  1

∑n

t  1

∑n

t  1

 xt ( y

t  x

t ˆ ) 0.∑

n

t  1

SQR(b) ( yt 

xt b)

2.∑

n

t  1

( yt ˆ0

ˆ1 xt 1 ... ˆ

k  xtk ) 0

 xt2( yt ˆ0

ˆ1 xt 1 ... ˆ

k  xtk ) 0

 xtk ( yt ˆ0

ˆ1 xt 1 ... ˆ

k  xtk ) 0,∑n

t  1

∑n

t  1

∑n

t  1

 xt ( y

t  x

t ˆ ) 0.∑

n

t  1

SQR(b) ( yt 

xt b)

2.∑

n

t  1

Page 110: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 110/134

(XX)b  X y. (E.7)

É possí vel mostrar que (E.7) sempre tem pelo menos uma solução. Soluções múltiplas não nos ajudam,

 já que estamos querendo um con junto único de estimativas MQO, dado nosso con junto de dados.Assumindo que a matriz simétrica (k  1) (k  1) XX é não singular, podemos premultiplicarambos os lados de (E.7) por (XX)

1para encontrar o estimador MQO b:

b  (XX)1Xy. ( E.8)

Essa é a fórmula básica para a análise matricial do modelo de regressão linear múltipla. A hipótese deque XX é inversí vel é equivalente à hipótese de que posto (X) (k  1), o que significa que as colu- nas de X devem ser linearmente independentes. Essa é a versão matri cial do RLM.3 do Capítulo 3.

Antes de continuar, precisamos fazer um alerta sobre (E.8). É tentador simplificar a fórmula de bcomo segue:

b  (XX)1 X y X1(X)1X y X1 y.

A falha desse raciocí nio é que em geral X não é uma matriz quadrada e, portanto, ela não poderá serinvertida. Em outras palavras, não podemos escrever (XX)1

X1(X)1 a menos que n (k  1),um caso que na prática virtualmente nunca aparece.

Os vetores n 1 dos valores ajustados dos MQO e os resí duos são dados por

y  Xb, u y y  y Xb.

A partir de (E.6) e da definição de u, podemos ver que a condição de primeira ordem de b é o mesmo que

Xu  0. (E.9)

Como a primeira coluna de X consiste inteiramente de unidades, (E.9) implica que os resí duos MQOsempre somarão zero quando um intercepto for incluí do na equação e que a covariância amostral entrecada variável independente e os resí duos MQO será zero. (Examinamos essas duas propriedades noCapítulo 3.)

A soma dos resí duos quadrados pode ser escrita como

(E.10)

Todas as propriedades algébricas do Capítulo 3 podem ser derivadas usando álgebra matricial. Porexemplo, podemos mostrar que a soma dos quadrados total é igual à soma dos quadrados explicadamais a soma dos resí duos quadrados [veja (3.27)]. O uso de matrizes não oferece uma prova mais sim-ples que a notação somatória, de modo que não apresentamos outra derivação.

O método matricial da regressão múltipla pode ser usado como a base para uma interpretação geo-métrica da regressão. Isso envolve conceitos matemáticos ainda mais avançados dos que os abordadosno Apêndice D [Veja Goldberger (1991) ou Greene (1997)].

SQR u2t 

u u (y X ˆ ) (y X ˆ ).∑n

t  1

SQR u2t 

u u (y X ˆ ) (y X ˆ ).∑n

t  1

110 Introdução à Econometria

Page 111: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 111/134

Apêndice E O Modelo de Regressão Linear em Forma Matricial 111

E.2 PROPRIEDADES DE AMOSTRA FINITA DO MQO

A derivação do valor esperado e da variância do estimador MQO b é facilitada pela álgebra matricial,mas devemos ter algum cuidado na apresentação das hipóteses.

HIPÓTESE E.1 (LINEAR NOS PARÂMETROS)O modelo poderá ser escrito como em (E.3), quando y for um vetor observado n 1,X for uma matriz obser-vada (k  1), e u for um vetor n 1 de erros ou distúrbios não observados.

HIPÓTESE E.2 (INEXISTÊNCIA DE COLINEARIDADE PERFEITA)A matriz X tem posto (k  1).

Essa é uma declaração cuidadosa da hipótese que elimina dependências lineares entre as variáveis

explicativas. Sob a Hipótese E.3, XX é não singular e, assim, b será única e poderá ser escrita comoem (E.8).

HIPÓTESE E.3 (MÉDIA CONDICIONAL ZERO)Condicional em relação à totalidade da matriz X, cada erro ut terá média zero: E(ut |X) 0, t  1, 2, ..., n.Na forma vetorial,

Em forma de vetor, a hipótese E.3 pode ser escrita como:

E(u |X) 0. (E.11)

Essa hipótese é sugerida por RLM.4 sob a hipótese de amostragem aleatória, RLM.2. Em aplicaçõesde séries temporais, a hipótese E.2 impõe exogeneidade estrita nas variáveis explicativas, algo queexplicamos em profundidade no Capítulo 10. Ela exclui variáveis explicativas cujos valores futurossejam correlacionados com ut ; em particular, ela elimina variáveis dependentes defasadas. Sob a hipó-tese E.2, podemos condicionar a xtj quando calculamos o valor esperado de b.

TEOREMA E.1 (INEXISTÊNCIA DE VIÉS DO MQO)Sob as Hipóteses E.1, E.2 e E.3, o estimador MQO b será não viesado para b. .

PROVA: Use as Hipóteses E.1 e E.3 e álgebra simples para escrever

b  (XX)1X y (XX)1X(Xb u)(E.12)

(XX)1(XX)b (XX)1Xu b (XX)1Xu,

(Continua...)

Page 112: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 112/134

112 Introdução à Econometria

(... continuação)

em que usamos o fato de que (XX)1(XX) Ik  1 . Tomando a expectativa condicional em relação a X,

teremos

E(b|X) b (XX)1

XE(u |X)

= b (XX)1

X0 b,

porque E(u |X) 0 sob a Hipótese E.2. Esse argumento claramente não depende do valor de b, de modoque mostramos que b é não viesado.

Para obter a forma mais simples da matriz de variâncias-covariâncias de b, impomos as hipótesesde homoscedasticidade e correlação não serial.

HIPÓTESE E.4 (HOMOSCEDASTICIDADE E AUSÊNCIA DE CORRELAÇÃO SERIAL)(i) Var(ut |X) s2, t  1, 2, ..., n. (ii) Cov(ut ,u s |X) 0, para todo t ∞ s. Em forma matricial, podemos escre-ver essas duas hipóteses como

Var(u |X) 2In, (E.13)

em que In é a matriz identidade n n.

A Parte (i) da Hipótese E.4 é a hipótese de homoscedasticidade: a variância de ut não pode depen-

der de qualquer elemento de X, e a variância deve ser constante ao longo das observações, t . A Parte(ii) é a hipótese de correlação não serial: os erros não podem ser correlacionados ao longo das obser-vações. Sob amostragem aleatória e em qualquer outro esquema de amostragem de corte transversalcom observações independentes, a parte (ii) da Hipótese E.4 é mantida automaticamente. Em aplica-ções de séries temporais, a parte(ii) elimina a correlação nos erros ao longo do tempo (tanto condicio-nal em relação a X como incondicionalmente).

Por causa de (E.13), frequentemente dizemos que u tem matriz de variâncias-covariâncias esca-

lar quando a hipótese E.4 for válida. Agora podemos derivar a matriz de variâncias-covariâncias do

estimador MQO.

TEOREMA E.2 (MATRIZ DE VARIÂNCIA-COVARIÂNCIA DO ESTIMADOR MQO)Sob as Hipóteses E.1 a E.4,

Var(b|X) 2(XX)1. (E.14)

PROVA: Da última fórmula na equação (E.12), temos

(Continua...)

Page 113: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 113/134

Apêndice E O Modelo de Regressão Linear em Forma Matricial 113

(... continuação)

Var(b|X) Var[(XX)1

Xu |X] (XX)1

X[Var(u |X)]X(XX)1

.

Agora, usamos a Hipótese E.4 para obter

Var(b|X) (XX)1

X(s2In)X(XX)

1

s2(XX)1

XX(XX)1

s2(XX)1

.

A fórmula (E.14) significa que a variância de b j (condicional em relação a X) é obtida pela multipli-cação de s2 pelo j-ésimo elemento de (XX)1. Para os coeficientes de inclinação, demos uma fórmulainterpretável na equação (3.51). A equação (E.14) também nos informa como obter a covariância entrequaisquer duas estimativas MQO: multiplicar s2 pelo elemento fora da diagonal apropriado de(XX)1. No Capítulo 4, mostramos como evitar explicitamente, encontrar covariâncias para obter

intervalos de confiança e testes de hipóteses pela reformulação apropriada do modelo.O Teorema de Gauss-Markov, em sua generalidade total, pode ser provado.

TEOREMA E.3 (TEOREMA DE GAUSS-MARKOV)Sob as hipóteses E.1 a E.4, b é o melhor estimador linear não viesado.PROVA: Qualquer outro estimador linear de b pode ser escrito como

b   A y, (E.15)

em que A é uma matriz n k (k  1). Para que b seja não viesado condicional em X, A pode consistir de

números e funções não aleatórias de X. (Por exemplo, A não poderá ser uma função de (y). Para verificarque outras restrições sobre A são necessárias, escreva

b  A(Xb u) (AX)b Au. (E.16)

Então,

E(b|X) AXb + E(Au |X)

AXb AE(u |X), pois A é uma função de X

AXb, pois E(u |X) 0.

Para que b seja um estimador não viesado de b, dever ser verdade que E( b |X) b para todos os vetoresk  1 b, isto é,

AXb b para todos os vetores (k  1) 1 b. (E.17)

(Continua...)

Page 114: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 114/134

(... continuação)

Como AX é uma matriz (k  1) (k  1), (E.17) será válida se, e somente se, AX Ik . As equações(E.15) e (E.17) caracterizam a classe de estimadores lineares, não viesados de b.

Em seguida, a partir de (E.16), temos

Var(b |X) A[Var(u |X)]A s2AA,

pela Hipótese E.4. Portanto,

Var(b|X) Var(b|X) [s2AA (XX)1

]

s2[AA AX(XX)1

XA], pois AX = Ik  1

s2A[In X(XX)1

X]A

s2AMA,

em que M In X(XX)1

X. Como M é simétrica e idempotente, AMA é positiva definida para qual-quer matriz A n k . Isso estabelece que o estimador MQO b é o melhor estimador linear não viesado. Oquanto ele é significante? Seja c qualquer vetor (k  1) 1 e considere a combinação linear c b c 0b0

c 1b1 ... c k bk , que é um escalar. Os estimadores não viesados de c’ b são cb e c b. Entretanto.

Var(cb|X) Var( cb|X) c[Var(b |X) Var(b |X)]c 0,

pois [Var(b|X) Var(b|X)] é p.s.d. Portanto, quando usado para estimar qualquer combinação de b, osMQO produzem a menor variância. Particularmente, Var(b j |X) Var(b j |X) para qualquer outro estimador linear, não viesado de b j .

O estimador não viesado da variância do erro s2 pode ser escrito como

s2 uu /(n k  1),

que é a mesma como equação (3.56).

TEOREMA E.4 (INEXISTÊNCIA DE VIÉS EM  ˆ s2)

Sob as hipóteses E.1 a E.4, s2 é não viesado para s2: E(s2|X ) s2 para todo s2 0.

PROVA: Escreva u   y  Xb  y  X(XX)1Xy M y  Mu, em que M In X(XX)

1X, e a últi-

ma igualdade segue-se automaticamente, pois MX 0. Como M é simétrica e idempotente,

u ˆ u ˆ uMMu uMu.

Como uMu é uma escalar, ele é igual a seu traço. Portanto,

114 Introdução à Econometria

(Continua...)

Page 115: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 115/134

Apêndice E O Modelo de Regressão Linear em Forma Matricial 115

(... continuação)

E(uMu |X) E[tr(u Mu)|X] E[tr(Muu )|X]

tr[E(Muu

|X]

tr[ME(uu

|X)] tr(Ms2In) s2tr(M) s2(n k  1).

A última igualdade resulta de tr(M) tr(In) tr[X(XX)1X] n tr[(XX)

1XX] n tr(Ik  1)

n (k  1) n k  1. Portanto,

E(s2 |X) E(uMu|X)/(n k  1) s2.

E.3 INFERÊNCIA ESTATÍSTICAQuando adicionamos a hipótese final do modelo linear clássico, b terá uma distribuição normal mul-tivariada, que leva as distribuições t e F para os testes estatísticos padrões tratados no Capítulo 4.

HIPÓTESE E.5 (NORMALIDADE DOS ERROS)Condicional em relação a X, os ut serão independente e identicamente distribuídos como Normal(0,s2). Deforma equivalente, u dado X  terá distribuição normal multivariada com média zero e matriz de variâncias--covariâncias s2In: u Normal(0,s2In).

Sob a hipótese E.5, cada ut  será independente das variáveis explicativas para todas as t . Em umcenário de séries temporais, essa é basicamente a hipótese de exogeneidade estrita.

TEOREMA E.5 (NORMALIDADE DE b ˆ  )Sob as hipóteses E.1 a E.5 do modelo linear clássico, b condicional em relação a X  terá distribuição normalmultivariada com média b e matriz de variâncias-covariâncias s2(XX)1.

O teorema E.5 é a base da infe rên cia esta tís ti ca envol ven do b. De fato, com as pro prie da des dasdis tri bui ções t , F  e qui-qua dra do que resu mi mos no Apêndice D, pode mos usar o Teorema E.5

para esta be le cer que as esta tís ti cas t  têm uma dis tri bui ção t  sob as Hipóteses E.1 a E.5 (sob ashipó te ses nulas) e i gual men te para as esta tís ti cas F . Ilustramos a ques tão com uma prova para aesta tís ti ca t .

Page 116: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 116/134

TEOREMA E.6Sob as hipóteses E.1 até a E.5,

(b j b j)/ep(b j) t nk 1, j 1, 2, ..., k .

PROVA: A prova exige várias etapas; as seguintes afirmações são, inicialmente, condicionais em relação a X.Primeira, pelo Teorema E.5, (b j  b

 j )/dp(b) Normal(0,1), onde dp(b j ) sc jj , e c  jj é o j -ésimo elemen-

to de (XX)1

. Em seguida, sob as hipóteses E.1 a E.5, condicional em relação a X,

(n k  1) s2 / s2  x2n2k 1. (E.18)

Isso é assim porque (n k  1)s2/s2 (u/s)M(u/s), em que M é a matriz simétrica, idempotente n

n definida no Teorema E.4. Mas u/s Normal(0,In) pela hipótese E.5. Resulta, pela Propriedade 1 da dis-tribuição qui-quadrado no Apêndice D, que (u/s)M(u/s)  x2

nk 1 (pois M tem posto n k  1).

Também precisamos mostrar que b e s2

são independentes. Mas b b (XX)1

Xu, e s2

uMu/(n k  1). Agora, [(XX)

1X]M 0, pois XM 0. Resulta, pela Propriedade 5 da distribuição

normal multivariada do Apêndice D, que b e Mu são independentes. Como s2 é uma função de Mu, b e s2

também são independentes.Finalmente, podemos escrever

(b j b j)/ep(b j) [(b j b j)/dp(b j)]/(s2 / s2)1/2,

que é a razão entre uma variável aleatória normal-padrão e a raiz quadrada de uma variável aleatória x2

nk 1/(n k  1). Acabamos de mostrar que elas são independentes e, assim, pela definição de umavariável aleatória t , (b j  b

 j )/ep(b j ) terá distribuição t nk 1. Como essa distribuição não depende de X, ela

também é a distribuição incondicional de (b j  b j )/ep(b j ).

A partir desse teorema, podemos agregar qualquer valor hipotético de b j e usar a estatística t para tes-tar hipóteses, como sempre.

Sob as hipóteses E.1 a E.5, podemos calcular o que é conhecido como o limite inferior de Cramer-

 Rao para a matriz de variâncias-covariâncias dos estimadores não viesados de b (novamente condicio-nal em X) [veja Greene (1997, Capítulo 4)]. É possí vel mostrar que isso é s2(XX)1, que é exatamentea matriz de variâncias-covariâncias dos estimadores MQO. Isso implica que b é o estimador de variân-cia mínima não viesado de b (condicional em X): Var(b |X) Var(b |X) é positiva semidefinida paraqualquer outro estimador não viesado b; não mais precisamos restringir nossa atenção sobre os esti-madores lineares em  y.

É fácil mos trar que o esti mador MQO é na verdade o estimador de máxi ma verossi mi lhança de

b sob a hipótese E.5. Para cada t , a distribuição de yt dado X é Normal( xt , b,s2

). Como os yt são inde-pendentes condicio nais em X, a função de verossi milhança para a amostra é obtida do pro du to dasdensida des:

(22

)1/2

exp[ ( yt 

xt 

)2 /(2

2)],

n

t  1

(22

)1/2

exp[ ( yt 

xt 

)2 /(2

2)],

n

t  1

116 Introdução à Econometria

Page 117: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 117/134

Page 118: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 118/134

(E.21)

[Wooldridge (2002, Capítulo 3) contém uma discussão sobre esses tipos de resultados de convergên-cia]. Agora segue de (E.19), (E.20) e (E.21) que

plim ( b) b A1

0 b.

Isso completa a prova.

A seguir, delineamos uma prova do resultado da normalidade assimptótica do Teorema 11.2.

PROVA DO TEO RE MA 11.2: Pela equação (E.19), podemos escrever

(E.22)

em que o termo “o p(1)” é o termo residual que converge em probabilidade para zero. Esse termo é igual

a . O termo entre colchetes converge em probabilidade para

zero (pelo mesmo argumento usado na prova do Teorema 11.1), enquanto é limitado

em proba bi lida de porque ele converge para uma distribui ção normal multi varia da pelo teo re ma dolimite cen tral. Um resultado bastante conhecido na teo ria assimptóti ca é que o pro duto de tais ter mosconverge em probabilidade para zero. Além disso, ( b b) herda sua distribuição assimptótica de

.[ Veja Wooldridge (2002, Capítulo 3) para mais detalhes sobre os resultados de

convergência usados nesta prova.

De acordo com o teorema do limite central, tem uma distribuição normal assimptó-

tica com média zero e, digamos, matriz de variâncias-covariâncias (k  1) (k  1) B. Então,( b b) tem uma distribuição normal multivariada assimptótica com média zero e matriz de

variâncias-covariâncias A1

BA1

. Agora mos tra mos que, sob as hipóteses ST.4 e ST.5, B = s2A.

(A expres são geral é útil, pois ela sus ten ta os erros- padrão robustos em re la ção à heteroscedastici-dade e à cor re la ção serial do MQO, de forma seme lhan te à exa mina da no Capítulo 12.) Primeiro,sob a hipótese ST.5, xt ut  e xsus são não cor relacio na do s quan do t = /  s. Por quê? Concretamente,supo nha que s t . Então, pela lei das expectativas iteradas, E(xt  ut usxs) E[E(ut usxt xs) |xt xs)]

E[E(ut us|xt xs)xt xs)] E[0xt xs] 0. As covariâncias zero implicam que a variância da soma é a somadas variâncias. Entretanto, Var(xt ut ) E(xt ut ut  xt ) E(u2

t xt xt ). Pela lei das expec ta ti vas ite ra das,E(u2

t xt xt ) E[E(u2t xt xt |xt )] E[E(u2

t  | xt )xt xt ] E(s2xt xt ) s2E(xt xt ) s2A, onde usamos

√n

n1/2∑

n

t  1

xt u

A1n 1/2∑

n

t  1

xt u

t √n

n

1/2∑n

t  1

xt u

n 1/2∑n

t  1

xt u

t n 1∑n

t  1

xt x

t 1

A1

( ˆ )

o p(1), A

1n 1/2∑

n

t  1

xt ut 

n 1∑n

t  1

xt xt 

1

n 1/2∑n

t  1

xt ut n

 p

A1. ∑ →

n

t  1

xt xn

t 1

1p

A1. ∑ →

n

t  1

xt xn

t 1

1

√n

n1/2∑

n

t  1

xt u

A1n 1/2∑

n

t  1

xt u

t √n

n

1/2∑n

t  1

xt u

n 1/2∑n

t  1

xt u

t n 1∑n

t  1

xt x

t 1

A1

( ˆ )

o p(1), A

1n 1/2∑

n

t  1

xt ut 

n 1∑n

t  1

xt xt 

1

n 1/2∑n

t  1

xt ut n

118 Introdução à Econometria

Page 119: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 119/134

Apêndice E O Modelo de Regressão Linear em Forma Matricial 119

E(u2t |xt ) s2 sob as hipóteses ST.2 e ST.4. Isso mostra que B s

2A e, assim, sob as hipóteses ST.1

a ST.5, temos

( b b) a˜ Normal (0,s2A1). (E.23)

Isso completa a prova.

A partir da equação (E.23), tratamos  b como se fosse, de maneira aproximada, normalmente dis-tribuí do com média b e matriz de variâncias-covariâncias s2A1 / n. A divisão pelo tamanho da amos-tra, n, nesse caso é esperada: a aproximação à matriz de variâncias-covariâncias de  b se contrai para zeroà taxa 1/ n. Quando substituí mos s2 por seu estimador consistente, s2

SQR/(n k  1), e substituí-

 mos A por seu estimador consistente , obtemos um estimador para a variância

assimptótica de  b:

Aˆ y ar( b) s2(XX)1. (E.24)

Observe como as duas divisões por n se anulam, e o lado direito de (E.24) é a maneira habitual comoestimamos a matriz de variâncias do estimador MQO sob as hipóteses de Gauss-Markov. Para resumir,mostramos que, sob as hipóteses ST.1 a ST.5 — que contêm RLM.1 a RLM.5 como casos especiais—, os erros-padrão e as estatísticas t habituais são assimptoticamente válidas. É perfeitamente legí ti-mo usar a distribuição t habitual para obter valores crí ticos e  p-valores para se testar uma hipóteseúnica. Interessantemente, na organização geral do Capítulo 11, assumir a normalidade dos erros —digamos ut dados xt , ut 1,xt 1, ..., u1, x1 é distribuí da como Normal(0,s2) — não ajuda necessariamen-te, pois as estatísticas t não serão de forma geral estatísticas t exatas sob esse tipo de hipótese de nor-

malidade. Quando não assumimos a exogeneidade estrita das variáveis explicativas, resultados distri-bucionais exatos são difí ceis, se não impossí veis, de serem obtidos.Se modificarmos o argumento acima, poderemos derivar uma matriz de variâncias-covariâncias

robustas em relação à heteroscedasticidade. O importante é que deveremos estimar E(u2t xt xt ) separa-

damente, pois essa matriz não mais iguala s2E(xt xt ). Entretanto, se os  ut forem os resí duos MQO, umestimador consistente será

(E.25)

onde a divisão por n k  1 em vez de por n é um ajuste dos graus de liberdade que hipoteticamen-te auxilia nas propriedades de amostra finita do estimador. Quando usamos a expressão na equação

(E.25), obtemos

(E.26)Aˆar(  ˆ ) [n /(n k ]X X)1

(X X)1.∑

n

t  1

u2

t x

t x

(n k  1)1

u2

t x

t x

t ,∑

n

t  1

n1∑

n

t  1

xt 

xt 

X X / n

√n

Aˆar(  ˆ ) [n /(n k ]X X)1

(X X)1.∑

n

t  1

u2

t x

t x

(n k  1)1

u2

t x

t x

t ,∑

n

t  1

n1∑

n

t  1

xt 

xt 

X X / n

√n

Page 120: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 120/134

As raí zes quadradas dos elementos diagonais dessa matriz são os mesmos erros-padrão robustosem relação à heteroscedasticidade que obtivemos na Seção 8.2, no caso de corte transversal puro. Umaextensão matricial de erros-padrão robustos em relação à correlação serial (e à heteroscedasticidade)que obtivemos na Seção 12.5 também está disponí vel, mas a matriz que deve substituir (E.25) é com-plicada devido à correlação serial. Veja, por exemplo, Hamilton (1994, Seção 10.5).

Estatística de Wald para Testes de Múltiplas Hipóteses

Argumentos semelhantes podem ser usados para a obtenção da distribuição assimptótica da estatística

de Wald para testar múltiplas hipóteses. Seja R uma matriz q (k  1), com q (k  1). Assuma queas q restrições sobre o vetor (k  1) 1 de parâmetros, b, possam ser expressas como H0: Rb r, emque r é um vetor q 1 de constantes conhecidas. Sob as hipóteses ST.1 a ST.5, é possí vel mostrar que,sob H0,

[ (R b  r)](s2RA1R)1[ (R b  r)] a x2q, (E.27)

em que A E(xt xt ), como nas provas dos teoremas 11.1 e 11.2. A intuição por trás da equação (E.25)é simples. Como ( b b) é aproximadamente distribuí da como Normal(0,s2A1), R[ ( b b)] R( b b) será aproximadamente Normal(0,s2RA1R), pela Propriedade 3 da distribuição nor-mal multivariada do Apêndice D. Sob H0, Rb r e, assim, (Rb  r) Normal(0,s2RA1R) soba H0. Para obter formalmente o resultado final, precisaremos usar uma versão assimptótica desta pro-priedade, que pode ser encontrada em Wooldridge (2002, Capítulo 3).

Conhecido o resultado em (E.25), obtemos uma estatística computável, fazendo a substituição deA e s2 por seus estimadores consistentes; isso não alterará a distribuição assimptótica. O resultado seráa chamada estatística de Wald, a qual, após o cancelamento dos tamanhos das amostras e o uso de umpouco de álgebra, poderá ser escrita como

(Rˆb

 r)

[R(XX)

1

R

]

1

(R  ˆb

 r)/  s

2

. (E.28)

Sob H0, W  a X 2q, onde recordamos que q é o número de restrições sendo testadas. Se s2 SQR/(n

k  1), é possí vel mostrar que W  / q será exatamente a estatística F que obtivemos no Capítulo 4 no testede restrições lineares múltiplas. [Veja, por exemplo, Greene (1997, Capítulo 7).] Portanto, sob as hipó-teses do modelo linear clássico, ST.1 a ST.6 do Capítulo 10, W  / q terá uma distribuição F q,nk 1 exata.Sob as hipóteses ST.1 a ST.5, somente teremos o resultado assimptótico em (E.26). No entanto, éapropriado, e comum, tratar a estatística F usual como tendo uma distribuição F q,nk 1 aproximada.

Uma estatística de Wald robusta quanto à heteroscedasticidade de forma desconhecida pode serobtida com o uso da matriz em (E.26) em lugar de s2(XX)1, e de forma semelhante para um testeestatístico robusto tanto em relação à heteroscedasticidade como quanto à correlação serial. As versõesrobustas da estatística dos testes não podem ser computadas via somas dos resí duos quadrados ou dos

 R-quadrados das regressões restritas e irrestritas.

√n√n

√n√n

√n√n √n√n

√n√n

√n √n

120 Introdução à Econometria

Page 121: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 121/134

Apêndice E O Modelo de Regressão Linear em Forma Matricial 121

RESUMO

Este apêndice apre sentou uma breve explica ção do mode lo de regres são linear usando a notaçãomatricial. Este mate rial foi incluí do para aulas mais avan çadas que usam álge bra matricial, mas nãoé essencial para a leitura do livro. Na verdade, este apêndice faz prova de alguns dos resultados que,ou afirmamos sem provas, provamos somente em casos especiais, ou provamos por meio de métodosexcessivamente complicados. Outros tópicos — tais como, propriedades assimptóticas, estimação devariáveis instrumentais e modelos de dados em painel — poderão ser tratados de forma concisa com ouso de matrizes. Textos avançados sobre econometria, entre os quais incluí mos Davidson e MacKinnon(1993), Greene (1997) e Wooldridge (2002), podem ser consultados para detalhes.

PROBLEMAS

E.1 Seja xt 

o vetor 1 (k  1) das variáveis explicativas da observação t . Mostre que o estimadorMQO b pode ser escrito como

 ˆ

A divisão de cada somatório por n mostrará que  b é uma função de médias amostrais.

E.2 Seja  b o vetor (k  1) 1 das estimativas MQO.

(i) Mostre que para qualquer vetor b (k  1) 1, podemos escrever a soma dos quadradosdos resí duos como

SQR( b) uu (b  b)XX(b  b).

{Sugestão: Escreva (y Xb)(y Xb) [u X(b b)][ u X(b b)] e use ofato que X u 0.}

(ii) Explique como a expressão de SQR(b) na parte (i) prova que  b minimiza de forma únicaa SQR(b) para quaisquer possí veis valores de b, assumindo que X tem posto (k  1).

E.3 Seja  b a estimativa pelos MQO da regressão de y sobre X. Seja A uma matriz não singular(k  1) (k  1) e defina zt  xt A, t  1, ..., n. Portanto, zt  é 1 (k  1) e é uma combinação linear não singular de xt . Seja Z a matriz n (k  1) com linhas zt . Seja b a estimativa MQO deuma regressão de y sobre Z.

(i) Mostre que  ˜ b A1 b.

(ii) Sejam ˆ yt os valores ajustados da regressão original e ˜ yt os valores ajustados da regressão

de y sobre Z. Mostre que ˜ yt  ˆ yt para todo t  1, 2, ..., n. Como se comparam os resí duosdas duas regressões?

(iii) Mostre que a matriz de variâncias estimada de  ˜ b é s2A1(XX)1A1, em que s2 é aestimativa usual da variância da regressão de y sobre X.

(iv) Sejam  b j as estimativas MQO da regressão de  yt  sobre 1,  xt 1, ...,  xtk , e  ˜ b j as estimativasMQO da regressão de yt sobre 1, a1 xt 1, ..., ak  xtk , em que a j 0, j 1, ..., k . Use os resul-tados da parte (i) para encontrar a relação entre ˜ b j e b j.

 ˆ . ∑n

t  1

xt  y

t ∑n

t  1

x t  xt  1

 ˆ . ∑n

t  1

xt  y

t ∑n

t  1

x t  xt  1

Page 122: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 122/134

(v) Assumindo a estrutura da parte (iv), use a parte (iii) para mostrar que ep( ˜ b j ) ep( b j)/ |a j |.

(vi) Assumindo a estrutura da parte (iv), mostre que os valores absolutos da estatísticas t de ˜ b j

e b j são idênticos.

E.4 Assuma que o modelo y Xb u satisfaz as hipóteses de Gauss-Markov, defina G comouma matriz não aleatória, não sin gu lar (k  1) (k  1), e defina d Gb, de forma que d tam-

bém seja um vetor (k  1) 1. Seja  b o vetor (k  1) 1 dos estimadores MQO e defina  d G b como o estimador MQO de d.

(i) Mostre que E(d |X) = d.

(ii) Encontre Var(d |X) em termos de s2, X e G.

(iii) Use o Problema E.3 para verificar que d e a estimativa apropriada de Var(d |X) são obti-das a partir da regressão de y sobre XG1.

(iv) Agora, se ja c um vetor (k  1) 1 com pelo menos uma entra da dife ren te de zero. Paramaior cla re za, assu ma que ck  ∞ 0. Defina u cb, de forma que u seja um esca lar.

Defina d j b j, j 0, 1, ..., k 1 e dk  u. Mostre como defi nir uma matriz G não sin-gu lar (k  1) (k  1) , de forma que d Gb. (Sugestão: Cada uma das pri mei rask linhas de G deve con ter k zeros e um 1. Qual será a últi ma linha?)

(v) Mostre que para a escolha de G na parte (iv),

Use essa expressão para G1 e a parte (iii) para concluir que u e seus erros-padrão sãoobtidos como o coeficiente de xtk  / ck na regressão de yt sobre

[1 (c0 / ck ) xtk ], [ xt 1 (c1 / ck ) xtk ], ..., [ xt , k 1 (ck 1 / ck ) xtk ], xtk  / ck , t  1, ..., n.

Essa regressão é exatamente a que foi obtida escrevendo bk em termos de u e b0, b1, ...,bk 21, agregando o resultado no modelo original e reorganizando. Portanto, podemos jus-tificar formalmente o truque que usamos em todo o livro para obter o erro-padrão de umacombinação linear de parâmetros.

E.5 Assuma que o modelo y Xb u satisfaz as hipóteses de Gauss-Markov e que  b seja o esti-mador MQO de b. Seja Z G(X) uma função matricial n (k  1) de X e assuma que ZX [uma

 matriz (k  1) (k  1)] é não singular. Defina um novo estimador de b por b (ZX)1Zy.

(i) Mostre que E( b |X) b, de forma que b também é não viesado condicional em relaçãoa X.

(ii) Encontre Var(b |X). Certifique-se de que ela é uma matriz (k  1) (k  1) simétrica quedepende de Z, X e s2.

(iii) Qual estimador você prefere, b ou b? Explique.

.G

1 1

0

0

c1 / c

0

1

0

c1 / c

0 . .

0 . .

. . .

. . .

.

.

1

ck  1

 / ck 

0

0

0

1/ ck 

.G

1 1

0

0

c1 / c

0

1

0

c1 / c

0 . .

0 . .

. . .

. . .

.

.

1

ck  1

 / ck 

0

0

0

1/ ck 

122 Introdução à Econometria

Page 123: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 123/134

CAPÍTULO 2

QUESTÃO 2.1Quando a aptidão, motivação, idade e outros fatores em u não estiverem relacionados com a frequên-

cia, (2.6) será válida. É pouco provável que esse seja o caso.

QUESTÃO 2.2Em torno de $11,05. Para verificar isso, a partir dos salários médios medidos em dólares de 1976 e2003, podemos obter o deflator do IPC como 19,06/5,90 3,23. Quando multiplicamos 3,42 por 3,23obtemos aproximadamente 11,05.

QUESTÃO 2.354,65, como poderá ser verificado agregando-se partA 60 na equação (2.28). Esse resultado não é absur-do: se o Candidato A gastar 60% do total gasto, prevê-se que ele (ou ela) receberá quase 55% dos votos.

QUESTÃO 2.4

A equação será 9.631,91 185,01 roe, como poderá ser facilmente verificado multipli-cando-se a equação (2.39) por 10.

QUESTÃO 2.5

A equação (2.58) poderá ser escrita como Var( b0) , em que o termo

que multiplica s2n1 é maior que ou igual a um, mas será igual a um se e somente se – x 0. Nesse

caso, a variância será tão pequena quanto possí vel: Var(b0) s2 / n.

CAPÍTULO 3

QUESTÃO 3.1Alguns poucos fatores incluem a distribuição por idade e por gênero, o tamanho da força policial (ou, deforma mais generalizada, os recursos alocados no combate ao crime), a população e fatores históricos gerais. Esses fatores certamente devem estar correlacionados com prcond e sentmed , o que significa que

(2n

1)∑

n

i 1

 xi

2 / ∑n

i 1

( xi

x )2

salarcent salarcent 

(2n

1)∑

n

i 1

 xi

2 / ∑n

i 1

( xi

x )2

F

123

Respostas às Questões dos

Capítulos

Page 124: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 124/134

(3.5) não se manterá. Por exemplo, o tamanho da força policial possivelmente estará correlacionado tantocom prcond como com sentmed , já que algumas cidades colocam mais empenho na prevenção e na impo-sição da lei. Devemos tentar levar para a equação tantos desses fatores quanto possí vel.

QUESTÃO 3.2Usamos a terceira propriedade do MQO em relação aos valores previstos e aos resí duos: quando agre-gamos os valores médios de todas as variáveis independentes na reta de regressão pelos MQO, obte-mos o valor médio da variável dependente. Assim, SupGPA 1,29 0,453  EmGPA 0,0094  ACT 

1,29 0,453(3,4) 0,0094(24,2) 3,06. Você poderá conferir a média de SupGPA no arquivoGPA1.RAW, para verificar esse resultado até duas casas decimais.

QUESTÃO 3.3Não. A variável partA não é uma função linear exata de gastoA e de gastoB, embora ela seja uma fun-ção não-linear exata: partA 100[gastoA /(gastoA gastoB)]. Portanto, é legí timo termos gastoA,gastoB e partA como variáveis explicativas.

QUESTÃO 3.4Como discutimos na Seção 3.4, se estamos interessados no efeito de x1 sobre y, a correlação entre as outras variáveis explicativas ( x2, x3 etc.) não afeta Var(b1). Essas variáveis são incluí das como contro-les, e não temos que nos preocupar com a colinearidade entre as variáveis de controle. Naturalmente,nós as estamos controlando primariamente porque entendemos que elas estão correlacionadas com afrequência, mas isso é necessário para que possamos fazer uma análise ceteris paribus.

CAPÍTULO 4

QUESTÃO 4.1Sob essas hipóteses, as hipóteses de Gauss-Markov serão satisfeitas: u é independente das variáveis

explicativas, de modo que E(u | x1, ..., xk ) E(u) e Var(u | x1, ..., xk ) Var(u). Além disso, é fácil veri-ficar que E(u) 0. Portanto, RLM.4 e RLM.5 se sustentam. As hipóteses do modelo linear clássiconão serão satisfeitas, pois u não é normalmente distribuí do (o que viola RLM.6).

QUESTÃO 4.2H0: b1 0, H1: b1 0.

QUESTÃO 4.3Como b1 0,56 0 e estamos testando contra H1: b1 0, o p-valor unilateral é a metade do p-valorbilateral, ou 0,043.

QUESTÃO 4.4

H0: b5 b6 b7 b8 0. k  8 e q 4. A versão restrita do modelo énota b0 b1tclasse b2gasto b3totsalp b4matricl u.

QUESTÃO 4.5A estatística F para testar a exclusão de  ACT é [(0,291 0,183)/(1 0,291)](680 3) 103,13.Portanto, o valor absoluto da estatística t estará em torno de 10,16. A estatística t de ACT será negati-va, pois b ACT é negativo, de modo que t  ACT  10,16.

124 Introdução à Econometria

Page 125: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 125/134

QUESTÃO 4.6Não muito. O teste F da significância con junta de taxevas e taxform é facilmente computado a partirdos R-quadrados da tabela: F  [(0,361 0,353)/(1 0,361)](402/2) 2,52. O valor crí tico de 10%é obtido da Tabela G.3(a) como 2,30, enquanto o valor crí tico de 5% da Tabela G.3(b) é 3. O  p-valorestá em torno de 0,082. Portanto, taxevas e taxform são con juntamente significantes ao nível de 10%,mas não ao nível de 5%. Em qualquer caso, o controle dessas variáveis tem um efeito modesto sobreo coeficiente b / s.

CAPÍTULO 5

QUESTÃO 5.1Isso requer algu mas supo si ções. Parece razoá vel assu mir que b2 0 (nota depen de posi tiva men tede SupGPAp) e Cov( faltas, SupGPAp) 0 ( faltas e SupGPAp são negati va men te cor re la cio nados);isso significa que b2d1 0, o que quer dizer que plim b

~1 b1. Como b1 é enten di do como nega ti-

vo (ou pelo menos não posi ti vo), uma regres são simples prova vel men te superestimará a impor tância

de faltar às aulas.

QUESTÃO 5.2b j 1,96ep(b j) é o intervalo de confiança assimptótico de 95%. Ou podemos substituir 1,96 por 2.

CAPÍTULO 6

QUESTÃO 6.1Como rendfamdol 1.000rend  fam, o coeficiente de rendfamdol será o coeficiente de rendfam divi-dido por 1.000, ou 0,0927/1.000 0,0000927. O erro-padrão também diminui por um fator de 1.000,e assim a estatística t não se altera, nem tampouco qualquer das outras estatísticas MQO. Para melhor

leitura, é preferível medir a renda familiar em milhares de dólares.

QUESTÃO 6.2Podemos responder de forma geral. A equação é

log( y) b0 b1log( x1) b2 x2 ...,

em que x2 é uma proporção, em vez de um porcentual. Então, ceteris paribus, log( y) b2 x2,100log( y) b2(100  x2), ou %  y b2(100  x2). Agora, como  x2 é a alteração na proporção,100 x2 é a alteração em pontos porcentuais. Em particular, se  x2 0,01, então, 100  x2 1, quecorresponde a uma alteração de um ponto porcentual. Mas, então, b2 será a alteração porcentual em y

quando 100  x2 1.

QUESTÃO 6.3O novo modelo seria respad  b0 b1taxafreq b2SupGPAp b3 ACT  b4SupGPAp

2 b5 ACT 

2

b6SupGPAptaxafreq b7 ACT taxafreq u. Portanto, o efeito parcial de taxa freq sobre respad éb1 b6SupGPAp b7 ACT . É isso que multiplicamos por taxafreq para obter a alteração ceteris

 paribus em respad .

Apêndice F Respostas às Questões dos Capítulos 125

Page 126: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 126/134

QUESTÃO 6.4Da equação (6.21),

– R

2 1 s2 /[SQT/(n 1)]. Para uma determinada amostra e uma determinada

variável dependente, SQT/(n 1) é fixo. Quando usamos con juntos diferentes de variáveis explicati-vas, somente s2 é alterado. Conforme s2 diminui,

– R

2 aumenta. Se tornarmos s, e consequentementes2, tão pequeno quanto possí vel, estaremos tornando – R2 tão grande quanto possí vel.

QUESTÃO 6.5Uma possibilidade seria coletar dados sobre rendimentos anuais de um grupo de atores com a lucrati-vidade dos filmes nos quais cada um deles apareceu. Em uma análise de regressão simples, podería-mos relacionar os rendimentos à lucratividade. Mas provavelmente teríamos de controlar outros fato-res que podem afetar os salários, tais como a idade, o sexo e os tipos de filmes nos quais os atorestrabalharam. Os métodos para a inclusão de fatores qualitativos em modelos de regressão estão consi-derados no Capítulo 7.

CAPÍTULO 7

QUESTÃO 7.1Não, pois não ficaria claro quando partido seria um ou zero. Um nome melhor seria algo como Dem,que seria um para os candidatos Democratas, e zero, para os Republicanos. Ou Rep, que seria um paraos Republicanos, e zero, para os Democratas.

QUESTÃO 7.2Com jardtext como o grupo base, incluiríamos as variáveis dummy pribase, segbase, terbase, interbase

e receptor .

QUESTÃO 7.3

A hipótese nula neste caso seria H0: d1d2

d3

d4

0, de forma a haver quatro restrições. Comosempre, usaríamos um teste F (em que q 4 e k dependerá do número de outras variáveis explicativas).

QUESTÃO 7.4Como  perm aparece na forma quadrática, deveríamos permitir termos quadráticos diferentes para homens e mulheres. Isto é, adicionaríamos as variáveis explicativas feminino perm e feminino perm

2.

QUESTÃO 7.5Agregamos pcond  0, sentmed  0, temptot  0, ptemp86  0, empr86  4, negro 1 e hispan

0 em (7.31): 0,380 0,038(4) 0,170 0,398, ou quase 0,4. É difí cil saber se isso é“razoável”. Para alguém que nunca tenha sido condenado, que estava empregado durante todo o ano,essa estimativa parece ser alta, mas lembre-se de que a população consiste de homens que já foram pre-

sos pelo menos uma vez antes de 1986.

CAPÍTULO 8

QUESTÃO 8.1Essa declaração é claramente falsa. Por exemplo, na equação (8.7), o erro-padrão usual de negro é0,147, enquanto o erro-padrão robusto em relação à heteroscedasticidade é 0,118.

 pris86  pris86 

126 Introdução à Econometria

Page 127: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 127/134

Apêndice F Respostas às Questões dos Capítulos 127

QUESTÃO 8.2O teste F seria obtido pela regressão de u2 sobre hcasados, mcasadas e msolteiras (hsolteiros é o grupobase). Com n 526 e três variáveis independentes nessa regressão, os gl serão 3 e 522.

QUESTÃO 8.3Certamente o resultado do teste estatístico sugere alguma causa de preocupação. Uma estatística t de2,96 é muito significante, e ela supõe que existe heteroscedasticidade na equação de riqueza. Como umassunto prático, sabemos que o erro-padrão MQP, 0,063, é substancialmente abaixo do erro-padrão deheteroscedasticidade robusta dos MQO, 0,104, e assim a heteroscedasticidade parece ter importânciaprática. (Mais, o erro-padrão não robusto dos MQO é 0,061, que é otimista demais. Portanto, mesmoque simplesmente ajustemos o erro-padrão dos MQO quanto à heteroscedasticidade de forma descon-hecida, existem implicações não desprezíveis.

QUESTÃO 8.4O valor crítico de 1% na distribuição F com gl (2, ) é 4,61. Uma estatística F de 11,15 está bem acimado valor crítico de 1%, e assim vigorosamente rejeitamos a hipótese nula de que os erros transforma-dos, ui / são homoscedásticos. (Na verdade, o  p -valor é menor que 0,00002, que é obtido da dis-tribuição F 2.804). Isto significa que nosso modelo de Var(u|x) é inadequado para eliminarmos comple-tamente a heteroscedasticidade na u.

CAPÍTULO 9

QUESTÃO 9.1Elas são variáveis binárias, e elevá-las ao quadrado não produzirá nenhum efeito: negro

2 negro e his-

 pan2

hispan.

QUESTÃO 9.2Quando educQI está na equação, o coeficiente de educ, digamos b1, indica o efeito de educ sobrelog(salário) quando QI  0. (O efeito parcial da educação é b1 b9QI ). Não há ninguém na popula-ção de interesse com um QI próximo de zero. No QI médio da população, que é 100, o retorno estima-do da educação da coluna (3) é 0,018 0,00034(100) 0,052, que é quase o que obtemos como ocoeficiente de educ na coluna (2).

QUESTÃO 9.3Não. Se educ* for um inteiro — o que significa que alguém não tem nenhuma escolaridade após à sérieanterior concluí da —, o erro de medida será zero. Se educ* não for um inteiro, educ educ* e, assim,o erro de medida será negativo. No mínimo, e1 não pode ter média zero, e e1 e educ* provavelmentesão correlacionados.

QUESTÃO 9.4A decisão de um candidato de não concorrer pode estar sistematicamente relacionada com o que ele,ou ela, espera fazer na eleição. Portanto, podemos apenas ter uma amostra de candidatos que, na média,sejam mais fortes que todos os demais possí veis candidatos que poderiam concorrer. Isso resulta emum problema de seleção de amostra se a população de interesse incluir todos os candidatos. Se estiver-mos apenas interessados nos efeitos dos gastos de campanha sobre os resultados eleitorais dos concor-rentes que estão tentando a reeleição, não haverá problema de seleção de amostra.

√hi

√hi

Page 128: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 128/134

CAPÍTULO 10

QUESTÃO 10.1A propensão de impacto é 0,48, enquanto a propensão de longo prazo é 0,48 0,15 0,32 0,65.

QUESTÃO 10.2As variáveis explicativas são xt 1  zt  e xt 2  zt 1. A ausência de colinearidade perfeita significa que e-las não podem ser constantes, e não pode haver uma relação linear perfeita entre elas na amostra. Issoelimina a possibilidade de que todos os z1, ..., zn assumam o mesmo valor ou que z0, z1, ..., zn1 assu-mam o mesmo valor. Mas isso também elimina outros padrões. Por exemplo, se zt  a bt para asconstantes a e b, então, zt 1 a b(t  1) (a bt ) b  zt  b, que é uma função linear per-feita de zt .

QUESTÃO 10.3Se { zt } estiver se movendo lentamente ao longo do tempo — como no caso dos níveis ou logs de mui-

tas séries temporais econômicas —, então, zt  e zt 1 poderão ser altamente correlacionados. Por exem-plo, a correlação entre desemp1 e desempt 1 do arquivo PHILLIPS.RAW é 0,74.

QUESTÃO 10.4Não, pois uma tendência linear com a1 0 se tornará cada vez mais negativa conforme t aumenta.Como tgf não pode ser negativo, uma tendência temporal linear com um coeficiente de tendência nega-tivo não poderá representar tgf em todos os futuros períodos de tempo.

QUESTÃO 10.5O intercepto de março é b0 d2. Variáveis dummy sazonais são estritamente exógenas porque elas seguem um padrão determinista. Por exemplo, os meses não se alteram se as variáveis explicativas oua variável dependente se alterarem.

CAPÍTULO 11

QUESTÃO 11.1(i) Não, pois E( yt ) d0 d1t depende de t . (ii) Sim, pois yt  E( yt ) et  é uma sequência i.i.d.

QUESTÃO 11.2Agregamos inf et  (1/2)inf t 1 (1/2)inf t 2 em inf t  inf et  b1(desempt  m0) et  e reorganiza-mos: inf t  (1/2)(inf t 1 inf t 2) b0 b1desempt  et , onde b0 b1m0, como antes. Portanto,faríamos a regressão de yt  sobre desempt , em que yt  inf t 2 (1/2)(inf t 1 inf t 2). Observe que per-demos as primeiras duas observações na construção de yt .

QUESTÃO 11.3Não, pois ut e ut 1 são correlacionados. Em particular, Cov(ut ,ut 1) E[(et  aa1et 1)(et 1 a1et 2)] a1E(e2t 1) a1 s

2

e 0 se a1 0. Se os erros forem serialmente correlacionados, o modelo nãopoderá ser dinamicamente completo.

128 Introdução à Econometria

Page 129: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 129/134

CAPÍTULO 12

QUESTÃO 12.1Usamos a equação (12.4). Agora, somente termos adjacentes são correlacionados. Em particular, acovariância entre xt ut  e xt 1ut 1 é xt  xt 1Cov(ut  , ut 1)  xt  xt 1 as

2

e. Portanto, a fórmula é

em que s2 Var(ut ) s2e a2l s2e s2e (1 a2

l). A menos que xt  e xt 1 sejam não correlacionadosna amos tra, o segundo termo será diferente de zero sem pre que a 0. Observe que, se xt e xt 1 foremposi tiva men te cor relacionadas e a 0, a verdadeira variân cia será efe tiva men te menor que a variân-cia habi tual. Quando a equação estiver em níveis (em oposição a estar dife rencia da), o caso geral seráa 0, com correlação positiva entre xt  e xt 1.

QUESTÃO 12.2r  1,96ep(r ), em que ep(r ) é o erro-padrão informado na regressão. Ou poderíamos usar os erros- padrão robustos em relação à heteroscedasticidade. É complicado mostrar que isso é assimptoticamen-te válido porque os resí duos MQO dependem de b j, mas isso pode ser feito.

QUESTÃO 12.3O mode lo que temos em mente é ut  r 1ut 1 r 4ut 4 et , e que re mos tes tar H0: r 1 0, r 4 0con tra a alter na ti va de que H0 é falsa. Computaríamos a regres são de ut  sobre ut 1 e ut 4 para obtera esta tís ti ca F habi tual para a sig ni fi cân cia con jun ta das duas defa sa gens.(Estamos tes tan do duasres tri ções.)

QUESTÃO 12.4Provavelmente estimaríamos a equação utilizando primeiras diferenças, já que r  0,92 está suficien-temente próximo de 1 para levantar questionamentos sobre a regressão em níveis. Veja mais explica-ções no Capítulo 18.

QUESTÃO 12.5

Como existe somente uma variável explicativa, o teste de White é fácil de ser computado.Simplesmente regressamos u2

t  sobre retornot 1 e retorno2

t 1 (com um intercepto, como sempre) e com-putamos o teste F para a significância con junta de retornot 1 e retorno2t 1. Se elas forem con juntamentesignificantes a um nível de significância suficientemente pequeno, rejeitamos a hipótese nula dahomoscedasticidade.

,2 /SQT x

2e(2/SQT2

 x)∑

n 1

t  1

 xt xt  1

2 /SQT x

(2/SQT x

2)∑n 1

t  1

2e x

t xt  1

Var( ˆ1) SQT

 x

2∑n

t  1

 x2t 

Var(ut ) 2∑

n 1

t  1

 xt xt  1 E(u

t u

t  1)

,2 /SQT x

2e(2/SQT2

 x)∑

n 1

t  1

 xt xt  1

2 /SQT x

(2/SQT x

2)∑n 1

t  1

2e x

t xt  1

Var( ˆ1) SQT

 x

2∑n

t  1

 x2t 

Var(ut ) 2∑

n 1

t  1

 xt xt  1 E(u

t u

t  1)

Apêndice F Respostas às Questões dos Capítulos 129

Page 130: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 130/134

CAPÍTULO 13

QUESTÃO 13.1Sim, supondo que tenhamos controlado todos os fatores relevantes. O coeficiente de negro é 1,076 e,com um erro-padrão de 0,174, ele não é estatisticamente diferente de um. O intervalo de confiança de95% está entre 0,735 e 1,417.

QUESTÃO 13.2O coeficiente de altrend mostra que, na ausência de qualquer alteração no limite dos ganhos, os traba-lhadores com renda mais elevada passam muito mais tempo — cerca de 29,2%, em média [poisexp(0,256) 1 0,292] — recebendo remuneração por conta de indenização trabalhista.

QUESTÃO 13.3Primeiro, E(vi1) E(ai ui1) E(ai) E(vi1) 0. De forma semelhante, E(vi2) 0. Portanto, acovariância entre vi1 e vi2 é simplesmente E(vi1vi2) E[(ai ui1)(ai ui2)] E(ai

2) E(aiui1)

E(aiui2)

E(ui1ui2)

E(ai

2

), pois todos os termos da covariância são zero por hipótese. Contudo, E(a2

i) Var(ai), pois E(ai) 0. Isso causa correlação serial positiva nos erros ao longo do tempo no interiorde cada i, que produz viés nos erros-padrão MQO habituais em uma regressão MQO agrupada.

QUESTÃO 13.4Como admin admin90 admin85 é a diferença nos indicadores binários, ela poderá ser 1 se, esomente se, admin90 0 e admin85 1. Em outras palavras, o estado de Washington tinha uma leiadministrativa propriamente dita em 1985, mas ela foi revogada em 1990.

QUESTÃO 13.5Não, da mesma forma em que ela não causa viés e inconsistência em uma regressão de série temporalcom variáveis explicativas estritamente exógenas. Há duas razões para ela ser preocupante. Primeira,

a correlação serial nos erros em qualquer equação geralmente causa viés nos erros-padrão MQO e nasestatísticas de testes usuais. Segunda, ela significa que o MQO agrupado não é tão eficiente quanto osestimadores que levam em conta a correlação serial (como no Capítulo 12).

CAPÍTULO 14

QUESTÃO 14.1Quer usemos a primeira diferenciação ou a transformação interna, teremos problema com a estimativado coeficiente de kidsit . Por exemplo, usando a transformação interna, se kidsit  não variar para a famí-lia i, então, k  idsit  kidsit   kidsi 0 para t  1,2,3. Desde que algumas famí lias apresentem varia-ção em kidsit , então, poderemos computar o estimador de efeitos fixos, mas o coeficiente de kids pode-

rá ser estimado de modo muito impreciso. Essa é uma forma de multicolinearidade na estimação deefeitos fixos (ou na estimação de primeira diferenciação).

QUESTÃO 14.2Se uma firma não recebeu um subsí dio no primeiro ano, ela poderá ou não receber um subsí dio nosegundo ano. Entretanto, se uma firma efetivamente recebeu um subsí dio no primeiro ano, ela nãopoderá obter outro subsí dio no segundo ano. Isto é, se subs

1 1, então, subs 0. Isso induz umacorrelação negativa entre subs e subs

1. Podemos verificar isso fazendo a regressão de subs sobre

130 Introdução à Econometria

Page 131: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 131/134

subs1, usando os dados contidos no arquivo JTRAIN.RAW de 1989. Se usarmos todas as firmas daamostra, teremos

0,248 0,248 subs1

(0,035) (0,072)n 157, R2

0,070.

O coeficiente de subs1 deve ser o negativo do intercepto, pois 0 quando subs

1 1.

QUESTÃO 14.3Isso sugere que o efeito não observado ai é positivamente correlacionado com sindicatoit . Lembre-se,o MQO agrupado deixa ai no termo erro, enquanto os efeitos fixos removem ai. Por definição, ai temum efeito positivo sobre log(salário). Pela análise-padrão de variáveis omitidas (veja o Capítulo 3), oMQO tem um viés para cima quando a variável explicativa (sindicato) for positivamente correlaciona-

da com a variável omitida (ai). Assim, o fato de pertencer a um sindicato parece ser positivamente rela-cionado com fatores não observados, constantes no tempo, que afetam o salário.

QUESTÃO 14.4Não, se todas as irmãs de uma mesma famí lia tiverem a mesma mãe e o mesmo pai. Então, como asvariáveis referentes à raça dos pais não variarão por irmã, elas seriam eliminadas pela diferenciação em(14.13).

CAPÍTULO 15

QUESTÃO 15.1

Provavelmente, não. Na equação simples (15.18), anos de escolaridade é parte do termo de erro. Se alguns dos homens que receberam números baixos no sorteio militar obtivessem maior escolaridade,então, os números do sorteio militar e a educação seriam negativamente correlacionados, o que viola-ria o primeiro requisito de uma variável instrumental na equação (15.4).

QUESTÃO 15.2(i) Para (15.27), precisamos de que os efeitos do grupo de colegas do ensino médio se estenda para afaculdade. Quer dizer, para uma determinada nota sat , um estudante que frequentou uma escola deensino médio onde fumar maconha era mais comum, fumaria mais maconha na faculdade. Mesmo quea condição de identificação (15.27) se mantenha, a ligação pode ser fraca.

(ii) Temos que assumir que a porcentagem de estudantes que fumava maconha em uma escola deensino médio não está correlacionada com fatores não observados que afetam a nota média no curso

superior. Embora este jamos, até certo ponto, controlando a qualidade do ensino médio ao incluirmosSAT na equação, isso pode não ser suficiente. Talvez as escolas de ensino médio que tenham feito um melhor trabalho na preparação dos estudantes para a universidade também tenham tido um menor núme-ro de alunos que fumavam maconha. Ou, o uso de maconha poderia estar correlacionado com os níveis médios de renda. Naturalmente, essas são questões empí ricas que podem ou não ser respondidas.

subs

subs

subs

subs

Apêndice F Respostas às Questões dos Capítulos 131

Page 132: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 132/134

132 Introdução à Econometria

QUESTÃO 15.3Embora a predominância da National Riffle Association e os assinantes de revistas sobre armas este- jam provavelmente correlacionados com a presença de leis de controle de armas, não é óbvio que elessejam não correlacionados com outros fatores não observados que afetem a taxa de crimes violentos.De fato, podemos argumentar que uma população interessada em armas seja um reflexo das elevadastaxas de criminalidade, e que o controle de variáveis econômicas e demográficas não seja suficientepara capturar esse aspecto. Seria difí cil sustentar de forma persuasiva que elas são realmente exógenasna equação de crimes violentos.

QUESTÃO 15.4Como sempre, existem dois requisitos. Primeiro, poderia ser o caso de que o crescimento dos gastosgovernamentais este ja sistematicamente relacionado ao partido do presidente, após a remoção da taxade investimento e o crescimento da força de trabalho. Em outras palavras, a variável instrumental deveser parcialmente correlacionada com a variável explicativa endógena. Embora possamos imaginar queos gastos governamentais cresçam mais lentamente em governos com presidentes Republicanos, issocertamente não tem sido sempre verdade nos Estados Unidos e teria que ser testado usando a estatísti-

ca t de REPt 1 na forma reduzida cGOV t  p0 p1 REPt 1 p2 RAZINV t  p3TRABt  vt . Devemosassumir que o partido do presidente não tem efeito separado sobre cPIB. Isso seria violado se, porexemplo, a polí tica monetária diferisse sistematicamente por partido presidencial e tivesse um efeitoseparado sobre o crescimento do PIB.

CAPÍTULO 16

QUESTÃO 16.1Provavelmente, não. É pelo fato de as empre sas escolhe rem preços e gas tos com publi ci dade deforma con junta que não estamos interes sa dos no expe ri men to no qual, diga mos, a publi ci da de é alte-rada de forma exó gena e que remos saber o efeito sobre o preço. Em vez disso, mode la ría mos preço

e publicida de cada um como uma fun ção de variá veis de deman da e custo. Isso é o que resul ta dateo ria eco nô mi ca.

QUESTÃO 16.2Devemos assumir duas coisas. Primeiro, o crescimento da oferta de moeda deve aparecer na equação(16.22), de forma a ser parcialmente correlacionado com inf . Segundo, devemos assumir que o cresci-mento da oferta de moeda não aparece na equação (16.23). Se entendermos que devemos incluir o cres-cimento da oferta de moeda na equação (16.23), então, ainda nos faltará uma variável instrumental deinf . Naturalmente, a hipótese de que o crescimento da oferta de moeda é exógeno também poderá serquestionada.

QUESTÃO 16.3

Use o teste de Hausman do Capítulo 15. Em particular, defina v2 como os resí duos MQO da formareduzida da regressão de abertura sobre log(rendpc) e sobre log(área). Depois, use uma regressão porMQO de inf sobre abertura, log(rendpc) e v2, e compute a estatística t para a significância de v2. Se v2for significante, as estimativas MQ2E e MQO serão estatisticamente diferentes.

QUESTÃO 16.4A equação da demanda se parecerá com

Page 133: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 133/134

log( peixet ) b0 b1log( prpeixet ) b2log(rendat )

b3log( prfrangot ) b4log( prcarnet ) ut 1,

em que os logaritmos são usados de forma a tornar todas as elasticidades constantes. Por hipótese, a fun-

ção de demanda não contém sazonalidade, de modo que a equação não contém variáveis dummy men-sais (digamos, fevt , mar t , ..., dezt , com janeiro como o mês base). Também por hipótese, a oferta de peixeé sazonal, o que significa que a função de oferta depende de pelo menos algumas das variáveis dummy

mensais. Mesmo sem solucionar a forma reduzida de log( prpeixe), concluí mos que ela depende dasvariáveis dummy mensais. Como elas são exógenas, poderão ser usadas como instrumentais delog( prpeixe) na equação de demanda. Portanto, podemos estimar a equação de demanda por peixe usan-do as dummies mensais como VIs de log( prpeixe). A identificação exige que pelo menos uma variáveldummy mensal apareça com um coeficiente diferente de zero na forma reduzida de log( prpeixe).

CAPÍTULO 17

QUESTÃO 17.1H0: b4 b5 b6 0, de forma que existem três restrições e, portanto, três gl na RV ou no teste deWald.

QUESTÃO 17.2Precisamos da derivada parcial de (b0 b1nesprend  b2educ b3exper  b4exper 

2 ...) em rela-

ção a exper , que é f()(b3 2b4exper ), em que f() é avaliada nos valores dados e no nível inicial deexperiência. Portanto, precisamos avaliar a densidade de probabilidade normal-padrão em 0,270

0,012(20,13) 0,131(12,3) 0,123(10) 0,0019(102) 0,053(42,5) 0,868(0) 0,036(1) 0,463,em que agregamos o nível inicial de experiência (10). Contudo, f(0,463) (2p)–1/2exp[(0,4632)/2] 0,358. Em seguida, multiplicamos isso por b3 2 b4exper , que é avaliada em exper  10. O efeitoparcial usando a aproximação do cálculo é 0,358[0,123 2(0,0019)(10) 0,030. Em outras palavras,

nos valores dados das variáveis explicativas e começando com exper  10, o próximo ano de experiên-cia aumentará a probabilidade de participação na força de trabalho em cerca de 0,03.

QUESTÃO 17.3Não. O número de casos extracon jugais é um inteiro não negativo, que presumivelmente assume o valorzero ou números baixos para uma fração substancial da população. Não seria realista usar um modeloTobit que, embora possibilite um acúmulo de zeros, trata y como continuamente distribuí da sobre valo-res positivos. Formalmente, supondo que  y max(0, y*), em que  y* é normalmente distribuí do, issoestará em desacordo com a natureza discreta do número de casos extracon jugais quando y 0.

QUESTÃO 17.4Os erros-padrão ajus ta dos são os erros- padrão habi tuais da EMV de Poisson mul tiplica dos por s

1  2 1,41, de modo que os erros- padrão ajus ta dos serão cerca de 41% mais ele va dos. A esta tísti-ca quase- RV é a esta tís ti ca RV usual divi dida por s2 e, portan to, ela será a metade da esta tísti ca RV 

habi tual.

QUESTÃO 17.5Por hipótese, vmpi b0 xib ui, onde, como sempre, xib representa uma função linear das variá-veis exógenas. Agora, o salário observado é o maior entre o salário mínimo e o valor do produto mar-

Apêndice F Respostas às Questões dos Capítulos 133

Page 134: Apêndice - Wooldridge

5/16/2018 Ap ndice - Wooldridge - slidepdf.com

http://slidepdf.com/reader/full/apendice-wooldridge 134/134

ginal, de forma que salárioi max(salmínivpmi), o que é muito semelhante à equação (17.34), excetopelo fato de que o operador max substituiu o operador min.

CAPÍTULO 18

QUESTÃO 18.1Podemos agregar esses valores diretamente na equação (18.1) e considerarmos as expectativas.Primeiro, porque zs 0, para todo s 0, y1 a u

1. Então, z0 1 e, portanto, y0 a d0

u0. Para h 1, yh a dh1 dh uh. Como os erros têm zeros como valores esperados, E( y1) a, E( y0) a d0 e E( yh) a dh1 dh, para todo h 1. Conforme h , dh 0. Por con-seguinte, E( yh) a conforme h , isto é, o valor esperado de yh retorna ao valor esperado antes doaumento de z, no momento zero. Isso faz sentido: embora o aumento de z tenha durado dois períodos,ele ainda é um aumento temporário.

QUESTÃO 18.2Sob a estrutura descrita,  yt  e  xt  são sequências i.i.d. independentes entre si. Particularmente,  yt  e xt  são não correlacionados. Se g1 é o coeficiente de inclinação da regressão de  yt  sobre  xt , t  1,2, ..., n, então, plim g1 0. Esse resultado é o que deveria ser, já que estamos fazendo a regressão deum processo I(0) sobre outro processo I(0), e eles são não correlacionados. Escrevemos a equação  yt  g0 g1 xt  et , em que g0 g1 0. Como {et } é independente de { xt }, a hipótese de exoge-neidade estrita se mantém. Além disso, {et } é serialmente não-correlacionado e homoscedástico. PeloTeorema 11.2 do Capítulo 12, a estatística t para g1 tem uma distribuição normal-padrão aproximada.Se et  for normalmente distribuí do, as hipóteses do modelo linear clássico se manterão, e a estatística t 

terá uma distribuição exata.

QUESTÃO 18.3Escreva xt  xt 1 at , em que {at } é I(0). Por hipótese, existe uma combinação linear, digamos, st 

 yt  b xt , que é I(0). Agora, yt  b xt 1  yt  b( xt  at ) st  bat . Como st  e at  são I(0) por hipó-tese, st  bat  também será I(0).

QUESTÃO 18.4Simplesmente use a forma da soma dos resí duos quadrados do teste F e assuma homoscedasticidade. ASQR restrita é obtida regredindo hy6 t  hy3t 1 (hy6 t 1 hy3t 2) sobre uma constante. Observeque a0 é o único parâmetro a ser estimado em hy6 t  a0 g0hy3t 1 d(hy6 t 1 hy3t 2), quandoas restrições são impostas. A soma dos quadrados dos resí duos irrestrita é obtida pela equação (18.39).

QUESTÃO 18.5Estamos ajustando duas equações: ˆ yt  a bt e ˆ yt g danot . Podemos obter a relação entre os parâ-

metros observando queano

t  t 

49. Agregando essa informação na segunda equação, produz ˆ y

t  ˆg d(t  49) (g 49d) dt . A compatibilização da inclinação e do intercepto com a primeira equa-

ção produz d b — de forma que as inclinações de t e de anot  são idênticas — e a g 49d.Geralmente, quando usamos ano em lugar de t , o intercepto é alterado, mas a inclinação, não. (Vocêpoderá verificar isso usando um dos con juntos de dados de séries temporais, como as contidas nosarquivos HSEINV.RAW ou INVEN.RAW.) O uso de t ou de outro indicador de ano não alterará osvalores ajustados e, naturalmente, não alterará as previsões de valores futuros. O intercepto simples-mente se ajustará apropriadamente aos diferentes meios de inclusão de uma tendência na regressão.

134 Introdução à Econometria