tese de mestrado apresentada À epge

186

Upload: others

Post on 31-Oct-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

PUfIBAÇAO GETOLIO VARGAS

TESE DE MESTRADO

APRESENTADA À EPGE

t=»OR :

de Olitám

ESCOLA DE PÓS-GRADUAÇÃO EM ECONOMIA

DA FUNDAÇÃO GETULIO VARGAS

PRAIA DE BOTAFOGO, 190/10.0 ANDAR

RIO DE JANEIRO - BRASIL - CEP 22.250

CIRCULAR N9 50

Assunto; Apresentação e defesa pública

de Dissertação de Mestrado em

Economia.

Comunicamos formalmente â Congregação da Escola que

está marcada para o dia 16 de setembro de 1987 (4a. feira) ãs 15:00h,

no Auditório Eugênio Gudin (109 andar), a apresentação e defesa pú

blica da Dissertação de Mestrado, intitulada: "TÓPICOS CLÁSSICOS DE

ECONOMETRIA", do candidato ao título de Mestre em Economia, ALEXAN

DRE PORCIÚNCULA GOMES PEREIRA.

Anexamos uma súmula dessa Dissertação de Mestrado pa

ra seu prévio estudo, recentemente,através da Circular n? 49.

A Banca Examinadora "ad hoc" designada pela Escola se

rã composta pelos doutores: Antônio Carlos Porto Gonçalves, Sérgio

Ribeiro da Costa Werlang e Carlos Ivan Simonsen Leal (Presidente).

Com esta convocação oficial da Congregação de Profes

sores da Escola, estão ainda convidados a participarem desse ato

acadêmico os alunos da EPGE, interessados da FGV e de outras insti

tuições.

Rio de Janeiro, 04 de setembro de 1987

írio Henri monsen.

Diretor da EPGE.

A-4 Formato Internacional

210x297mm

ESCOLA DE PÓS-GRADUAÇÃO EM ECONOMIA

DA FUNDAÇÃO GETULIO VARGAS

PRAIA DE BOTAFOGO, 190/10.° ANDAR

RIO DE JANEIRO - BRASIL - CEP 22.250

LAUDO SOBRE DISSERTAÇÃO DE MESTRADO

Como membro da Banca Examinadora, designada pela

EPGE para julgar a Dissertação de Mestrado intitulada, "TÕPICOS

CLÁSSICOS DE ECONOMETRIA" do candidato ao título ALEXANDRE PORCI

ÚNCULA GOMES PEREIRA, apresento as seguintes ponderações que jus_

tificam meu parecer e voto:

1) 0 candidato apresenta uma tese de elevado rigor

e clareza, a qual contêm uma inovadora apresenta

ção da Teoria das Séries de Tempo.

2) Ele apresenta tópicos pouco divulgados na litera.

tura de econometria brasileira, como a estatísti_

ca de Portmanteau.

3) Ele fornece uma excelente digressão sobre os fun

damentos estatísticos da econometria, voltando

aos fundamentos da Teoria da Medida.

Assim e nestas condições, sou de parecer que a re

ferida Dissertação seja aprovada e outorgado o título pretendido

pelo candidato e autor deste trabalho.

Rio de Janeiro, 16 de setembro de 1987.

Sérgio Ribeiro da Costa Werlang,

Professor da EPGE .

A-4 Formato Internacional

210x297mm

ESCOLA DE PÓS-GRADUAÇÃO EM ECONOMIA

DA FUNDAÇÃO GETULIO VARGAS

PRAIA DE BOTAFOGO, 190/10.° ANDAR

RIO DE JANEIRO - BRASIL - CEP 22.250

LAUDO SOBRE DISSERTAÇÃO DE MESTRADO

Como membro da Banca examinadora, designada pela

EPGE para julgar a Dissertação de Mestrado,intitulada "TÕPI-

COS CLÁSSICOS DE ECONOMETRIA", do aluno ALEXANDRE PORCIÜNCU-

LA GOMES PEREIRA, julgo que a referida Dissertação seja apro

vada e outorgado o título pretendido pelo candidato e autor

do trabalho, visto que demonstrou bom conhecimento no campo

de estudo de sua Dissertação, o que se traduziu num trabalho

claro e rigoroso.

Rio de Janeiro, 16 de setembro de 19 87

JTONIO CARLOS PORTO ÇÒNÇALVES,

Professor da E

A-4 Formato Internacional

210x297xnni

ESCOLA DE PÓS-GRADUAÇÃO EM ECONOMIA

DA FUNDAÇÃO GETULIO VARGAS

PRAIA DE BOTAFOGO, 190/10.° ANDAR

RIO DE JANEIRO - BRASIL - CEP 22.250

LAUDO SOBRE DISSERTAÇÃO DE MESTRADO

Como membro da Banca Examinadora, designada pela

EPGE para julgar a Dissertação de Mestrado intitulada, "TÓPICOS

CLÁSSICOS DE ECONOMETRIA" do candidato ao titulo ALEXANDRE PORCI^

ONCULA GOMES PEREIRA, apresento as seguintes ponderações que jus_

tificam meu parecer e voto:

1) 0 candidato possui ótimo conhecimento no campo

da sua dissertação, fazendo nesta um apanhado

geral das idéias fundamentais e avançadas da E-

conometria, bem como uma excelente apresentação

da Teoria das Séries de Tempo.

2) Sua tese apresenta tópicos pouco divulgados na

língua portuguesa como, por exemplo, a introdu

ção que faz a Teoria das Séries de Tempo.

3) A sua tese apresenta elevado rigor e clareza

de apresentação. Ê fundamental a sedimentação

que faz usando a Teoria da Probabilidade ã Ia

Kolmogorov.

Assim e nestas condições, sou de parecer que a re

ferida Dissertação seja aprovada e outorgado o titulo pretendido

pelo candidato e autor deste trabalho.

Rio de «Iánéiffa,/7>i6 de

an S

Professor da EPGE e

Presidente da Banca.

210x

■ AGRADECIMENTOS

Agradeço ao Prof. Carlos Ivan Simonsen Leal

pela sua orientação, dedicação, paciência e estímulo, sem o

que, muito provavelmente, esta tese de mestrado não se teria

concretizado.

Agradeço aos Profs. Sérgio Ribeiro da Costa

Werlang e Antônio Carlos Porto Gonçalves a leitura da versão

final do texto e sugestões.

Agradeço â Maria Zilma de Queiroz Barros pela

presteza, eficiência e paciência com que datilografou o texto

e deu o lay-out.

Agradeço o apoio recebido de meus familiares,

que me estimularam nos momentos mais difíceis.

Agradeço â direção da EPGE e todos que traba-

lh"am para que nossa escola seja melhor a cada dia.

11.

ÍNDICE

CAPÍTULO 1; PROBABILIDADE 1

1.1- Introdução 1

1.2 - Medidas Positivas e Espaços Mensuráveis 2

1.3 - Variáveis Aleatórias 11

1.4 - Seqüência de Variáveis Aleatórias e Definiçõesde Convergência 15

1.5 - Lei Fraca de Tchebyschev e Teorema Central do

Limite 18

- Apêndice 2 3

CAPÍTULO 2: ESTATÍSTICA PARAMÉTRICA 24

2.1- Introdução 2 4

2.2 - Conceitos Básicos 26

2.3- Teoria de Rao-Cramer 32

2.4 - Método da Máxima Verossimilhança 43

2.5 - Teste de Hipótese Estatística 61

CAPÍTULO 3: TÓPICOS DE REGRESSÃO LINEAR 76

3.1 - Introdução 76

3.2 - Regressão Linear Simples 79

3.3- Previsão 104

3.4 - Mínimos Quadrados Generalizados 10 8

3.5 - Analise dos Resíduos de uma Regressão 118

3.6- Multicolinearidade 122

3.7 - Erro nas Observações e Variáveis Instrumentais 12 5

3.8 - Coeficientes de Correlação-Parcial 12 8

- Apêndice 134

1X1.

CAPÍTULO 4: REGRESSÕES NÃO-LINEARES E SÉRIES DE TEMPO ... 13 9

4.1 - Introdução 13 9

4.2- NHo-Linearidade 140

4.3 - Series Temporais 153

REFERÊNCIAS BIBLIOGRÁFICAS 17 7

IV.

INTRODUÇÃO

Este trabalho tem como objetivo discutir os

Tópicos Clássicos de Econometria, mas dando também ênfase aos

conceitos de Probabilidade, Estatística e Álgebra Linear.

Os pontos abordados seguem a ordem tradicional.

0 Capítulo 1 ê destinado a exposição dos con

ceitos de Probabilidade e Teoria da Medida. Estes conceitos

são importantes para a compreensão dos Conceitos de Estatísti

ca.

0 Capítulo 2 segue introduzindo os Conceitos

de Estatística e testes de hipóteses.

0 Capítulo 3 apresenta regressões lineares e

os testes de hipóteses usuais.

0 Capítulo 4 aborda regressões não-lineares e

séries temporais.

1.

CAPÍTULO 1

PROBABILIDADE

1,1 - Introdução

Neste item se define formalmente o que vem a

ser uma medida de probabilidade P sobre um conjunto W. A

partir desta definição e da definição de variável aleatória,

também dada abaixo, enunciam-se os principais conceitos de

convergência num espaço dei probabilidade: convergência quase

certa, convergência em probabilidade e convergência em distri

buição.

A Lei dos Grandes Números de Tchebyschev e pro_

vada e enuncia-se, sem fornecer prova, o Teorema Central do

Limite de P. Levy.

2.

1-2 - Medidas Positivas e Espaços Mensuráveis

1.2.1 - Definição

Uma. coleção M de subconjuntos de W é chama

°" álgebra de W se possui as seguintes propriedades:

a) W 6 M

b) Se m 6 M, então m° 6 M

c) Se m ê a reunião de uma família enumerãvel

de elementos de M, então m pertence a M

Os m- são chamados conjuntos mensuráveis e W

e um espaço mensurável.

1.2.2 - Definição

Dado um espaço mensurável (W, M) dizemos que a

função P:M -»■ [ü, °°J ê uma medida positiva a-aditiva se:

NOTA: c

m ê o conjunto complementar de m, ou seja

mc

a) existe m 6 M tal que PCm) < a

b) PCU m.) = Z P(m.) onde

todos os nu são mensuráveis e disjuntos.

1.2.3 - Exemplos

Ex. 1: P: CÍN) -»• [0 ,

6 1PCn) =

tt2 n2

Ex. 2: Medida de Lebesgue Cem IR )

Sejam a, b 6 lK tais que a < b:

Escrevemos Ca,b) = {x 6 IR : a < x < b};

a medida de Lebesgue de Ca,b) é o número ÀCa,b) = b - a. Se

ja M a menor CT- álgebra que contem todos os intervalos Ca,b).

A medida de Lebesgue de um conjunto A ê o número

n n

UA.) = inf{E Cb. - a.): U Ca.,b.) 0 A}

É possível provar que

XCA) = supíXCK): K C A e K ê compacto}.

N0TA:Se V m 6 M ? PCm) <; » então, P é chamada uma medida fini-ta.

oo 2

Z -4- = V CKreider)n=i n 6

4.

1.2.4 - Lema

Se P e uma. medida positiva o - aditiva A C B

são conjuntos mensuráveis, então P(A) < P(B).

Demonstração

■/

B = A UCB\A) =>PCB) = PCA) + PCB \A) =>

PCB.) > PCA) pois PCB \A) > 0

Temos também que se

A C B=>PCB\A) = PCB) - PCA).

1,2.5 - Teorema

Seja uma medida positiva P, então

a) PC0) = 0

b) se mi G m2... onde cada m. é mensurável, en

tao:

lim PCm.) -*■ PCU m. )

1 1

c) se mx o m2••• onde cada m. é mensurável e

PCmi ). <, °° então

5.

lim PCm.) -> PCÍ1 m.)X X

d) Se os m- são mensuráveis, então

PCÜ m.) - Z PCm.)±= X i=i X

Demonstração

a) Seja m tal que PCm) < °°.

m fl 0 = 0=>PCm.) = PCmU0) = PCm) + PC0)

donde PC0) = 0.

b) Se Bx = mi e B, • = m, n m se k > 2.

K K k-i

Então m, = U B. ê a união disjunta dos

k

Então PCm, ) = E PCB. )PCm,) = E PCB.]

k i=i 1

Logo:

lim PCmk) = E PCBi) = PCU B±) = PCU m.)

c) Ponha B, = mi\m.

EntHo 0 = Bj C B2 C ...

Pov Cb) lim PCB.) •> ;PCU B.)l->oa 1-1

6.

?

PCB ) = P(m;1) - PCm, )K K

Por outro lado,

U EU = U (mj.flm?) = mjíl (U mV)

oo oo

= mjnCO m.) = mj^Cn. m.)

oo oo

Então PCU B.) = PCmj) - PCíl m.)

Logo,

lim PCB.) ■* PCU B. )

implica, que:

lim PCmj) - ECnu) -> PCmx) - PCn mj.)

ou seja:

lim PCm.) -> PCn m.)Í->oo i = 1

d) Note-se que PCA U B) < PCA) + PCB)

De fato:

CA U B) = CA n Bc) U CA° n B) U (A íl B)

como os conjuntos do lado direito são disjuntos:

PCA U B) = PCA íl BC)+ PCAC fl B) + PCA fl B) <

pca n bc) + pca n b) + pca- n b) + pca n b)

= PCA) + PCB)

Podemos concluir que

n n

PCU m.) < E P(m.)•. _ 1 ~ «_ i1-1 1-1

Ora,

k k

Z PCm.) = lim Z PCm.) > lim PCU m.) = PCU m.)T -• 1"~t «1 *_-L

i=i k^-00 1=1 i-i

Ra,sta tomar B,. = U m. , como B 3 B , aplicar (b)K • _ 1 K+ 1 X

1,2.6 - Integral de Funções Mensuráveis

1,2.6.1 - Definigao

Seja E um subconjunto qualquer de um espaço

mensurável CW, M).

Seja a função: Xv : W "*" íR

0 se x & E

1 se x 6 E

XE ê chamada função característica,

Seja s: W ->

n

s = £ «;L

i=i X Ai

onde os A. são subconjuntos enumeraveis e disjuntos de W. Cha1 ~

ma-se s de função simples. Se os A. são mensuráveis, s e

uma função mensurável.

1.2.6.2 - Definição

Uma função real e mensurável se ela e o limite

pontual de funções simples mensuráveis. Decorre então que se

f é positiva e mensurável,existe uma seqüência ís }

n= *

tal que: a) 0 < Si < s2 • • • < f

b) s Cw) converge para f(w)

para todo w quando n •> °°,

1.2.6.3 - Definição

Dado um espaço CW, M) com uma medida positiva

\i, define-se a integral de uma função simples mensurável como

sendo:

n

s d\x - Z a. ia CA.)

x 1

9.

1.2.6.4 - Definição

Se f; W "*" [_Q, °°J ê uma função mensurável, a

integral de f e definida como sendo:

f dy = supí a dy; s é simples e 0 < s 5 f^

1.2.6.5 - Definição

Se f: W "*" L-°°5 °°0 é uma função mensurável qua]L

quer, então a integral de f é definida como:

f dy = í f+ dy - í f" dy

-L «a

onde f = max Cf,0); f = max C-f, 0), são funções mensuráveis

Diz-se que f é integrãvel quando ambos os ter

mos â direita da igualdade forem finitos.

1.2.7 - Teorema da Convergência Monótona

Seja, O&p M, P) um espaço mensurável com medida

P, e fR:W -*-[0> °°J uma seqüência de funções mensuráveis tais

10,

que:

a) f (w) < f (w) para todo w 6 W

b) existe fCw) = lim f (w) para todo w 6 W

Então lim f f dP ->■ f f dPri

1.2.8 - Teorema da Convergência Dominada

Seja f : W •> £-°°, °°3 uma seqüência de funções

mensuráveis tais que para todo w 6 W exista f(w) = lim fn(w).

Se existir g: W ■*■ £0, °°] mensurável tal que

g dP < oo e j fn | < g então:

a) [jf|dP < oo

b) lim [ fn dP = | f dP

c) lim í|fn - f|dP = 0n->oo j

11.

1.3 - Variáveis Aleatórias

1.3.1 - Definição

Da,do um, espaço mensurável com uma medida posi

tiva CW, M, P) , diz-se que a medida P ê uma probabilidade se

PCW) = 1. Diz-se, então, que (W, M, P) ê um espaço de proba

bilidade e os m. 6 H são chamados eventos.

1.3.2 - Definição

Uma variável aleatória real (v.a.r.) ê uma furi

çao mensurável real num espaço de probabilidade.

1.3.3 - Definição

Dada uma v.a.r. X o seu valor esperado ê defi

nido como: EX = X dP

NOTA:

Esta definição de v.a.r. pode parecer redundante, mas ê

usual na literatura corrente.

12.

1.3.4 - Exemplo

Ê possível que P seja uma probabilidade e que

a v. a. r. não tenha EX < °° .

Seja W = IN e suponha que P(X = n) =6 1

2 2 'n2

que ê uma probabilidade, já que:

PC IN) = E — JL. = l• 2 91 = 1 "n n*

Contudo:

EX = XdP = ndP = E

i=i n2 u2 tt2 i=i n

0 seguinte teorema ilustra um ponto importante

sobre as variáveis aleatórias de valor esperado finito.

1.3.5 - Teorema

Seja X uma v.a.r., temos:

Z PC |X | > n) <' E i X | < 1 + E PC [X 1 > n)n=i n=i

se E|X| < »

Se EJX| = », então:

13.

oo

l PC|X| > n) =n=i

Demonstração

Ponha AR = {n < | X| < n + 1} para n = 0, 1, 2 ... e

g = { xA + • • • + XA > * i X i. A seqüência g -»■ | X |n Aa An n

e obedece âs condições do Teorema da Convergência Monoto_

na, logo:

| gn dP ^ | | X| dP

Por outro lado,

[gndP = E } |X|XA. dPJ X=QJ X

donde vem que:

E|X| = £ f |x|Xa dPJ Ai

Trivialmente temos que:

nPCA) ^ [ |x|Xa dP < (n + 1) P(A)n F ■ /\ ii

o que acarreta que:

nPCA ) < ElXl < 1 + Ê nPCA ) (*)n i i _ n

n-i

Suponha, que E | X | <

14.

Temos que:

k k

E nPCAn) = Z n(P(|x| > n) - P(|x| > n + D) =n=i n=i

k

E PC|X| > n) - k PC|x| > k + 1)

Ora,

{ |X|X C|X| > k + l)aF

O lado direito da desigualdade tende a zero,jã

que pelo Teorema da Convergência Monótona, temos que

E|X| = lim (|X| xMy, ■ . + n.dP

Então ■£ nPCAR) = E P(|x| > n)n=i n=i

oo

Finalmente, se E |'X | = °°, então l nP(A ) = °° de (*)n= i

k -kComo £ nP(An) ;< i P(|X| > n) segue que

n=j " n=i

E PC |X | > n) = «o.

n=i

1.3.6 - Corolário

Se X > 0 e EX = 0, então P(X = 0) = 1.

15,

Demonstração

Se X > 0 e EX = 0

Então X = |X|.

Tomo r > 0.

Segue que rX > 0 e ErX = rEX = 0

oo

Pelo Teorema anterior £ P(rX > n) > 0.

Como PCrX > n) > 0 para n > 1 temos que

PCrX > 1) = 0.

Isto ê o mesmo que dizer que

PCrX = 0) = 1 CPois P(W) = 1)

Como por hipótese r > 0, então X = 0

Logo, PCX = 0) = 1.

1.4 - Seqüência de Variáveis Aleatórias e

Definições de Convergência

1.4.1 - Definição

Seja CW, M, P) um espaço de probabilidade;

X : W -> 0? u^a seqüência de v.a.r., e X: W -> fl? uma v.a.r.

16

Diz-se que:

a) X converge quase certamente para X

se Xn(w) -*■ XCw) para todo w 6 (W N) , on

de PCN) =0. CX 9^Ç> x)n

b) X converge em probabilidade para X

se lim PCJX - Xj > e) = 0 paran

qualquer e>0. CX —í—> X) .

Demonstra-se que convergência quase certa im

plica em convergência em probabilidade. Abrevia-se convergên

cia de probabilidade como plim P(|X - X| > e) = 0.

1.4.2 - Definição

Seja X uma v.a.r., a função F^: fR -> [0>ll

definida por FyCx) = P(X < x) ê chamada função de distribui,

ção.

Demonstra-se que:

a) 0 à Fv(x) ^ 1 para todoA

b) x <■ y -> FYCx) £ FY(y)

c)x <i xex ^ x =>lim sup Fv(x )< Fv(x)

d) xn > xn + t e xn -> x=>Fx(xn) - Fx(x)

Ccontinuidade pela direita)

e) lim Fx(x) = 0 e lim Fy(x) = 1x>°°

1.4.3 - Definição

Dada uma seqüência de v.a.r. X , diz-se que

Xn converge em distribuição para X se F (x) -> Fx(x) em todo

n

ponto X no qual Fv ê contínua escreve-se (X ——>X).

A chave para compreender-se convergência em

distribuição ê o seguinte resultado.

DDemonstra-se que X^ > X se, e somente se,pa

ra toda função f: [R -*- IR contínua e limitada

E fCXn) -> E f(X).

NOTA:

No Capítulo 3 apresentam-se exemplos de convergência em

distribuição.

18

1.4.4 - Teorema (Slutsky)

Se Xn > X e Zn P > c (constante)

então:

a) X_ + Z_ —^—> X + c

ZnXn —> cX

1.5 - Lei Fraca de Tchebyschev e Teorema Central do Limite

1.5.1 - Definição

Uma família de v.a.r. F ê formada de v.a.r,

independentes se

pcx. e a. •, v i e i) = tt pcx. e a.)

i e i 1

pa.:ra tqdo I finito e quaisquer A. mensuráveis, onde X. 6 F.

i.õ.2 - Lei Fraca dos Grandes Números de Tchebyschev

Seja X uma seqüência de v.a.r. independentes

19

entre si tais que EX = O e E(X )2 = K < °° para todo n.

Então: -^— CXX + X2 + . . . X ) —-—> 0n n

Demonstração

Usando a desigualdade de Tchebyschev

PC|X - EX| > e) < ~~ var Xe

Fazendo S = Xx + X2 + ... + X

tem-se que ES = nEX, = 0^ n *

var S = nK

Então

S

> e) = P(|Snl > ne))| ) P(|Snl

5

- ~- var S = -^- K => — —> o* n 2

0 Teorema que enunciamos a seguir é um dos re

sultados mais notáveis da Teoria da Probabilidade. Ele garan

te que quando temos amostras grandes, podemos considerar a

distribuição como sendo normal. Define-se uma distribuição

normal no Apêndice.

20.

1.5.3 - Teorema Central do Limite de P. Levy

Seja, X uma v.a.r tal que EX = 0 e EX2 =1.

Sejam X , X , ..., X independentes e Ídenticamente distribui

das como X. (Ver caso geral no Apêndice)

Então

í

C—) 2 (X + X + . . . + X ) -^—> N [0 , l]n i 2 n

Corolário:

Seja X uma seqüência v.a.r. independente e

Ídenticajr.ente distribuída tal que EX =0, EXn2 < °° então:

n

Z X.

■■1 = 1 3 Da) —J—i :— > Normaln j

CE X.2 )T

/n 2 X.

b) í^i -^—> Normaln

21,

Demonstração

a) Seja EX2 = o'

y

Então Y = _JL_=>e y = 0 Ecr

n n j n

E X. E Y. C-^-)7 E Y

n i n i -, n

Z CX.)2)T CS Y.2)"2" ^L_ E

D 3 n

Pelo Teorema Central do Limite

-i nE Y.) E Y

n j=1 D

Pela Lei Forte dos Grandes Números

n j

Pois, se os X. são independentes, os Y. também

~ P «•o sao, e se Y > c, dada uma f continua, demonstra-se que

P ~ «•fCY ) -> fCe). Ora, a função raiz ê contínua e usando o

Teorema 1.4.4 temos:

n

E X

3CE. X.2)Í"j = i

/PT

E

n

= i

X

X.

2

O

n

Z

n

E Y.

• n JJ

Y.2

i ^ 1

a

22,

n

Pelos mesmos argumentos anteriores.(Demonstra-

se que combinação linear de V.A. normais ê uma V.A. normal).

23,

APÊNDICE

Seja X um vetor aleatório p-dimensional tal que

EX = y

EXX1 = X

Então

f.d.p.CX|y,E) = 2 exp[ |-(X - y)' - y)]

Diz que X e uma V.A. N (y, E)

Teòrema:

Seja

v = CXx , X2 , ...» X ) onde X. são v.a.r. independentes e

n ' n n 1

A = cov vn

n n

cov(Xx ,X2 ) ... covíX, ,X ]

n n n n

covCXj ,X

n rncov(X ,X

n n

onde A independe de n

E vn = 0

Entãon

1 v.

n> Nr(0, A)

24.

CAPÍTULO 2

ESTATÍSTICA PARAMÉTRICA

2.1 - Introdução

Muitos estudos, experimentos científicos e in

dustriais produzem dados cuja analise e compreensão são de in

teresse dos pesquisadores. Em geral, esses dados podem se:?

modelados como o resultado de um experimento aleatório, ao

qual se tenta atribuir uma distribuição de probabilidades ade

quada.

Âs vezes, sabe-se qual a família de distribui

ções que ê a mais adequada â modelagem, mas não se pode deter

minar os parâmetros da distribuição.

Exemplo:

Tome um processo industrial que produza lotes

de N peças, das quais N.6 são defeituosas.(8 desconhecido).

Deseja-se tomar uma amostra de tamanho n pa

ra inspecionar o lote. Então, se X ê o número de peças de-

25.

feituosas na amostra, tem-se:

( N9 . . N - N9 ,

pfi [x = k] = k n - k

(N)n

onde, max (n - N(l - 9), 0) < k < min (N9, n)

Assim, pode-se determinar, no experimento aci

ma, a família de distribuições que modela o experimento (hi-

pergeomêtrica, no caso).

Porem, o parâmetro 9 é desconhecido.

A pergunta ê como determinar 6?

A resposta ê: Formula-se uma hipótese sobre o

verdadeiro valor de 9, e a validade desta hipótese ê testada

por um Teste de Hipótese. Neste Teste de Hipótese aceita-se

ou rejeita-se o valor atribuído a 9.

Na seção 2.2 introduzérn-se diversos conceitos

de Estatística e o Teorema da Fatorização. Em 2.3 abordam-se

as desigualdades de Rao-Cramer e de Bhattacharya.Na seção 2.4

se apresentam os Estimadores de Máxima Verossimilhança, com

suas propriedades de Consistência e Normalidade Assintotica.

Por ultimo, na seção 2.5 têm-se os Testes de Hipótese, Erros

dos tipos I e II, Poder de um Teste e enuncia-se o fundamen-

26

tal Lema de Neyman-Pearson.

2.2 -.Conceitos Básicos

2.2.1 - Estrutura Estatística

Seja T uma família de medidas de probabilida

de num espaço mensurável (X,<X ).

Na linguagem de probabilidade (X,tX ) ê o con

junto de possíveis eventos, denominado espaço amostrai, e

CX,t/€,i ) e chamada uma estrutura estatística.

Se T for um conjunto unitário, a estrutura es

tatística ê um espaço de probabilidade.

Em geral, T = {PQ ; 8 60}, onde

Cp -0 e o espaço dos parâmetros; í.e., T e parame

trizada.

-01!£92 -»■ Pg ^Pfi diz-se que a pa-

rametrização e identificável.

Caso contrário, diz-se que ê não identificável

- Diz-se que a estrutura estatística (X,tX,T )

27.

e dominada por uma medida a - finita V em (X,t/() se para tp_

das as medidas PQ S <P existir uma função L (xj 9) de x 6 X,

tal que:

Pfl CA) = L(x|0)y(dx) V AeU0 } A

onde a função L Cx|Q): X x 0 -> [O,00)

é chamada função de verossimilhança (F.V.). Se Pa satisfaz■*— t>

âs condições acima, diz-se que PQ ê absolutamente contínua como

respeito a \\ .

Obs. : jj não precisa ser uma probabilidade.

2.2.2 - Estatística

Seja a estrutura estatística (X,tX,T ). Então,

uma função T: (X,uí) -*■ (jR , B ), onde 3 é a a - álgebra de Bo-

rel de IR , é uma estatística. CV. NOTA)

Ou seja, para qualquer Pfi G*P a estatística T

e uma V.A. do espaço de probabilidade (X,tA, Pfl^*

- Sejam duas estatísticas T i : X -*■ Y e

T2 : X -»■ Y

NOTA; A cr-ãlgebra de Borel em ÍR é gerado pelos conjuntos

abertos.

são

Ti e T2 são chamadas equivalentes se o evento

A = {x : Ti (x) ¥= T2 (x)}ei for tal que

PQ CA) =0 V 6 6 0

0 evento A é chamado t - desprezível.

- Duas estatísticas Ti , T2 em (X,tÁ ,*P )

chamadas independentes se V pQ G T as V.A. Ti, T2 são inde

pendentes considerando o espaço de probabilidade (X,c4,PQ).

- A estatística T em (X,tA,T ) ê chamada inte-

grável se V P§ G ? a V.A. T ê considerada em (X,t4 ,PQ) for

•uma função integrãvel.

0 valor esperado de T associado a PQ ê repre

sentado por Eq T(.x).

2.2.3 - Estatística Suficiente

Uma estatística T: X ■+ Y e chamada suficiente

se para um dado valor da estatística T, a distribuição das

observações x independe de 6.

Ou seja, para qualquer A 6 1/1 , temos que:

P0 {x G A|TCx)}

29.

independe de 0, i.e., o montante de informação sobre o verda

deiro valor de 0 em x é o mesmo disponível em T(x).

2.2.4 - Teorema da Fatorização - Como achar

uma estatística suficiente.

Seja L uma F.V. A estatística T: X -»- Y é

suficiente se, e somente se, existe uma função h - mensu

ravel, estritamente positiva em X e uma função gQ 3-mensu-

rãvels estritamente positiva em Y, tal que:

L(x|0) = g CT(x)) « hCx)

Demonstração: Para o caso em que X ê finito ou

enuméravel.

C =>) Se T ê uma estatística suficiente, x 6 X

e T(.x) = t. Então, pela definição de Radon-Nikodyn

dp

L(x I 8 ) = —i

dy

mas como X e enuméravel

dP,

= x)

d» ^ - x

30,

Então,

L(x 6)

à\x

= P (£ = *)D

Ç = x

= Pe CÇ = x;TCÇ) = t) =

= Pç ÍTCÇ) = t} • PQ {Ç = x|T(Ç) = t} =

= gQ {TCx)} • h(.x)

Ja que T(.x) é suficiente, vem que h(x) independe de

(.<= ) Seja agora L(x|6) = gQ (T(x)) • h(x)

Se T (x) = t e PQ'{T(Ç) = t} > 0, obtem-se:

PQ (Ç = x, TU) = t)Pfl CÇ = x|T(.Ç) = t) =

6

PQ(T(Ç) = t)

= x) PQ (Ç = x)

P CTCÇ) = t) E Pfi (Ç= y)

y y:T(y) = t ü

(t) . h (x) h(x)

E gfl(t)h(y) S , h(y)

y:T(y) = t y 6 T" (t)

E esta ultima expressão independe de 6 .

No caso geral, a prova dependera do Teorema de

Radon—Nikodw

31.

2.2.5 - Estatística Completa

Uma estatística T ê chamada completa se para

qualquer função f: [R ■* (Jv mensurável limitada valer que:

EQ f(TCx)) = 0; V 6 -> f(T(x)) = 0 q.t.p.

Conseqüentemente:

Pfi ífCTC.x))= 0} = lj V 6

2.2.6 - Estatística Livre

Um conjunto A 6 J[ e chamado livre (com respei

to a uma família 9={pQ:ee©} de medidas de probabilida

de em CX,tX )) se PQ(A) não depende de 9 G 0.

A estatística T : (X, iA ) -*■ (Y,3) é chamada li

vre se a distribuição desta estatística não depende de 6 6 0.

Isto e, íx:T(x) 6 B} e um conjunto livre para todo B 6 3.

NOTA:

{f(.T(.x)) = 0; q.t.p} = PQ{f(T(x)) é 0) = 0;V6>

q.t.p = quase toda parte, isto ê, exceto num conjunto de

medidas nulas, da família de medidas.

32.

2.3 - Teoria de Rao-Cramer

2.3.1 - Estimadores não-viesados de mínima variância

Seja CX, i/C ,r ) uma estrutura estatística e

uma função de 0 no (R .

A estatística t com valores no [ft e um es

timador não-viesado CENV) de t se:

EQ tCx) = xC9) V 9 G 0

supondo que x tenha distribuição Pg.

Seja A. a família de todos os ENV de t , t é

cha,mado (^stimador não-viesado de mínima variância (ENVMV) se:

var0 t $ var@ tl;V0e0,t'eA.

2.3.2 - Teorema (Unicidade do ENVMV)

Sejam tx e t2 dois ENV da função t com va

riância mínima.

Então tjCx) = t2(x) qtp

ou seja:

33,

Pe {t x(x) = t2(x)} = 1; V 6 € 0

Demonstração:

Para todo 0 6 0, faça t3 = -~~(.t 1 + t2),

v = varQti = varQt2

Ora, t3 e não viesado, logo v ^ var t3.

Por outro lado:

FUNDAÇÃO GETÚLIO VARGAS

TÓPICOS CLÁSSICOS DE ECONOMETRIA

DISSERTAÇÃO SUBMETIDA Â CONGREGAÇÃO DA

ESCOLA DE P(5S-GRADUAÇÃO EM ECONOMIA (EPGE)

DO INSTITUTO BRASILEIRO DE ECONOMIA

PARA OETENÇAO DO GRAU DE

MESTRE EM ECONOMIA

34.

com respeito a uma certa medida y em (X,tX ).

Considere também um estimador não viesado t da

função t .

Suponha que L, t e. t satisfazem âs condições

de regularidade:

1) { x: L(x|0 ) > 0} V x, v 6

2) L(x|9 ) é diferenciavel com respeito ao e:

j t(x) L(x|6) y(dx) = | t(x) ^- L(x|9):y(dx)d

d9

X X

3) t é diferenciavel.

Teorema: Satisfeitas as condições acima, se t

e um ENV de t com segundo momento finito, então:

lnL>

a igualdade se verificando, se e somente se,

■^j- In L = A (9) [t(x) - T(0)] y q.c

para uma certa fundão A (9).

NOTA:

q.c = quase certamente se, exceto no conjunto onde a me

dida y é nula.

35,

Demonstração

dPfir r(D I L(x|e) y(dx) =

X

(2) í t(x) L(x|e) p(dx) = EQ t(x) = x(9) V9

X

Derivando (1) e (2) em relação a 6 temos,

Í3_Ldvl=í_l___9:LLdíJ ae J l ae J

a In L

XX X

X X

Então,

T ' - í tfv^ 9ln L ,fll í 9 In L . .x - ttx; - ■ ■ ■ ■ L dy - x v.8 ; ——— L dy

J 96 J 99

X X .

x1 = { [t(x) -t(6)] *j!l± L dyX

Aplicando a desigualdade de Cauchy-Schwarz pa

ra integrais â última integral e representando L = /TT *■ ^~L.

[t'(0)]2 < í [t(x) -t(9)J2 Ldp . í (ilTLii) l dy

X ' X

(O)]2 < var t . E ( AiHo 8 ae

A igualdade se verifica quando as funções

36.

In L( x I 8) r. t \ ,Ovi' e |t(x) - t(6)J

3 9 U -+

forem paralelas no espaço vetorial das funções de x, ou seja

8'3 6 L(X|9) = A(8) jt(x) - t(6)1

para um certo valor de A(e).

Finalmente:

varn t

2

e 2

0 39 °

0 lado direito da desigualdade e o limite in.fe

rior para a variância do ENV.

0 estimador que atinge este limite é chamado

estimador eficiente £EE) .

2.3.4 - Corolário

Para que o ENV da função t seja EE, é necessá

rio e suficiente que

L = A(8) [t(x) - T(0)l30

37.

Demonstração

A primeira afirmação decorre da definição de

EE e da desigualdade de Cauchy-Schwarz.

A segunda decorre da igualdade ja demonstrada:

t' = f [t(x) - t(8)]AIELÍí L ÚM = f A(8)[t(x) - t(6)]2 L á]i =J 8 9 J

X X

= A(8) . varQ t

2.3.5 - Exemplos

Seja x = (xl, x2, ..., x ) e as observações

x1? x2, ..., x independentes cada uma com distribuição

N [8,a 2 i c°m variancia a conhecida. A função densidade de

cada observação e da forma:

(v ~9) 24 p 2

Neste caso,faça:

L(x|6) = tf f(xj6) = a-n(?TT)2 exp{ — Z (xv -8) }— , n

2, n

j p— Z (x 8)2

-5- In L = —- (x - 6) onde x = -4- ? x,38 o2 n k=i k

38.

Esta igualdade é da forma

A(6) =

t(x) =

t(6) =

n

a2

X

e

d In

39

L= A( 6) [t(x)

Então x e o EE.

Fazendo o mesmo raciocínio para xl5 x2, ... x

com distribuição N [ y,8 j, y conhecido, chega-se a:

A(g) = -^r

n

t(x) = £ (xk - y)

k=i

= 62

0» O xx» ■-■

Assim se obtém um EE para 8 , mas nao ha um

EE para 6 propriamente dito.

É intuitivo que se t e um EE de t , então

at + b é um EE de ar + b se a, b 6

39.

2.3.6 - Desigualdade de BhattacharyaC Caso unidimensional)

Pode-se achar um maior limite inferior para a

variância do ENV, caso não exista o EE em 2 . 3 . 3 .

A condição para existência do EE é que

— In L = A(6) |t(x) - t(6)] .86

Caso isso não aconteça, e possível que exista

estimador onde [_t(x| - t(8) 2 seja uma combinação linear

das funções:

1

L

L

86

1

L

82

88

L.

2 ' "

1

L

8S L

8es

Para simplificar, chame:

f| T

86* 36K

Suponha validas as mesmas condições de regula

ridade impostas em 2.3.3, e também que a função L admita de_

rivadas ate a ordem s.

Tcorema: Seja t um ENV de t

Então:

s

var» t > E a, ,

40.

onde

e os coeficientes Ci = CAQ) são determinados pelo sis

tema :

Se a matriz A = {a..} for inversível e

A"1 = {a13}, então:

var t > f a^ ^ x^ (3)iji

A ultima expressão e chamada desigualdade de

Bhattacharya.

Tem-se"a igualdade se, e somente se:

t- - t(9) = ZS C. ^— (4)

para certos C. = C. (e).Jl JL

Demonstração:

A. Lema: Seja a, ai, ... a_ elementos de ums

certo espaço vetorial com norma e produto interno tal que

1/2a I = (a, a)

41,

Então

s

| a |2 > E (a., a.) C. C. (5)

13= 3 X 3

onde os C. satisfazem ao sistema:

E (a^, a.) C. = (a, a.) (6)

A igualdade em (5) ocorre se, e somente se

s

C , para certos Cj , . . . , C

De fato, seja V o espaço vetorial gerado por

s

a ,•••>«£. e, 3 = projv a = E C^ a.

1 i= i

a projeção de V neste espaço.

Entãoj

|a|2 > |B|2 =(ES C.a.5ES C. a.) = ES (a,a.) C.C.i=i 1 1 j=i D : i,j=i 3 X 3

que é (5).

Como (a - g) _J_u. V. , resulta (6) (que nada mais e que

a equação matricial de Gram).

E |a| = |6| se. e somente se a P. V o que implica (?)*

B. Para um valor fixo do parâmetro 8 considere

o espaço vetorial das V.A.R. com produto escalar

42.

(ç, n) = Efi (ç, n).

T 1

Ponha a = Ct - t (6 )) e a . = -=—

Então, por definição |a|2 = var tfl e

ECa , cx-j_) = t pois, pelas igualdades

que seguem,:

j LCx|Q) \x (dx) = 1 j t(x) L(x|6) y (dx) = x (6)X X

Derivando-se:

J L

X X

Ou seja;

. = 0

Donde Ca ,a.) = EA t a. - t(6) Eq a. = t110 1 Dl

C. Falta apenas provar que o lado direito de

Cl) e de (3) coincidem' quando A for invertível.

Escreva c = (c , c , . .., c ) e12 o

T = (T1, T2,..., TS).

Então (2) e o mesmo que Ac=x e(l) o mesmo

43

que varQ t > (Ac, c).

Mas

"1CAc, c) = (t, A"1 t) = (A"1!, t) = E

2.4 - Método da Máxima Verossimilhança

2.4.1 - Estimador de Máxima Verossimilhança

Um método útil para se conseguir estimadores

com boas propriedades e o da máxima verossimilhança.

0 = 0 (.x) ê chamado estimador de máxima verossi-

milhança (EMV) se:

LCx | 9) ^ L(x|6) v 6

Se 0 6 [Rs, e se para qualquer x 6 X a F.V.

L Cx | 0 ) for diferenciãvel com respeito a 0, atingindo o máximo

num ponto interior a 0, então o EMV 0 satisfaz:

903L ) - n nu' ~ U OU

90/ 90S 30~ = O

6 = 0

44.

Se o EE do parâmetro 8 existir, ele pode ser

obtido pelo método da máxima verossimilhança para s = 1 sem

pre.

Pois neste caso:

— = AC9) [t(x) - 9]39

No caso geral, quando a estrutura estatística

admite uma F.V. e o EMV for único para cada realização, então

o EMV 6(x) depende de x através de uma estatística suficiente

T(.x). Pois, pelo Teorema da Fatorização se existir F.V. e

T(.x) for suficiente, ter-se-ã:

L(x|9) = gQ (T(x)) . h(x)-

pela definição de EMV em:

■L(x|9) = g" (T(.x)) . h(x) > L(x|9)

e, como o máximo é único para cada x, conclui-se que 9 depende

de x através de T(x).(x fixo => T(x) fixo => 3 8 que maximiza).

Exemplos

1) Suponha que x = (x,x ,...,x)í 2 n

e que x^ x2, ..., xn sejam V.A. iid N()a,cr2).

45,

Então:

'L(xle) = ir —-— exp {- —= i cr

Sejam y e q os parâmetros desconhecidos

Cy,a) = cei, eo e fR x ÍR+ = o

L = 0 em toda fronteira de 0, logo o máximo ê

interior.

— In L = — S (x - y) = 02 Ç

3a

Os EMV são então:

k=i

L = Z_J2 + _L_ e (xv - y)2 = O

-> -, n

y = x = E x,

n k=i k

n

E (x, - x)

k=i

2) Suponha agora que x = (x , x ,... x ) e que

x , x , ... x são vetores V.A. com distribuição N (i.e.,í ' 2' n ■ r

normal multidimensional).

Então ■0 = (y, A):

Temos que:

H6,

r i

1 (2n)?|A|Íexp { - _I_ (A * (x,- y ) , x,- y )}

Í 2

— - - n

2 i= (2TT) |A| exp{--^-E (A * (x, - x) ,x, - x) +v ~i

- -4J- CA"1 Cx - y), x - y)}

O máximo de L(.x|6) depende deCA"1 (x - y), x - y), que de

pende de y. Como A Ce, portanto, A~ ) é positiva semi-

definida, o mínimo ocorre em:

n

n k=i k

n _ ,

Faça. A = —— £ (x - x) (x, - x)

n k=i k k

Levando em conta que (a,b) = tr ab' se a e b são veto

res coluna, tem-se que;

n -í - - nX CA Cx - x),x - x) = i tr(A J . (xv - x) . (x, - x)')k=i k=x k k

n

= trCA"1 X Cx - x)(.x, - x)') = n tr(A-1 A)k.= i k k

nr _ _n_

L Cx, y, A) = (2tt) 2 |A| 2 exp { ^- trCA"1 A)}

47,

Logo,

L(x|y , A) < L(x|y , A)

É necessário mostrar que:

...'LCxlu, A) < ,L(x|y ,A)

para toda A positiva semidefinida.

Tomando o logaritmo. na ultima desigualdade:

- -2- ln|A| - -ü- tr(A"x A) < -^- ln|Â| - -2- tr Ir2 2 2 2

qu seja

lnjA"1 A| - trCA"1 A) + r i 0

Como A e A são matrizes positivas semidefinidas, vale es

crever:

A = B2 j A = B2

onde B e B são matrizes simétricas.

Ponha C = CB"1 B) x (b"1 B) e esta também é matriz posi

tiva semidefinida.

Se f ê uma função numérica da matriz A da forma

fCA) = |A| ou f(A) = tr A

então, f(AB) = f(BA).

Então, se reescreve a ultima desigualdade como:

48.

In ICI - tr C + r < G

ou

r.

E Cln X:.. - X: + 1) £ 01

onde \. sao os auto-valores da matriz C, pois

i C | = X • X ... A tr C = X '■ + X + . . . + X' í 2 r 12 n

Como X^ f* 0 e In x £ x-1 x > 0, ; a desigualdade

se verifica e:

.. „ _ "£ n

= C2Tre)

2.4.2 - Estimadores Consistentes

Seja x , x ... uma seqüência de resultados de1 2

observações de um evento.

Chame t = t Cx , x , . . . ,x ) o estirnador don n i 2 n

parâmetro construído a partir das n primeiras observações x ,

A « • » • * yV

2 n

0 estimador t depende do numero de observações,

e é chamado de estimador consistente (E.C.) do parâmetro 6 se

a seqüência {t } convergir em probabilidade para 8. Isto é

lim P { jt - 6 | > e } -> 0• n ■*■ oo ° n

No caso geral, quando se estima a função t(6) a

condição ê análoga:

lim PQÍ jt - tC8)n -*- oo ° n

2.4.3 - Consistência do EMV

Suponha, para cada inteiro n > 1, a F.V.

LCx|6) = L Cx|9) tenha a forma:n

L Cx|9) = f(x |0) . f(x |6) ... f(x |n ' i ' 2 n

O que quer dizer que a V.A. x. são iid. com densidade f(yj9).

A família de distribuições Ffi das V.A.s x. para

0 G 0 ê. dominada por uma certa medida y e

fCy|9) = f Cy)

"Caso onde 0 seja um conjunto finito."

As seguintes hipóteses são necessárias:

Al: 0 conjunto Y = {y: f(y[0) > 0} não depende de 0.

Ou seja, fCyJQ) definida em Y x 0 so toma valores po-

50.

sitivos.

A2: 6! = 62 <==> f Cy J6a ) = f(y|62) q.c. com respei

to a medida \\.

f(xj |6o )A3: Existe EQ lrii = \|»(e|e0 ) = i|K0)

00 fCxJO)

onde 90 6 0 .

A4: Para cada inteiro n > 1, o EMV 6 ê único q.c,- n ^

Satisfeitas as condições anteriores:

Teorema

lim P {0 = 0O } -»- 1 onde 90 é o verdadeiron -> oo °o n .

valor de 0 .

Corolário

Se A.3 valer V 0O € 0 então

lim PD{9 = 6}o n

n -> «> -

isto ê, o EMV 0 ê consistenten

Demonstração:

A demonstração serã dividida em três partes

1, parte - Vamos verificar que

51.

i|»(6) -O VeSO e que

il> ce) = o <=> 6 = e0 .

Usando a desigualdade de Jensen com

gCx) = - lnCx) x 6 fR |

Faça

fCxje)

f(xi|eQ )

É obvio que

(e ). = e ín = o <=> e = e0 e

i |eQ )' f(x. |e) f(x,)} E { l()} l(E

|Q | , |« {inC -)} = EO { - ln( )} > - ln(EQ ) = 0v0 j e eC)«

v0 fCxje) eo fCxje, )

pois

= í iMLL. fCy|e0 ) U(dy) = 1J fCy|e0)Y

2. parte - Faça

■ n

(6 ) = -^L- X Inn

n fCx |60 )

NOTA:

Desigualdade de Jensen

Se Ç ê uma V.A.R e ip uma função convexa no fft então

ijJ ECÇ) < E

52

Como E Ç C9 ) = \\> (0 ) pela Lei dos Grandes Nume_

ros, jã que Ç ê uma variável aleatória e

lnCx) ê uma função contínua, tem-se que

Se 8 *=£-- 0O e, portanto, ip (0 ) > 0, então

V a !> Q

3 N ta,l que:

PA { 6: Ç (0) > 0> > 1 - a©o n

para n > N.

Como 0 ê finito, podemos dizer que isto vale

para todo 9 =f= 0o .

3. parte - Faça por comodidade P = Pfi e

AnQ =Í0: Çn(6) > 0)

Como 0 é finito, suponha |0| = m.

Ora, K (0 ) = -^- (L (x|8o) - L (x|0 ))n n n n ' n

Mas 9 maximiza L (x 0), entãon n

í (0 ) < 0.n n

Note que í (0 ) = 0 <=> 60 = 0^ n n n

53,

= p(çnce) < o) < pcç cê) < o)

< pc y í cê) < o) = pc u a Qc)n " e^e n6

< Z PCA AC) = Cm - Dae*e n6

Como a é arbitrário; PC8 =7^ 60 ) + 0

quando n

2.4,4 - Normalidade Assintotica dos EMV

Dão-se aqui as condições sob as quais o EMV 0

e assintoticamente normal.

Isto ê, a distribuição de V.A.

- 9) —> NCO, AQ)

Suponha novamente que para qualquer n > 1;

LCx|0) = L Cx|8) = fCx |6) • fCx |0) ... f(xn|6)

Façam-se as seguintes hipóteses:

Al: A função densidade f ê definida em Y x 0

e fCy|9) > 0 para todo Cy,0) 6 Y x 9

54.

A2: 0 é um conjunto convexo

A3: A F.V. atinge o máximo global num ponto interior.

A4: 0 é consistente; plim 6=6n » -f n o

A5: A função fCy|e) ê duas vezes diferenciavel no ponto

0 = 0Q dentro do sinal de integral, isto ê:

rf- í fCy|6) y(dy) = í -?-OD1 ) ) dü i

í fCy|8) ViCdy) = í 3l__f(y|6) vCdy)J J 90 36v 39 , i J 30 30

^ D Y Y i j

para 0 = 0o

A6: Se

FCxi|9) = -ÍÍ In2

ln302 30Í 96

então

|0O')| | < c(Xl |60) g(6|e0)

com c(xí |0o ) > 0 e EQ cCxj 160 ) < ~ .

onde g (6 | 9Q) é contínua com respeito a 0 no ponto 0o

e g(6oi6o) = 0.

55,

A7: A Matriz Jo = J(9o ) ê inversível onde

- {E (9ln f(xil6) . 3ln f(xil6)6 dQ± 86j

Teorema: A distribuição da V.A. /n(6 - 8o )

tende a, distribuição N CO, Jq"1) quando n -*■ °°.s

.e. :

lim Pq {/n~(e - e0 ) < u) ■* P(Ç < u)

onde

N (0, Jq ) e u 6

Corolário: Se A5 - A7 são validos V 6 £ 0,

então

lira PQ{/nCe - 6) < u> -»■ P(Ç < u)o n

n -> °°

Demonstração

1) Ponha:

gCt) = uCx jet);et = et(x) = d - t)e0 + te

o < t < 1

56

onde

In5 5 • • • )

301 302

Então:

gQ) = uCx,38

= 0

gCl) = gCO) + jg'.Ct) dt

Logo

uCx|0Q ) = gCQ) = - I g'Ct) dt

Faça agora:

w(x|0) =n

= E F(x, , 8)

k

A =n

w(x|9t)dt

Como

g'Ct) = -£_ uCx|0t) •=d0

-~ = w(x I et) (0 - 0o )

tem-se integrando que:

uCxJ0Q) = - n wCx|0t)dtl. (8 --i- [ wCx|0t)dtlQ J

57.

ou

— u(x|60 ) = - A /7T(6 - 6o )n

0 lado esquerdo da expressão anterior ê da forma:

— uCx|6n

fCx

n n k=i 96

_ ç

°

pois

36In fCy|60 ) • f(y|60 ) u(dy)

= ff(y|60 ) y(dy) = { f(y|

1 = 0

Então, de acordo cem o Teorema Central do Limite, a

Y.A..

— uCxle0) =n

(Ç, - Efi Ç,

k e° k

converge para uma distribuição normal multivariada

N CO, Jo ) quando n -y °°, pois as V.A. £. são iid eS 1

60 ?1

var. = E6o

Jo

2) Mostra-se agora que

-J,

De fato, faça,:

A° = ~n

Como A = A.o + (A - Ao ) , basta que Ao -> - Jo e que

CA - AQ ) -* 0

Ora, pode-se escrever:

1 nAQ = —£- Z ^ nk onde n, = F(x J60

Os x\, são Cmatrizes) V.A. iid e

Kfl Hi - ~ Jo Cserã demonstrado adiante).

Pela Lei dos .Grandes Números:

An -£-> J,Ao ' <J 0

De CA6) tem-se

i 1

|A - Aa| < \-j~ J wCx|9t)dt - -i- í w(x|80)dt

Q 0

1

wCxle^.) - w(x|e0 ) dt <t

o

< E |FCx |6 ) - F(x |00)|dtk= i •*

Q

59

1 n í1< -j-p- s c(xk|e0 )gce |e0 )dt = anBn

=i J Q

onde

a =± 2 cCxJe0 )n n k=i k

P PBasta mostrar que a >const e . 3n > 0.

- PPela Lei dos Grandes Números cx > const, pois

cCx. | ©q ) são iid Cpois x. são iid) e têm primeiro mo

mento finito.

E g é uma função contínua dos pontos 0 6 0 pois

Ve>053ô>0 tal que 0 < gO 190 ) < e

se |Q - 9q| < ô. Em particular, g(6. |9o ) < e quando

j 9 - 0oJ < <5, ou seja 0 <. 3^(9) < e quando

|9 - 90| < <5.

Como 0 é consistente:

n

um Pfl CB > e) < lim P.Cie - 60 I > ô) > O

60.

3) Prova-se agora que E rii > - Jp6 o

De CA5)

32

du - f Tf 9 ln f;

y i j i

Jln f ±ln f30 30 30 39

i- j i j

]f

39.

3 In f 3 In fi^7 ^7 J

Então para 9 = 9r

ni = - Jo

Considere as seguintes afirmativas

•"• ■* P ■A) Se uma seqüência de matrizes aleatórias A > I

então A"1 ——> I.n

B) Se uma seqüência de matrizes A > A

61,

se uma seqüência de vetores Ç é assintótica normaln

NCO, B)

Então A K e assintoticamente NCO, A BA*)

Então como Jo ê invertível

- Ao"1 ——> -

Logo /nC8n - 0o ) = -A x-i- n(x|60 )/n

tende para N (0, J^1 Jo J^"1 ' ) = N (0,s s

2.5 - Teste de Hipótese Estatística

2.5.1 - Hipóteses

Seja C^, cX ,*P ) uma estrutura estatística e

X: Í2 ->■ |R uma V.A.R. com distribuição Pn G T . Deseja-se esti.

mar o verdadeiro valor do parâmetro 8, usando para isso o va

lor observado de x da V.A.R. X.

Para isso estabelece-se um teste de hipótese.

Tome (J; o espaço dos parâmetros e considere as seguintes

hipóteses:

62.

Ho : 6 S 0o (hipótese nula)

Hj: 9 6 0i (hipótese alternativa)

onde

0 = 0q U 0i Cunião dijunta)

Uma hipótese H^: 6 G 0^ ê dita simples se

0- for um conjunto unitário e composta, caso contrário.

Um teste de hipótese ê uma regra de decisão

que consiste em aceitar ou rejeitar Ho.

De uma forma geral, um teste e uma estatística

que toma valor 0 ou valor 1, conforme aceita-se ou rejei

ta-se a hipótese nula. Mais adiante haverá necessidade de

considerar-se testes randomizados, onde a estatística atribui

rã uma probabilidade de rejeição â hipótese nula.

Usar-se-á a notação c|> (x) para a estatística

do teste de hipótese.

A função $ e chamada função crítica e o con

junto dos pontos tais que:

C = { w 6 fi / <HX(w)) = 1}

ê chamada região crítica.

63.

A seguir se apresenta o exemplo de um teste.

Exemplo:

Suponha que um novo remédio deva melhorar a ta

xa de recuperação dos enfermos de uma certa moléstia.

A hipótese nula é que o remédio não faça ne

nhum efeito.

Suponha que a proporção passada de recuperação

tenha, sido de 00 =0,2.

Então:

HQ : e0 =0,2

Ei : 6Q > 0,2

Ora, se deve tomar uma amostra de n enfermos .

S ê o numero de pacientes que ficam bons na amostra. Se n -> °°,

S tem distribuição binomial ê(n, 0).

Neste exemplo © = [6q , l]

e 0q é simples e 0i composta.

Ê" conveniente, neste caso, trabalhar com um in

dicador.

'l se S > k

0 se S < k

64,

A região crítica ê o conjunto ík, k + 1,. . .. n}

subconjunto do espaço amostrai.

{1,2, ... n }

2.5.2 - Tipos de Erro

Um teste pode induzir que se suponha que o pa

râmetro 0 tenha um valor diferente de seu verdadeiro valor

0o • Existem dois tipos de erro.

Erro do tipo I - rejeitar Ho quando Ho é vali

da.

ã êErro do tipo II - aceitar Ho quando Ho não ê v£

lida.

Aceitar Ho

Rejeitar Ho

Ho é

verdade

não ha

erro

erro

tipo I

Ho ê

falsa

erro

tipo II

não há

erro

pode incorrer nos dois

pos de erro simultaneamente.

Por questão de notação, escreva

65

a =P(erro tipo I) = PCrejeitar Ho | Ho verdade)

3 =PCerro tipo II) = PCaceitar Ho | Hi verdade)

Cada teste tem valores a, 3 a ele associados,

e não ê possível minimizar ot, 3 simultaneamente. Na medida

em que aumenta a região de aceitação de Ho aumentando 3, redu

zo a de rejeição diminuindo o, e vice-versa.

Exemplo 1:

Suponha Xi, X2, ..., X9 uma amostra de V.A.

normais com cr = 1.

Seja Ho : y = 2

: y = 3

Usando o EMV X para estimar y.

Seja o teste (não randomizado) aceitar

Hq se x 5 c e rejeitar se x > c, onde

2 < c < 3.

3

a

Na medida em que aumento a região de aceitação

66.

de Ho , aumentando c, diminuindo a, mas aumento 3.

Exemplo 2:

No exemplo de 2.4.5.1

kl

S (" ) 6p Cl - 60V~i=k :

pel>k(x) = o] = p6cs < k>

k-i ■ .

t C? ) e3(i - Q)n~13

2.5.3 - Poder de um Teste e Função Potência

Um teste não randomizado associa a cada valor

possível de x G X uma decisão do (aceitar Ho) ou di (rejei

tar HQ ) .

Seja ô(X) a regra de decisão, função da obser

vação, Xq região de aceitação, Xi região crítica.

XQ U Xi = X

Como dito anteriormente, não ê possível minimizar a e 3

simultaneamente.

67

Então, é" comum arbitrar 0 < a < l} que é cha

mado nível de significância:

P0{ôcx) = di> = pQíx e xi> < a V e e ©o

e então minimizar 3:

PQ{<S(X) = d0} V 6 6 0i

que ê o mesmo que maximizar

PD{<5CX) = dj = PQ{ x 6 Xi } V 6 6 0i

Chama-se:

F(9) = PO{<5(X) = dJ- V 9 G 0

de função Potência.

Chama-se Pe{ôCX) = dj com ÕG 6,

de poder do teste contra a alternativa 6. Ou seja, dada a hi

põtese alternativa o 6 0, , o poder do teste nos da a probabi

lidade de, sendo verdadeira a hipótese alternativa, ela ser

aceita.

Exemplo:

No exemplo de 2.4.5.1 a função potência é:

FCe) =s (n ) eDci - e)n~j v e e [0,2.

E o poder do teste é:

68

( *? ) eD(i - e )n D e e (0,2; íjj=k 3

Dado um teste randomizado, a probabilidade de

rejeição de Hq quando X tiver distribuição P ê:

E. (j) (X) = <}> (x) dPQ (x)tí J O

a probabilidade condicional <j) (x) de rejeição dado x, integra

do com respeito â distribuição de probabilidade de X.

0 problema ê selecionar <í> para maximizar a furi

ção potência.

Eg <kx) v e e ei

sujeito a

eo <kx) < a v e e 0OD

Em alguns casos acontece que o mesmo teste $

maximiza a potência para todas as alternativas em ©i , mesmo

quando ha mais de uma.

Neste caso, <j> ê chamado teste uniformemente

mais poderoso CTUMP).

Para o caso de duas hipóteses simples, temos o

fundamental Lema de Neyman-Pearson, que segue.

69.

2.5.4 - Lema Neyman-P,earson

Sejam Po e Pi distribuições de probabilidade

com densidade p0 e pn , respectivamente, com respeito a uma me

dida Csem perda de generalidade, pode-se admitir y = Pj + P2).

i) Existência: Para testar H: p0 contra a al

ternativa K: pj existe um teste <|> e uma constante k tal que:

Eo <f>OO = a (1)

1 se pa Cx) > k po Cx)

(2)

.0 se p! Cx) < k Po Cx)

ii) Condição suficiente para T.U.M.P.

Se um teste satisfaz Cl) e (2) para algum k,en

tão ê o T.U.M.P. para testar p0 contra pi no nível a.

iii) Condição necessária para T.U.M.P.

Se <J) é T.U.M.P. no nível a para testar p0 con

tra pi , então para algum k ele satisfaz (2) q.t.p. y.

Também satisfaz Cl) a menos que exista um tes

te de tamanho <; çx, e potência 1.

Qbs: Tamanho de um teste é definido como:

ã ê

70,

sup P

e e

íô(X) =

Demonstração

Para a=0 e a = 1 é imediato o teorema

Se a = 0 => <Kx) dP0 Cx) = 0

Tome k = °° => <|> Cx) = 0 e a = 0

Se => <|> (x) dP0 (x) = 1

Tome k = 0 => (f> (x) =1 e a = 1

i) Se Ü < a < 1.

Faça aCc) = P0{w: pi(X(w)) > cpo(X(w))}

Ê obvio que como a probabilidade ê tomada em

Pq, so se considera o conjunto onde po (x) > 0

a Ce) e a probabilidade de que a V.A,

PiCX)

p2CX)

> c.

Então 1 - a Ce) é uma função distribuição, e

eu Ce) ê não-crescente e continua a direita.

Pl(X)

ct(c > 0) - a(c) = Po { = c}

«C - °°) = 1 e = 0

71.

Dado qualquer 0 < a < 1, seja co tal que

a(c0) < a < a (c0 - 0)

a

a(co-O)

a

a (co)

c)

Co

Considere o teste <(> tal que:

4>Cx) =

a -aCc0 )

a Ce - 0) - a Cco )

. 0

se pi (x) > c0 po (x)

se pi(x) = co po(x)

se pi(x) < c0 po(x)

A expressão do meio so não tem sentido se

aCc0 - 0) = a(c0), pois então

= c0 P0CX)} = 0.

ê definida q.t.p.

0 tamanho de <f> é:

p CX) « - a(co)

PoCX) a(c0 - 0) - (co)

= a

Então

Co pode ser o k do teorema.

c0 ê essencialmente único (i.e., dado a, Go ê

único).

72.

A única exceção ê o caso onde exista um inter

valo de c para o qual a(c) = a.

aCc)

cT c"

Se Ce1, cTI) ê este intervalo e

p (x)

C = {x; pQCx) > Q e c' < -í < ct!}

Então Po CO = a Ce') - aCc' • - 0) = 0.

Como p0Cx) > 0, isto implica que U(C) =0 (C

tem medida nula), logo Pi CO = 0. Então os conjuntos

de. x para dois valores diferentes de C só" diferem num

conjunto de pontos com probabilidade zero, que podem serr-"

excluídos do espaço amostrai,

ii) Suponha que <J> e um teste que satisfaz (1) e

C2) e que <J>* e um outro teste qualquer com

Eo <j>*CX) < «.

Chame S e S os conjuntos no espaço amostrai,

onde <J)(x) - 4> (x) > 0 e < 0, respectivamente.

Se x 6 S ™> px(x) > k po(x)

73,

Se x 6 S ==> <|> (x) = p =>pi (x) < kp0 (x)

Então

íí

x - kpa)dy = C4> - <|> )(p1 - kpo)dy > 0

x S+ U S

Poder Poder . *

de § de ((>

Então (j) ê T.U.M.P.

iii) Se (|> e T.U.M.P. no nível a para testar p0

contra px , seja <J) que satisfaça (1) e (2).

Seja S a interseção do conjunto S U S , onde

e <f> diferem; com o conjunto {x: px Cx) ¥= kpo(x)}

CS = {{S+ U S"> fl íx: pi(x)=^= kpo(x)>>

Suponha que yCS) > 0.

Como C<f> - <(> )Cpi - kp0) > 0 em S, segue que

I U - ♦'*)Cp1 - kpo)dy = í (4> - 4>")(pi - kPo) > 0S+ U S~ S

Então tj) ê T.U.M.P. no nível a para testar p0

contra pi, o que ê uma contradição.

74.

Logo y(S) =0, o que significa que o conjunto

onde «í> =^= 4>" e p x =£ kp0 (x) tem medida nula; ou seja,

onde a medida ê não-nula e pj (x) =/= kp0 (x) temos que

Se ty tivesse tamanho < a e potência < 1, se

ria possível incluir na região de rejeição pontos até

que a potência fosse 1 ou o tamanho a.

Então ou

Eo <f>°CX) = « ou Ej <T(X) = 1

Exemplos:

1: 0 exemplo 1 da seção 2.4.5.2 e um exemplo

trivial de aplicação do Teorema. Pois p<j(x) e pi (x) são nor

mais e dado 0, , o k do teorema fica unicamente determinado.

75

2) No exemplo 1 da seção 2.4.5.1

a = l C1?) 6J Cl - 60 )n"jj=k D

Para qualquer alternativa Q1 > 60 ;

s

(,i - çx ;

^^ = P

ef ei - §1) 8 i -eiSC———)n

a -

onde

p = et Ci - 0j) Ve0 ci - >o )"'

n

s = £ x. Cs ê o número de pacientes que fi

X ■caram bons)

Se 6i > 9o => p > 1 e, portanto:

PjCx) 1-e.n 1 - 6X

s > k => = PSC ) > p CpQCx) i - e0 i - e0

Então ty, Cx) ê um teste de Neyman-Pearson, qual

quer que seja d1, e ê também T.U.M.P. para o dado nível a de

significância • cx.

76

CAPÍTULO 3

TÓPICOS DE REGRESSÃO LINEAR

3.1 - Introdução

De posse das definições e resultados dos capí

tulos de probabilidade e estatística anteriores, introduz-se

neste um poderoso instrumental para determinar e/ou verificar

a forma funcional de um fenômeno científico qualquer.

Por razões obvias, em qualquer ciência.e, em

particular em economia, dado um modelo teórico e importante

fazer uma verificação empírica.

Para simplificar, pode-se supor que a forma

funcional do modelo seja linear, tendo uma parte deterministi

ca e outra estocãstica. 0 uso de modelos lineares ê vantajo

so por dois motivos: sua simplicidade, que permite o uso ex

tensivo da teoria de espaços vetoriais podendo os diversos e-

feitos que atuam sobre a variável em estudo serem decompostos

em componentes de um vetor, e porque permite a obtenção de es

77.

timadores consistentes dos parâmetros desconhecidos.

As hipóteses fundamentais que serão feitas a

seguir são acerca da distribuição de probabilidade da parte

estocastica e da estabilidade da amostra, pois na medida que

a amostra cresce, exige-se que a matriz n(X*X) se aproxime

de uma matriz positiva definida, onde X ê a matriz das variá

veis explicativas.

Valendo tais hipóteses, e mais algumas a ser

discutidas, determina-se a forma funcional do modelo e testes

de hipótese para os estimadores dos parâmetros da forma fun

cional usando distribuições de probabilidades usuais.

Na seção 3.2 apresenta-se o modelo de regres

são linear simples ou ordinário, os estimadores dos parâme

tros , testes de hipóteses para estes estimadores, o Teorema de

Gauss-Markov, as probabilidades assintoticas destes estimado

res e testes de hipótese para verificar a estabilidade dos

parâmetros numa população em diferentes subconjuntos ou ao

longo do tempo.

Na seção 3.3 se discute como usar o modelo de

de regressão linear com fins de previsão, discutindo também

1 Q

testes de hipóteses a serem, usadas na previsão.

A seção 3.4- introduz o método dos mínimos qua

drados generalizados para contornar o problema da heterocedas

ticidade, e o Teorema de Aitken, que nada mais é que uma ex

tensão do Teorema de Gauss-Markov. A seção 3.5 explica a im

portância da analise dos resíduos, a fim de se retirar o máxi

mo de informações da amostra e define-se a estatística de

Durbin*-Watson.

Em 3.6 discute-se a multicolinearidade, e dis

cutem-se alguns procedimentos de avaliá-la e contorna-la.

Na seção 3.7 mostram-se os problemas devidos a

erros de medida das variáveis explicativas e o uso de variá

veis instrumentais.

Em 3.8 define-se coeficiente de correlação par

ciai, dando uma outra interpretação aos parâmetros estimados

pelo modelo de regressão linear simples.

Por ultimo, apresenta-se um Apêndice, onde se

definem, de forma sucinta, as distribuições de probabilidade

utilizadas neste capítulo, algumas relações de álgebra de ma

trizes e uma generalização da desigualdade de Rao-Cramer.

79

3.2 - Regressão Linear Simples

3.2.1 - 0 Modelo

Suponha que a teoria econômica sugira que uma

variável y seja dependente das variáveis x , x , ..., x, , as12 K

variáveis explicativas ou independentes. A forma mais sim

ples de dependência e aquela em que y é uma combinação linear

dos x, i.e.:

y = x!$i + X2B2 + ..• + xk3k (1)

onde os g. são constantes.

Exemplo: Se a função de produção de um país ê

uma, Cobh-Douglas y = K Ij e' , lineariza-se a equação toman

do o logaritmo de ambos os lados para obter:

logy = a logK + (3 logL + <j)t

que ê da mesma forma que (1).

Se (1) se verificar para todas as amostras

tem-se uma fortíssima indicação de que o modelo seria determi

NOTA:

Observe que Cl) nada mais e que a equação de um plano

em IR k+1

80.

nistico. Mas, em geral, a igualdade não ocorre sempre, e pa

ra se explicar adiciona-se um termo estocastico a (1) que se

passa a escrever como:

y. = x 3 + x. g +'...+ x. 3V + e. (2)1 1 i i 12 2 k

onde o "i" indica ser a i-êsima observação.

Supoe-se aqui que:

e^ * N[0, cr2]

E ei Gj = 0 , i ^ j

Em notação matricial

Y = X 8+ e (3)

cov e = er2ln

onde Ye n x 1

X e n x k

Pékxl

e é n x 1

e n ê o numero de observações

A idéia ê, a partir de um numero n de amostras

k+ iCy., x, , x. , ..., x, ) 6 ff^ : determinar b., estimativas

i a. i x 2 1v D

81.

dos 3-, pela escolha de um "plano de melhor ajuste".

Para dar uma noção intuitiva, apresenta-se o

caso para k = 1, ou seja, no [R .

0 critério para escolher um "plano de melhor

a,juste" pode ser algo arbitrário, como com um lãpis e uma ré-

gua, traçar uma reta no caso em que k = 1.

Para n < k não

ê possível determinar tal pla

no, pois ele fica indetermina

do. Em |f\ , seria o equivalen

te a ter apenas uma observação,

Para n = k o pl<a

no se define unindo os pontos,

se eles não forem coincidentes.

Em lr\ , seria o equivalente a

ter apenas duas observações, o

que pode não ter significado

nenhum, pois I pode ser o plano que realmente representa o fe

nomeno, mas nossa amostra nos levou a obter II.

82

Para n > k. se define o método dos mínimos qua

drados ordinários. Para tal se define o resíduo como

= yi " yi

onde y^ ê o valor observado da variável independente e y ê

valor ajustado de um plano para (x. , x. , ..., x. ).

o

, x. , ..., x.

Neste método se define o "plano de melhor ajus

n

te" como aquele que minimiza £ e. dentre todos os possí-i=i x

veis planos. Os b., coeficientes do "plano de melhor ajuste"

assim definido são os chamados estimadores de mínimos quadra

dos ordinários CEMQO) dos $..

Seja o plano genérico:

y = Xjbj + x2b2 + . .. + X]< bk (5)

e o resíduo genérico:

eí = yi " y (6)

Vai-se minimizar:

n 2

j , b2, ... b^.) = E e^

ii

n

E_ CYi - xL br XjL b2- ... - x.

1-112 K

83,

Derivando-se em relação a b.:

= Z d Cy.-x. b, -...-x. b, )(-x, )

ou em notação matricial

I ê o plano ajustado

II e o plano real

Observe a diferença en

tre e. e e..

Derivando-se outra vez em relação a b. vem que

(7)

n

~*X. ) \ X. /

ou em notação matricial:

3bJ = 2X X (8)

A condição que b = Cbx , b2, ..., b, ) seja um ponto de mínimo

e que:

2X'y + 2XfX b = 0 condição de 1. ordem (9)

ff]v > 0; Vva k condição de 2. ordem (10)

De C9) vem que

84.

b = (X'X) Vy (11)

e h ê único.

È necessário que o posto da matriz X seja k,

caso contrario (X X) 1 não existe. Considerando isto, a con

dição CIO) ê satisfeita, pois CX X) ê uma matriz positiva se-

jã que

vVxv = (Xv)' (Xv) > 0

pela definição de produto interno.

Daqui para frente denotaremos

b = (bl5 b2, ..., b, )

e = (ei, e2, • ••> e, ) , cada e.K 1

y, e "plano de melhor ajuste"

sempre sendo relativo ao "plano de melhor ajuste" obtido pe

los mínimos quadrados.

3.2.2 - Estimativa de g e cr5

A pergunta ê se, apesa,r de b minimizar a soma

dos quadrados dos resíduos, seria b um bom estimador de

85,

3 = C313 32, ..., 3k)?

Ora: b = (X^)"^^

= CX'X)~1X'(X 3 + e)

= 3 + cxrxrV e

então: E[bJ = 3

Logo, satisfeitas as hipóteses de 3.2.1, b é

um estimador nãlo-viesado de 3.

A matriz covariancia de b e:

cov b = ECb - 3)Cb - 3)'

já" que CX'X)' =CX*X).

Para estimar a2 tome o vetor dos resíduos e

e = y - y

= X3 + e - Xb

= X3 + e - [3 + (X^)"1^]

= [ln - Xtt'x)'V]e

= M e

NOTA:

Seja A uma matriz quadrada invertível

Se A = A'=> I = A""1 A = CA""1 A)' = A A"} = AA~X=> (A"1)'^ A

86.

onde a matriz M e idempotente e simétrica

Então:

E e ' e = E [c ' M' M e 1

= E[tr e'me] = E trCMee') (V. NOTA)

= tr[MCE ee1)]

= a2 tr M

= Qz C n - k)

Logo:

ê um estimador não-viesado de a2.

Em geral, faz-se x. =1 a fim de que b seja

o intercepto do plano y.

NOTA:

tr A • B = trA• tr B

tr CXCX^rV) = trCXtX)"1(XfX) = tr I,.K

87,

É obvio que:

y = bi + x2b2+ • • . x b.

Então:

y^ = y + hz(-xi - x2) + ••• + bk^x" ~ *k^ + e"

Define-se como coeficiente de determinação:

E [b2(x^ - x2) + ... + b, (n. - x,)]2

R

n

2 _

l (y - y)2

i=i

Ora:

n n

E CCy. - y) - e.)2 = E CCy. - y) -i=i x x i=i x

Mas:

n _ n k

E Cy. - y)e. = E CE x. b. + e. - y)e.

NOTA: k

y = bx + S xi<b

-, n , n , n k

s y = ? b + E Es yi ? b- + E E xi.l-i l=i 1=1 D =2 3

n

y = b, + Z x.b.

3 = 2 J

n n k

= E e.2 + X CE x.b. -y)e.

Como pela condição de 1. ordem tem-se que

n

2XfCy - Xb) = 2X'e = 0 vem que E e. = 0 e

n

£ x. e. = 0

X X

pode-se escrever:

n

E

R2 = 1 - ^-^ — (13)

E Cy - y)2

Então 0 < R2 < 1.

3.2.3 - Testando Hipóteses sobre 3 e a:

A matriz M ê um operador linear num espaço |f\ ,

e M ê simétrica.

Demonstra-se que se V ê um espaço vetorial com

produto interno, onde ax, a2 são duas bases ortonormais, a ma

NOTA:

da variância explicada e não explicada do modelo.

Mais adiante dar-se-ã uma interpretação do R em termos

89.

triz mudança de base (Ia}) e tal que: (iai)(lai)' = I.a z ^ a2 012

O operador associado a uma matriz simétrica é

chamado de operador auto-adjunto. Demonstra-se que se T ê um

operador auto-adjunto, então, existe em V uma base ortonormal

onde T ê diagonal.

Logo pode-se escrever:

M = C DA C'

onde D, e uma matriz diagonal e C uma matriz mudança de base.

Segue que:

C D,C' = M = MM = C D, 2C' -> D, = D, 2 + X. = À.2A A A A i i

onde os X-. são os auto-valores da matriz M.

Logo, X. = 0 ou A. = 1

Então:

tr M = trCC D^ c') = tr D,

Jâ foi visto que tr M = (n - k), logo (n - k)

auto-valores são unitários e os demais nulos.

Sejam estes auto-valores unitários os (n - k)

primeiros termos da diagonal de D,.

90.

'jn2 'jDA = n/ni

veonde n - C e e r\x são os (n-k) primeiros termos do

tor n..'

Como e é normal com media zero, c'e também é.

Ora:

En.n' =E[C' e e1 C] = C1 C a2 = I a2 (15)

Então os Cn - k) elementos de r\\ são normais, independentes

por causa de (15), e com media zero e variância a2.

Logo:

Sl - X2-. Cn - k)-Sl - X2(n_k) (V.Apêndice)

Exemplo:

: a2 = a02

Hl: a2 ^a/

Para um teste de nível de significância a, a

regiSo de aceitação será:

2

v 2 . , < (n - k)-^- < Y2 , vXCn-k) a - ^ - *(n-k)

91.

Outro teste a respeito da variância ê quando

se deseja testar se duas amostras têm a mesma variância.

Exemplo:

Amostra I: n. elementos =>(n, - 1)—,- ^ X, -, N1 a Cn^-1)

si2 2Amostra II: n elementos =>Cn. - 1) *v» X, , .

2 a22 Cn2-1)

Supor a12 = oz2 eqüivale a dizer que:

s 2 u ACn1-l,n2-l) (V, Apêndice)2

Ejh geral, poe-se o sl maior no numerador e se o quociente

for muito grande rejeita-se H .

Para testar hipóteses acerca de 3 usa-se o se

guinte resultado:

[E Cb - 3)e'J = E[(XfX)-V ee'M]

= (X!X)~Ve e^I-XCX^)"^']

= 0 (16)

Ou seja, Cb - 3) e "e" são não-correlacionados

e independentes, pois ambos são normais. Para se testar a h^

potese Ha: ^ = ^^ faça CXfX) = [Y-j-j] •

92.

Como já foi visto, (b. - 3. ) ^ N [o , y..a2~[

0 quociente:

(b. - 3. ) / /777 a b. - p.1 10 11 1 í 0 '

s / a /TTT s (n"(17)

TT sli

pois, o numerador ê uma V.A. normal e o denominador ê uma

raiz quadrada de uma V.A. qui-quadrada, independentes por cau

sa de (.16).

0 caso geral seria ter m restrições lineares

escritas R 3 = r. Ora, Rb e una normal m - variada e:

ECR b) =REb = R3 =r

) = E[RCb-3)Cb-3)'Rf] = RCX^X)"^' o2

Lema:

Se um vetor aleatório normal m - variado z tem

media zero e matriz de covariância V, então a forma quadráti-

ca z'vXz * Xr ».Cm)

Demonstração:

Fa.ça. V"1 = P' DP, onde p'p = I, De diagonal,

jã que V ê simétrica.

i J

Escreva, D = D2 D2, onde D =[d..Je D2 = [/d. . ] .J -1-» J

93

JL"o" ^ õ

covCD Pz ) = e[ü P zz' P1 D ]= D P E[zz']p'd

JL"o" "^~ o õ

) [ ' 1 ] [']p'

i JL

= D2 P V PV = D2 P(P'D P)"-P! D*

= D2 PP'0"1 PP1 D2 = I

~ 2 _

Então, os m elementos do vetor D Pz sao nor

mais não correlacionados com media zero e variância uni

tária. Logo:

i. JL

CD2 Pz)'CD2 Pz) = z'y"'z ^ X(m)

Voltando ao problema, pode-se usar que:

CRb - r)' [covCRb)]" (Rb - r) =

»,,» -1_ t-, -1

- (Rb - D * X(m)= CRb - r)' tRCX>X) R'J~ (Rb - r) ^ X2o

Se a2 é desconhecido pode-se com a X, \ acima, \

2 s2 «•e a Xr _kx de (n-k) obter a estatística

CRb - r)t[RCx'X)"1 Rl]"1CRb - r) . pF(m,n-k)

Se m - 1 temos uma distribuição que ê o qua

drado de C17).

94.

Pode-se estipular um intervalo de confiança

com nível a de significância.

F(m n-k) a - (Rb ~ r)' [ROC^rV]"1 (Rb - r) < ms2 Ff . »un,n jo, _ o^ u j - (m,n-k),eu

. 2

Uma outra maneira de se testar a hipótese

H^: R 3= r, e b* com a restrição. Pode-se escrever:

y - Xb* = y - Xb + Xb - Xb*

e*

(y - Xb*)1 (y - Xb*) = (y - xb)' (y - Xb) + (Xb - Xb*J(Xb -

B D

pois, (y - Xb)'(Xb - Xb*) = e'X(b - b*) =0 já" que e1 X = 0

Ora:

A=e*'e;B=e'e e D=A-B

onde 'ee „ V2 D

Portanto,

(Xb - Xb*) f(.Xb - Xb*) /m _ D A - B

D 2Para provar que —- ^ X^j , basta provar que

"«UOTECA MARIO HENfflOUE SmUkC&Q GETÜUfl L

95.

(19) e idêntico a (18) .

Acha-se então o estimador de mínimos quadrados

b* de 3 sujeito â restrição Rb* = r.

Forme o Lagrangeano:

L = ~-(.y - Xb*)(y - Xb*) + Xf(Rb* - r)

-= - X!Cy - Xb*) + r'x (20)3b-'

— ■= Rb* - r = 0 (21)

3X

Multiplique (20) por RCX^)""1 e use (21):

- RCX'X)"1XlCy - Xb*) + R(XtX)"1R'A = 0

X = [RC-X^XrVq"1 R(XfX)"1X'y - R(XT X)"^1 Xb*

X = [RCX^)"^']"1 [Rb - r] (22)

Leve C22) em C20):

- X'y + X'Xb* + R1 [RCX^)"^1]"1 (Rb - r) = 0

b* = CXfX)"1X'y - CX'X)"XR' [R(X'X)~1Rt]~1(Rb - r)

b* = b - CX^rV [RCX'X)~1Rf]"1(Rb - r) (23)

Então: D = CXCb - b*))'(X(b - b*))

= Cb - b*)'Cx'x)Cb - b*)

= CRb - r)'[R(X'x)"XR'](Rb - r)

96,

3.2.4 - Teorema de Gauss-Markov

No modelo Y = X 3 + e supondo E e = 0 e

Eee = 10 ; b = (X X) Xy êo melhor estimador linear não-

viesado de 3.

Demonstração:

Seja um estimador linear Ay, onde A ê uma ma

triz k x n. Se o estimador e não-viesado:

E(Ay) = E(A X 0 + A e ) = A X = 3 implicando A X = I

A covariancia de Ay é

ECAy - 3)CAy - g)1 = ECAX3+ Ae-3 )(AX3 + Ae- 3)'

= ECA eeV) = AA1 c?2

Pode-se escrever a matriz A como ( (X ?X)~ XXf+B)

desde que B X = Q, pois:

[çx'xrV + b]x = i

Substituindo-se na covariancia de Ay tem-se:

cov (Ay) = [CXfX)"X + BB']a2

Ora, BB' é uma matriz positiva semi-definida sempre que B =£ 0.

97,

3.2.5 - Propriedades Assintoticas do Estimador de

Mínimos Quadrados Ordinários

Como ja se viu, h = 3 + (X'x) X*e ê uma combi.

nação linear dos e. Se os e tiverem distribuição normal, b

também terá" distribuição normal. Pelo Teorema de Gauss-Markov

3.2.4j mesmo que os e^ não sejam normais, mas tenham uma vari

ância cr2 , b ê o melhor estimador linear não-viesado.

As perguntas que ainda se podem fazer são:

- Se os e.., são normais iid, pode-se omitir a

palavra linear, se, b é o melhor estimador não-viesado?

- Se os e. são iid mas não necessariamente nor

mais serã b consistente?

- Quando serã b assintoticamente normal?

Para responder ã primeira pergunta usa-se a de

sigualdade de Rao-Cramer (ver Apêndice).

Tome o logaritmo da F.V.:

',y-A p ) Ky-K a )

(24)

-, -, ky-XB) (y-XB)log LCy|3,tf2)=- in log 2tt- ±n log a2-

2 2 a2

Derivando-se duas vezes em relação a 3:

98

L = - EC- 2L!2Ç) = *!* = R(6)EC )

30 38' a2 a2

Como b e nao-viesado e cov b = (X^)"^2:

z1 [cov b - R~ 1C0)]z > 0.

Quanto â consistência de b tem-se que Eb = 3 e

cov b = CX^)"1^2. Se os elementos da diagonal de (x'x)~l

tenderem para zero, vale o Lema apresentado na nota para cada

Uma condição suficiente -é que n"1 (x'x) tenda a

a uma matriz positiva definida. Isto quer dizer que n(XlX)~1

se aproxima de uma matriz positiva definida e que (X^)"1 se

aproxima de uma matriz de zeros.

Para estudar a assintoticidade de b, que e nor

mal, escreva:

j

/HCb - 3) = /n(XfxrVe = (-l_x'x)~1n~5Xfe

Considere a distribuição do vetor:

n 2X e = n ?(xiel + x^2 + ... + x^) (25)

onde x. e a j-êsima coluna de X .

NOTA:

Lema: Se lim E x = c e lim var x =0 => plim x =n+co n n^oo n * n

onde, plim 6 = lim pC [ 0 — 3 I < 6) = 1 V6>0.n+oo

99.

Seja z . = n 2x. £• .

Escreva a função característica de z. expandida em Série

de Taylor:

*.-Ct)=E[ei1: Z3]= l+iECt'z.)+-^ E(t'z. z.'t) + v(E(t'z.)2)3 ^2133 3

= 1 - ——t x. x. t a2 n + v (E t 'z . z . ' t)Z J J J J

Suponha, que cada, elemento x. seja limitado. Então, x.x.'e li

mitado e v = vCn" ).

Então, a função característica da soma (25) é

n r 1 ' iTT Pi —t X . X . tj = 1L 2 3 3

Tomando o logarítmo:

n

S log[l - -4-t'x.x. 't a2n~ +i = i J -J

Quando n -*■ °°, n~ -»■ 0 e:

Z log[l - -±-t'x.x.'t a2n" + v(n~ )] -> - -L.t'(n" x'x)ta2-i = i ^ 3 J £■

Sob a hipótese que (n X*X) tende a uma matriz

NOTA: , ,. .

x

100.

positiva definida Q, a expressão anterior tende para

que e o logaritmo da função característica de um vetor normal

com media zero e covariância Q a2 '.

Ora:

onde C-i- X^)"1 -»■ q"1 e n"x'e^ N^O

Faça z.. =Q n 2 X e e proceda de forma idêntica e obter-se-ã

que a distribuição de /rT(b - 0) converge para N [0., Q-1a2]

Sob as hipóteses anteriores, s2 ê um estimador

consistente de (J2 , pois:

plim Cn " k s2) = plimCn"1 ee - n"1 e'x(X'x)"^' e)n

-,.-!' -1 ' -1 I -1 _1 Iplim n e e - plim n eX • plimCn X X) • plim n X e

cr2

-1 •

pois, plim n X e= 0.

Logo, C—-—s2) e consistente, es2 também.

101,

3 «2 -6 - Teste de Hipóteses sobre Igualdade entre

Conjuntos de Coeficientes de Regressões

É muito comum que dada uma população se deseje

testar a estabilidade do parâmetro 3, pois o parâmetro pode

ria variar de um subconjunto da população para outro, ou ao

longo do tempo.

Uma maneira de se testar a estabilidade seria

tomar duas amostras ni e n2 e escrever o seguinte modelo:

yl

y2

"X 0i

Q X2_

3/ e

í

e

L 2_

Rg = [I -I] = 0

A soma do quadrado dos resíduos com a restri-

ção ê A - e" e" e tem m + n2 - k graus de liberdade(g. 1.),

e sem a restrição B = e'e com nx + n2 - 2k g.l.

Testa-se HQ: gx = g2 usando a estatística:

(A - B) / k

Ck,n1+n2-2k) B n2-2k)(26)

Pode-se ter um caso mais genérico onde se des-

102.

membre 3^̂Ci = 1,2) em k1 , k2 elementos Y-, <$ ■ , respectivamen

te, onde kj + k2 = k e testar apenas Yx = Y2 . Para isso

faça:

y.

y.

z 0 w 0

Q z 0 w2 2

Y.

Y.

-i o

Na restrição y1 = Y2 tem-se A = e'"e': còm

+ n2 - kj - 2k2 g.l, e com a restrição B = e'e com

n2 - - 2k2.

A estatística do teste e, portanto, uma

t, nl + n2 - 2k)

A generalização ê simples:

" y

y

y

i

2

t

. w

z O2 .

w O2

't

103.

onde y. tem kx elementos e <5 . tem k elementos.

I A

Imponha Yi = Y2 = ... = Yt. Então, A = e" e"

n, + n2 nt-k1-tk2 g.l., eB=e'e tem

n1 + n2 + ... + nt - t kx - t k2 • g.l. Logo, a estatística

do teste seva, uma

CCt - x + n2 + ... + n. - tk)

Em geral, as variáveis W são variáveis "dummy".

Variáveis dummy medem efeitos de situações diferentes.

Exemplo:

Seja Ct = 3l + g2 Yt + et uma estimativa da fun

ção consumo agregada em tempo de paz. Deseja-se saber se em

tempo de guerra ha alguma alteração

Faz-se;

ondet

0 tempo de paz

1 tempo de guerra

obtendo Ct = C6X + y) + C62 + 6)Yt + e em tempo de guerra,

C

GUERRA

PAZ

104.

Um outro caso e quando Wj e uma coluna de

ni "1"» W2 uma coluna de n2 "1", etc. ... Então,esta se tes_

tando se todos os parâmetros, exceto os interceptos, são

iguais ou não em todas as regressões.

3.3 - Previsão

Estime o modelo de regressão, a partir de uma

amostra Cyx , X1 ), onde Xx e a matriz das variáveis independen

tes nt x ]c. ■

Ao fazer esta regressão obtem-se bj, que e a

estimativa para o parâmetro 3X-

Pode-se para uma matriz X2, n2 x k, usar o es-

timador X2b , a fim de fazer uma previsão do y2 associado.

Este estimador é não viesado se 3 = 3 , ou se

ja, se Xj e X2 pertencem a mesma população.

Dada uma amostra (y2, X2), pode-se criar um

teste de hipótese, a fim de testar se este y2 observado pode

de fato ser associado a X,.

105.

O modelo das n observações ê:

y2 = X2B2+ e2 (27)

Para obter uma estimativa pontual usando bl:

X2bl = X2(.X11X1)~lXl Vi (28)

Se é?! = g2 , este estimador ê não-viesado, pois

EX2b1 = X2 Eb1 = X23X = X232 = Ey2

Para construir um intervalo de confiança seja

d = y2 - X2bx = X2g2 - X26X + e2 - X2CX1lX1)"1X1'ei

o vetor erro de previsão. Então,

cov d = E[>2 - X2CX1IX1)-1X1le1]re2-X2(X1fX1)-1X1feiV

= E e2e2'+ E[X2(X1 X1)~\1 ex e 1 Xx (Xx 'xx )~XX2 'j

T rr2 -t- Y ÍY Y }~1Y n2J. U T ^■2^-"'i -^ i ' -^9 &

2

jã que E ex e2 =0.

Então, se gx = 32 tem-se que d tem distribui

ção normal n2-variada com media zero e, portanto:

d'ccov d)-1d * 2

Logo,

t „ i

(cov d) d , , _t „ i

d (cov d) d ,

n2 Cy2-X2b!) [I + X2CXX Xi

n2 s2

a2 (29)

106.

Pode-se então usar (29) para construir um in

tervalo de confiança para y :

F (y.-X,^)' |l + X2(X1'x1)"IX2'|(y2-X2b1)Cn2 jnx-kíç.j.Oj < — . <

n2

A estatística (2 9) também pode ser usada para

testes a hipóteses HQ: 3X = 32 . Se o vetor (y2 - X2bx) for

grande, pode-se rejeitar que as n2 novas observações y2 venham

do mesmo modelo de regressão que y,.

No caso em que n2 > k, temos, então, duas op

ções para testar a hipótese Ho : 31 = 32 .

São as estatísticas:

p - <-e e - e e) / k (r>(,sHk,n.+n2-2k) " i , O1 C26)

' l 2 e e /n1 + n2 - 2k

(y2-X2bx ) ' [I+X2ÍX/ X1 )~lXj (y2-X2b! )

^7? <29)

Demonstra-se que(26) e mais eficiente que (29).

Se n2 < k, o resíduo relativo â regressão

y2 = x232 + e2 não pode ser calculada e na estatística (26)

ter-se-ã B = e^ ex com nx - k g.l., e A = ex'e" com n1+n2- k.

107.

A estatística do teste serã:

Ce* e*- exf ex) / n2 e* e* - e^ el

F(n2,n1-k) = i 7 T ~ 2 (30)

Demonstra-se que (3Q) é idêntica a (29).

Pode-se pensar que em (26) faz-se a comparação

de uma regressão onde se usou toda a informação, com outra on

de nem toda a informação foi usada, e em (29) so se usa a in

formação da regressão com restrição para se obter um interva

lo de confiança e se pergunta se os n2 novos valores estão

nesta região ou não.

Tomando um estimador linear geral

tem-se que d = (y - [X2(X/ X1)~\1' + B]y2). Então:

=E(y2- X262 + X2(X1tXirlXlte1 tBX^+Bq)

(y2 - x232 + x2(x1!xl)-Ix1tel + Bxxel+ bEi) =

=E(e2+X2(X1'X1)~1X1te1+0+Be1)(e2r+ei'xi(X1'X1)"1X2'+0+e1fB)

= a2[í + X (X fX )"XX ' + BB'1L n2 2ii 1 J

pois E e:e2' = 0 .

108

Então, cov d e mínima para todos os estimado -

res lineares não viesados, quando B = 0, pois B Bf é uma ma

triz positiva semi-definida.

Logo, X2i>1 ê o estimador que minimiza a cova-

riância do desvio d.

3.4 - Mínimos Quadrados Generalizados

3.4.1 - 0 Método

Em aplicações praticas, as hipóteses sobre e e

X não são satisfeitas. 0 caso mais simples de relaxar as hi

póteses seria supor que os e^ não fossem independentes, i.e.,

que o modelo fosse:

Y = X3 + e (31)

E e = 0

E ee'= V

onde se supõe V simétrica positiva definida, V existe e a2

ê um escalar. Para facilitar, impõe-se tr V = n, o que faz

com que a-2 seja a media dos elementos da diagonal.

109.

Toma-se a matriz P tal que PVP* = I.

Então, indo em C31):

Py = PX3+Pe (32)

EPe = 0

EPe e'p =Icr2

3 = [CPX)'CPX)J~1 CPX)'(Py) (33)

cov 3 = <X2((PX) '(PX)) 1

= cr2 «'v^x)"1 (34)

onde 3 ê chamado estimador dos mínimos quadrados generaliza

dos . CEMQG)

0 CEMQG) ê o melhor estimador linear não-viesa

do para a regressão C31). Se e for normal, pode-se omitir a

palavra linear e pode-se aplicar a ele todas estatísticas de

senvolvidas para o CEMQO). 0 (EMQO) é não-viesado para (31),

mas o CEMQG) tem menor variância.

0 CEMQG) e também assintoticamente normal,man

tidas as respectivas hipóteses. Suponha, no entanto, que V

seja desconhecida e que V seja uma estimativa consistente de

110.

V Seja É>n - CX V X) X V y, então tem-se o seguinte teo-

rema.

Teorema:

- CX V X) XTV y tem a mesma distribuição

limite que 6 = CX* V^X)"^'V *y se:

Ci) plim n ^'dV"1 - V *)X = 0

1Cii) plim n~2 x CV"1- V~1)e = 0

Demonstração:

Ora, como se viu no caso do EMQO,tem-se:

/rTCb - 3) = Cn~1x'x)"1n~?Xle

Para os EMQG tem-se:

/nC3 - B) = Cn"1CPX)tPX)~1n"2(px')Pe

-1 t 1 1 í _l= Cn XV X) n*XV e

onde 3 ê o EMQG.

Para 3n ter-se-ia:

H"C3n - 6) = Cn""xx'v"lX) ^"zx

Então,

111,

/H'(6n - 3) - /HC3 -3) =

x'v"le - (^

Cn"1XfCV"1-V~1)X)"1n7" X* V~ l e+ (n"1 X ' V"1 X)"1 n~7 X ( V"1 -V"1 ) e

plim n X (V -V )X = O -*■ plim n~ X V~ X = plim n X V X

Mas as hipóteses de normalidade exigem que pa-

_i t

ra o EMQO plimCn X X) ■*■ Q, onde Q ê positiva definida.

Aqui a hipótese análoga é*:

plim Cn"1CPX)'cPX)) = plim n"1x'V'1X ■*■ Q

-í '"-i -í • -íEntão, plim n X V X = plim n X V - X ->■ Q

Logo,

plim Cn~ X V~ X) = plim Cn XV X)~ ■*■ Q~

o que implica:

plim Cn"xX CV~X - V)X) = 0 -»- plim (n~1x'(V~1- V)X)~X = 0

Então,

plim nC3n. - 3) = plim (n X (V - V)X) • n 2 XV e +

+ plim (n-1X V^X)"1' n~2(V~1- V~X)e

= 0 . plim n~J X V~ •

"" ♦ o

= o

112.

3 . i+ . 2 - Teorema de Aitken

Este teorema é a extensão do Teorema de Gauss-

Markov para o EMQG. Suponha validas as hipóteses do Teorema

de Gauss-Markov j exceto que E e e = V cr2 , onde V ê uma ma

triz positiva definida nxn e tr V = n.

Teorema: Nas condições acima, o EMQG ê o esti

mador linear de mínima variância, onde, por mínima variância

entende-se que qualquer outro estimador linear tem matriz co-

variancia igual a do EMQG mais uma matriz positiva definida.

Demonstração:

É análoga ao Teorema de Gauss-Markov. Seja o

estimador linear Ay, onde:

a = [cxV1 x)"1 xV1 + bJ

E Ay = A X M M=> A X = I <=> B X = 0

ECAy - g)CAy - g)' = ECA e e' A*) = a2 A V A*

= oz[a'v~l x)"1 xV1 + bI v [cxV1 x)"1 xV1 + b] '

Como B X = 0

ECAy - 3)CAy - g)' = a^íxW"1 X)"1 + B V B*]

onde B V B e uma matriz positiva semi-definida. Então, o

EMQG e o estimador linear de mínima variância.

113.

3.4.3 - Heterocedasticidade

Heterocedasticidade significa que a variância

não é constante. No modelo de mínimos quadrados ordinários

um simples caso de heterocedasticidade seria supor:

ai = cCPixix + Baxi2 + •'• + ekXik} (35)

Se os cr. são conhecidos E e e* = Ver2, onde V ê

uma matriz diagonal. Aplica-se, então, os mínimos quadrados

generalizados. Caso os cr. sejam desconhecidos, estima-se 3

pelos EMQO, que são consistentes e obtêm-se um estimador con

sistente de V.

Um outro caso comum no modelo de mínimos qua

drados ordinários ê supor que ej-, = a e«_, + u., onde,

u^ N[0, vi e os u^ são iid, e |a| < 1. Então:

H = *± + a u.^ + ... + ak Uik

E eic— = -^-rv = Yk ; k > 0.-L — a

y, ê chamada função auto-correlação de e•, e

diz-se que Y, é estacionaria quando é função de k, e não de

ti.: ti

114.

Y

Define-se função auto-correlação como P, =K y

Se "a" for desconhecido, usa-se o EMQO para esti

mar 3. Estima-se £. por:

e faz-se a regressão e. contra e:.._ , obtendo-se a. Usa-se a

no EMQG.n

E e . e . _

E, de fato, a = : e um estimador consisn —

E ei_i2

tente de "a", pois se tem que:

n n _x n

£ e-r e-;_, Plim Z e. e. . plim n- Z e_. e_. .?plim Í5i

E 2e. 2 plim S e. 2 plim n E e.x"x i=i 1-1 i=i 1

_jn n (demais ter-

plim n~ E Ca u, +a3 u. +a5 u. '+...)+n~ t mos cruza-i=1 1-1 1~2 1~3 ±=i dos de u.)

'

_i nplim n E e._1

= (*)

Aplicando a Lei dos Grandes Números para os u.

E e . e. y

E e.2i 'o

-1 n -1 nb) plim n E e. e. = plim n E e . e ._

Seja a matriz n x n:

115

B =

O

1

1 O

0 10

Ora,

B e =

"n-i

Fazer e =0 não faz diferença se n e grande,

podemos afirmar:

-í ní ii

n E e. e.=n eBe

i=i x~

- XCx'x)"1x']B[l - X(x'x)"1x']e

-í ' -í ' • -í 'n e B e- n e XCX X) X B e+

n""1 e B. X CX X)"1 X e + n J e'xCx'x) ! X*B X (x'x)"!

Ora, tomando o limite de probabilidade, os ül-

-i 'timos 3 termos são zero, pois plim n"1 X e = 0.

n

Logo, plim n_i '

; - e•_i = plim n e B e

116

Para testar a existência de heterocedasticida-

te Goldfeld e Quandt sugeriram dividir a amostra n em duas,

e n2 .

Então,

i=ix:

i = 1

a2

se = Qz

Exemplo:

Seja o modelo composto por m regressões ordina

rias e que a j-êsima regressão tenha n observações, ou seja:

m

X.

X.3

Xm

3.

ei

G2

e .

3

e

m

(36)

e y. = X. 3. + e .yD 13 3

E e e.

onde

117.

y. e n x 1

X. e n x k.

j ek.U

Es-te modelo ê usado na pratica para determinar

se um conjunto de m variáveis dependentes ê afetado por algum

fator não explicitado no modelo.

Suponha que E e_^ e. - a j_n Então, a ma

triz de covariância de C36) ê

XT V =

• • • o" im I

12 -*- a22 ■"- * • • °Zm I

crim I o1 I ... a I1 m 2 m mm

m x(37)

Se E = [a..J e conhecida, pode-se achar o

EMQG e obter 3 = C3x, 32, ..., 3 ) que e o MELNV.

Se fizer cada regressão separadamente a covari

anciã será maior.

Caso E = tcr-.j seja desconhecida,usam-se os e.

NOTA:

® ê o produto de Kronecker:

se A - |a...|mxn e B = |b..|m'x n1 , então

A 0 B. = IF- imm'x nn1 , onde F^. = a^B.

118.

de cada regressão para formar n e.'e., que é uma estimativa

consistente de o\ . , e obtemos £ = (n^e^e.) que é uma estima

tiva consistente de £. Então, aplicam-se os mínimos quadra

dos generalizados, obtendo B que é uma estimativa consistente

de 8.

3.5 - Analise dos Resíduos de uma Regressão

0 que e talvez mais importante, apôs estimar

uma regressão, ê analisar os seus resíduos. Por exemplo, ana

Usar um grafico dos resíduos x variável não incluída na re

gressão pode nos dizer se devemos ou não incluir esta variá

vel na regressão.

Os resíduos podem também nos dizer se existe

uma tendência temporal, porém é comum que esta tendência tem

poral esteja associada a alguma variável omitida, e descobrir

qual é esta variável é, sem duvida, melhor.

Fazer o gráfico dos resíduos versus y estimado

pode indicar existência de heterocedasticidade ou não.

119.

O grafico dos resíduos versus variável explica

tiva pode revelar que a relação entre a variável dependente e

a variável explicativa ê não-linear.

Todas estas idéias se baseiam na presunção de

que os resíduos não devem mais conter nenhuma informação; ca

so eles contenham , deve-se aproveita-la para melhorar o mode_

Io.

Para se testar a existência de um processo de

correlação serial dos resíduos existe a estatística "d" de

Durbin-Watson. Nesta estatística supõe-se que o processo de

correlação seja de 17 ordem.

n

Z e.2

X

rw n-i n-i n-

■|=1 Cei+i-. ei)2 |=1ei+12 + ?? = 1ei2 + 2? =n n

£ e.2 E e.2X X

n- 1

2 + 2-^ - 2(1 - a)

n=i

120.

Se

> O caso seja positiva "1

£ e. e, =0 caso não exista *» correlação

< 0 caso seja negativa serial

n-i

Como Q < lim < 1, a estatística d assume valo

Se.2

res Q < d < 4.

Existem valores d , d que são funções do nume

ro de observações, do numero de variáveis explicativas e do

nível de significância desejado. Os casos possíveis são:

4 - d0 < d < 4 existe correlação negativa

4 <- d <: d < 4 - d0 indeterminadou %

d < d < 4 - d não ha correlaçãou u v

d. < d < d indeterminado% u

0 < d < d0 existe correlação negativa

A existência de variáveis defasadas torna a es_

tatística de Durbin-Watson acima sem sentido,e o estimador de

mínimos quadrados viesado; e necessário usar uma estatística

NOTA:

1,6 j du - 1,

121.

corrigida de Durbin-Watson.

Exemplo: CDurbin-Watson com lag não funciona

direito)

Seja o modelo:

et

onde £ = a e + v

onde vt; com distribuição N[0,l]

b =,

= 6a

= 6a ECet^iyt_2) + a E(et_12)

Mas, ECet_iyt_2) = E(et y^)

Então,

aCvarCe,))1

11 1 - a 6

Logo, b ê viesado neste caso.

Como para acha,r d, ê preciso estimar os resíduos,fazendo

ei = yt " b yti

122.

se b e viesado, o e. também serã e a estatística d perde sen

tido.

Demonstra-se que neste caso

plim d = 2 Cl - a g2+ a )1 + 3a

QBS. : Caso exista uma variável defasada, Durbin sugeriu o

uso da estatística

h = Cl -

\2 - n VCbj)

onde VCbj) é a estimativa da variância do coeficiente

de y . Demonstra-se que h > N [0,l].

3.6 - Multicolinearidade

Quando uma ou mais colunas da matriz X e combi

nação linear das demais, a matriz (X X) ê singular e, assim,

não se pode achar o estimador b = (X X) X y.

Diz-se então existir multicolinearidade na a-

mostra. Em geral, não se tem multicolinearidade perfeita,mas

graus de multicolinearidade, isto ê, (XX) ê quase singular.

123.

Uma maneira de se medir a multicolinearidade e

obter os R2 , chamados R2 cancelados. Estes R2 são obtidosC G

cancelando uma a uma das variáveis independentes. 0 que me

nos diferir de R2, significa que a variável omitida pouco a-

crescentou â regressão.

Outra maneira ê fazer regressões das variáveis

independentes entre si. Se algum R2 obtido for próximo das

unidades, sugerindo que existe uma combinação linear de. k - 2

variáveis dependentes que explica uma variável dependente.

A multicolinearidade ê considerada prejudicial

na. prática, se as estatísticas t indicarem os coeficientes co

mo sendo zero e uma estatística F, a nível de 5% indique que

são diferentes de zero.

Uma maneira de determinar que os coeficientes

que não podem ser determinados ê a seguinte.

» t t

Seja CX X) uma matriz singular. Faça X X=P D P

onde D ê uma matriz diagonal consistindo dos auto-valores X.

de CX X) dispostos em ordem decrescente, e P a matriz cujas

colunas são os auto-vetores, P P = I.

y = X (3 + e = CxP)CP3) + e = Za+e

124.

onde

Z = X P e a = pV

As novas variáveis Z são denominadas componen-

tes principais. Seja a i-êsima coluna de Z, Z. = Xp.. Então

Z^ ê uma combinação linear das colunas de X usando a coluna

p., que ê um auto-vetor, como pesos.

Se o posto de X for k - m, ter-se-ã m auto-va-

lores nulos. As correspondentes colunas de P satisfazem a

r

CX X)p^ = 0 para estes A_; o que implica Xp. = 0. Logo os

últimos m coeficientes de a desaparecem e não podem ssr eoLi

mados .

Decompondo a = [a , a, ~[ onde a tem m elemen

tos , idem para P = [P&, Pfa] e Z = [Z&, Z^[ . Então

y = Z a + Z, a, + e = Z a +ea a b b a a

Ora,

, ~ ~ -. ~

Pg = a->-3 = P a +a a

Logo, uma combinação linear dos 3 só* pode ser

NOTA: , , ,

CX X) = CP D P )p^j mais P pi e zero, exceto na posição

M ' IIi",onde e pois Cp. ,p.) = 0 .

125

estimada se, e somente se

w 3 = w P a + w*P, a,a a b b

puder ser obtida a partir de w P a . Ou seja, w P. = 0 . Sea a d

w e um vetor de zeros com "1" apenas na posição "i", esta tes_

tando-se se 3. pode ser calculado.

i ^

Se (X X) e quase singular, que e o que aconte-

ce na pratica, faça (X* X*) onde X* e a matriz X retirado o

intercepto. Faz-se■o procedimento anterior e se retiram os m

componentes relativos aos X., que são quase zero.

3.7- Erro nas Observações e Variáveis Instrumentais

Considero novamente o modelo de regressão sim

ples. Suponha que ao se obter a amostra, se cometa um erro

sistemático na auferição da variável explicativa. Neste caso,

os estimadores não serão consistentes .

Seja X" = X + i> , onde 'ty e a matriz do erro. Su

ponha que:

E(i|O = 0

126

plim n ty X = O

-1

plim n ^ y = O ► o erro é não-correlacionado

plim n ^ e = O

Então

b = (X-VrVy = (n"1XlV'xA)~1n"1XiV'x3+(n"1X"!X")~In~1X"f1

Logo,

, -íplim b = (Q + Q ) Q0 = (Q + Q.) (Q + Q. - Q )$

= 8 - (Q + Q.)~ (

_, r _,

onde plim (n X X) = Q

Uma maneira de se contornar o problema do? er

ros de medida ê o uso de variáveis instrumentais.

Dado o modelo:

y = X $ + e

= X 3 + (e - i{> 6)

Mas,

plim n~1X:'í'(e - íj» plim n (X + i|>)tí> 3 = - Q, 8 ^ 0

e"

Reescrevendo o problema acima:

y = X 3 + e

e plim n X e t4 0

127.

Procure uma matriz W, n x k, chamada matriz das

variáveis instrumentais, com as seguintes propriedades.

1) plim n"1 W X = P onde P e não-singular

-A ' n2) n 2 W e ——> Nk[0, *]

Então

' -1 'i) 3 = (W X) W y e consistente

ii)n2(3~3) e limitada por uma distribui

ção normal com media zero e co

variância P"1 $ p"1

pois :

E 3 = (W X)-1(W X)3 + (WlX)~1W*Ee = 3

e fazendo o mesmo procedimento de 3.2.5,tomando Z. = n~2w. e.

e Z". = Pn 2v/.e. mantidas as devidas hipóteses.

128,

3 •8 ~ ^9.eficÍGntes de Corre lacão-Parcial

3.8.1 - Coeficientes de correlação

Define-se o quadrado do coeficiente de correia

ção entre duas variáveis "y" e "x" como:

2 - cov2(y>x) _ b cov(y,x) _ var(a + bx)-r

var x var y var y var y

onde y = a + bx e var(a + bx) = b2 var x.

ryx2 e a ProPor1ção da variância de y explicada pela variância

de y.

Ora, o coeficiente de determinação

var y bl covCy^i) + ... + h cov(y,x, )R = = ; K JÇ_ (38)

var y var y

Para demonstrar (38) use a definição de R2.

n - n

R2 = ^=i[b2(xi -x2)+b3(xi3-x3)+...+bk(xik-xk)]

n

2 [b2(x.2-x2) • b2(x. -x2)n=x x

+ b3(xi3-x3) • b3(xi3-x3)

129

+ b. (x., -x. ) • b. (x., -x. )k ík k k ík k

+ 2b b (x. -x )(x. -x )23 12 2 13 3

2b2 b^(x.--x )(x. -x ) + 2b b (x. -x )(x. -x12 2 m i» 3 H 13 3 14 i

2b2bk(x. -

= b2 2j(xi2-x2) l =

b3

n: k

? C<xi3-x3) Z_b

n k

i=i lk k j = :

Porém,

n

n

Mas Z (x. -x0) = 0

n

x E ei = 0

x

n

Z x. e. = 0

pela condição de 1- ordem,

130,

Como

n n

E (x.. - x. )y. = £ (x.. -x.)(y. -y)i=1 xD D yi i=1 13 3 yi y

então:

b1 cov Cy , X[) + . . . + b, cov(y, x, >r2 = . 2S ÍL.

var y

3.8.2 - Coeficientes de Correlação Parcial

Vai-se mostrar aqui outra interpretação para

os coeficientes b, de uma regressão simples .

Seja y... o resíduo da regressão de y versus x15

x2, ..., xv_i • Seja x,... o resíduo da regressão de x, versus

x , x , ví., xv . Vai-se provar que b. é o coeficiente da re

gressão de y... versus x, ....

Para provar tal afirmação escreve-se

b...

b = e X = [x... x, 1 onde b... e X... são as partesk

b

relativas as k-1 demais variáveis explicativas.

NOTA: ■ £ 2 1 n ■>E e.2 _±_ E e.2Í=l - - n~^ *-l 1

Ccmo se viu,(l-R2)=-- ; na pratica,usa-se (1-R2)=- x~

R2 éo coeficiente de correlação corrigido,que leva em conta os graus deliberdade dos estdmadores.

131.

Ora,

b =

b*

b.

i i i

(X X)~ X y =

X., X.,. X... x,

Xk X* Xk Xk

1 ** y

xk'y

(x^)"1

Pelas relações desenvolvidas no Apêndice:

- xkvxk* V^

ti í

onde xk* xk. xk " xk x*(x* X*rlx* xk'

que e a soma dos quadrados dos resíduos da regressão de x,

versus

Segue que:

."1

pois, xk = xk... + xk onde xk é o vetor ajustado da regres

são de xk versus xx, x2, ..., x x.

Ora» y* e xk são não correlacionados, assim

132.

provando-se a afirmação.

0 £oe_ficiente de correlação parciaj. (c .c .p .) e

definido como o coeficiente de correlação entre v. e x . .J .; jç 5.-

cov (y,., x ,o

r ...

var y... var x, ...

t

-a Ví; var X, ... 1; 1... ,. = k ( *•• )T

var

pois, x ... e y... têm média zero.

Apresenta-se agora urna relação entre R2 e

y [I - X^X)"1 X*]y =

onde xk = X,.(X... X...)"1 X...'x

>- 1- _ ,

y*

\ _^

y*

133.

y* y* - yft'x, C.x ,. x, ,.)" x, 'y

= y.>. y... - b. 2 CxT ... x, ...)~

* y* - Cl - r^;

Ou seja:

Usando C13):

Cl - R2) = Cl - Ra2)(1 - r2 ax )

onde R... e o coeficiente de correlação de y versus x , x ,...,

x,k-i

Para se testar a significância de c.c.p. usa-

se a estatística t relativa a b, , ja que o c.c.p. e uma fun-

çao monótona da estatística t, e que

Tc* xk^'

v a Cn - k)^ Cl -

1 .: 1

134

APÊNDICE

- x ê uma V.A. normal unidimensional (N[y, a2]) Se

f.d.p: fCx) = -^- ecr/2 ir

- °° < X <

onde \i & a media e oz a variância.

- x e uma V.A. qui-quadrada com v graus de liberdade

C.XCv)2) se:

v x

T"1 T

f.d.p.: fCx) =

;• nh

x > O

Demonstra-se que uma V.A. X2fv) é a soma de v nor

mais N[O,lJ. A media ê v e a variância 2v.

- x ê uma V.A. t de Student com d graus de liberdade

CtCd)) se:

f.d.p.: f(x) =

d

- oo < X < oo

135.

Demonstra-se que uma V.A. t, , s ê o quociente

A media e a variância de uma t,,. são, respectivamente,

d xzero e

- x ê uma V.A. F-Snedecor com (di, d2) graus de liberda

de F,, , >. se:Cd ,d2 )

rUdu+dz),.,) (d,/d2)

1/2) rcd2/2) (1+( i jC—j—)

a2

x > 0

Demonstra-se que F,, , . ê o quociente

Y2X Cdi)

Cd2)

136,

Seja £ uma matriz simétrica e R = E_ i

Pode-se escrever:

'21 u 2 2

RX1 R

R21 R

1 2

2 2

I 0

0 I

Ou seja:

i í Ri í + Ei 2 R21

2! Rx! + Z 22 R2í

R22 ~ 0

2 + ^2

Multiplica-se Clb) por S-i

2 2

R21 --E- 1

22

Substitui R21 em Cia)

(Ia)

(lb)

(2a)

(2b)

Transpondo-se R21

R2 j

= - Ri!-1

'2 2

pois Rx x e £-1

22 simétricas e E21

Ora, R21 = R12, então

Rií Ri 2

137.

Desigualdade de Rao-Cramer. Caso multidimensional.

Considere uma amostra x = (xx , x2, ..., x ). .

Se LCx|9) a distribuição conjunta dos x. para um dado 0,

onde 0 e um vetor.

Para um dado x e 6 variável, L(x|6) ê a F.V.

Ora:

í °°LCx|8)dx = 1

J —00

Fazendo as mesmas hipóteses sobre derivações feitas no

Capítulo 2 para o caso unidimensional:

ou I * L L dx = E- d log L = 0 (1)-» 30 30

Derivando-se outra vez:

9 log L

<x> 3e 30

fou f Ü2ÍLJ; 9 lQg L Ldx = -E 9 lQg,L R(8) (2)Joo 30 30 39 39

onde RC9) e chamada matriz informação de Fischer. R(8) ê a co

variância do vetor —, e este vetor tem media zero por30

(1).

138.

Um estimador de 8 3 deve ser uma função vetori-

al gCx) onde x - Cxx , x2 , . . . , x ) .

Suponha que gCx) seja um estimador não-viesado.

E|g(x)| = I gCx) LCx|9 )dx = 9J oo

Diferenciando em relação a 6 :

gCx)

80

L dx = E[gCx)

99

onde gCx) ê um vetor coluna e 8 }°& L um vetor linha com me-d U

dia zero.

Considere a covariancia de g(x) e

cov

gCx)

3log L

99

'cov g(x) I

R(e)

Como a matriz covariancia ê uma matriz positi

va semi-definida, a matriz acima também é.

_i

Tome um vetor Cl - R (0))Z onde Z 4= 0

[z - r" (e)z J cov g(x) I

R(8) r 1(e)z

= Z [cov g(x) - R 1(9)]Z > 0

que ê a desigualdade de Rao-Cramer.

139.

CAPÍTULO 4

REGRESSÕES NAO-LINEARES E SÉRIES DE TEMPO

4.1 - Introdução

De certa forma este capitulo é uma extensão do

capítulo anterior, mas aqui os problemas colocados não são ne

cessariamente lineares, exigindo portanto a separação dos ca

pítulos.

Na seção 4.2, discute-se o que fazer quando o

modelo for nao-linear e se introduz o método da mínima distâri*-■

cia.

Na seção 4.3, discute-se uma generalização do

modelo de Box e Jenkins para o caso de um sistema de séries

temporais. Cita-se o teste de hipótese a ser usado, que ver_i

fica se a série ajustada é. boa ou não. Mostra-se como usar o

método da mínima distância para estimar os parâmetros de uma

série temporal e apresenta-se de forma informal a obtenção

das funções de máxima verossimilhança, que tem a mesma fina

lidade .

mo.

4.2 - Não-Linearidade

4.2.1 - Regressões não-lineares

Suponha que se deseje estudar um fenômeno cuja

forma seja nao-linear nas variáveis independentes ou nos para

metros. Por exemplo:

ou

(Fig.l)

(1)

(Fig.2)

Nao ê possível llnearizar

as equações acima, e ignorar a

não-linearidade do modelo pode

Fig. 1

levar a erros crassos. (Fig.3) Fig. 2

Por analogia, tenta-se a-

justar uma curva que minimize

a soma dos quadrados dos resí

duos .

yt

Fig. 3

141,

Por exemplo, minimizar:

n i n

e.2 = ~ Z Cy_ - 0i -32t=i ■ t=i

2 - 1 r fv R R v B3 ^2t- :_.^t - ~ L.Cyt 3l "3z xt )

ti 2 M

onde o —2~" serve apenas para facilitar as contas. Derivan-

do-se em relação a Bi, 32, e 63 obtém-se o seguinte sistema

de equações:

n o

£ Cy. - 3a - 32x.P3 )(-l) = 0t=i

n

l Cy - 3, - 32x 3s)x33 = 0t=i

E Cy. - 3i - 32x.B3 )x,33Jlnx. = 0t=l T T t T

Este sistema e não-linear em Bi» 32, 33-

A forma geral para os problemas anteriores ê

onde x. e um vetor il-dimensional das variáveis independentes,

e 0 um vetor k dimensional dos parâmetros.

Por hipótese, e tem media zero e variância a2.

Poder-se-ia pensar num sistema de regressões

nao-lineares, como por exemplo:

142.

yt-r = g-Cx 6) + e _ri i t ti t - 1,2,...,n

i = 1,2,...,m

Para facilitar a notação escreva:

onde o "•" depois das variáveis significa que são vetores.

Por hipótese:

Ee=0 mxl E e. . = 0 nxl

cov e = fi m x m cov e^ . = w. . I n x nt• ti íi n

Ao minimizar a soma do quadrado dos resíduos

se esta procurando uma "curva de melhor ajuste" e no caso on

de hã mais de uma variável independente uma "superfície de me

lhor ajuste" em |K .No caso do sistema esta se procu

rando o"conjunto de superfícies de melhor ajuste" em'^

NOTA: Demonstra-se que se os e são normais, aplicar os

mos quadrados ou a máxima verossimilhança e a mesma

coisa.

143.

4.2.2 - Método da Mínima Distância

Se as equações em C3) fossem lineares,aplicar-

se-ia, como no exemplo de 3.4.2, o método os mínimos quadra

dos generalizados. Este método contitui em minimizar:

Cy - X 3) V"1Cy - X 6) = eV^

com respeito a £ 5 onde V é proporcional a matriz covariância

de e. No caso V = ti 8 I , onde ti = cov e , e ti e definida

positiva.

Então, para o caso não-linear tenta-se por ana

logia minimizar a função:

LnCSn' 6) = ~ ^

onde Sn e uma matriz m x m a ser determinada como uma estima

tiva de ti.

Para se estudar as propriedades assintóticas do

estimador de mínima distância (EMD) trabalha-se com a 'expan

são de Taylor da função gCx. , 9).t •

Dado um x fixo, obtenha a expansão de

g,,(9) = gCx , 6) na vizinhança de 6Q , o verdadeiro valor de

144,

, mas lembre-se que 0q ê desconhecido.

9g, C0ogt. - gtt C0o: ) + —-—j— C0 - 0o ) = g^ C0 ) +

9 6 t-

onde

3gti

9gtm90i 90 2

9gti

9gtm

90,

m x k

onde a.s derivadas em Z são calculadas em 0o , e (0 - 0o )

k x 1.

Então, omitindo o erro da expansão de Taylor temos:

= g+ CQo ) + Z. (0 - 6o ) + e . (5)

Chame ©CS ) o valor de 0 que minimiza

1n

2n t =

-g+ C0o)-Z. C6-0O )] 's [y. -g. (0o )-Z, (0-0o)] (6)• x. x -Jnt. "t. t J

Ora, ^Sn) não pode ser calculado na pratica, pois as de_

rivadas de Z são calculadas em 0o 1ue e desconhecido. Mas os

resultados aqui obtidos serão importantes mais adiante.

Derive C6) em relação a 0 obtendo:

145.

I

n E Z S [y. - g. C0Q ) - Z (0 - 60 )] = Ot=1 t n t. t. t

que implica:

£_iZt'sn Z^Vi E Zt'Sn

Fazem-se, então, as seguintes hipóteses:

Ci) Para qualquer matriz simétrica positiva definida

S m x m, a matriz

-í n iM CS) = n E Z s Z.

t = 1

converge para uma matriz positiva definida M(S) quan

do n -> °°.

C_Ü) A matriz Sn usada para definir o estimador de mínima

r-'

distância converge em probabilidade para uma matriz

S positiva defin5.da.

Ciii) As derivadas de g (9) na matriz Z, são limitadas.X • X

Esta hipótese junto com as anteriores implica que:

í n 'n E Z. (S - S)Z^

• ■ t=i t n t

converge em probabilidade para zero, ou seja:

lim M CSn) = M CS)n^oa

146.

A soma:

1 n

(8)n" S Z S[y - g C90 )]

e a soma de vetores aleatórios independentes m-dimensionais ,

que tem pelo teorema Central do Limite uma distribuição nor

mal quando n -*■ °°.

Na vizinhança de 8o, Cy. - g, Oo )) tem mé-t • t.

dia zero e matriz covariância Í2. Então (8) terã na mesma vi

zinhança media zero e covariância:

-i n 'n £ Z S fi S Z

t=i x

e que tende para MCS £2 S).

Pela hipótese Cii) tem-se que

_1 n »

t=i t n t. t.

converge em probabilidade para zero, ou

~2 £ Z 's [y - gt

NOTA:

C1) Observe que S é uma matriz simétrica.

C2) Para [8 - 8Q j suficientemente pequeno,a media ê tão

pequena quanto se queira, e a distribuição tende de

fato para uma normal.

147.

converge em probabilidade para (8).

Mantidas estas hipóteses, tem-se que /n(0 -60)

converge em probabilidade para uma distribuição normal com me

dia zero e matriz covariância:

[MCS)]"1MCS Í2 S)[MCS)]"1

na vizinhança de 9o .

Faça, agora o mesmo procedimento sem linearizar

gt<• Derivando C4) relação a 6:

n

30 t=i 36 n t. t.

onde ó e o CEMD)que e obtido pela solução do sistema (9).

Para estudar a consistência de 0 observe que

3L (S ,6o) x n ,

■^ ; = ~ n" E = i Zt Sn[yt< - gt#(80)] (10)

onde n2 vezes (10) nada mais é que (8).

Ora, (8) converge para uma distribuição normal

com media zero e covariancia MCS fi S) na vizinhança de 6o , o

que quer dizer que CIO) converge em probabilidade para zero.

Ou seja, a primeira derivada de L tende a zero quando n -> QD.

Ora, tem-se também que a matriz das segundas derivadas em é:

148.

32LnCSn,90)

39 39

-i n -i nn E^ Sn Zt - n Z^

, -0% (9q)

36! 30

-gt.(6o)] Sn3^.(00)

30, 30'

(11)

onde

nm x m

30 30 '

k

m x k

Logo, a matriz entre chaves ê k x k.

Caso se reforce a hipótese (iii) exigindo que

as segundas derivadas de gt#(8) também sejam limitadas, a ma

triz entre chaves é uma media amostrai de n vetores V.A. in

dependentes que tem media zero, pois [y - g (9o )J temt. f

mé-

dia zero. Logo, pela Lei dos Grandes Números este termo con

verge para zero e:

lim -> M(S)

30 30

onde MC.S) e positiva definida.

Tendo em vista que o limite de probabilidade

de CIO) ê zero e que o de Cll) e uma matriz positiva definida,

149.

então, para n suficientemente grande tem-se que 0O ê um míni

mo local de L^, com uma probabilidade 1 - e, onde e ê arbitra

rio.

Com esta probabilidade Cl - e) ter-se-á que 9,

que minimiza LnCSn,0), estará num intervalo 60 ± 6. Então, 0

ê consistente.

Teorema:

Dadas as hipóteses:

_i n i pCi) n E Z S Z > MCS) matriz positiva definida

t= i

(Ü) S^ > S matriz positiva definida

Ciii) As derivadas ate terceira ordem de g C0) são limitadas.

Segue que o CEMD) 0 ê consistente e /n(0 - 0O) tem no

limite uma distribuição normal com media zero e matriz cova-

riância [MCS)]~ MCS ft S)[MCS)]"1

Demonstração

A consistência já foi demonstrada.

NOTA:

É possível apresentar condições, a fim de que 0 seja mi

nimo global.

150,

Fazendo a expansão em series de Taylor de

39

na vizinhança de

39

32L (S ,9o ) ~+ —n_Ji.— o

39 39

CO - 9Q )

C9 - 90 ) Bx

(9 - 90

onde B. = n39 39 39.

onde 9 5 9* 2 90 .

Pela hipótese Ciii) o último termo converge pa

ra zero.

Fazendo:

3L CS ,9)n . n'

39

= 0

Vem que:

32LnCSn,90)

39 39'

í n

t=i

onde <f> ê o termo que tende para zero

(12)

Compare C12) com C7) e nota-se que a matriz a

ser invertida em C12) converge para M(S), o mesmo que aconte-

151.

ce com a matriz a ser invertida em C7).

Logo, a distribuição de (12) tem o mesmo limite que (7).

A pergunta que falta é: que matriz S deve ser

usada para construir o (EMD)?

Pelo Teorema de Gauss-Markov, no caso do mode

lo Ünearizado, dever-se-ia usar ft~ que garante que a distri

huiçao limite de /nC8 -0a), que é a mesma de /n(8 - 80 ) , te

nha variância mínima, se fi for conhecida.

Se fi for desconhecida, usa-se fi= £ e. e.n . t» t»

Suponha â priori S = I e estime 6 .

Então, e. = y, - g. (6 ) é usado para estimar fi, com o

que se estima 9.

Iterações subseqüentes não são üteis, já que a

matriz covariância e no limite LM(S)]"1 M(S ^ S) [M(S)"]~>

e se S ■> ^"^tem-se esta matriz como [ M(fi )]]

152.

4

4

4

4

Modelo linearizado

4

4

4

4

« -1

mm L=e V e

4

4

4

4

Sistema equaçõest

L =0

4

4-

4

4

__EMQG ê6 não pode ser

calculado

4

4

4

4

4

4

4

4

4

4

4

4t

min L =e S e

4

4

4

4

Hipótese

4

4

4

4i

t » nn > °

Ln" > >4

4

4

4

Hipótese

4-

4-

4-

Õ tem umadistribuição limite ->distribuição 9

limite

Sistema equações

Ln'=0; EMD 84-

4

4

Hipótese

4

4

4

I

4

4-

> distribuição 6

limite

4

,-1

Então,usa S=V que minimiza a

variãncia da distribuição

e calcula 6

153,

4.3 - Series Temporais

4.3.1 - Modelos AR, MA e ARMA

Ao estudar-se a evolução de certas variáveis ao

longo do tempo, observa-se a existência de um vínculo entre o

valor da variável no passado, fatores aleatórios no passado e

no presente e o valor da variável hoje.

Seja {v-j-} uma seqüência dos valores da vat = -oo ~

riável y. Supoe-se que para todo instante t, y seja uma va

riável aleatória.

Se a distribuição conjunta de ... y _ ,y ,y ,

y_t-+ j ) ...for independente do tempo, diz-se que a serie y e

uma série estacionaria. Se apenas os dois primeiros momentos

da série independem do tempo, diz-se que a série é fracamente

estacionaria.

Define-se como um ruído branco uma V.A. e on

de:

E e = Q E e e . = 0 V j 4. 0

E et2= o2 < o° E yt et_. =0 V j

154.

Apesar dos ruídos brancos não serem comuns na

natureza e em economia, eles servem para modelar tais fenôme

nos de forma satisfatória.

Da mesma forma que se fala acima de uma série

y, escalar, pode-se pensar em y. como um vetor onde cada com

ponente e uma variável em estudo, e e como um vetor cujos

componentes são ruídos brancos.

Os modelos mais usados são os seguintes:

Auto-regressivo de ordem p AR(p)

yt = ai yt-i + a* yt-2+ ••' + ap yt-p + £t

Medias-moveis de ordem q MA(q)

yt

Auto-regressivo Medias-moveis p,q ARMA(p.q)

- 4. 4- 4- 4-1-1 C 4- 4-K C" ( 1 S ")

Pensando em termos de vetores, ter-se-ia:

(16)

onde A., B. são matrizes, y., e- são vetores.

A equação C16) pode ser reescrita como:

155

't-q+

ApB] B

O

O

O

I O

" y-t-L"

yt-2

et->

et-2•

+

" et

0

et

0

»

0

Ou seja, qualquer dos modelos anteriores pode ser redu

zido a forma:

Yt - A Yt->+ (17)

onde Yt, e^ são vetores de vetores, e A matriz de matrizes.

4.3.2 - A Ideja básica e Diferenciação de séries

A idéia básica dos modelos acima e, escolhidos

p.q. iniciais por algum critério, mesmo que arbitrário, esti-

NOTA:

Suponha, por enquanto, que E y = 0.

156.

ma-se a matriz A pelo método da máxima verossimilhança Ou o

da mínima distância,. Então verifica-se, por um teste de hi

pótese, se os e^ ajustados são vetores ruídos brancos. Para

fazer-se o teste usa-se a estatística multivariada

"Portmanteau" de Hosking.

Uma pergunta que pode ser feita agora ê qual

a vantagem de se trabalhar com um sistema de séries de tempo?

Ao trabalhar com um sistema pode-se captar o

efeito das variáveis entre si, determinar qual a variável que

lidera e quais as que seguem e, certamente, ao se usar um

sistema esta se usando mais informação do que com equações in

dividuais. Logo, a estimativa dos parâmetros é mais precisa.

Pode acontecer que haja componentes do vetor

y que não sejam estacionãrias e que y-t'

apresentem uma tendência. Ora, neste

caso, nem a média nem a matriz cova- ■t

riancia sao estáveis ao longo do tem- Ay.

po. Diferenciando estas componentes

da seguinte forma:

157

A yit = yit - yit

e passa-se a trabalhar com a componente diferenciada. Pode-se

diferenciar quantas vezes necessário for, mas não ê comum di

ferenciar mais do que duas vezes.

No caso de um sistema de equações, seria possí

vel que os acréscimos de uma variável fosse função do modulo

de variação das demais, o que nos daria a impressão de ser

uma tendência. Neste caso, diferenciar não teria muito signi_

ficado.

De qualquer maneira, poder-se-ia incluir no ve

tor Y. o modulo das variações de cada componente.

Supondo que Y. seja um vetor estacionãrio,pré-

multiplicando a equação (17) por Y , e tomando o valor espe-*C — .K

rado obtêm-se:

t t

k t t-k . t-i t-k

onde F, ê chamada matriz auto-covariância,

Segue que:

rk = Ak r0 (18)

158,

Define-se:

Y-. , , = E y* y. - função auto-covariancia

Y».u=Ey.y.1 - função covariância cruzadaXj5K IX 1I-K

Yii k ~p . « -. = —— 2 - função auto-correlaçao

Yii k ~p. . , - — r - função correlação cruzada

3' (y y )2

159

Note que: yi t

t 't

mt

ymt-p+i

'rat

't-i

't-i

emt-i

it-q+i

2t-q+i't-q+i

'mt-q+

160

Então, = E

Yk Yk+i •' * Yk+p-i

Yk+1

'k+p-i Y,

onde

Y21,k

Y

Y1

nu ,k ...Y'mm,k

4.3.3 - Condição para Serie ser Estacionaria

A matriz ro ê a matriz covariância do vetor Y .

Sua diagonal são as variâncias dos componentes de Y. e os de

mais elementos as covariancias. Os termos nulos são as vari

âncias E e.. e.. , e as covariancias E y. e. , . As variãn-lt lt-K J- L j L Jv

161.

cias indicam as flutuações e as covariâncias os co-movimentos.

Uma vez estimada a matriz A pelo método da má

xima verossimilhança, pode-se estimar rQ . Usando a equação

C17), multiplicando por Y e tomando o valor esperado:

EY Y =AFY Y A + P c- r

r0 = a r0 a" + z

pois, E Yt_i et = 0

Então, ro pode ser obtida por iteração onde Z pode ser

estimada a partir de = y .^ , onde y. é" o valor a

justado e y. o valor real.

eit

M.t

'2t

'mt

A solução para T no processo iterativo existe

e o pr>ocesso converge se, e somente se, os autovalores da ma

triz A forem em modulo menor que 1.

Fazendo Y. • = A Y._. + e .L J L J L J

sucessivamente

em C17) pode-se escrever:

162

Yt = £t + A Vi + A' Vi

Então:

To = Z + A Z A + A2 Z AZ + ...

Supondo que A satisfaça às condições para que se possa

escrever A = B D B~ , onde D e uma matriz diagonal, tem-se:

rQ=£ + BDB 2B1DB + BD2B1EB1D2B +...

Fazendo W = B"1 EB"1 ' :

TQ =BWB +BDWDB* + B D2 W E2 B' + ...

Fo = BCW + D W D + D2W D2 + . . . )B*

= BCw.. + „.. Xi X. + Wij X^X.2 + ...)B' (18)

onde o termo entre parênteses corresponde ao elemento ij.

Então, a partir de C18):

Io -d L J B

Logo,

-*■ se Y for fracamente estacionaria implica |X.| < 1 pa

ra existir TQ .

<- se | X • | < 1 então existe Fo < °° e por construção

F, = A Tft o que implica y- • v independe de t, e

163.

= Cl + A + A2 + . . . )E

Logo, Y, e fracamente estacionario.

E Yt Yt_k

Note que y, ser estacionario implica que

vale para todo t.

Dada uma amostra de um vetor Y,, feitas as de

vidas diferenciações, ê também interessante subtrair a media,

mesmo que a componente não apresente tendência, o que é o me£

mo que diferenciar uma vez.

Doravante vamos supor sem

pre Ey . _,_ - 0

yit

As auto-covariâncias da amostra são:

k u n yit yi yit yjtjt-k]

De forma análoga as correlações:

A matriz R deve tender para a matriz nula quan

do k aumentar se Y for um vetor estacionario. Pois, como se

viu, ser estacionario implica em segundos momentos finitos e

164.

F - A ro. Ora, como os auto-vetores de A têm \\\ < 1,

Se R, não tender a zero, deve-se verificar na

amostra Y alguma componente a ser diferenciada.

- Estimativas Iniciais de p,q e

Teste de Hipótese

Para um processo univariado auto-regressivo

ter-se-ia:

't

10

1

10

yt-l

yt-2

V

(19)

Multiplicando por y.t-_T<. e tomando o valor espe_

rado:

Yk

Yk-i

Yk-p+i

l o

o í.

1 o

Yk-i

k-2

Yk-n

(20)

165.

Ou seja,

= A y 1, onde y indica um vetor dos y.

Então

% ' (21)

Logo :

Y yk-p

(22)

Ora, fazendo A = B Dk B"' em (21)(V. NOTA):

Yk = [bn bi2-« b1 Yn

bP Y,

b1 Y0)X1K+ (bl2--b2 y bpy0)X k

p

Ou seja, y^ é" uma combinação linear dos X..

Sob a condição |X.| < 1, y tende a zero quan

do k -♦•-«>.

Suponha que Xx seja um auto-valor complexo. En

tao A vi = Xj Vi -*■ A vi = Xj Vj , ou seja o conjugado de Xjtam

bem e auto-valor.

NOTA:

bi i » t>i2>... são elementos de B

e b e a i-esima linha de B~ .

166.

Tem-se que b sao autovetores de A, pois supo-

nha existe i tal que b1 B D -t- b1 B Xi, então B~ B D ¥• B~ B D

que e uma contradição.

Se b e um auto vetor complexo associado a Xla

faço b ser o auto vetor associado a X2 = Xlt

De forma análoga se mostra que bXi e b12 são

conjugados, caso Xx seja complexo e X2 = Xlt

Fazendo:

(bM bxYo) = s e1^ e Xl = v ei9

(b12 b2Y0) = s e"1* X2 = r e"19

Então

Yk = s rK(e K + e K ) + ...

= s rk 2 cos(9k +*)+...

Ou seja, Y-. e sempre um numero real, e a existência de

um autovalor complexo em A implica numa componente oscilato-

ria amortecida em y, de freqüência angular 8.

NOTA:

a • b = a • b

167

Para ura processo multivariado auto-regressivo

A =

Ai. A2 . . . A 0P

I .

I

0

0

0 0

0 I

I 0

Note que y0> Ti> •••YD_i devem ser determina

das pela iteração.

rk •**Yk+p-i

Yk+p-i '"

0

A, A, . . .A 0 0i 2 p

•I,

I .

-'IO

Yk-i '"' Yk+p-2 0

Yk+p-2••• Yk-i

Então, para k > p :

Yk+p-i Yk+p-2v, + . . . + A y, , (23)'k+p-3 p 'k-i

As matrizes Y decaem para zero,pois F, = A Fo ,

mas aqui decaem segundo (23). Denomina-se (23) de equações de

168.

Yule-Walker.

Para um processo multivariado de médias moveis

A =

0

I•

I

0

Q

0

0

0

B

0

I

I Q

Ora, aqui pelas equações (23) Yk = 0 para k > q.

Esta é uma diferença fundamental entre os pro

cessos auto-regressivos. e os processos médias moveis

Auto regressivos - yv decai lentamente

Médias moveis - y, acaba bruscamente.K

Se Yv acaba bruscamente na amostra, nosso pro-

cesso ê, sem duvida nenhuma, de médias moveis e o q inicial e

sugerido como q = k. Caso contrário, o processo poderia ser

auto-regressivo ou ARMA.

Se o processo for puramente auto-regressivo as

169.

matrizes A. podem ser determinadas por regressão simples,

pois:

onde a. ê a i-iêsima linha de A..1 3

Feitas as regressões dos Y-+3 1 < i < m,

montam-se as matrizes A^, e pelos testes de hipóteses discuti

dos no capítulo anterior, se determina a partir de que valor

P as matrizes A- são nulas. Usa-se este valor como aproxima

ção inicial de p.

Então, num processo auto-regressivo as matri

zes A- devem ser zero bruscamente. Caso contrario, se as A.

decaem lentamente, por exclusão, usa-se um processo ARMA.

Caso se opte por um processo ARMA, adota-se p

como sendo o valor, a partir do qual as A. são suficientemen

te próximas de zero, mas aqui elas decaem lentamente, e o mes

mo com os Y para obter o valor inicial de q. Assim se esti

mam os valores iniciais de p, q.

Então, aplica-se o método da máxima verossimi

lhança para se obter as matrizes A-, B..

170.

Faz-se, então, o teste de hipótese introduzido

por Hosking (19 80), onde:

J t t t-r

onde e é o vetor resíduo obtido usando e. = v. - vx ít ^ít yit

C = (C1? C2, ... Cs)

vec C = (c1M,c211,...c121,...c112,...cmms)f

Demonstra-se que:

n vec C (I 8 C 9 C ) vec C ^ x22.s m (s-p-q)

onde s deve satisfazer certos requisitos, como s < n.

Este teste diz se se pode ou não conside

rar et UTi vetor ruído branco. Caso não se possa, alteram-se

os valores p e q, ate que se possa.

4*3*5 ~ de Modelos ARMA

Uma boa estimativa destes parâmetros é pela uti

lizaçao do método da mínima distância, que nada mais é que

minimizacao da soma do quadrado de resíduos.

uma

171,

Seja:

et = yt " A! yt-, - •■• - AP yt-P " Bi et-, - ••• - Bq et-q

Supondo

e = e = . . . e =0p p-i P+i-q

Minimize:

E e S"1 e (1)t=p+i

-i n 'e S = (n - p) £ e ° e o

t=p+i

O processo iterativo e da seguinte forma:

a) Supõe-se S = I

b) Minimiza-se (1) em relação a todos os para-

metros desconhecidos de A., B..

c) Com os parâmetros estimados em (b) estima-

se e. ° e, consequentemente, S°.

d) Substitui-se S° em (1) e repete-se o proce

dimento.

Este método foi sugerido'por Malinvaud(1970).

Outras estimativas de parâmetros foram sugeri

das por Wilson (1973) e Hillmer e Tiao (1972). Nestas estima

172.

tivas acha-se uma aproximação da função verossimilhança e, en

tão, faz-se a minimização sem qualquer iteração,

Para um processo auto-regressivo multivariado

da forma:

yt = et + Bi £t-i Bq

supõe-se que os e são vetores normais, independentes, e tem

covariância

Uma amostra com n observações yx, ... y nes

te modelo oode ser escrita como:

Vi

y,

n

rI

B Bq q-1

Q *. 3 Bi In

0

. .Bx"

..B2

Bq

-q+i

e-q+2

o que e o mesmo que

(2)

y = De + C £... (3)

Então, as matrizes D, C são funções das matrizes B.

Reescrevendo (3)

L-D ' C D _-1

y .

"o

y -

d"1 c.

it= Z - Xb

173.

onde

Z =

D-1

- I

X =

£,.= b.

Supor que (e...,e) tem distribuição normal com

media zero e matriz covariancia I , ® Z = Z , então, tem-n+q n+q

se :

n+qexP{- ^

n+qÉ1-. (4)

onde, « significa proporcional

Faz-se, então, uma mudança de variável para ob

ter-se:

2 exp[- -kz - ~^ (Z - Xb)] (5)

Para se achar a fdt> de y se integra em b.

Demonstra-se que fazendo

Z - Xb = Z - Xb + Xb - Xb

NOTA:

|A 8 B| = |A |m |3|n se A n x n B m x m,

onde b = (X E-1 X)-1X E~ Zn+q n+q

174.

e substituindo no expoente de (4), obtém-se:

L(B,E |Z)«|E'n+q

exp{—g—(!'n+q 'n+q

Xb)}

Porem

(6)

%~1 z = y' [o d"1 '] Fe"1 o1n+q J l q

0 1

D"1

y = y D E D y

X

i _

)n x = [-1 cV1'] "x oiq

o en

_ T

d"1 c

nA = Anq

Note que e... = b

Então, se reescreve (5) como

L(B,E |y) <r|s | 2 |Ai"2 exp(- h - eA A

Faz-se, então, duas hipóteses simplificadoras

- e... = 0

- ignora-se |E | 2 |AJ~2

Então; L(B,E|y) «n

"^ exü(- ^ y D~ E~ D~ y)

Este resultado foi obtido por Wilson (.1973)

No caso de um modelo ARMA

175,

yt = A, yt_1 B

pode-se escrever

' I

-A.

-A

-A IP*- i

p+1

I

Bi

B2

*

B

I

Bi

B

-q+i

'n

B B . . .Bq q-i i

B

B -

•-q+i

-q+2

A AP

* .A

• • • /\.

' A

y_P+2 (7)

A princípio se supõe p = q, se p ¥=> q faz-se as matrizes

A.., ou B.. que faltarem zero,

Se escreve (7) como

176.

-C. DAA A

y^ fb o

CB DB

V

(8)

onde yj = Cy2, . . . , y ) e y2 = Cy , ...y),eva soma dos

dois últimos termos de (7).

Hillmer e Tiao C19 79) demonstraram que quando

n ê grande, apenas a linha inferior de (8) é relevante, ou se_

ja, despreza-se F. e FR e recai-se no problema (2).

Apôs as devidas mudanças, chega-se a

LCA,R,E|y)

Cn-p)

expC- T w2 DR En_. w2

(9)

onde w2 = DA y2 - CA yx