tese de mestrado apresentada À epge
TRANSCRIPT
ESCOLA DE PÓS-GRADUAÇÃO EM ECONOMIA
DA FUNDAÇÃO GETULIO VARGAS
PRAIA DE BOTAFOGO, 190/10.0 ANDAR
RIO DE JANEIRO - BRASIL - CEP 22.250
CIRCULAR N9 50
Assunto; Apresentação e defesa pública
de Dissertação de Mestrado em
Economia.
Comunicamos formalmente â Congregação da Escola que
está marcada para o dia 16 de setembro de 1987 (4a. feira) ãs 15:00h,
no Auditório Eugênio Gudin (109 andar), a apresentação e defesa pú
blica da Dissertação de Mestrado, intitulada: "TÓPICOS CLÁSSICOS DE
ECONOMETRIA", do candidato ao título de Mestre em Economia, ALEXAN
DRE PORCIÚNCULA GOMES PEREIRA.
Anexamos uma súmula dessa Dissertação de Mestrado pa
ra seu prévio estudo, recentemente,através da Circular n? 49.
A Banca Examinadora "ad hoc" designada pela Escola se
rã composta pelos doutores: Antônio Carlos Porto Gonçalves, Sérgio
Ribeiro da Costa Werlang e Carlos Ivan Simonsen Leal (Presidente).
Com esta convocação oficial da Congregação de Profes
sores da Escola, estão ainda convidados a participarem desse ato
acadêmico os alunos da EPGE, interessados da FGV e de outras insti
tuições.
Rio de Janeiro, 04 de setembro de 1987
írio Henri monsen.
Diretor da EPGE.
A-4 Formato Internacional
210x297mm
ESCOLA DE PÓS-GRADUAÇÃO EM ECONOMIA
DA FUNDAÇÃO GETULIO VARGAS
PRAIA DE BOTAFOGO, 190/10.° ANDAR
RIO DE JANEIRO - BRASIL - CEP 22.250
LAUDO SOBRE DISSERTAÇÃO DE MESTRADO
Como membro da Banca Examinadora, designada pela
EPGE para julgar a Dissertação de Mestrado intitulada, "TÕPICOS
CLÁSSICOS DE ECONOMETRIA" do candidato ao título ALEXANDRE PORCI
ÚNCULA GOMES PEREIRA, apresento as seguintes ponderações que jus_
tificam meu parecer e voto:
1) 0 candidato apresenta uma tese de elevado rigor
e clareza, a qual contêm uma inovadora apresenta
ção da Teoria das Séries de Tempo.
2) Ele apresenta tópicos pouco divulgados na litera.
tura de econometria brasileira, como a estatísti_
ca de Portmanteau.
3) Ele fornece uma excelente digressão sobre os fun
damentos estatísticos da econometria, voltando
aos fundamentos da Teoria da Medida.
Assim e nestas condições, sou de parecer que a re
ferida Dissertação seja aprovada e outorgado o título pretendido
pelo candidato e autor deste trabalho.
Rio de Janeiro, 16 de setembro de 1987.
Sérgio Ribeiro da Costa Werlang,
Professor da EPGE .
A-4 Formato Internacional
210x297mm
ESCOLA DE PÓS-GRADUAÇÃO EM ECONOMIA
DA FUNDAÇÃO GETULIO VARGAS
PRAIA DE BOTAFOGO, 190/10.° ANDAR
RIO DE JANEIRO - BRASIL - CEP 22.250
LAUDO SOBRE DISSERTAÇÃO DE MESTRADO
Como membro da Banca examinadora, designada pela
EPGE para julgar a Dissertação de Mestrado,intitulada "TÕPI-
COS CLÁSSICOS DE ECONOMETRIA", do aluno ALEXANDRE PORCIÜNCU-
LA GOMES PEREIRA, julgo que a referida Dissertação seja apro
vada e outorgado o título pretendido pelo candidato e autor
do trabalho, visto que demonstrou bom conhecimento no campo
de estudo de sua Dissertação, o que se traduziu num trabalho
claro e rigoroso.
Rio de Janeiro, 16 de setembro de 19 87
JTONIO CARLOS PORTO ÇÒNÇALVES,
Professor da E
A-4 Formato Internacional
210x297xnni
ESCOLA DE PÓS-GRADUAÇÃO EM ECONOMIA
DA FUNDAÇÃO GETULIO VARGAS
PRAIA DE BOTAFOGO, 190/10.° ANDAR
RIO DE JANEIRO - BRASIL - CEP 22.250
LAUDO SOBRE DISSERTAÇÃO DE MESTRADO
Como membro da Banca Examinadora, designada pela
EPGE para julgar a Dissertação de Mestrado intitulada, "TÓPICOS
CLÁSSICOS DE ECONOMETRIA" do candidato ao titulo ALEXANDRE PORCI^
ONCULA GOMES PEREIRA, apresento as seguintes ponderações que jus_
tificam meu parecer e voto:
1) 0 candidato possui ótimo conhecimento no campo
da sua dissertação, fazendo nesta um apanhado
geral das idéias fundamentais e avançadas da E-
conometria, bem como uma excelente apresentação
da Teoria das Séries de Tempo.
2) Sua tese apresenta tópicos pouco divulgados na
língua portuguesa como, por exemplo, a introdu
ção que faz a Teoria das Séries de Tempo.
3) A sua tese apresenta elevado rigor e clareza
de apresentação. Ê fundamental a sedimentação
que faz usando a Teoria da Probabilidade ã Ia
Kolmogorov.
Assim e nestas condições, sou de parecer que a re
ferida Dissertação seja aprovada e outorgado o titulo pretendido
pelo candidato e autor deste trabalho.
Rio de «Iánéiffa,/7>i6 de
an S
Professor da EPGE e
Presidente da Banca.
210x
■ AGRADECIMENTOS
Agradeço ao Prof. Carlos Ivan Simonsen Leal
pela sua orientação, dedicação, paciência e estímulo, sem o
que, muito provavelmente, esta tese de mestrado não se teria
concretizado.
Agradeço aos Profs. Sérgio Ribeiro da Costa
Werlang e Antônio Carlos Porto Gonçalves a leitura da versão
final do texto e sugestões.
Agradeço â Maria Zilma de Queiroz Barros pela
presteza, eficiência e paciência com que datilografou o texto
e deu o lay-out.
Agradeço o apoio recebido de meus familiares,
que me estimularam nos momentos mais difíceis.
Agradeço â direção da EPGE e todos que traba-
lh"am para que nossa escola seja melhor a cada dia.
11.
ÍNDICE
CAPÍTULO 1; PROBABILIDADE 1
1.1- Introdução 1
1.2 - Medidas Positivas e Espaços Mensuráveis 2
1.3 - Variáveis Aleatórias 11
1.4 - Seqüência de Variáveis Aleatórias e Definiçõesde Convergência 15
1.5 - Lei Fraca de Tchebyschev e Teorema Central do
Limite 18
- Apêndice 2 3
CAPÍTULO 2: ESTATÍSTICA PARAMÉTRICA 24
2.1- Introdução 2 4
2.2 - Conceitos Básicos 26
2.3- Teoria de Rao-Cramer 32
2.4 - Método da Máxima Verossimilhança 43
2.5 - Teste de Hipótese Estatística 61
CAPÍTULO 3: TÓPICOS DE REGRESSÃO LINEAR 76
3.1 - Introdução 76
3.2 - Regressão Linear Simples 79
3.3- Previsão 104
3.4 - Mínimos Quadrados Generalizados 10 8
3.5 - Analise dos Resíduos de uma Regressão 118
3.6- Multicolinearidade 122
3.7 - Erro nas Observações e Variáveis Instrumentais 12 5
3.8 - Coeficientes de Correlação-Parcial 12 8
- Apêndice 134
1X1.
CAPÍTULO 4: REGRESSÕES NÃO-LINEARES E SÉRIES DE TEMPO ... 13 9
4.1 - Introdução 13 9
4.2- NHo-Linearidade 140
4.3 - Series Temporais 153
REFERÊNCIAS BIBLIOGRÁFICAS 17 7
IV.
INTRODUÇÃO
Este trabalho tem como objetivo discutir os
Tópicos Clássicos de Econometria, mas dando também ênfase aos
conceitos de Probabilidade, Estatística e Álgebra Linear.
Os pontos abordados seguem a ordem tradicional.
0 Capítulo 1 ê destinado a exposição dos con
ceitos de Probabilidade e Teoria da Medida. Estes conceitos
são importantes para a compreensão dos Conceitos de Estatísti
ca.
0 Capítulo 2 segue introduzindo os Conceitos
de Estatística e testes de hipóteses.
0 Capítulo 3 apresenta regressões lineares e
os testes de hipóteses usuais.
0 Capítulo 4 aborda regressões não-lineares e
séries temporais.
1.
CAPÍTULO 1
PROBABILIDADE
1,1 - Introdução
Neste item se define formalmente o que vem a
ser uma medida de probabilidade P sobre um conjunto W. A
partir desta definição e da definição de variável aleatória,
também dada abaixo, enunciam-se os principais conceitos de
convergência num espaço dei probabilidade: convergência quase
certa, convergência em probabilidade e convergência em distri
buição.
A Lei dos Grandes Números de Tchebyschev e pro_
vada e enuncia-se, sem fornecer prova, o Teorema Central do
Limite de P. Levy.
2.
1-2 - Medidas Positivas e Espaços Mensuráveis
1.2.1 - Definição
Uma. coleção M de subconjuntos de W é chama
°" álgebra de W se possui as seguintes propriedades:
a) W 6 M
b) Se m 6 M, então m° 6 M
c) Se m ê a reunião de uma família enumerãvel
de elementos de M, então m pertence a M
Os m- são chamados conjuntos mensuráveis e W
e um espaço mensurável.
1.2.2 - Definição
Dado um espaço mensurável (W, M) dizemos que a
função P:M -»■ [ü, °°J ê uma medida positiva a-aditiva se:
NOTA: c
m ê o conjunto complementar de m, ou seja
mc
a) existe m 6 M tal que PCm) < a
b) PCU m.) = Z P(m.) onde
todos os nu são mensuráveis e disjuntos.
1.2.3 - Exemplos
Ex. 1: P: CÍN) -»• [0 ,
6 1PCn) =
tt2 n2
Ex. 2: Medida de Lebesgue Cem IR )
Sejam a, b 6 lK tais que a < b:
Escrevemos Ca,b) = {x 6 IR : a < x < b};
a medida de Lebesgue de Ca,b) é o número ÀCa,b) = b - a. Se
ja M a menor CT- álgebra que contem todos os intervalos Ca,b).
A medida de Lebesgue de um conjunto A ê o número
n n
UA.) = inf{E Cb. - a.): U Ca.,b.) 0 A}
É possível provar que
XCA) = supíXCK): K C A e K ê compacto}.
N0TA:Se V m 6 M ? PCm) <; » então, P é chamada uma medida fini-ta.
oo 2
Z -4- = V CKreider)n=i n 6
4.
1.2.4 - Lema
Se P e uma. medida positiva o - aditiva A C B
são conjuntos mensuráveis, então P(A) < P(B).
Demonstração
■/
B = A UCB\A) =>PCB) = PCA) + PCB \A) =>
PCB.) > PCA) pois PCB \A) > 0
Temos também que se
A C B=>PCB\A) = PCB) - PCA).
1,2.5 - Teorema
Seja uma medida positiva P, então
a) PC0) = 0
b) se mi G m2... onde cada m. é mensurável, en
tao:
lim PCm.) -*■ PCU m. )
1 1
c) se mx o m2••• onde cada m. é mensurável e
PCmi ). <, °° então
5.
lim PCm.) -> PCÍ1 m.)X X
d) Se os m- são mensuráveis, então
PCÜ m.) - Z PCm.)±= X i=i X
Demonstração
a) Seja m tal que PCm) < °°.
m fl 0 = 0=>PCm.) = PCmU0) = PCm) + PC0)
donde PC0) = 0.
b) Se Bx = mi e B, • = m, n m se k > 2.
K K k-i
Então m, = U B. ê a união disjunta dos
k
Então PCm, ) = E PCB. )PCm,) = E PCB.]
k i=i 1
Logo:
lim PCmk) = E PCBi) = PCU B±) = PCU m.)
c) Ponha B, = mi\m.
EntHo 0 = Bj C B2 C ...
Pov Cb) lim PCB.) •> ;PCU B.)l->oa 1-1
6.
?
PCB ) = P(m;1) - PCm, )K K
Por outro lado,
U EU = U (mj.flm?) = mjíl (U mV)
oo oo
= mjnCO m.) = mj^Cn. m.)
oo oo
Então PCU B.) = PCmj) - PCíl m.)
Logo,
lim PCB.) ■* PCU B. )
implica, que:
lim PCmj) - ECnu) -> PCmx) - PCn mj.)
ou seja:
lim PCm.) -> PCn m.)Í->oo i = 1
d) Note-se que PCA U B) < PCA) + PCB)
De fato:
CA U B) = CA n Bc) U CA° n B) U (A íl B)
como os conjuntos do lado direito são disjuntos:
PCA U B) = PCA íl BC)+ PCAC fl B) + PCA fl B) <
pca n bc) + pca n b) + pca- n b) + pca n b)
= PCA) + PCB)
Podemos concluir que
n n
PCU m.) < E P(m.)•. _ 1 ~ «_ i1-1 1-1
Ora,
k k
Z PCm.) = lim Z PCm.) > lim PCU m.) = PCU m.)T -• 1"~t «1 *_-L
i=i k^-00 1=1 i-i
Ra,sta tomar B,. = U m. , como B 3 B , aplicar (b)K • _ 1 K+ 1 X
1,2.6 - Integral de Funções Mensuráveis
1,2.6.1 - Definigao
Seja E um subconjunto qualquer de um espaço
mensurável CW, M).
Seja a função: Xv : W "*" íR
0 se x & E
1 se x 6 E
XE ê chamada função característica,
Seja s: W ->
n
s = £ «;L
i=i X Ai
onde os A. são subconjuntos enumeraveis e disjuntos de W. Cha1 ~
ma-se s de função simples. Se os A. são mensuráveis, s e
uma função mensurável.
1.2.6.2 - Definição
Uma função real e mensurável se ela e o limite
pontual de funções simples mensuráveis. Decorre então que se
f é positiva e mensurável,existe uma seqüência ís }
n= *
tal que: a) 0 < Si < s2 • • • < f
b) s Cw) converge para f(w)
para todo w quando n •> °°,
1.2.6.3 - Definição
Dado um espaço CW, M) com uma medida positiva
\i, define-se a integral de uma função simples mensurável como
sendo:
n
s d\x - Z a. ia CA.)
x 1
9.
1.2.6.4 - Definição
Se f; W "*" [_Q, °°J ê uma função mensurável, a
integral de f e definida como sendo:
f dy = supí a dy; s é simples e 0 < s 5 f^
1.2.6.5 - Definição
Se f: W "*" L-°°5 °°0 é uma função mensurável qua]L
quer, então a integral de f é definida como:
f dy = í f+ dy - í f" dy
-L «a
onde f = max Cf,0); f = max C-f, 0), são funções mensuráveis
Diz-se que f é integrãvel quando ambos os ter
mos â direita da igualdade forem finitos.
1.2.7 - Teorema da Convergência Monótona
Seja, O&p M, P) um espaço mensurável com medida
P, e fR:W -*-[0> °°J uma seqüência de funções mensuráveis tais
10,
que:
a) f (w) < f (w) para todo w 6 W
b) existe fCw) = lim f (w) para todo w 6 W
Então lim f f dP ->■ f f dPri
1.2.8 - Teorema da Convergência Dominada
Seja f : W •> £-°°, °°3 uma seqüência de funções
mensuráveis tais que para todo w 6 W exista f(w) = lim fn(w).
Se existir g: W ■*■ £0, °°] mensurável tal que
g dP < oo e j fn | < g então:
a) [jf|dP < oo
b) lim [ fn dP = | f dP
c) lim í|fn - f|dP = 0n->oo j
11.
1.3 - Variáveis Aleatórias
1.3.1 - Definição
Da,do um, espaço mensurável com uma medida posi
tiva CW, M, P) , diz-se que a medida P ê uma probabilidade se
PCW) = 1. Diz-se, então, que (W, M, P) ê um espaço de proba
bilidade e os m. 6 H são chamados eventos.
1.3.2 - Definição
Uma variável aleatória real (v.a.r.) ê uma furi
çao mensurável real num espaço de probabilidade.
1.3.3 - Definição
Dada uma v.a.r. X o seu valor esperado ê defi
nido como: EX = X dP
NOTA:
Esta definição de v.a.r. pode parecer redundante, mas ê
usual na literatura corrente.
12.
1.3.4 - Exemplo
Ê possível que P seja uma probabilidade e que
a v. a. r. não tenha EX < °° .
Seja W = IN e suponha que P(X = n) =6 1
2 2 'n2
que ê uma probabilidade, já que:
PC IN) = E — JL. = l• 2 91 = 1 "n n*
Contudo:
EX = XdP = ndP = E
i=i n2 u2 tt2 i=i n
0 seguinte teorema ilustra um ponto importante
sobre as variáveis aleatórias de valor esperado finito.
1.3.5 - Teorema
Seja X uma v.a.r., temos:
Z PC |X | > n) <' E i X | < 1 + E PC [X 1 > n)n=i n=i
se E|X| < »
Se EJX| = », então:
13.
oo
l PC|X| > n) =n=i
Demonstração
Ponha AR = {n < | X| < n + 1} para n = 0, 1, 2 ... e
g = { xA + • • • + XA > * i X i. A seqüência g -»■ | X |n Aa An n
e obedece âs condições do Teorema da Convergência Monoto_
na, logo:
| gn dP ^ | | X| dP
Por outro lado,
[gndP = E } |X|XA. dPJ X=QJ X
donde vem que:
E|X| = £ f |x|Xa dPJ Ai
Trivialmente temos que:
nPCA) ^ [ |x|Xa dP < (n + 1) P(A)n F ■ /\ ii
o que acarreta que:
nPCA ) < ElXl < 1 + Ê nPCA ) (*)n i i _ n
n-i
Suponha, que E | X | <
14.
Temos que:
k k
E nPCAn) = Z n(P(|x| > n) - P(|x| > n + D) =n=i n=i
k
E PC|X| > n) - k PC|x| > k + 1)
Ora,
{ |X|X C|X| > k + l)aF
O lado direito da desigualdade tende a zero,jã
que pelo Teorema da Convergência Monótona, temos que
E|X| = lim (|X| xMy, ■ . + n.dP
Então ■£ nPCAR) = E P(|x| > n)n=i n=i
oo
Finalmente, se E |'X | = °°, então l nP(A ) = °° de (*)n= i
k -kComo £ nP(An) ;< i P(|X| > n) segue que
n=j " n=i
E PC |X | > n) = «o.
n=i
1.3.6 - Corolário
Se X > 0 e EX = 0, então P(X = 0) = 1.
15,
Demonstração
Se X > 0 e EX = 0
Então X = |X|.
Tomo r > 0.
Segue que rX > 0 e ErX = rEX = 0
oo
Pelo Teorema anterior £ P(rX > n) > 0.
Como PCrX > n) > 0 para n > 1 temos que
PCrX > 1) = 0.
Isto ê o mesmo que dizer que
PCrX = 0) = 1 CPois P(W) = 1)
Como por hipótese r > 0, então X = 0
Logo, PCX = 0) = 1.
1.4 - Seqüência de Variáveis Aleatórias e
Definições de Convergência
1.4.1 - Definição
Seja CW, M, P) um espaço de probabilidade;
X : W -> 0? u^a seqüência de v.a.r., e X: W -> fl? uma v.a.r.
16
Diz-se que:
a) X converge quase certamente para X
se Xn(w) -*■ XCw) para todo w 6 (W N) , on
de PCN) =0. CX 9^Ç> x)n
b) X converge em probabilidade para X
se lim PCJX - Xj > e) = 0 paran
qualquer e>0. CX —í—> X) .
Demonstra-se que convergência quase certa im
plica em convergência em probabilidade. Abrevia-se convergên
cia de probabilidade como plim P(|X - X| > e) = 0.
1.4.2 - Definição
Seja X uma v.a.r., a função F^: fR -> [0>ll
definida por FyCx) = P(X < x) ê chamada função de distribui,
ção.
Demonstra-se que:
a) 0 à Fv(x) ^ 1 para todoA
b) x <■ y -> FYCx) £ FY(y)
c)x <i xex ^ x =>lim sup Fv(x )< Fv(x)
d) xn > xn + t e xn -> x=>Fx(xn) - Fx(x)
Ccontinuidade pela direita)
e) lim Fx(x) = 0 e lim Fy(x) = 1x>°°
1.4.3 - Definição
Dada uma seqüência de v.a.r. X , diz-se que
Xn converge em distribuição para X se F (x) -> Fx(x) em todo
n
ponto X no qual Fv ê contínua escreve-se (X ——>X).
A chave para compreender-se convergência em
distribuição ê o seguinte resultado.
DDemonstra-se que X^ > X se, e somente se,pa
ra toda função f: [R -*- IR contínua e limitada
E fCXn) -> E f(X).
NOTA:
No Capítulo 3 apresentam-se exemplos de convergência em
distribuição.
18
1.4.4 - Teorema (Slutsky)
Se Xn > X e Zn P > c (constante)
então:
a) X_ + Z_ —^—> X + c
ZnXn —> cX
1.5 - Lei Fraca de Tchebyschev e Teorema Central do Limite
1.5.1 - Definição
Uma família de v.a.r. F ê formada de v.a.r,
independentes se
pcx. e a. •, v i e i) = tt pcx. e a.)
i e i 1
pa.:ra tqdo I finito e quaisquer A. mensuráveis, onde X. 6 F.
i.õ.2 - Lei Fraca dos Grandes Números de Tchebyschev
Seja X uma seqüência de v.a.r. independentes
19
entre si tais que EX = O e E(X )2 = K < °° para todo n.
Então: -^— CXX + X2 + . . . X ) —-—> 0n n
Demonstração
Usando a desigualdade de Tchebyschev
PC|X - EX| > e) < ~~ var Xe
Fazendo S = Xx + X2 + ... + X
tem-se que ES = nEX, = 0^ n *
var S = nK
Então
S
> e) = P(|Snl > ne))| ) P(|Snl
5
- ~- var S = -^- K => — —> o* n 2
0 Teorema que enunciamos a seguir é um dos re
sultados mais notáveis da Teoria da Probabilidade. Ele garan
te que quando temos amostras grandes, podemos considerar a
distribuição como sendo normal. Define-se uma distribuição
normal no Apêndice.
20.
1.5.3 - Teorema Central do Limite de P. Levy
Seja, X uma v.a.r tal que EX = 0 e EX2 =1.
Sejam X , X , ..., X independentes e Ídenticamente distribui
das como X. (Ver caso geral no Apêndice)
Então
í
C—) 2 (X + X + . . . + X ) -^—> N [0 , l]n i 2 n
Corolário:
Seja X uma seqüência v.a.r. independente e
Ídenticajr.ente distribuída tal que EX =0, EXn2 < °° então:
n
Z X.
■■1 = 1 3 Da) —J—i :— > Normaln j
CE X.2 )T
/n 2 X.
b) í^i -^—> Normaln
21,
Demonstração
a) Seja EX2 = o'
y
Então Y = _JL_=>e y = 0 Ecr
n n j n
E X. E Y. C-^-)7 E Y
n i n i -, n
Z CX.)2)T CS Y.2)"2" ^L_ E
D 3 n
Pelo Teorema Central do Limite
-i nE Y.) E Y
n j=1 D
Pela Lei Forte dos Grandes Números
n j
Pois, se os X. são independentes, os Y. também
~ P «•o sao, e se Y > c, dada uma f continua, demonstra-se que
P ~ «•fCY ) -> fCe). Ora, a função raiz ê contínua e usando o
Teorema 1.4.4 temos:
n
E X
3CE. X.2)Í"j = i
/PT
E
n
= i
X
X.
2
O
n
Z
n
E Y.
• n JJ
Y.2
i ^ 1
a
22,
n
Pelos mesmos argumentos anteriores.(Demonstra-
se que combinação linear de V.A. normais ê uma V.A. normal).
23,
APÊNDICE
Seja X um vetor aleatório p-dimensional tal que
EX = y
EXX1 = X
Então
f.d.p.CX|y,E) = 2 exp[ |-(X - y)' - y)]
Diz que X e uma V.A. N (y, E)
Teòrema:
Seja
v = CXx , X2 , ...» X ) onde X. são v.a.r. independentes e
n ' n n 1
A = cov vn
n n
cov(Xx ,X2 ) ... covíX, ,X ]
n n n n
covCXj ,X
n rncov(X ,X
n n
onde A independe de n
E vn = 0
Entãon
1 v.
n> Nr(0, A)
24.
CAPÍTULO 2
ESTATÍSTICA PARAMÉTRICA
2.1 - Introdução
Muitos estudos, experimentos científicos e in
dustriais produzem dados cuja analise e compreensão são de in
teresse dos pesquisadores. Em geral, esses dados podem se:?
modelados como o resultado de um experimento aleatório, ao
qual se tenta atribuir uma distribuição de probabilidades ade
quada.
Âs vezes, sabe-se qual a família de distribui
ções que ê a mais adequada â modelagem, mas não se pode deter
minar os parâmetros da distribuição.
Exemplo:
Tome um processo industrial que produza lotes
de N peças, das quais N.6 são defeituosas.(8 desconhecido).
Deseja-se tomar uma amostra de tamanho n pa
ra inspecionar o lote. Então, se X ê o número de peças de-
25.
feituosas na amostra, tem-se:
( N9 . . N - N9 ,
pfi [x = k] = k n - k
(N)n
onde, max (n - N(l - 9), 0) < k < min (N9, n)
Assim, pode-se determinar, no experimento aci
ma, a família de distribuições que modela o experimento (hi-
pergeomêtrica, no caso).
Porem, o parâmetro 9 é desconhecido.
A pergunta ê como determinar 6?
A resposta ê: Formula-se uma hipótese sobre o
verdadeiro valor de 9, e a validade desta hipótese ê testada
por um Teste de Hipótese. Neste Teste de Hipótese aceita-se
ou rejeita-se o valor atribuído a 9.
Na seção 2.2 introduzérn-se diversos conceitos
de Estatística e o Teorema da Fatorização. Em 2.3 abordam-se
as desigualdades de Rao-Cramer e de Bhattacharya.Na seção 2.4
se apresentam os Estimadores de Máxima Verossimilhança, com
suas propriedades de Consistência e Normalidade Assintotica.
Por ultimo, na seção 2.5 têm-se os Testes de Hipótese, Erros
dos tipos I e II, Poder de um Teste e enuncia-se o fundamen-
26
tal Lema de Neyman-Pearson.
2.2 -.Conceitos Básicos
2.2.1 - Estrutura Estatística
Seja T uma família de medidas de probabilida
de num espaço mensurável (X,<X ).
Na linguagem de probabilidade (X,tX ) ê o con
junto de possíveis eventos, denominado espaço amostrai, e
CX,t/€,i ) e chamada uma estrutura estatística.
Se T for um conjunto unitário, a estrutura es
tatística ê um espaço de probabilidade.
Em geral, T = {PQ ; 8 60}, onde
Cp -0 e o espaço dos parâmetros; í.e., T e parame
trizada.
-01!£92 -»■ Pg ^Pfi diz-se que a pa-
rametrização e identificável.
Caso contrário, diz-se que ê não identificável
- Diz-se que a estrutura estatística (X,tX,T )
27.
e dominada por uma medida a - finita V em (X,t/() se para tp_
das as medidas PQ S <P existir uma função L (xj 9) de x 6 X,
tal que:
Pfl CA) = L(x|0)y(dx) V AeU0 } A
onde a função L Cx|Q): X x 0 -> [O,00)
é chamada função de verossimilhança (F.V.). Se Pa satisfaz■*— t>
âs condições acima, diz-se que PQ ê absolutamente contínua como
respeito a \\ .
Obs. : jj não precisa ser uma probabilidade.
2.2.2 - Estatística
Seja a estrutura estatística (X,tX,T ). Então,
uma função T: (X,uí) -*■ (jR , B ), onde 3 é a a - álgebra de Bo-
rel de IR , é uma estatística. CV. NOTA)
Ou seja, para qualquer Pfi G*P a estatística T
e uma V.A. do espaço de probabilidade (X,tA, Pfl^*
- Sejam duas estatísticas T i : X -*■ Y e
T2 : X -»■ Y
NOTA; A cr-ãlgebra de Borel em ÍR é gerado pelos conjuntos
abertos.
são
Ti e T2 são chamadas equivalentes se o evento
A = {x : Ti (x) ¥= T2 (x)}ei for tal que
PQ CA) =0 V 6 6 0
0 evento A é chamado t - desprezível.
- Duas estatísticas Ti , T2 em (X,tÁ ,*P )
chamadas independentes se V pQ G T as V.A. Ti, T2 são inde
pendentes considerando o espaço de probabilidade (X,c4,PQ).
- A estatística T em (X,tA,T ) ê chamada inte-
grável se V P§ G ? a V.A. T ê considerada em (X,t4 ,PQ) for
•uma função integrãvel.
0 valor esperado de T associado a PQ ê repre
sentado por Eq T(.x).
2.2.3 - Estatística Suficiente
Uma estatística T: X ■+ Y e chamada suficiente
se para um dado valor da estatística T, a distribuição das
observações x independe de 6.
Ou seja, para qualquer A 6 1/1 , temos que:
P0 {x G A|TCx)}
29.
independe de 0, i.e., o montante de informação sobre o verda
deiro valor de 0 em x é o mesmo disponível em T(x).
2.2.4 - Teorema da Fatorização - Como achar
uma estatística suficiente.
Seja L uma F.V. A estatística T: X -»- Y é
suficiente se, e somente se, existe uma função h - mensu
ravel, estritamente positiva em X e uma função gQ 3-mensu-
rãvels estritamente positiva em Y, tal que:
L(x|0) = g CT(x)) « hCx)
Demonstração: Para o caso em que X ê finito ou
enuméravel.
C =>) Se T ê uma estatística suficiente, x 6 X
e T(.x) = t. Então, pela definição de Radon-Nikodyn
dp
L(x I 8 ) = —i
dy
mas como X e enuméravel
dP,
= x)
d» ^ - x
30,
Então,
L(x 6)
à\x
= P (£ = *)D
Ç = x
= Pe CÇ = x;TCÇ) = t) =
= Pç ÍTCÇ) = t} • PQ {Ç = x|T(Ç) = t} =
= gQ {TCx)} • h(.x)
Ja que T(.x) é suficiente, vem que h(x) independe de
(.<= ) Seja agora L(x|6) = gQ (T(x)) • h(x)
Se T (x) = t e PQ'{T(Ç) = t} > 0, obtem-se:
PQ (Ç = x, TU) = t)Pfl CÇ = x|T(.Ç) = t) =
6
PQ(T(Ç) = t)
= x) PQ (Ç = x)
P CTCÇ) = t) E Pfi (Ç= y)
y y:T(y) = t ü
(t) . h (x) h(x)
E gfl(t)h(y) S , h(y)
y:T(y) = t y 6 T" (t)
E esta ultima expressão independe de 6 .
No caso geral, a prova dependera do Teorema de
Radon—Nikodw
31.
2.2.5 - Estatística Completa
Uma estatística T ê chamada completa se para
qualquer função f: [R ■* (Jv mensurável limitada valer que:
EQ f(TCx)) = 0; V 6 -> f(T(x)) = 0 q.t.p.
Conseqüentemente:
Pfi ífCTC.x))= 0} = lj V 6
2.2.6 - Estatística Livre
Um conjunto A 6 J[ e chamado livre (com respei
to a uma família 9={pQ:ee©} de medidas de probabilida
de em CX,tX )) se PQ(A) não depende de 9 G 0.
A estatística T : (X, iA ) -*■ (Y,3) é chamada li
vre se a distribuição desta estatística não depende de 6 6 0.
Isto e, íx:T(x) 6 B} e um conjunto livre para todo B 6 3.
NOTA:
{f(.T(.x)) = 0; q.t.p} = PQ{f(T(x)) é 0) = 0;V6>
q.t.p = quase toda parte, isto ê, exceto num conjunto de
medidas nulas, da família de medidas.
32.
2.3 - Teoria de Rao-Cramer
2.3.1 - Estimadores não-viesados de mínima variância
Seja CX, i/C ,r ) uma estrutura estatística e
uma função de 0 no (R .
A estatística t com valores no [ft e um es
timador não-viesado CENV) de t se:
EQ tCx) = xC9) V 9 G 0
supondo que x tenha distribuição Pg.
Seja A. a família de todos os ENV de t , t é
cha,mado (^stimador não-viesado de mínima variância (ENVMV) se:
var0 t $ var@ tl;V0e0,t'eA.
2.3.2 - Teorema (Unicidade do ENVMV)
Sejam tx e t2 dois ENV da função t com va
riância mínima.
Então tjCx) = t2(x) qtp
ou seja:
33,
Pe {t x(x) = t2(x)} = 1; V 6 € 0
Demonstração:
Para todo 0 6 0, faça t3 = -~~(.t 1 + t2),
v = varQti = varQt2
Ora, t3 e não viesado, logo v ^ var t3.
Por outro lado:
FUNDAÇÃO GETÚLIO VARGAS
TÓPICOS CLÁSSICOS DE ECONOMETRIA
DISSERTAÇÃO SUBMETIDA Â CONGREGAÇÃO DA
ESCOLA DE P(5S-GRADUAÇÃO EM ECONOMIA (EPGE)
DO INSTITUTO BRASILEIRO DE ECONOMIA
PARA OETENÇAO DO GRAU DE
MESTRE EM ECONOMIA
34.
com respeito a uma certa medida y em (X,tX ).
Considere também um estimador não viesado t da
função t .
Suponha que L, t e. t satisfazem âs condições
de regularidade:
1) { x: L(x|0 ) > 0} V x, v 6
2) L(x|9 ) é diferenciavel com respeito ao e:
j t(x) L(x|6) y(dx) = | t(x) ^- L(x|9):y(dx)d
d9
X X
3) t é diferenciavel.
Teorema: Satisfeitas as condições acima, se t
e um ENV de t com segundo momento finito, então:
lnL>
a igualdade se verificando, se e somente se,
■^j- In L = A (9) [t(x) - T(0)] y q.c
para uma certa fundão A (9).
NOTA:
q.c = quase certamente se, exceto no conjunto onde a me
dida y é nula.
35,
Demonstração
dPfir r(D I L(x|e) y(dx) =
X
(2) í t(x) L(x|e) p(dx) = EQ t(x) = x(9) V9
X
Derivando (1) e (2) em relação a 6 temos,
Í3_Ldvl=í_l___9:LLdíJ ae J l ae J
a In L
XX X
X X
Então,
T ' - í tfv^ 9ln L ,fll í 9 In L . .x - ttx; - ■ ■ ■ ■ L dy - x v.8 ; ——— L dy
J 96 J 99
X X .
x1 = { [t(x) -t(6)] *j!l± L dyX
Aplicando a desigualdade de Cauchy-Schwarz pa
ra integrais â última integral e representando L = /TT *■ ^~L.
[t'(0)]2 < í [t(x) -t(9)J2 Ldp . í (ilTLii) l dy
X ' X
(O)]2 < var t . E ( AiHo 8 ae
A igualdade se verifica quando as funções
36.
In L( x I 8) r. t \ ,Ovi' e |t(x) - t(6)J
3 9 U -+
forem paralelas no espaço vetorial das funções de x, ou seja
8'3 6 L(X|9) = A(8) jt(x) - t(6)1
para um certo valor de A(e).
Finalmente:
varn t
2
e 2
0 39 °
0 lado direito da desigualdade e o limite in.fe
rior para a variância do ENV.
0 estimador que atinge este limite é chamado
estimador eficiente £EE) .
2.3.4 - Corolário
Para que o ENV da função t seja EE, é necessá
rio e suficiente que
L = A(8) [t(x) - T(0)l30
37.
Demonstração
A primeira afirmação decorre da definição de
EE e da desigualdade de Cauchy-Schwarz.
A segunda decorre da igualdade ja demonstrada:
t' = f [t(x) - t(8)]AIELÍí L ÚM = f A(8)[t(x) - t(6)]2 L á]i =J 8 9 J
X X
= A(8) . varQ t
2.3.5 - Exemplos
Seja x = (xl, x2, ..., x ) e as observações
x1? x2, ..., x independentes cada uma com distribuição
N [8,a 2 i c°m variancia a conhecida. A função densidade de
cada observação e da forma:
(v ~9) 24 p 2
Neste caso,faça:
L(x|6) = tf f(xj6) = a-n(?TT)2 exp{ — Z (xv -8) }— , n
2, n
j p— Z (x 8)2
-5- In L = —- (x - 6) onde x = -4- ? x,38 o2 n k=i k
38.
Esta igualdade é da forma
A(6) =
t(x) =
t(6) =
n
a2
X
e
d In
39
L= A( 6) [t(x)
Então x e o EE.
Fazendo o mesmo raciocínio para xl5 x2, ... x
com distribuição N [ y,8 j, y conhecido, chega-se a:
A(g) = -^r
n
t(x) = £ (xk - y)
k=i
= 62
0» O xx» ■-■
Assim se obtém um EE para 8 , mas nao ha um
EE para 6 propriamente dito.
É intuitivo que se t e um EE de t , então
at + b é um EE de ar + b se a, b 6
39.
2.3.6 - Desigualdade de BhattacharyaC Caso unidimensional)
Pode-se achar um maior limite inferior para a
variância do ENV, caso não exista o EE em 2 . 3 . 3 .
A condição para existência do EE é que
— In L = A(6) |t(x) - t(6)] .86
Caso isso não aconteça, e possível que exista
estimador onde [_t(x| - t(8) 2 seja uma combinação linear
das funções:
1
L
L
86
1
L
82
88
L.
2 ' "
1
L
8S L
8es
Para simplificar, chame:
f| T
86* 36K
Suponha validas as mesmas condições de regula
ridade impostas em 2.3.3, e também que a função L admita de_
rivadas ate a ordem s.
Tcorema: Seja t um ENV de t
Então:
s
var» t > E a, ,
40.
onde
e os coeficientes Ci = CAQ) são determinados pelo sis
tema :
Se a matriz A = {a..} for inversível e
A"1 = {a13}, então:
var t > f a^ ^ x^ (3)iji
A ultima expressão e chamada desigualdade de
Bhattacharya.
Tem-se"a igualdade se, e somente se:
t- - t(9) = ZS C. ^— (4)
para certos C. = C. (e).Jl JL
Demonstração:
A. Lema: Seja a, ai, ... a_ elementos de ums
certo espaço vetorial com norma e produto interno tal que
1/2a I = (a, a)
41,
Então
s
| a |2 > E (a., a.) C. C. (5)
13= 3 X 3
onde os C. satisfazem ao sistema:
E (a^, a.) C. = (a, a.) (6)
A igualdade em (5) ocorre se, e somente se
s
C , para certos Cj , . . . , C
De fato, seja V o espaço vetorial gerado por
s
a ,•••>«£. e, 3 = projv a = E C^ a.
1 i= i
a projeção de V neste espaço.
Entãoj
|a|2 > |B|2 =(ES C.a.5ES C. a.) = ES (a,a.) C.C.i=i 1 1 j=i D : i,j=i 3 X 3
que é (5).
Como (a - g) _J_u. V. , resulta (6) (que nada mais e que
a equação matricial de Gram).
E |a| = |6| se. e somente se a P. V o que implica (?)*
B. Para um valor fixo do parâmetro 8 considere
o espaço vetorial das V.A.R. com produto escalar
42.
(ç, n) = Efi (ç, n).
T 1
Ponha a = Ct - t (6 )) e a . = -=—
Então, por definição |a|2 = var tfl e
ECa , cx-j_) = t pois, pelas igualdades
que seguem,:
j LCx|Q) \x (dx) = 1 j t(x) L(x|6) y (dx) = x (6)X X
Derivando-se:
J L
X X
Ou seja;
. = 0
Donde Ca ,a.) = EA t a. - t(6) Eq a. = t110 1 Dl
C. Falta apenas provar que o lado direito de
Cl) e de (3) coincidem' quando A for invertível.
Escreva c = (c , c , . .., c ) e12 o
T = (T1, T2,..., TS).
Então (2) e o mesmo que Ac=x e(l) o mesmo
43
que varQ t > (Ac, c).
Mas
"1CAc, c) = (t, A"1 t) = (A"1!, t) = E
2.4 - Método da Máxima Verossimilhança
2.4.1 - Estimador de Máxima Verossimilhança
Um método útil para se conseguir estimadores
com boas propriedades e o da máxima verossimilhança.
0 = 0 (.x) ê chamado estimador de máxima verossi-
milhança (EMV) se:
LCx | 9) ^ L(x|6) v 6
Se 0 6 [Rs, e se para qualquer x 6 X a F.V.
L Cx | 0 ) for diferenciãvel com respeito a 0, atingindo o máximo
num ponto interior a 0, então o EMV 0 satisfaz:
903L ) - n nu' ~ U OU
90/ 90S 30~ = O
6 = 0
44.
Se o EE do parâmetro 8 existir, ele pode ser
obtido pelo método da máxima verossimilhança para s = 1 sem
pre.
Pois neste caso:
— = AC9) [t(x) - 9]39
No caso geral, quando a estrutura estatística
admite uma F.V. e o EMV for único para cada realização, então
o EMV 6(x) depende de x através de uma estatística suficiente
T(.x). Pois, pelo Teorema da Fatorização se existir F.V. e
T(.x) for suficiente, ter-se-ã:
L(x|9) = gQ (T(x)) . h(x)-
pela definição de EMV em:
■L(x|9) = g" (T(.x)) . h(x) > L(x|9)
e, como o máximo é único para cada x, conclui-se que 9 depende
de x através de T(x).(x fixo => T(x) fixo => 3 8 que maximiza).
Exemplos
1) Suponha que x = (x,x ,...,x)í 2 n
e que x^ x2, ..., xn sejam V.A. iid N()a,cr2).
45,
Então:
'L(xle) = ir —-— exp {- —= i cr
Sejam y e q os parâmetros desconhecidos
Cy,a) = cei, eo e fR x ÍR+ = o
L = 0 em toda fronteira de 0, logo o máximo ê
interior.
— In L = — S (x - y) = 02 Ç
3a
Os EMV são então:
k=i
L = Z_J2 + _L_ e (xv - y)2 = O
-> -, n
y = x = E x,
n k=i k
n
E (x, - x)
k=i
2) Suponha agora que x = (x , x ,... x ) e que
x , x , ... x são vetores V.A. com distribuição N (i.e.,í ' 2' n ■ r
normal multidimensional).
Então ■0 = (y, A):
Temos que:
H6,
r i
1 (2n)?|A|Íexp { - _I_ (A * (x,- y ) , x,- y )}
Í 2
— - - n
2 i= (2TT) |A| exp{--^-E (A * (x, - x) ,x, - x) +v ~i
- -4J- CA"1 Cx - y), x - y)}
O máximo de L(.x|6) depende deCA"1 (x - y), x - y), que de
pende de y. Como A Ce, portanto, A~ ) é positiva semi-
definida, o mínimo ocorre em:
n
n k=i k
n _ ,
Faça. A = —— £ (x - x) (x, - x)
n k=i k k
Levando em conta que (a,b) = tr ab' se a e b são veto
res coluna, tem-se que;
n -í - - nX CA Cx - x),x - x) = i tr(A J . (xv - x) . (x, - x)')k=i k=x k k
n
= trCA"1 X Cx - x)(.x, - x)') = n tr(A-1 A)k.= i k k
nr _ _n_
L Cx, y, A) = (2tt) 2 |A| 2 exp { ^- trCA"1 A)}
47,
Logo,
L(x|y , A) < L(x|y , A)
É necessário mostrar que:
...'LCxlu, A) < ,L(x|y ,A)
para toda A positiva semidefinida.
Tomando o logaritmo. na ultima desigualdade:
- -2- ln|A| - -ü- tr(A"x A) < -^- ln|Â| - -2- tr Ir2 2 2 2
qu seja
lnjA"1 A| - trCA"1 A) + r i 0
Como A e A são matrizes positivas semidefinidas, vale es
crever:
A = B2 j A = B2
onde B e B são matrizes simétricas.
Ponha C = CB"1 B) x (b"1 B) e esta também é matriz posi
tiva semidefinida.
Se f ê uma função numérica da matriz A da forma
fCA) = |A| ou f(A) = tr A
então, f(AB) = f(BA).
Então, se reescreve a ultima desigualdade como:
48.
In ICI - tr C + r < G
ou
r.
E Cln X:.. - X: + 1) £ 01
onde \. sao os auto-valores da matriz C, pois
i C | = X • X ... A tr C = X '■ + X + . . . + X' í 2 r 12 n
Como X^ f* 0 e In x £ x-1 x > 0, ; a desigualdade
se verifica e:
.. „ _ "£ n
= C2Tre)
2.4.2 - Estimadores Consistentes
Seja x , x ... uma seqüência de resultados de1 2
observações de um evento.
Chame t = t Cx , x , . . . ,x ) o estirnador don n i 2 n
parâmetro construído a partir das n primeiras observações x ,
A « • » • * yV
2 n
0 estimador t depende do numero de observações,
e é chamado de estimador consistente (E.C.) do parâmetro 6 se
a seqüência {t } convergir em probabilidade para 8. Isto é
lim P { jt - 6 | > e } -> 0• n ■*■ oo ° n
No caso geral, quando se estima a função t(6) a
condição ê análoga:
lim PQÍ jt - tC8)n -*- oo ° n
2.4.3 - Consistência do EMV
Suponha, para cada inteiro n > 1, a F.V.
LCx|6) = L Cx|9) tenha a forma:n
L Cx|9) = f(x |0) . f(x |6) ... f(x |n ' i ' 2 n
O que quer dizer que a V.A. x. são iid. com densidade f(yj9).
A família de distribuições Ffi das V.A.s x. para
0 G 0 ê. dominada por uma certa medida y e
fCy|9) = f Cy)
"Caso onde 0 seja um conjunto finito."
As seguintes hipóteses são necessárias:
Al: 0 conjunto Y = {y: f(y[0) > 0} não depende de 0.
Ou seja, fCyJQ) definida em Y x 0 so toma valores po-
50.
sitivos.
A2: 6! = 62 <==> f Cy J6a ) = f(y|62) q.c. com respei
to a medida \\.
f(xj |6o )A3: Existe EQ lrii = \|»(e|e0 ) = i|K0)
00 fCxJO)
onde 90 6 0 .
A4: Para cada inteiro n > 1, o EMV 6 ê único q.c,- n ^
Satisfeitas as condições anteriores:
Teorema
lim P {0 = 0O } -»- 1 onde 90 é o verdadeiron -> oo °o n .
valor de 0 .
Corolário
Se A.3 valer V 0O € 0 então
lim PD{9 = 6}o n
n -> «> -
isto ê, o EMV 0 ê consistenten
Demonstração:
A demonstração serã dividida em três partes
1, parte - Vamos verificar que
51.
i|»(6) -O VeSO e que
il> ce) = o <=> 6 = e0 .
Usando a desigualdade de Jensen com
gCx) = - lnCx) x 6 fR |
Faça
fCxje)
f(xi|eQ )
É obvio que
(e ). = e ín = o <=> e = e0 e
i |eQ )' f(x. |e) f(x,)} E { l()} l(E
|Q | , |« {inC -)} = EO { - ln( )} > - ln(EQ ) = 0v0 j e eC)«
v0 fCxje) eo fCxje, )
pois
= í iMLL. fCy|e0 ) U(dy) = 1J fCy|e0)Y
2. parte - Faça
■ n
(6 ) = -^L- X Inn
n fCx |60 )
NOTA:
Desigualdade de Jensen
Se Ç ê uma V.A.R e ip uma função convexa no fft então
ijJ ECÇ) < E
52
Como E Ç C9 ) = \\> (0 ) pela Lei dos Grandes Nume_
ros, jã que Ç ê uma variável aleatória e
lnCx) ê uma função contínua, tem-se que
Se 8 *=£-- 0O e, portanto, ip (0 ) > 0, então
V a !> Q
3 N ta,l que:
PA { 6: Ç (0) > 0> > 1 - a©o n
para n > N.
Como 0 ê finito, podemos dizer que isto vale
para todo 9 =f= 0o .
3. parte - Faça por comodidade P = Pfi e
AnQ =Í0: Çn(6) > 0)
Como 0 é finito, suponha |0| = m.
Ora, K (0 ) = -^- (L (x|8o) - L (x|0 ))n n n n ' n
Mas 9 maximiza L (x 0), entãon n
í (0 ) < 0.n n
Note que í (0 ) = 0 <=> 60 = 0^ n n n
53,
= p(çnce) < o) < pcç cê) < o)
< pc y í cê) < o) = pc u a Qc)n " e^e n6
< Z PCA AC) = Cm - Dae*e n6
Como a é arbitrário; PC8 =7^ 60 ) + 0
quando n
2.4,4 - Normalidade Assintotica dos EMV
Dão-se aqui as condições sob as quais o EMV 0
e assintoticamente normal.
Isto ê, a distribuição de V.A.
- 9) —> NCO, AQ)
Suponha novamente que para qualquer n > 1;
LCx|0) = L Cx|8) = fCx |6) • fCx |0) ... f(xn|6)
Façam-se as seguintes hipóteses:
Al: A função densidade f ê definida em Y x 0
e fCy|9) > 0 para todo Cy,0) 6 Y x 9
54.
A2: 0 é um conjunto convexo
A3: A F.V. atinge o máximo global num ponto interior.
A4: 0 é consistente; plim 6=6n » -f n o
A5: A função fCy|e) ê duas vezes diferenciavel no ponto
0 = 0Q dentro do sinal de integral, isto ê:
rf- í fCy|6) y(dy) = í -?-OD1 ) ) dü i
í fCy|8) ViCdy) = í 3l__f(y|6) vCdy)J J 90 36v 39 , i J 30 30
^ D Y Y i j
para 0 = 0o
A6: Se
FCxi|9) = -ÍÍ In2
ln302 30Í 96
então
|0O')| | < c(Xl |60) g(6|e0)
com c(xí |0o ) > 0 e EQ cCxj 160 ) < ~ .
onde g (6 | 9Q) é contínua com respeito a 0 no ponto 0o
e g(6oi6o) = 0.
55,
A7: A Matriz Jo = J(9o ) ê inversível onde
- {E (9ln f(xil6) . 3ln f(xil6)6 dQ± 86j
Teorema: A distribuição da V.A. /n(6 - 8o )
tende a, distribuição N CO, Jq"1) quando n -*■ °°.s
.e. :
lim Pq {/n~(e - e0 ) < u) ■* P(Ç < u)
onde
N (0, Jq ) e u 6
Corolário: Se A5 - A7 são validos V 6 £ 0,
então
lira PQ{/nCe - 6) < u> -»■ P(Ç < u)o n
n -> °°
Demonstração
1) Ponha:
gCt) = uCx jet);et = et(x) = d - t)e0 + te
o < t < 1
56
onde
In5 5 • • • )
301 302
Então:
gQ) = uCx,38
= 0
gCl) = gCO) + jg'.Ct) dt
Logo
uCx|0Q ) = gCQ) = - I g'Ct) dt
Faça agora:
w(x|0) =n
= E F(x, , 8)
k
A =n
w(x|9t)dt
Como
g'Ct) = -£_ uCx|0t) •=d0
-~ = w(x I et) (0 - 0o )
tem-se integrando que:
uCxJ0Q) = - n wCx|0t)dtl. (8 --i- [ wCx|0t)dtlQ J
57.
ou
— u(x|60 ) = - A /7T(6 - 6o )n
0 lado esquerdo da expressão anterior ê da forma:
— uCx|6n
fCx
n n k=i 96
_ ç
°
pois
36In fCy|60 ) • f(y|60 ) u(dy)
= ff(y|60 ) y(dy) = { f(y|
1 = 0
Então, de acordo cem o Teorema Central do Limite, a
Y.A..
— uCxle0) =n
(Ç, - Efi Ç,
k e° k
converge para uma distribuição normal multivariada
N CO, Jo ) quando n -y °°, pois as V.A. £. são iid eS 1
60 ?1
var. = E6o
Jo
2) Mostra-se agora que
-J,
De fato, faça,:
A° = ~n
Como A = A.o + (A - Ao ) , basta que Ao -> - Jo e que
CA - AQ ) -* 0
Ora, pode-se escrever:
1 nAQ = —£- Z ^ nk onde n, = F(x J60
Os x\, são Cmatrizes) V.A. iid e
Kfl Hi - ~ Jo Cserã demonstrado adiante).
Pela Lei dos .Grandes Números:
An -£-> J,Ao ' <J 0
De CA6) tem-se
i 1
|A - Aa| < \-j~ J wCx|9t)dt - -i- í w(x|80)dt
Q 0
1
wCxle^.) - w(x|e0 ) dt <t
o
< E |FCx |6 ) - F(x |00)|dtk= i •*
Q
59
1 n í1< -j-p- s c(xk|e0 )gce |e0 )dt = anBn
=i J Q
onde
a =± 2 cCxJe0 )n n k=i k
P PBasta mostrar que a >const e . 3n > 0.
- PPela Lei dos Grandes Números cx > const, pois
cCx. | ©q ) são iid Cpois x. são iid) e têm primeiro mo
mento finito.
E g é uma função contínua dos pontos 0 6 0 pois
Ve>053ô>0 tal que 0 < gO 190 ) < e
se |Q - 9q| < ô. Em particular, g(6. |9o ) < e quando
j 9 - 0oJ < <5, ou seja 0 <. 3^(9) < e quando
|9 - 90| < <5.
Como 0 é consistente:
n
um Pfl CB > e) < lim P.Cie - 60 I > ô) > O
60.
3) Prova-se agora que E rii > - Jp6 o
De CA5)
32
du - f Tf 9 ln f;
y i j i
Jln f ±ln f30 30 30 39
i- j i j
]f
39.
3 In f 3 In fi^7 ^7 J
Então para 9 = 9r
ni = - Jo
Considere as seguintes afirmativas
•"• ■* P ■A) Se uma seqüência de matrizes aleatórias A > I
então A"1 ——> I.n
B) Se uma seqüência de matrizes A > A
61,
se uma seqüência de vetores Ç é assintótica normaln
NCO, B)
Então A K e assintoticamente NCO, A BA*)
Então como Jo ê invertível
- Ao"1 ——> -
Logo /nC8n - 0o ) = -A x-i- n(x|60 )/n
tende para N (0, J^1 Jo J^"1 ' ) = N (0,s s
2.5 - Teste de Hipótese Estatística
2.5.1 - Hipóteses
Seja C^, cX ,*P ) uma estrutura estatística e
X: Í2 ->■ |R uma V.A.R. com distribuição Pn G T . Deseja-se esti.
mar o verdadeiro valor do parâmetro 8, usando para isso o va
lor observado de x da V.A.R. X.
Para isso estabelece-se um teste de hipótese.
Tome (J; o espaço dos parâmetros e considere as seguintes
hipóteses:
62.
Ho : 6 S 0o (hipótese nula)
Hj: 9 6 0i (hipótese alternativa)
onde
0 = 0q U 0i Cunião dijunta)
Uma hipótese H^: 6 G 0^ ê dita simples se
0- for um conjunto unitário e composta, caso contrário.
Um teste de hipótese ê uma regra de decisão
que consiste em aceitar ou rejeitar Ho.
De uma forma geral, um teste e uma estatística
que toma valor 0 ou valor 1, conforme aceita-se ou rejei
ta-se a hipótese nula. Mais adiante haverá necessidade de
considerar-se testes randomizados, onde a estatística atribui
rã uma probabilidade de rejeição â hipótese nula.
Usar-se-á a notação c|> (x) para a estatística
do teste de hipótese.
A função $ e chamada função crítica e o con
junto dos pontos tais que:
C = { w 6 fi / <HX(w)) = 1}
ê chamada região crítica.
63.
A seguir se apresenta o exemplo de um teste.
Exemplo:
Suponha que um novo remédio deva melhorar a ta
xa de recuperação dos enfermos de uma certa moléstia.
A hipótese nula é que o remédio não faça ne
nhum efeito.
Suponha que a proporção passada de recuperação
tenha, sido de 00 =0,2.
Então:
HQ : e0 =0,2
Ei : 6Q > 0,2
Ora, se deve tomar uma amostra de n enfermos .
S ê o numero de pacientes que ficam bons na amostra. Se n -> °°,
S tem distribuição binomial ê(n, 0).
Neste exemplo © = [6q , l]
e 0q é simples e 0i composta.
Ê" conveniente, neste caso, trabalhar com um in
dicador.
'l se S > k
0 se S < k
64,
A região crítica ê o conjunto ík, k + 1,. . .. n}
subconjunto do espaço amostrai.
{1,2, ... n }
2.5.2 - Tipos de Erro
Um teste pode induzir que se suponha que o pa
râmetro 0 tenha um valor diferente de seu verdadeiro valor
0o • Existem dois tipos de erro.
Erro do tipo I - rejeitar Ho quando Ho é vali
da.
ã êErro do tipo II - aceitar Ho quando Ho não ê v£
lida.
Aceitar Ho
Rejeitar Ho
Ho é
verdade
não ha
erro
erro
tipo I
Ho ê
falsa
erro
tipo II
não há
erro
pode incorrer nos dois
pos de erro simultaneamente.
Por questão de notação, escreva
65
a =P(erro tipo I) = PCrejeitar Ho | Ho verdade)
3 =PCerro tipo II) = PCaceitar Ho | Hi verdade)
Cada teste tem valores a, 3 a ele associados,
e não ê possível minimizar ot, 3 simultaneamente. Na medida
em que aumenta a região de aceitação de Ho aumentando 3, redu
zo a de rejeição diminuindo o, e vice-versa.
Exemplo 1:
Suponha Xi, X2, ..., X9 uma amostra de V.A.
normais com cr = 1.
Seja Ho : y = 2
: y = 3
Usando o EMV X para estimar y.
Seja o teste (não randomizado) aceitar
Hq se x 5 c e rejeitar se x > c, onde
2 < c < 3.
3
a
Na medida em que aumento a região de aceitação
66.
de Ho , aumentando c, diminuindo a, mas aumento 3.
Exemplo 2:
No exemplo de 2.4.5.1
kl
S (" ) 6p Cl - 60V~i=k :
pel>k(x) = o] = p6cs < k>
k-i ■ .
t C? ) e3(i - Q)n~13
2.5.3 - Poder de um Teste e Função Potência
Um teste não randomizado associa a cada valor
possível de x G X uma decisão do (aceitar Ho) ou di (rejei
tar HQ ) .
Seja ô(X) a regra de decisão, função da obser
vação, Xq região de aceitação, Xi região crítica.
XQ U Xi = X
Como dito anteriormente, não ê possível minimizar a e 3
simultaneamente.
67
Então, é" comum arbitrar 0 < a < l} que é cha
mado nível de significância:
P0{ôcx) = di> = pQíx e xi> < a V e e ©o
e então minimizar 3:
PQ{<S(X) = d0} V 6 6 0i
que ê o mesmo que maximizar
PD{<5CX) = dj = PQ{ x 6 Xi } V 6 6 0i
Chama-se:
F(9) = PO{<5(X) = dJ- V 9 G 0
de função Potência.
Chama-se Pe{ôCX) = dj com ÕG 6,
de poder do teste contra a alternativa 6. Ou seja, dada a hi
põtese alternativa o 6 0, , o poder do teste nos da a probabi
lidade de, sendo verdadeira a hipótese alternativa, ela ser
aceita.
Exemplo:
No exemplo de 2.4.5.1 a função potência é:
FCe) =s (n ) eDci - e)n~j v e e [0,2.
E o poder do teste é:
68
( *? ) eD(i - e )n D e e (0,2; íjj=k 3
Dado um teste randomizado, a probabilidade de
rejeição de Hq quando X tiver distribuição P ê:
E. (j) (X) = <}> (x) dPQ (x)tí J O
a probabilidade condicional <j) (x) de rejeição dado x, integra
do com respeito â distribuição de probabilidade de X.
0 problema ê selecionar <í> para maximizar a furi
ção potência.
Eg <kx) v e e ei
sujeito a
eo <kx) < a v e e 0OD
Em alguns casos acontece que o mesmo teste $
maximiza a potência para todas as alternativas em ©i , mesmo
quando ha mais de uma.
Neste caso, <j> ê chamado teste uniformemente
mais poderoso CTUMP).
Para o caso de duas hipóteses simples, temos o
fundamental Lema de Neyman-Pearson, que segue.
69.
2.5.4 - Lema Neyman-P,earson
Sejam Po e Pi distribuições de probabilidade
com densidade p0 e pn , respectivamente, com respeito a uma me
dida Csem perda de generalidade, pode-se admitir y = Pj + P2).
i) Existência: Para testar H: p0 contra a al
ternativa K: pj existe um teste <|> e uma constante k tal que:
Eo <f>OO = a (1)
1 se pa Cx) > k po Cx)
(2)
.0 se p! Cx) < k Po Cx)
ii) Condição suficiente para T.U.M.P.
Se um teste satisfaz Cl) e (2) para algum k,en
tão ê o T.U.M.P. para testar p0 contra pi no nível a.
iii) Condição necessária para T.U.M.P.
Se <J) é T.U.M.P. no nível a para testar p0 con
tra pi , então para algum k ele satisfaz (2) q.t.p. y.
Também satisfaz Cl) a menos que exista um tes
te de tamanho <; çx, e potência 1.
Qbs: Tamanho de um teste é definido como:
ã ê
70,
sup P
e e
íô(X) =
Demonstração
Para a=0 e a = 1 é imediato o teorema
Se a = 0 => <Kx) dP0 Cx) = 0
Tome k = °° => <|> Cx) = 0 e a = 0
Se => <|> (x) dP0 (x) = 1
Tome k = 0 => (f> (x) =1 e a = 1
i) Se Ü < a < 1.
Faça aCc) = P0{w: pi(X(w)) > cpo(X(w))}
Ê obvio que como a probabilidade ê tomada em
Pq, so se considera o conjunto onde po (x) > 0
a Ce) e a probabilidade de que a V.A,
PiCX)
p2CX)
> c.
Então 1 - a Ce) é uma função distribuição, e
eu Ce) ê não-crescente e continua a direita.
Pl(X)
ct(c > 0) - a(c) = Po { = c}
«C - °°) = 1 e = 0
71.
Dado qualquer 0 < a < 1, seja co tal que
a(c0) < a < a (c0 - 0)
a
a(co-O)
a
a (co)
c)
Co
Considere o teste <(> tal que:
4>Cx) =
a -aCc0 )
a Ce - 0) - a Cco )
. 0
se pi (x) > c0 po (x)
se pi(x) = co po(x)
se pi(x) < c0 po(x)
A expressão do meio so não tem sentido se
aCc0 - 0) = a(c0), pois então
= c0 P0CX)} = 0.
ê definida q.t.p.
0 tamanho de <f> é:
p CX) « - a(co)
PoCX) a(c0 - 0) - (co)
= a
Então
Co pode ser o k do teorema.
c0 ê essencialmente único (i.e., dado a, Go ê
único).
72.
A única exceção ê o caso onde exista um inter
valo de c para o qual a(c) = a.
aCc)
cT c"
Se Ce1, cTI) ê este intervalo e
p (x)
C = {x; pQCx) > Q e c' < -í < ct!}
Então Po CO = a Ce') - aCc' • - 0) = 0.
Como p0Cx) > 0, isto implica que U(C) =0 (C
tem medida nula), logo Pi CO = 0. Então os conjuntos
de. x para dois valores diferentes de C só" diferem num
conjunto de pontos com probabilidade zero, que podem serr-"
excluídos do espaço amostrai,
ii) Suponha que <J> e um teste que satisfaz (1) e
C2) e que <J>* e um outro teste qualquer com
Eo <j>*CX) < «.
Chame S e S os conjuntos no espaço amostrai,
onde <J)(x) - 4> (x) > 0 e < 0, respectivamente.
Se x 6 S ™> px(x) > k po(x)
73,
Se x 6 S ==> <|> (x) = p =>pi (x) < kp0 (x)
Então
íí
x - kpa)dy = C4> - <|> )(p1 - kpo)dy > 0
x S+ U S
Poder Poder . *
de § de ((>
Então (j) ê T.U.M.P.
iii) Se (|> e T.U.M.P. no nível a para testar p0
contra px , seja <J) que satisfaça (1) e (2).
Seja S a interseção do conjunto S U S , onde
e <f> diferem; com o conjunto {x: px Cx) ¥= kpo(x)}
CS = {{S+ U S"> fl íx: pi(x)=^= kpo(x)>>
Suponha que yCS) > 0.
Como C<f> - <(> )Cpi - kp0) > 0 em S, segue que
I U - ♦'*)Cp1 - kpo)dy = í (4> - 4>")(pi - kPo) > 0S+ U S~ S
Então tj) ê T.U.M.P. no nível a para testar p0
contra pi, o que ê uma contradição.
74.
Logo y(S) =0, o que significa que o conjunto
onde «í> =^= 4>" e p x =£ kp0 (x) tem medida nula; ou seja,
onde a medida ê não-nula e pj (x) =/= kp0 (x) temos que
Se ty tivesse tamanho < a e potência < 1, se
ria possível incluir na região de rejeição pontos até
que a potência fosse 1 ou o tamanho a.
Então ou
Eo <f>°CX) = « ou Ej <T(X) = 1
Exemplos:
1: 0 exemplo 1 da seção 2.4.5.2 e um exemplo
trivial de aplicação do Teorema. Pois p<j(x) e pi (x) são nor
mais e dado 0, , o k do teorema fica unicamente determinado.
75
2) No exemplo 1 da seção 2.4.5.1
a = l C1?) 6J Cl - 60 )n"jj=k D
Para qualquer alternativa Q1 > 60 ;
s
(,i - çx ;
^^ = P
ef ei - §1) 8 i -eiSC———)n
a -
onde
p = et Ci - 0j) Ve0 ci - >o )"'
n
s = £ x. Cs ê o número de pacientes que fi
X ■caram bons)
Se 6i > 9o => p > 1 e, portanto:
PjCx) 1-e.n 1 - 6X
s > k => = PSC ) > p CpQCx) i - e0 i - e0
Então ty, Cx) ê um teste de Neyman-Pearson, qual
quer que seja d1, e ê também T.U.M.P. para o dado nível a de
significância • cx.
76
CAPÍTULO 3
TÓPICOS DE REGRESSÃO LINEAR
3.1 - Introdução
De posse das definições e resultados dos capí
tulos de probabilidade e estatística anteriores, introduz-se
neste um poderoso instrumental para determinar e/ou verificar
a forma funcional de um fenômeno científico qualquer.
Por razões obvias, em qualquer ciência.e, em
particular em economia, dado um modelo teórico e importante
fazer uma verificação empírica.
Para simplificar, pode-se supor que a forma
funcional do modelo seja linear, tendo uma parte deterministi
ca e outra estocãstica. 0 uso de modelos lineares ê vantajo
so por dois motivos: sua simplicidade, que permite o uso ex
tensivo da teoria de espaços vetoriais podendo os diversos e-
feitos que atuam sobre a variável em estudo serem decompostos
em componentes de um vetor, e porque permite a obtenção de es
77.
timadores consistentes dos parâmetros desconhecidos.
As hipóteses fundamentais que serão feitas a
seguir são acerca da distribuição de probabilidade da parte
estocastica e da estabilidade da amostra, pois na medida que
a amostra cresce, exige-se que a matriz n(X*X) se aproxime
de uma matriz positiva definida, onde X ê a matriz das variá
veis explicativas.
Valendo tais hipóteses, e mais algumas a ser
discutidas, determina-se a forma funcional do modelo e testes
de hipótese para os estimadores dos parâmetros da forma fun
cional usando distribuições de probabilidades usuais.
Na seção 3.2 apresenta-se o modelo de regres
são linear simples ou ordinário, os estimadores dos parâme
tros , testes de hipóteses para estes estimadores, o Teorema de
Gauss-Markov, as probabilidades assintoticas destes estimado
res e testes de hipótese para verificar a estabilidade dos
parâmetros numa população em diferentes subconjuntos ou ao
longo do tempo.
Na seção 3.3 se discute como usar o modelo de
de regressão linear com fins de previsão, discutindo também
1 Q
testes de hipóteses a serem, usadas na previsão.
A seção 3.4- introduz o método dos mínimos qua
drados generalizados para contornar o problema da heterocedas
ticidade, e o Teorema de Aitken, que nada mais é que uma ex
tensão do Teorema de Gauss-Markov. A seção 3.5 explica a im
portância da analise dos resíduos, a fim de se retirar o máxi
mo de informações da amostra e define-se a estatística de
Durbin*-Watson.
Em 3.6 discute-se a multicolinearidade, e dis
cutem-se alguns procedimentos de avaliá-la e contorna-la.
Na seção 3.7 mostram-se os problemas devidos a
erros de medida das variáveis explicativas e o uso de variá
veis instrumentais.
Em 3.8 define-se coeficiente de correlação par
ciai, dando uma outra interpretação aos parâmetros estimados
pelo modelo de regressão linear simples.
Por ultimo, apresenta-se um Apêndice, onde se
definem, de forma sucinta, as distribuições de probabilidade
utilizadas neste capítulo, algumas relações de álgebra de ma
trizes e uma generalização da desigualdade de Rao-Cramer.
79
3.2 - Regressão Linear Simples
3.2.1 - 0 Modelo
Suponha que a teoria econômica sugira que uma
variável y seja dependente das variáveis x , x , ..., x, , as12 K
variáveis explicativas ou independentes. A forma mais sim
ples de dependência e aquela em que y é uma combinação linear
dos x, i.e.:
y = x!$i + X2B2 + ..• + xk3k (1)
onde os g. são constantes.
Exemplo: Se a função de produção de um país ê
uma, Cobh-Douglas y = K Ij e' , lineariza-se a equação toman
do o logaritmo de ambos os lados para obter:
logy = a logK + (3 logL + <j)t
que ê da mesma forma que (1).
Se (1) se verificar para todas as amostras
tem-se uma fortíssima indicação de que o modelo seria determi
NOTA:
Observe que Cl) nada mais e que a equação de um plano
em IR k+1
80.
nistico. Mas, em geral, a igualdade não ocorre sempre, e pa
ra se explicar adiciona-se um termo estocastico a (1) que se
passa a escrever como:
y. = x 3 + x. g +'...+ x. 3V + e. (2)1 1 i i 12 2 k
onde o "i" indica ser a i-êsima observação.
Supoe-se aqui que:
e^ * N[0, cr2]
E ei Gj = 0 , i ^ j
Em notação matricial
Y = X 8+ e (3)
cov e = er2ln
onde Ye n x 1
X e n x k
Pékxl
e é n x 1
e n ê o numero de observações
A idéia ê, a partir de um numero n de amostras
k+ iCy., x, , x. , ..., x, ) 6 ff^ : determinar b., estimativas
i a. i x 2 1v D
81.
dos 3-, pela escolha de um "plano de melhor ajuste".
Para dar uma noção intuitiva, apresenta-se o
caso para k = 1, ou seja, no [R .
0 critério para escolher um "plano de melhor
a,juste" pode ser algo arbitrário, como com um lãpis e uma ré-
gua, traçar uma reta no caso em que k = 1.
Para n < k não
ê possível determinar tal pla
no, pois ele fica indetermina
do. Em |f\ , seria o equivalen
te a ter apenas uma observação,
Para n = k o pl<a
no se define unindo os pontos,
se eles não forem coincidentes.
Em lr\ , seria o equivalente a
ter apenas duas observações, o
que pode não ter significado
nenhum, pois I pode ser o plano que realmente representa o fe
nomeno, mas nossa amostra nos levou a obter II.
82
Para n > k. se define o método dos mínimos qua
drados ordinários. Para tal se define o resíduo como
= yi " yi
onde y^ ê o valor observado da variável independente e y ê
valor ajustado de um plano para (x. , x. , ..., x. ).
o
, x. , ..., x.
Neste método se define o "plano de melhor ajus
n
te" como aquele que minimiza £ e. dentre todos os possí-i=i x
veis planos. Os b., coeficientes do "plano de melhor ajuste"
assim definido são os chamados estimadores de mínimos quadra
dos ordinários CEMQO) dos $..
Seja o plano genérico:
y = Xjbj + x2b2 + . .. + X]< bk (5)
e o resíduo genérico:
eí = yi " y (6)
Vai-se minimizar:
n 2
j , b2, ... b^.) = E e^
ii
n
E_ CYi - xL br XjL b2- ... - x.
1-112 K
83,
Derivando-se em relação a b.:
= Z d Cy.-x. b, -...-x. b, )(-x, )
ou em notação matricial
I ê o plano ajustado
II e o plano real
Observe a diferença en
tre e. e e..
Derivando-se outra vez em relação a b. vem que
(7)
n
~*X. ) \ X. /
ou em notação matricial:
3bJ = 2X X (8)
A condição que b = Cbx , b2, ..., b, ) seja um ponto de mínimo
e que:
2X'y + 2XfX b = 0 condição de 1. ordem (9)
ff]v > 0; Vva k condição de 2. ordem (10)
De C9) vem que
84.
b = (X'X) Vy (11)
e h ê único.
È necessário que o posto da matriz X seja k,
caso contrario (X X) 1 não existe. Considerando isto, a con
dição CIO) ê satisfeita, pois CX X) ê uma matriz positiva se-
jã que
vVxv = (Xv)' (Xv) > 0
pela definição de produto interno.
Daqui para frente denotaremos
b = (bl5 b2, ..., b, )
e = (ei, e2, • ••> e, ) , cada e.K 1
y, e "plano de melhor ajuste"
sempre sendo relativo ao "plano de melhor ajuste" obtido pe
los mínimos quadrados.
3.2.2 - Estimativa de g e cr5
A pergunta ê se, apesa,r de b minimizar a soma
dos quadrados dos resíduos, seria b um bom estimador de
85,
3 = C313 32, ..., 3k)?
Ora: b = (X^)"^^
= CX'X)~1X'(X 3 + e)
= 3 + cxrxrV e
então: E[bJ = 3
Logo, satisfeitas as hipóteses de 3.2.1, b é
um estimador nãlo-viesado de 3.
A matriz covariancia de b e:
cov b = ECb - 3)Cb - 3)'
já" que CX'X)' =CX*X).
Para estimar a2 tome o vetor dos resíduos e
e = y - y
= X3 + e - Xb
= X3 + e - [3 + (X^)"1^]
= [ln - Xtt'x)'V]e
= M e
NOTA:
Seja A uma matriz quadrada invertível
Se A = A'=> I = A""1 A = CA""1 A)' = A A"} = AA~X=> (A"1)'^ A
86.
onde a matriz M e idempotente e simétrica
Então:
E e ' e = E [c ' M' M e 1
= E[tr e'me] = E trCMee') (V. NOTA)
= tr[MCE ee1)]
= a2 tr M
= Qz C n - k)
Logo:
ê um estimador não-viesado de a2.
Em geral, faz-se x. =1 a fim de que b seja
o intercepto do plano y.
NOTA:
tr A • B = trA• tr B
tr CXCX^rV) = trCXtX)"1(XfX) = tr I,.K
87,
É obvio que:
y = bi + x2b2+ • • . x b.
Então:
y^ = y + hz(-xi - x2) + ••• + bk^x" ~ *k^ + e"
Define-se como coeficiente de determinação:
E [b2(x^ - x2) + ... + b, (n. - x,)]2
R
n
2 _
l (y - y)2
i=i
Ora:
n n
E CCy. - y) - e.)2 = E CCy. - y) -i=i x x i=i x
Mas:
n _ n k
E Cy. - y)e. = E CE x. b. + e. - y)e.
NOTA: k
y = bx + S xi<b
-, n , n , n k
s y = ? b + E Es yi ? b- + E E xi.l-i l=i 1=1 D =2 3
n
y = b, + Z x.b.
3 = 2 J
n n k
= E e.2 + X CE x.b. -y)e.
Como pela condição de 1. ordem tem-se que
n
2XfCy - Xb) = 2X'e = 0 vem que E e. = 0 e
n
£ x. e. = 0
X X
pode-se escrever:
n
E
R2 = 1 - ^-^ — (13)
E Cy - y)2
Então 0 < R2 < 1.
3.2.3 - Testando Hipóteses sobre 3 e a:
A matriz M ê um operador linear num espaço |f\ ,
e M ê simétrica.
Demonstra-se que se V ê um espaço vetorial com
produto interno, onde ax, a2 são duas bases ortonormais, a ma
NOTA:
da variância explicada e não explicada do modelo.
Mais adiante dar-se-ã uma interpretação do R em termos
89.
triz mudança de base (Ia}) e tal que: (iai)(lai)' = I.a z ^ a2 012
O operador associado a uma matriz simétrica é
chamado de operador auto-adjunto. Demonstra-se que se T ê um
operador auto-adjunto, então, existe em V uma base ortonormal
onde T ê diagonal.
Logo pode-se escrever:
M = C DA C'
onde D, e uma matriz diagonal e C uma matriz mudança de base.
Segue que:
C D,C' = M = MM = C D, 2C' -> D, = D, 2 + X. = À.2A A A A i i
onde os X-. são os auto-valores da matriz M.
Logo, X. = 0 ou A. = 1
Então:
tr M = trCC D^ c') = tr D,
Jâ foi visto que tr M = (n - k), logo (n - k)
auto-valores são unitários e os demais nulos.
Sejam estes auto-valores unitários os (n - k)
primeiros termos da diagonal de D,.
90.
'jn2 'jDA = n/ni
veonde n - C e e r\x são os (n-k) primeiros termos do
tor n..'
Como e é normal com media zero, c'e também é.
Ora:
En.n' =E[C' e e1 C] = C1 C a2 = I a2 (15)
Então os Cn - k) elementos de r\\ são normais, independentes
por causa de (15), e com media zero e variância a2.
Logo:
Sl - X2-. Cn - k)-Sl - X2(n_k) (V.Apêndice)
Exemplo:
: a2 = a02
Hl: a2 ^a/
Para um teste de nível de significância a, a
regiSo de aceitação será:
2
v 2 . , < (n - k)-^- < Y2 , vXCn-k) a - ^ - *(n-k)
91.
Outro teste a respeito da variância ê quando
se deseja testar se duas amostras têm a mesma variância.
Exemplo:
Amostra I: n. elementos =>(n, - 1)—,- ^ X, -, N1 a Cn^-1)
si2 2Amostra II: n elementos =>Cn. - 1) *v» X, , .
2 a22 Cn2-1)
Supor a12 = oz2 eqüivale a dizer que:
s 2 u ACn1-l,n2-l) (V, Apêndice)2
Ejh geral, poe-se o sl maior no numerador e se o quociente
for muito grande rejeita-se H .
Para testar hipóteses acerca de 3 usa-se o se
guinte resultado:
[E Cb - 3)e'J = E[(XfX)-V ee'M]
= (X!X)~Ve e^I-XCX^)"^']
= 0 (16)
Ou seja, Cb - 3) e "e" são não-correlacionados
e independentes, pois ambos são normais. Para se testar a h^
potese Ha: ^ = ^^ faça CXfX) = [Y-j-j] •
92.
Como já foi visto, (b. - 3. ) ^ N [o , y..a2~[
0 quociente:
(b. - 3. ) / /777 a b. - p.1 10 11 1 í 0 '
s / a /TTT s (n"(17)
TT sli
pois, o numerador ê uma V.A. normal e o denominador ê uma
raiz quadrada de uma V.A. qui-quadrada, independentes por cau
sa de (.16).
0 caso geral seria ter m restrições lineares
escritas R 3 = r. Ora, Rb e una normal m - variada e:
ECR b) =REb = R3 =r
) = E[RCb-3)Cb-3)'Rf] = RCX^X)"^' o2
Lema:
Se um vetor aleatório normal m - variado z tem
media zero e matriz de covariância V, então a forma quadráti-
ca z'vXz * Xr ».Cm)
Demonstração:
Fa.ça. V"1 = P' DP, onde p'p = I, De diagonal,
jã que V ê simétrica.
i J
Escreva, D = D2 D2, onde D =[d..Je D2 = [/d. . ] .J -1-» J
93
JL"o" ^ õ
covCD Pz ) = e[ü P zz' P1 D ]= D P E[zz']p'd
JL"o" "^~ o õ
) [ ' 1 ] [']p'
i JL
= D2 P V PV = D2 P(P'D P)"-P! D*
= D2 PP'0"1 PP1 D2 = I
~ 2 _
Então, os m elementos do vetor D Pz sao nor
mais não correlacionados com media zero e variância uni
tária. Logo:
i. JL
CD2 Pz)'CD2 Pz) = z'y"'z ^ X(m)
Voltando ao problema, pode-se usar que:
CRb - r)' [covCRb)]" (Rb - r) =
»,,» -1_ t-, -1
- (Rb - D * X(m)= CRb - r)' tRCX>X) R'J~ (Rb - r) ^ X2o
Se a2 é desconhecido pode-se com a X, \ acima, \
2 s2 «•e a Xr _kx de (n-k) obter a estatística
CRb - r)t[RCx'X)"1 Rl]"1CRb - r) . pF(m,n-k)
Se m - 1 temos uma distribuição que ê o qua
drado de C17).
94.
Pode-se estipular um intervalo de confiança
com nível a de significância.
F(m n-k) a - (Rb ~ r)' [ROC^rV]"1 (Rb - r) < ms2 Ff . »un,n jo, _ o^ u j - (m,n-k),eu
. 2
Uma outra maneira de se testar a hipótese
H^: R 3= r, e b* com a restrição. Pode-se escrever:
y - Xb* = y - Xb + Xb - Xb*
e*
(y - Xb*)1 (y - Xb*) = (y - xb)' (y - Xb) + (Xb - Xb*J(Xb -
B D
pois, (y - Xb)'(Xb - Xb*) = e'X(b - b*) =0 já" que e1 X = 0
Ora:
A=e*'e;B=e'e e D=A-B
onde 'ee „ V2 D
Portanto,
(Xb - Xb*) f(.Xb - Xb*) /m _ D A - B
D 2Para provar que —- ^ X^j , basta provar que
"«UOTECA MARIO HENfflOUE SmUkC&Q GETÜUfl L
95.
(19) e idêntico a (18) .
Acha-se então o estimador de mínimos quadrados
b* de 3 sujeito â restrição Rb* = r.
Forme o Lagrangeano:
L = ~-(.y - Xb*)(y - Xb*) + Xf(Rb* - r)
-= - X!Cy - Xb*) + r'x (20)3b-'
— ■= Rb* - r = 0 (21)
3X
Multiplique (20) por RCX^)""1 e use (21):
- RCX'X)"1XlCy - Xb*) + R(XtX)"1R'A = 0
X = [RC-X^XrVq"1 R(XfX)"1X'y - R(XT X)"^1 Xb*
X = [RCX^)"^']"1 [Rb - r] (22)
Leve C22) em C20):
- X'y + X'Xb* + R1 [RCX^)"^1]"1 (Rb - r) = 0
b* = CXfX)"1X'y - CX'X)"XR' [R(X'X)~1Rt]~1(Rb - r)
b* = b - CX^rV [RCX'X)~1Rf]"1(Rb - r) (23)
Então: D = CXCb - b*))'(X(b - b*))
= Cb - b*)'Cx'x)Cb - b*)
= CRb - r)'[R(X'x)"XR'](Rb - r)
96,
3.2.4 - Teorema de Gauss-Markov
No modelo Y = X 3 + e supondo E e = 0 e
Eee = 10 ; b = (X X) Xy êo melhor estimador linear não-
viesado de 3.
Demonstração:
Seja um estimador linear Ay, onde A ê uma ma
triz k x n. Se o estimador e não-viesado:
E(Ay) = E(A X 0 + A e ) = A X = 3 implicando A X = I
A covariancia de Ay é
ECAy - 3)CAy - g)1 = ECAX3+ Ae-3 )(AX3 + Ae- 3)'
= ECA eeV) = AA1 c?2
Pode-se escrever a matriz A como ( (X ?X)~ XXf+B)
desde que B X = Q, pois:
[çx'xrV + b]x = i
Substituindo-se na covariancia de Ay tem-se:
cov (Ay) = [CXfX)"X + BB']a2
Ora, BB' é uma matriz positiva semi-definida sempre que B =£ 0.
97,
3.2.5 - Propriedades Assintoticas do Estimador de
Mínimos Quadrados Ordinários
Como ja se viu, h = 3 + (X'x) X*e ê uma combi.
nação linear dos e. Se os e tiverem distribuição normal, b
também terá" distribuição normal. Pelo Teorema de Gauss-Markov
3.2.4j mesmo que os e^ não sejam normais, mas tenham uma vari
ância cr2 , b ê o melhor estimador linear não-viesado.
As perguntas que ainda se podem fazer são:
- Se os e.., são normais iid, pode-se omitir a
palavra linear, se, b é o melhor estimador não-viesado?
- Se os e. são iid mas não necessariamente nor
mais serã b consistente?
- Quando serã b assintoticamente normal?
Para responder ã primeira pergunta usa-se a de
sigualdade de Rao-Cramer (ver Apêndice).
Tome o logaritmo da F.V.:
',y-A p ) Ky-K a )
(24)
-, -, ky-XB) (y-XB)log LCy|3,tf2)=- in log 2tt- ±n log a2-
2 2 a2
Derivando-se duas vezes em relação a 3:
98
L = - EC- 2L!2Ç) = *!* = R(6)EC )
30 38' a2 a2
Como b e nao-viesado e cov b = (X^)"^2:
z1 [cov b - R~ 1C0)]z > 0.
Quanto â consistência de b tem-se que Eb = 3 e
cov b = CX^)"1^2. Se os elementos da diagonal de (x'x)~l
tenderem para zero, vale o Lema apresentado na nota para cada
Uma condição suficiente -é que n"1 (x'x) tenda a
a uma matriz positiva definida. Isto quer dizer que n(XlX)~1
se aproxima de uma matriz positiva definida e que (X^)"1 se
aproxima de uma matriz de zeros.
Para estudar a assintoticidade de b, que e nor
mal, escreva:
j
/HCb - 3) = /n(XfxrVe = (-l_x'x)~1n~5Xfe
Considere a distribuição do vetor:
n 2X e = n ?(xiel + x^2 + ... + x^) (25)
onde x. e a j-êsima coluna de X .
NOTA:
Lema: Se lim E x = c e lim var x =0 => plim x =n+co n n^oo n * n
onde, plim 6 = lim pC [ 0 — 3 I < 6) = 1 V6>0.n+oo
99.
Seja z . = n 2x. £• .
Escreva a função característica de z. expandida em Série
de Taylor:
*.-Ct)=E[ei1: Z3]= l+iECt'z.)+-^ E(t'z. z.'t) + v(E(t'z.)2)3 ^2133 3
= 1 - ——t x. x. t a2 n + v (E t 'z . z . ' t)Z J J J J
Suponha, que cada, elemento x. seja limitado. Então, x.x.'e li
mitado e v = vCn" ).
Então, a função característica da soma (25) é
n r 1 ' iTT Pi —t X . X . tj = 1L 2 3 3
Tomando o logarítmo:
n
S log[l - -4-t'x.x. 't a2n~ +i = i J -J
Quando n -*■ °°, n~ -»■ 0 e:
Z log[l - -±-t'x.x.'t a2n" + v(n~ )] -> - -L.t'(n" x'x)ta2-i = i ^ 3 J £■
Sob a hipótese que (n X*X) tende a uma matriz
NOTA: , ,. .
x
100.
positiva definida Q, a expressão anterior tende para
que e o logaritmo da função característica de um vetor normal
com media zero e covariância Q a2 '.
Ora:
onde C-i- X^)"1 -»■ q"1 e n"x'e^ N^O
Faça z.. =Q n 2 X e e proceda de forma idêntica e obter-se-ã
que a distribuição de /rT(b - 0) converge para N [0., Q-1a2]
Sob as hipóteses anteriores, s2 ê um estimador
consistente de (J2 , pois:
plim Cn " k s2) = plimCn"1 ee - n"1 e'x(X'x)"^' e)n
-,.-!' -1 ' -1 I -1 _1 Iplim n e e - plim n eX • plimCn X X) • plim n X e
cr2
-1 •
pois, plim n X e= 0.
Logo, C—-—s2) e consistente, es2 também.
101,
3 «2 -6 - Teste de Hipóteses sobre Igualdade entre
Conjuntos de Coeficientes de Regressões
É muito comum que dada uma população se deseje
testar a estabilidade do parâmetro 3, pois o parâmetro pode
ria variar de um subconjunto da população para outro, ou ao
longo do tempo.
Uma maneira de se testar a estabilidade seria
tomar duas amostras ni e n2 e escrever o seguinte modelo:
yl
y2
"X 0i
Q X2_
3/ e
í
e
L 2_
Rg = [I -I] = 0
A soma do quadrado dos resíduos com a restri-
ção ê A - e" e" e tem m + n2 - k graus de liberdade(g. 1.),
e sem a restrição B = e'e com nx + n2 - 2k g.l.
Testa-se HQ: gx = g2 usando a estatística:
(A - B) / k
Ck,n1+n2-2k) B n2-2k)(26)
Pode-se ter um caso mais genérico onde se des-
102.
membre 3^̂Ci = 1,2) em k1 , k2 elementos Y-, <$ ■ , respectivamen
te, onde kj + k2 = k e testar apenas Yx = Y2 . Para isso
faça:
y.
y.
z 0 w 0
Q z 0 w2 2
Y.
Y.
-i o
Na restrição y1 = Y2 tem-se A = e'"e': còm
+ n2 - kj - 2k2 g.l, e com a restrição B = e'e com
n2 - - 2k2.
A estatística do teste e, portanto, uma
t, nl + n2 - 2k)
A generalização ê simples:
" y
y
y
i
2
t
—
. w
z O2 .
w O2
't
103.
onde y. tem kx elementos e <5 . tem k elementos.
I A
Imponha Yi = Y2 = ... = Yt. Então, A = e" e"
n, + n2 nt-k1-tk2 g.l., eB=e'e tem
n1 + n2 + ... + nt - t kx - t k2 • g.l. Logo, a estatística
do teste seva, uma
CCt - x + n2 + ... + n. - tk)
Em geral, as variáveis W são variáveis "dummy".
Variáveis dummy medem efeitos de situações diferentes.
Exemplo:
Seja Ct = 3l + g2 Yt + et uma estimativa da fun
ção consumo agregada em tempo de paz. Deseja-se saber se em
tempo de guerra ha alguma alteração
Faz-se;
ondet
0 tempo de paz
1 tempo de guerra
obtendo Ct = C6X + y) + C62 + 6)Yt + e em tempo de guerra,
C
GUERRA
PAZ
104.
Um outro caso e quando Wj e uma coluna de
ni "1"» W2 uma coluna de n2 "1", etc. ... Então,esta se tes_
tando se todos os parâmetros, exceto os interceptos, são
iguais ou não em todas as regressões.
3.3 - Previsão
Estime o modelo de regressão, a partir de uma
amostra Cyx , X1 ), onde Xx e a matriz das variáveis independen
tes nt x ]c. ■
Ao fazer esta regressão obtem-se bj, que e a
estimativa para o parâmetro 3X-
Pode-se para uma matriz X2, n2 x k, usar o es-
timador X2b , a fim de fazer uma previsão do y2 associado.
Este estimador é não viesado se 3 = 3 , ou se
ja, se Xj e X2 pertencem a mesma população.
Dada uma amostra (y2, X2), pode-se criar um
teste de hipótese, a fim de testar se este y2 observado pode
de fato ser associado a X,.
105.
O modelo das n observações ê:
y2 = X2B2+ e2 (27)
Para obter uma estimativa pontual usando bl:
X2bl = X2(.X11X1)~lXl Vi (28)
Se é?! = g2 , este estimador ê não-viesado, pois
EX2b1 = X2 Eb1 = X23X = X232 = Ey2
Para construir um intervalo de confiança seja
d = y2 - X2bx = X2g2 - X26X + e2 - X2CX1lX1)"1X1'ei
o vetor erro de previsão. Então,
cov d = E[>2 - X2CX1IX1)-1X1le1]re2-X2(X1fX1)-1X1feiV
= E e2e2'+ E[X2(X1 X1)~\1 ex e 1 Xx (Xx 'xx )~XX2 'j
T rr2 -t- Y ÍY Y }~1Y n2J. U T ^■2^-"'i -^ i ' -^9 &
2
jã que E ex e2 =0.
Então, se gx = 32 tem-se que d tem distribui
ção normal n2-variada com media zero e, portanto:
d'ccov d)-1d * 2
Logo,
t „ i
(cov d) d , , _t „ i
d (cov d) d ,
n2 Cy2-X2b!) [I + X2CXX Xi
n2 s2
a2 (29)
106.
Pode-se então usar (29) para construir um in
tervalo de confiança para y :
F (y.-X,^)' |l + X2(X1'x1)"IX2'|(y2-X2b1)Cn2 jnx-kíç.j.Oj < — . <
n2
A estatística (2 9) também pode ser usada para
testes a hipóteses HQ: 3X = 32 . Se o vetor (y2 - X2bx) for
grande, pode-se rejeitar que as n2 novas observações y2 venham
do mesmo modelo de regressão que y,.
No caso em que n2 > k, temos, então, duas op
ções para testar a hipótese Ho : 31 = 32 .
São as estatísticas:
p - <-e e - e e) / k (r>(,sHk,n.+n2-2k) " i , O1 C26)
' l 2 e e /n1 + n2 - 2k
(y2-X2bx ) ' [I+X2ÍX/ X1 )~lXj (y2-X2b! )
^7? <29)
Demonstra-se que(26) e mais eficiente que (29).
Se n2 < k, o resíduo relativo â regressão
y2 = x232 + e2 não pode ser calculada e na estatística (26)
ter-se-ã B = e^ ex com nx - k g.l., e A = ex'e" com n1+n2- k.
107.
A estatística do teste serã:
Ce* e*- exf ex) / n2 e* e* - e^ el
F(n2,n1-k) = i 7 T ~ 2 (30)
Demonstra-se que (3Q) é idêntica a (29).
Pode-se pensar que em (26) faz-se a comparação
de uma regressão onde se usou toda a informação, com outra on
de nem toda a informação foi usada, e em (29) so se usa a in
formação da regressão com restrição para se obter um interva
lo de confiança e se pergunta se os n2 novos valores estão
nesta região ou não.
Tomando um estimador linear geral
tem-se que d = (y - [X2(X/ X1)~\1' + B]y2). Então:
=E(y2- X262 + X2(X1tXirlXlte1 tBX^+Bq)
(y2 - x232 + x2(x1!xl)-Ix1tel + Bxxel+ bEi) =
=E(e2+X2(X1'X1)~1X1te1+0+Be1)(e2r+ei'xi(X1'X1)"1X2'+0+e1fB)
= a2[í + X (X fX )"XX ' + BB'1L n2 2ii 1 J
pois E e:e2' = 0 .
108
Então, cov d e mínima para todos os estimado -
res lineares não viesados, quando B = 0, pois B Bf é uma ma
triz positiva semi-definida.
Logo, X2i>1 ê o estimador que minimiza a cova-
riância do desvio d.
3.4 - Mínimos Quadrados Generalizados
3.4.1 - 0 Método
Em aplicações praticas, as hipóteses sobre e e
X não são satisfeitas. 0 caso mais simples de relaxar as hi
póteses seria supor que os e^ não fossem independentes, i.e.,
que o modelo fosse:
Y = X3 + e (31)
E e = 0
E ee'= V
onde se supõe V simétrica positiva definida, V existe e a2
ê um escalar. Para facilitar, impõe-se tr V = n, o que faz
com que a-2 seja a media dos elementos da diagonal.
109.
Toma-se a matriz P tal que PVP* = I.
Então, indo em C31):
Py = PX3+Pe (32)
EPe = 0
EPe e'p =Icr2
3 = [CPX)'CPX)J~1 CPX)'(Py) (33)
cov 3 = <X2((PX) '(PX)) 1
= cr2 «'v^x)"1 (34)
onde 3 ê chamado estimador dos mínimos quadrados generaliza
dos . CEMQG)
0 CEMQG) ê o melhor estimador linear não-viesa
do para a regressão C31). Se e for normal, pode-se omitir a
palavra linear e pode-se aplicar a ele todas estatísticas de
senvolvidas para o CEMQO). 0 (EMQO) é não-viesado para (31),
mas o CEMQG) tem menor variância.
0 CEMQG) e também assintoticamente normal,man
tidas as respectivas hipóteses. Suponha, no entanto, que V
seja desconhecida e que V seja uma estimativa consistente de
110.
V Seja É>n - CX V X) X V y, então tem-se o seguinte teo-
rema.
Teorema:
- CX V X) XTV y tem a mesma distribuição
limite que 6 = CX* V^X)"^'V *y se:
Ci) plim n ^'dV"1 - V *)X = 0
1Cii) plim n~2 x CV"1- V~1)e = 0
Demonstração:
Ora, como se viu no caso do EMQO,tem-se:
/rTCb - 3) = Cn~1x'x)"1n~?Xle
Para os EMQG tem-se:
/nC3 - B) = Cn"1CPX)tPX)~1n"2(px')Pe
-1 t 1 1 í _l= Cn XV X) n*XV e
onde 3 ê o EMQG.
Para 3n ter-se-ia:
H"C3n - 6) = Cn""xx'v"lX) ^"zx
Então,
111,
/H'(6n - 3) - /HC3 -3) =
x'v"le - (^
Cn"1XfCV"1-V~1)X)"1n7" X* V~ l e+ (n"1 X ' V"1 X)"1 n~7 X ( V"1 -V"1 ) e
plim n X (V -V )X = O -*■ plim n~ X V~ X = plim n X V X
Mas as hipóteses de normalidade exigem que pa-
_i t
ra o EMQO plimCn X X) ■*■ Q, onde Q ê positiva definida.
Aqui a hipótese análoga é*:
plim Cn"1CPX)'cPX)) = plim n"1x'V'1X ■*■ Q
-í '"-i -í • -íEntão, plim n X V X = plim n X V - X ->■ Q
Logo,
plim Cn~ X V~ X) = plim Cn XV X)~ ■*■ Q~
o que implica:
plim Cn"xX CV~X - V)X) = 0 -»- plim (n~1x'(V~1- V)X)~X = 0
Então,
plim nC3n. - 3) = plim (n X (V - V)X) • n 2 XV e +
+ plim (n-1X V^X)"1' n~2(V~1- V~X)e
= 0 . plim n~J X V~ •
"" ♦ o
= o
112.
3 . i+ . 2 - Teorema de Aitken
Este teorema é a extensão do Teorema de Gauss-
Markov para o EMQG. Suponha validas as hipóteses do Teorema
de Gauss-Markov j exceto que E e e = V cr2 , onde V ê uma ma
triz positiva definida nxn e tr V = n.
Teorema: Nas condições acima, o EMQG ê o esti
mador linear de mínima variância, onde, por mínima variância
entende-se que qualquer outro estimador linear tem matriz co-
variancia igual a do EMQG mais uma matriz positiva definida.
Demonstração:
É análoga ao Teorema de Gauss-Markov. Seja o
estimador linear Ay, onde:
a = [cxV1 x)"1 xV1 + bJ
E Ay = A X M M=> A X = I <=> B X = 0
ECAy - g)CAy - g)' = ECA e e' A*) = a2 A V A*
= oz[a'v~l x)"1 xV1 + bI v [cxV1 x)"1 xV1 + b] '
Como B X = 0
ECAy - 3)CAy - g)' = a^íxW"1 X)"1 + B V B*]
onde B V B e uma matriz positiva semi-definida. Então, o
EMQG e o estimador linear de mínima variância.
113.
3.4.3 - Heterocedasticidade
Heterocedasticidade significa que a variância
não é constante. No modelo de mínimos quadrados ordinários
um simples caso de heterocedasticidade seria supor:
ai = cCPixix + Baxi2 + •'• + ekXik} (35)
Se os cr. são conhecidos E e e* = Ver2, onde V ê
uma matriz diagonal. Aplica-se, então, os mínimos quadrados
generalizados. Caso os cr. sejam desconhecidos, estima-se 3
pelos EMQO, que são consistentes e obtêm-se um estimador con
sistente de V.
Um outro caso comum no modelo de mínimos qua
drados ordinários ê supor que ej-, = a e«_, + u., onde,
u^ N[0, vi e os u^ são iid, e |a| < 1. Então:
H = *± + a u.^ + ... + ak Uik
E eic— = -^-rv = Yk ; k > 0.-L — a
y, ê chamada função auto-correlação de e•, e
diz-se que Y, é estacionaria quando é função de k, e não de
ti.: ti
114.
Y
Define-se função auto-correlação como P, =K y
Se "a" for desconhecido, usa-se o EMQO para esti
mar 3. Estima-se £. por:
e faz-se a regressão e. contra e:.._ , obtendo-se a. Usa-se a
no EMQG.n
E e . e . _
E, de fato, a = : e um estimador consisn —
E ei_i2
tente de "a", pois se tem que:
n n _x n
£ e-r e-;_, Plim Z e. e. . plim n- Z e_. e_. .?plim Í5i
E 2e. 2 plim S e. 2 plim n E e.x"x i=i 1-1 i=i 1
_jn n (demais ter-
plim n~ E Ca u, +a3 u. +a5 u. '+...)+n~ t mos cruza-i=1 1-1 1~2 1~3 ±=i dos de u.)
'
_i nplim n E e._1
= (*)
Aplicando a Lei dos Grandes Números para os u.
E e . e. y
E e.2i 'o
-1 n -1 nb) plim n E e. e. = plim n E e . e ._
Seja a matriz n x n:
115
B =
O
1
1 O
0 10
Ora,
B e =
"n-i
Fazer e =0 não faz diferença se n e grande,
podemos afirmar:
-í ní ii
n E e. e.=n eBe
i=i x~
- XCx'x)"1x']B[l - X(x'x)"1x']e
-í ' -í ' • -í 'n e B e- n e XCX X) X B e+
n""1 e B. X CX X)"1 X e + n J e'xCx'x) ! X*B X (x'x)"!
Ora, tomando o limite de probabilidade, os ül-
-i 'timos 3 termos são zero, pois plim n"1 X e = 0.
n
Logo, plim n_i '
; - e•_i = plim n e B e
116
Para testar a existência de heterocedasticida-
te Goldfeld e Quandt sugeriram dividir a amostra n em duas,
e n2 .
Então,
i=ix:
i = 1
a2
se = Qz
Exemplo:
Seja o modelo composto por m regressões ordina
rias e que a j-êsima regressão tenha n observações, ou seja:
m
X.
X.3
Xm
3.
ei
G2
•
e .
3
e
m
(36)
e y. = X. 3. + e .yD 13 3
E e e.
onde
117.
y. e n x 1
X. e n x k.
j ek.U
Es-te modelo ê usado na pratica para determinar
se um conjunto de m variáveis dependentes ê afetado por algum
fator não explicitado no modelo.
Suponha que E e_^ e. - a j_n Então, a ma
triz de covariância de C36) ê
XT V =
• • • o" im I
12 -*- a22 ■"- * • • °Zm I
crim I o1 I ... a I1 m 2 m mm
m x(37)
Se E = [a..J e conhecida, pode-se achar o
EMQG e obter 3 = C3x, 32, ..., 3 ) que e o MELNV.
Se fizer cada regressão separadamente a covari
anciã será maior.
Caso E = tcr-.j seja desconhecida,usam-se os e.
NOTA:
® ê o produto de Kronecker:
se A - |a...|mxn e B = |b..|m'x n1 , então
A 0 B. = IF- imm'x nn1 , onde F^. = a^B.
118.
de cada regressão para formar n e.'e., que é uma estimativa
consistente de o\ . , e obtemos £ = (n^e^e.) que é uma estima
tiva consistente de £. Então, aplicam-se os mínimos quadra
dos generalizados, obtendo B que é uma estimativa consistente
de 8.
3.5 - Analise dos Resíduos de uma Regressão
0 que e talvez mais importante, apôs estimar
uma regressão, ê analisar os seus resíduos. Por exemplo, ana
Usar um grafico dos resíduos x variável não incluída na re
gressão pode nos dizer se devemos ou não incluir esta variá
vel na regressão.
Os resíduos podem também nos dizer se existe
uma tendência temporal, porém é comum que esta tendência tem
poral esteja associada a alguma variável omitida, e descobrir
qual é esta variável é, sem duvida, melhor.
Fazer o gráfico dos resíduos versus y estimado
pode indicar existência de heterocedasticidade ou não.
119.
O grafico dos resíduos versus variável explica
tiva pode revelar que a relação entre a variável dependente e
a variável explicativa ê não-linear.
Todas estas idéias se baseiam na presunção de
que os resíduos não devem mais conter nenhuma informação; ca
so eles contenham , deve-se aproveita-la para melhorar o mode_
Io.
Para se testar a existência de um processo de
correlação serial dos resíduos existe a estatística "d" de
Durbin-Watson. Nesta estatística supõe-se que o processo de
correlação seja de 17 ordem.
n
Z e.2
X
rw n-i n-i n-
■|=1 Cei+i-. ei)2 |=1ei+12 + ?? = 1ei2 + 2? =n n
£ e.2 E e.2X X
n- 1
2 + 2-^ - 2(1 - a)
n=i
120.
Se
> O caso seja positiva "1
£ e. e, =0 caso não exista *» correlação
< 0 caso seja negativa serial
n-i
Como Q < lim < 1, a estatística d assume valo
Se.2
res Q < d < 4.
Existem valores d , d que são funções do nume
ro de observações, do numero de variáveis explicativas e do
nível de significância desejado. Os casos possíveis são:
4 - d0 < d < 4 existe correlação negativa
4 <- d <: d < 4 - d0 indeterminadou %
d < d < 4 - d não ha correlaçãou u v
d. < d < d indeterminado% u
0 < d < d0 existe correlação negativa
A existência de variáveis defasadas torna a es_
tatística de Durbin-Watson acima sem sentido,e o estimador de
mínimos quadrados viesado; e necessário usar uma estatística
NOTA:
1,6 j du - 1,
121.
corrigida de Durbin-Watson.
Exemplo: CDurbin-Watson com lag não funciona
direito)
Seja o modelo:
et
onde £ = a e + v
onde vt; com distribuição N[0,l]
b =,
= 6a
= 6a ECet^iyt_2) + a E(et_12)
Mas, ECet_iyt_2) = E(et y^)
Então,
aCvarCe,))1
11 1 - a 6
Logo, b ê viesado neste caso.
Como para acha,r d, ê preciso estimar os resíduos,fazendo
ei = yt " b yti
122.
se b e viesado, o e. também serã e a estatística d perde sen
tido.
Demonstra-se que neste caso
plim d = 2 Cl - a g2+ a )1 + 3a
QBS. : Caso exista uma variável defasada, Durbin sugeriu o
uso da estatística
h = Cl -
\2 - n VCbj)
onde VCbj) é a estimativa da variância do coeficiente
de y . Demonstra-se que h > N [0,l].
3.6 - Multicolinearidade
Quando uma ou mais colunas da matriz X e combi
nação linear das demais, a matriz (X X) ê singular e, assim,
não se pode achar o estimador b = (X X) X y.
Diz-se então existir multicolinearidade na a-
mostra. Em geral, não se tem multicolinearidade perfeita,mas
graus de multicolinearidade, isto ê, (XX) ê quase singular.
123.
Uma maneira de se medir a multicolinearidade e
obter os R2 , chamados R2 cancelados. Estes R2 são obtidosC G
cancelando uma a uma das variáveis independentes. 0 que me
nos diferir de R2, significa que a variável omitida pouco a-
crescentou â regressão.
Outra maneira ê fazer regressões das variáveis
independentes entre si. Se algum R2 obtido for próximo das
unidades, sugerindo que existe uma combinação linear de. k - 2
variáveis dependentes que explica uma variável dependente.
A multicolinearidade ê considerada prejudicial
na. prática, se as estatísticas t indicarem os coeficientes co
mo sendo zero e uma estatística F, a nível de 5% indique que
são diferentes de zero.
Uma maneira de determinar que os coeficientes
que não podem ser determinados ê a seguinte.
» t t
Seja CX X) uma matriz singular. Faça X X=P D P
onde D ê uma matriz diagonal consistindo dos auto-valores X.
de CX X) dispostos em ordem decrescente, e P a matriz cujas
colunas são os auto-vetores, P P = I.
y = X (3 + e = CxP)CP3) + e = Za+e
124.
onde
Z = X P e a = pV
As novas variáveis Z são denominadas componen-
tes principais. Seja a i-êsima coluna de Z, Z. = Xp.. Então
Z^ ê uma combinação linear das colunas de X usando a coluna
p., que ê um auto-vetor, como pesos.
Se o posto de X for k - m, ter-se-ã m auto-va-
lores nulos. As correspondentes colunas de P satisfazem a
r
CX X)p^ = 0 para estes A_; o que implica Xp. = 0. Logo os
últimos m coeficientes de a desaparecem e não podem ssr eoLi
mados .
Decompondo a = [a , a, ~[ onde a tem m elemen
tos , idem para P = [P&, Pfa] e Z = [Z&, Z^[ . Então
y = Z a + Z, a, + e = Z a +ea a b b a a
Ora,
, ~ ~ -. ~
Pg = a->-3 = P a +a a
Logo, uma combinação linear dos 3 só* pode ser
NOTA: , , ,
CX X) = CP D P )p^j mais P pi e zero, exceto na posição
M ' IIi",onde e pois Cp. ,p.) = 0 .
125
estimada se, e somente se
w 3 = w P a + w*P, a,a a b b
puder ser obtida a partir de w P a . Ou seja, w P. = 0 . Sea a d
w e um vetor de zeros com "1" apenas na posição "i", esta tes_
tando-se se 3. pode ser calculado.
i ^
Se (X X) e quase singular, que e o que aconte-
ce na pratica, faça (X* X*) onde X* e a matriz X retirado o
intercepto. Faz-se■o procedimento anterior e se retiram os m
componentes relativos aos X., que são quase zero.
3.7- Erro nas Observações e Variáveis Instrumentais
Considero novamente o modelo de regressão sim
ples. Suponha que ao se obter a amostra, se cometa um erro
sistemático na auferição da variável explicativa. Neste caso,
os estimadores não serão consistentes .
Seja X" = X + i> , onde 'ty e a matriz do erro. Su
ponha que:
E(i|O = 0
126
plim n ty X = O
-1
plim n ^ y = O ► o erro é não-correlacionado
plim n ^ e = O
Então
b = (X-VrVy = (n"1XlV'xA)~1n"1XiV'x3+(n"1X"!X")~In~1X"f1
Logo,
, -íplim b = (Q + Q ) Q0 = (Q + Q.) (Q + Q. - Q )$
= 8 - (Q + Q.)~ (
_, r _,
onde plim (n X X) = Q
Uma maneira de se contornar o problema do? er
ros de medida ê o uso de variáveis instrumentais.
Dado o modelo:
y = X $ + e
= X 3 + (e - i{> 6)
Mas,
plim n~1X:'í'(e - íj» plim n (X + i|>)tí> 3 = - Q, 8 ^ 0
e"
Reescrevendo o problema acima:
y = X 3 + e
-í
e plim n X e t4 0
127.
Procure uma matriz W, n x k, chamada matriz das
variáveis instrumentais, com as seguintes propriedades.
1) plim n"1 W X = P onde P e não-singular
-A ' n2) n 2 W e ——> Nk[0, *]
Então
' -1 'i) 3 = (W X) W y e consistente
ii)n2(3~3) e limitada por uma distribui
ção normal com media zero e co
variância P"1 $ p"1
pois :
E 3 = (W X)-1(W X)3 + (WlX)~1W*Ee = 3
e fazendo o mesmo procedimento de 3.2.5,tomando Z. = n~2w. e.
e Z". = Pn 2v/.e. mantidas as devidas hipóteses.
128,
3 •8 ~ ^9.eficÍGntes de Corre lacão-Parcial
3.8.1 - Coeficientes de correlação
Define-se o quadrado do coeficiente de correia
ção entre duas variáveis "y" e "x" como:
2 - cov2(y>x) _ b cov(y,x) _ var(a + bx)-r
var x var y var y var y
onde y = a + bx e var(a + bx) = b2 var x.
ryx2 e a ProPor1ção da variância de y explicada pela variância
de y.
Ora, o coeficiente de determinação
var y bl covCy^i) + ... + h cov(y,x, )R = = ; K JÇ_ (38)
var y var y
Para demonstrar (38) use a definição de R2.
n - n
R2 = ^=i[b2(xi -x2)+b3(xi3-x3)+...+bk(xik-xk)]
n
2 [b2(x.2-x2) • b2(x. -x2)n=x x
+ b3(xi3-x3) • b3(xi3-x3)
129
+ b. (x., -x. ) • b. (x., -x. )k ík k k ík k
+ 2b b (x. -x )(x. -x )23 12 2 13 3
2b2 b^(x.--x )(x. -x ) + 2b b (x. -x )(x. -x12 2 m i» 3 H 13 3 14 i
2b2bk(x. -
= b2 2j(xi2-x2) l =
b3
n: k
? C<xi3-x3) Z_b
n k
i=i lk k j = :
Porém,
n
n
Mas Z (x. -x0) = 0
n
x E ei = 0
x
n
Z x. e. = 0
pela condição de 1- ordem,
130,
Como
n n
E (x.. - x. )y. = £ (x.. -x.)(y. -y)i=1 xD D yi i=1 13 3 yi y
então:
b1 cov Cy , X[) + . . . + b, cov(y, x, >r2 = . 2S ÍL.
var y
3.8.2 - Coeficientes de Correlação Parcial
Vai-se mostrar aqui outra interpretação para
os coeficientes b, de uma regressão simples .
Seja y... o resíduo da regressão de y versus x15
x2, ..., xv_i • Seja x,... o resíduo da regressão de x, versus
x , x , ví., xv . Vai-se provar que b. é o coeficiente da re
gressão de y... versus x, ....
Para provar tal afirmação escreve-se
b...
b = e X = [x... x, 1 onde b... e X... são as partesk
b
relativas as k-1 demais variáveis explicativas.
NOTA: ■ £ 2 1 n ■>E e.2 _±_ E e.2Í=l - - n~^ *-l 1
Ccmo se viu,(l-R2)=-- ; na pratica,usa-se (1-R2)=- x~
R2 éo coeficiente de correlação corrigido,que leva em conta os graus deliberdade dos estdmadores.
131.
Ora,
b =
b*
b.
i i i
(X X)~ X y =
X., X.,. X... x,
Xk X* Xk Xk
1 ** y
xk'y
(x^)"1
Pelas relações desenvolvidas no Apêndice:
- xkvxk* V^
ti í
onde xk* xk. xk " xk x*(x* X*rlx* xk'
que e a soma dos quadrados dos resíduos da regressão de x,
versus
Segue que:
."1
pois, xk = xk... + xk onde xk é o vetor ajustado da regres
são de xk versus xx, x2, ..., x x.
Ora» y* e xk são não correlacionados, assim
132.
provando-se a afirmação.
0 £oe_ficiente de correlação parciaj. (c .c .p .) e
definido como o coeficiente de correlação entre v. e x . .J .; jç 5.-
cov (y,., x ,o
r ...
var y... var x, ...
t
-a Ví; var X, ... 1; 1... ,. = k ( *•• )T
var
pois, x ... e y... têm média zero.
Apresenta-se agora urna relação entre R2 e
y [I - X^X)"1 X*]y =
onde xk = X,.(X... X...)"1 X...'x
>- 1- _ ,
y*
\ _^
y*
133.
y* y* - yft'x, C.x ,. x, ,.)" x, 'y
= y.>. y... - b. 2 CxT ... x, ...)~
* y* - Cl - r^;
Ou seja:
Usando C13):
Cl - R2) = Cl - Ra2)(1 - r2 ax )
onde R... e o coeficiente de correlação de y versus x , x ,...,
x,k-i
Para se testar a significância de c.c.p. usa-
se a estatística t relativa a b, , ja que o c.c.p. e uma fun-
çao monótona da estatística t, e que
Tc* xk^'
v a Cn - k)^ Cl -
1 .: 1
134
APÊNDICE
- x ê uma V.A. normal unidimensional (N[y, a2]) Se
f.d.p: fCx) = -^- ecr/2 ir
- °° < X <
onde \i & a media e oz a variância.
- x e uma V.A. qui-quadrada com v graus de liberdade
C.XCv)2) se:
v x
T"1 T
f.d.p.: fCx) =
;• nh
x > O
Demonstra-se que uma V.A. X2fv) é a soma de v nor
mais N[O,lJ. A media ê v e a variância 2v.
- x ê uma V.A. t de Student com d graus de liberdade
CtCd)) se:
f.d.p.: f(x) =
d
- oo < X < oo
135.
Demonstra-se que uma V.A. t, , s ê o quociente
A media e a variância de uma t,,. são, respectivamente,
d xzero e
- x ê uma V.A. F-Snedecor com (di, d2) graus de liberda
de F,, , >. se:Cd ,d2 )
rUdu+dz),.,) (d,/d2)
1/2) rcd2/2) (1+( i jC—j—)
a2
x > 0
Demonstra-se que F,, , . ê o quociente
Y2X Cdi)
Cd2)
136,
Seja £ uma matriz simétrica e R = E_ i
Pode-se escrever:
'21 u 2 2
RX1 R
R21 R
1 2
2 2
I 0
0 I
Ou seja:
i í Ri í + Ei 2 R21
2! Rx! + Z 22 R2í
R22 ~ 0
2 + ^2
Multiplica-se Clb) por S-i
2 2
R21 --E- 1
22
Substitui R21 em Cia)
(Ia)
(lb)
(2a)
(2b)
Transpondo-se R21
R2 j
= - Ri!-1
'2 2
pois Rx x e £-1
22 simétricas e E21
Ora, R21 = R12, então
Rií Ri 2
137.
Desigualdade de Rao-Cramer. Caso multidimensional.
Considere uma amostra x = (xx , x2, ..., x ). .
Se LCx|9) a distribuição conjunta dos x. para um dado 0,
onde 0 e um vetor.
Para um dado x e 6 variável, L(x|6) ê a F.V.
Ora:
í °°LCx|8)dx = 1
J —00
Fazendo as mesmas hipóteses sobre derivações feitas no
Capítulo 2 para o caso unidimensional:
ou I * L L dx = E- d log L = 0 (1)-» 30 30
Derivando-se outra vez:
9 log L
<x> 3e 30
fou f Ü2ÍLJ; 9 lQg L Ldx = -E 9 lQg,L R(8) (2)Joo 30 30 39 39
onde RC9) e chamada matriz informação de Fischer. R(8) ê a co
variância do vetor —, e este vetor tem media zero por30
(1).
138.
Um estimador de 8 3 deve ser uma função vetori-
al gCx) onde x - Cxx , x2 , . . . , x ) .
Suponha que gCx) seja um estimador não-viesado.
E|g(x)| = I gCx) LCx|9 )dx = 9J oo
Diferenciando em relação a 6 :
gCx)
80
L dx = E[gCx)
99
onde gCx) ê um vetor coluna e 8 }°& L um vetor linha com me-d U
dia zero.
Considere a covariancia de g(x) e
cov
gCx)
3log L
99
'cov g(x) I
R(e)
Como a matriz covariancia ê uma matriz positi
va semi-definida, a matriz acima também é.
_i
Tome um vetor Cl - R (0))Z onde Z 4= 0
[z - r" (e)z J cov g(x) I
R(8) r 1(e)z
= Z [cov g(x) - R 1(9)]Z > 0
que ê a desigualdade de Rao-Cramer.
139.
CAPÍTULO 4
REGRESSÕES NAO-LINEARES E SÉRIES DE TEMPO
4.1 - Introdução
De certa forma este capitulo é uma extensão do
capítulo anterior, mas aqui os problemas colocados não são ne
cessariamente lineares, exigindo portanto a separação dos ca
pítulos.
Na seção 4.2, discute-se o que fazer quando o
modelo for nao-linear e se introduz o método da mínima distâri*-■
cia.
Na seção 4.3, discute-se uma generalização do
modelo de Box e Jenkins para o caso de um sistema de séries
temporais. Cita-se o teste de hipótese a ser usado, que ver_i
fica se a série ajustada é. boa ou não. Mostra-se como usar o
método da mínima distância para estimar os parâmetros de uma
série temporal e apresenta-se de forma informal a obtenção
das funções de máxima verossimilhança, que tem a mesma fina
lidade .
mo.
4.2 - Não-Linearidade
4.2.1 - Regressões não-lineares
Suponha que se deseje estudar um fenômeno cuja
forma seja nao-linear nas variáveis independentes ou nos para
metros. Por exemplo:
ou
(Fig.l)
(1)
(Fig.2)
Nao ê possível llnearizar
as equações acima, e ignorar a
não-linearidade do modelo pode
Fig. 1
levar a erros crassos. (Fig.3) Fig. 2
Por analogia, tenta-se a-
justar uma curva que minimize
a soma dos quadrados dos resí
duos .
yt
Fig. 3
141,
Por exemplo, minimizar:
n i n
e.2 = ~ Z Cy_ - 0i -32t=i ■ t=i
2 - 1 r fv R R v B3 ^2t- :_.^t - ~ L.Cyt 3l "3z xt )
ti 2 M
onde o —2~" serve apenas para facilitar as contas. Derivan-
do-se em relação a Bi, 32, e 63 obtém-se o seguinte sistema
de equações:
n o
£ Cy. - 3a - 32x.P3 )(-l) = 0t=i
n
l Cy - 3, - 32x 3s)x33 = 0t=i
E Cy. - 3i - 32x.B3 )x,33Jlnx. = 0t=l T T t T
Este sistema e não-linear em Bi» 32, 33-
A forma geral para os problemas anteriores ê
onde x. e um vetor il-dimensional das variáveis independentes,
e 0 um vetor k dimensional dos parâmetros.
Por hipótese, e tem media zero e variância a2.
Poder-se-ia pensar num sistema de regressões
nao-lineares, como por exemplo:
142.
yt-r = g-Cx 6) + e _ri i t ti t - 1,2,...,n
i = 1,2,...,m
Para facilitar a notação escreva:
onde o "•" depois das variáveis significa que são vetores.
Por hipótese:
Ee=0 mxl E e. . = 0 nxl
cov e = fi m x m cov e^ . = w. . I n x nt• ti íi n
Ao minimizar a soma do quadrado dos resíduos
se esta procurando uma "curva de melhor ajuste" e no caso on
de hã mais de uma variável independente uma "superfície de me
lhor ajuste" em |K .No caso do sistema esta se procu
rando o"conjunto de superfícies de melhor ajuste" em'^
NOTA: Demonstra-se que se os e são normais, aplicar os
mos quadrados ou a máxima verossimilhança e a mesma
coisa.
143.
4.2.2 - Método da Mínima Distância
Se as equações em C3) fossem lineares,aplicar-
se-ia, como no exemplo de 3.4.2, o método os mínimos quadra
dos generalizados. Este método contitui em minimizar:
Cy - X 3) V"1Cy - X 6) = eV^
com respeito a £ 5 onde V é proporcional a matriz covariância
de e. No caso V = ti 8 I , onde ti = cov e , e ti e definida
positiva.
Então, para o caso não-linear tenta-se por ana
logia minimizar a função:
LnCSn' 6) = ~ ^
onde Sn e uma matriz m x m a ser determinada como uma estima
tiva de ti.
Para se estudar as propriedades assintóticas do
estimador de mínima distância (EMD) trabalha-se com a 'expan
são de Taylor da função gCx. , 9).t •
Dado um x fixo, obtenha a expansão de
g,,(9) = gCx , 6) na vizinhança de 6Q , o verdadeiro valor de
144,
, mas lembre-se que 0q ê desconhecido.
9g, C0ogt. - gtt C0o: ) + —-—j— C0 - 0o ) = g^ C0 ) +
9 6 t-
onde
3gti
9gtm90i 90 2
9gti
9gtm
90,
m x k
onde a.s derivadas em Z são calculadas em 0o , e (0 - 0o )
k x 1.
Então, omitindo o erro da expansão de Taylor temos:
= g+ CQo ) + Z. (0 - 6o ) + e . (5)
Chame ©CS ) o valor de 0 que minimiza
1n
2n t =
-g+ C0o)-Z. C6-0O )] 's [y. -g. (0o )-Z, (0-0o)] (6)• x. x -Jnt. "t. t J
Ora, ^Sn) não pode ser calculado na pratica, pois as de_
rivadas de Z são calculadas em 0o 1ue e desconhecido. Mas os
resultados aqui obtidos serão importantes mais adiante.
Derive C6) em relação a 0 obtendo:
145.
I
n E Z S [y. - g. C0Q ) - Z (0 - 60 )] = Ot=1 t n t. t. t
que implica:
£_iZt'sn Z^Vi E Zt'Sn
Fazem-se, então, as seguintes hipóteses:
Ci) Para qualquer matriz simétrica positiva definida
S m x m, a matriz
-í n iM CS) = n E Z s Z.
t = 1
converge para uma matriz positiva definida M(S) quan
do n -> °°.
C_Ü) A matriz Sn usada para definir o estimador de mínima
r-'
distância converge em probabilidade para uma matriz
S positiva defin5.da.
Ciii) As derivadas de g (9) na matriz Z, são limitadas.X • X
Esta hipótese junto com as anteriores implica que:
í n 'n E Z. (S - S)Z^
• ■ t=i t n t
converge em probabilidade para zero, ou seja:
lim M CSn) = M CS)n^oa
146.
A soma:
1 n
(8)n" S Z S[y - g C90 )]
e a soma de vetores aleatórios independentes m-dimensionais ,
que tem pelo teorema Central do Limite uma distribuição nor
mal quando n -*■ °°.
Na vizinhança de 8o, Cy. - g, Oo )) tem mé-t • t.
dia zero e matriz covariância Í2. Então (8) terã na mesma vi
zinhança media zero e covariância:
-i n 'n £ Z S fi S Z
t=i x
e que tende para MCS £2 S).
Pela hipótese Cii) tem-se que
_1 n »
t=i t n t. t.
converge em probabilidade para zero, ou
~2 £ Z 's [y - gt
NOTA:
C1) Observe que S é uma matriz simétrica.
C2) Para [8 - 8Q j suficientemente pequeno,a media ê tão
pequena quanto se queira, e a distribuição tende de
fato para uma normal.
147.
converge em probabilidade para (8).
Mantidas estas hipóteses, tem-se que /n(0 -60)
converge em probabilidade para uma distribuição normal com me
dia zero e matriz covariância:
[MCS)]"1MCS Í2 S)[MCS)]"1
na vizinhança de 9o .
Faça, agora o mesmo procedimento sem linearizar
gt<• Derivando C4) relação a 6:
n
30 t=i 36 n t. t.
onde ó e o CEMD)que e obtido pela solução do sistema (9).
Para estudar a consistência de 0 observe que
3L (S ,6o) x n ,
■^ ; = ~ n" E = i Zt Sn[yt< - gt#(80)] (10)
onde n2 vezes (10) nada mais é que (8).
Ora, (8) converge para uma distribuição normal
com media zero e covariancia MCS fi S) na vizinhança de 6o , o
que quer dizer que CIO) converge em probabilidade para zero.
Ou seja, a primeira derivada de L tende a zero quando n -> QD.
Ora, tem-se também que a matriz das segundas derivadas em é:
148.
32LnCSn,90)
39 39
-i n -i nn E^ Sn Zt - n Z^
, -0% (9q)
36! 30
-gt.(6o)] Sn3^.(00)
30, 30'
(11)
onde
nm x m
30 30 '
k
m x k
Logo, a matriz entre chaves ê k x k.
Caso se reforce a hipótese (iii) exigindo que
as segundas derivadas de gt#(8) também sejam limitadas, a ma
triz entre chaves é uma media amostrai de n vetores V.A. in
dependentes que tem media zero, pois [y - g (9o )J temt. f
mé-
dia zero. Logo, pela Lei dos Grandes Números este termo con
verge para zero e:
lim -> M(S)
30 30
onde MC.S) e positiva definida.
Tendo em vista que o limite de probabilidade
de CIO) ê zero e que o de Cll) e uma matriz positiva definida,
149.
então, para n suficientemente grande tem-se que 0O ê um míni
mo local de L^, com uma probabilidade 1 - e, onde e ê arbitra
rio.
Com esta probabilidade Cl - e) ter-se-á que 9,
que minimiza LnCSn,0), estará num intervalo 60 ± 6. Então, 0
ê consistente.
Teorema:
Dadas as hipóteses:
_i n i pCi) n E Z S Z > MCS) matriz positiva definida
t= i
(Ü) S^ > S matriz positiva definida
Ciii) As derivadas ate terceira ordem de g C0) são limitadas.
Segue que o CEMD) 0 ê consistente e /n(0 - 0O) tem no
limite uma distribuição normal com media zero e matriz cova-
riância [MCS)]~ MCS ft S)[MCS)]"1
Demonstração
A consistência já foi demonstrada.
NOTA:
É possível apresentar condições, a fim de que 0 seja mi
nimo global.
150,
Fazendo a expansão em series de Taylor de
39
na vizinhança de
39
32L (S ,9o ) ~+ —n_Ji.— o
39 39
CO - 9Q )
C9 - 90 ) Bx
(9 - 90
onde B. = n39 39 39.
onde 9 5 9* 2 90 .
Pela hipótese Ciii) o último termo converge pa
ra zero.
Fazendo:
3L CS ,9)n . n'
39
= 0
Vem que:
32LnCSn,90)
39 39'
í n
t=i
onde <f> ê o termo que tende para zero
(12)
Compare C12) com C7) e nota-se que a matriz a
ser invertida em C12) converge para M(S), o mesmo que aconte-
151.
ce com a matriz a ser invertida em C7).
Logo, a distribuição de (12) tem o mesmo limite que (7).
A pergunta que falta é: que matriz S deve ser
usada para construir o (EMD)?
Pelo Teorema de Gauss-Markov, no caso do mode
lo Ünearizado, dever-se-ia usar ft~ que garante que a distri
huiçao limite de /nC8 -0a), que é a mesma de /n(8 - 80 ) , te
nha variância mínima, se fi for conhecida.
Se fi for desconhecida, usa-se fi= £ e. e.n . t» t»
Suponha â priori S = I e estime 6 .
Então, e. = y, - g. (6 ) é usado para estimar fi, com o
que se estima 9.
Iterações subseqüentes não são üteis, já que a
matriz covariância e no limite LM(S)]"1 M(S ^ S) [M(S)"]~>
e se S ■> ^"^tem-se esta matriz como [ M(fi )]]
152.
4
4
4
4
Modelo linearizado
4
4
4
4
« -1
mm L=e V e
4
4
4
4
Sistema equaçõest
L =0
4
4-
4
4
__EMQG ê6 não pode ser
calculado
4
4
4
4
4
4
4
4
4
4
4
4t
min L =e S e
4
4
4
4
Hipótese
4
4
4
4i
t » nn > °
Ln" > >4
4
4
4
Hipótese
4-
4-
4-
Õ tem umadistribuição limite ->distribuição 9
limite
Sistema equações
Ln'=0; EMD 84-
4
4
Hipótese
4
4
4
I
4
4-
> distribuição 6
limite
4
,-1
Então,usa S=V que minimiza a
variãncia da distribuição
e calcula 6
153,
4.3 - Series Temporais
4.3.1 - Modelos AR, MA e ARMA
Ao estudar-se a evolução de certas variáveis ao
longo do tempo, observa-se a existência de um vínculo entre o
valor da variável no passado, fatores aleatórios no passado e
no presente e o valor da variável hoje.
Seja {v-j-} uma seqüência dos valores da vat = -oo ~
riável y. Supoe-se que para todo instante t, y seja uma va
riável aleatória.
Se a distribuição conjunta de ... y _ ,y ,y ,
y_t-+ j ) ...for independente do tempo, diz-se que a serie y e
uma série estacionaria. Se apenas os dois primeiros momentos
da série independem do tempo, diz-se que a série é fracamente
estacionaria.
Define-se como um ruído branco uma V.A. e on
de:
E e = Q E e e . = 0 V j 4. 0
E et2= o2 < o° E yt et_. =0 V j
154.
Apesar dos ruídos brancos não serem comuns na
natureza e em economia, eles servem para modelar tais fenôme
nos de forma satisfatória.
Da mesma forma que se fala acima de uma série
y, escalar, pode-se pensar em y. como um vetor onde cada com
ponente e uma variável em estudo, e e como um vetor cujos
componentes são ruídos brancos.
Os modelos mais usados são os seguintes:
Auto-regressivo de ordem p AR(p)
yt = ai yt-i + a* yt-2+ ••' + ap yt-p + £t
Medias-moveis de ordem q MA(q)
yt
Auto-regressivo Medias-moveis p,q ARMA(p.q)
- 4. 4- 4- 4-1-1 C 4- 4-K C" ( 1 S ")
Pensando em termos de vetores, ter-se-ia:
(16)
onde A., B. são matrizes, y., e- são vetores.
A equação C16) pode ser reescrita como:
155
't-q+
ApB] B
O
O
O
I O
" y-t-L"
yt-2
•
•
•
et->
et-2•
•
•
+
" et
0
•
•
•
et
0
»
•
•
0
Ou seja, qualquer dos modelos anteriores pode ser redu
zido a forma:
Yt - A Yt->+ (17)
onde Yt, e^ são vetores de vetores, e A matriz de matrizes.
4.3.2 - A Ideja básica e Diferenciação de séries
A idéia básica dos modelos acima e, escolhidos
p.q. iniciais por algum critério, mesmo que arbitrário, esti-
NOTA:
Suponha, por enquanto, que E y = 0.
156.
ma-se a matriz A pelo método da máxima verossimilhança Ou o
da mínima distância,. Então verifica-se, por um teste de hi
pótese, se os e^ ajustados são vetores ruídos brancos. Para
fazer-se o teste usa-se a estatística multivariada
"Portmanteau" de Hosking.
Uma pergunta que pode ser feita agora ê qual
a vantagem de se trabalhar com um sistema de séries de tempo?
Ao trabalhar com um sistema pode-se captar o
efeito das variáveis entre si, determinar qual a variável que
lidera e quais as que seguem e, certamente, ao se usar um
sistema esta se usando mais informação do que com equações in
dividuais. Logo, a estimativa dos parâmetros é mais precisa.
Pode acontecer que haja componentes do vetor
y que não sejam estacionãrias e que y-t'
apresentem uma tendência. Ora, neste
caso, nem a média nem a matriz cova- ■t
riancia sao estáveis ao longo do tem- Ay.
po. Diferenciando estas componentes
da seguinte forma:
157
A yit = yit - yit
e passa-se a trabalhar com a componente diferenciada. Pode-se
diferenciar quantas vezes necessário for, mas não ê comum di
ferenciar mais do que duas vezes.
No caso de um sistema de equações, seria possí
vel que os acréscimos de uma variável fosse função do modulo
de variação das demais, o que nos daria a impressão de ser
uma tendência. Neste caso, diferenciar não teria muito signi_
ficado.
De qualquer maneira, poder-se-ia incluir no ve
tor Y. o modulo das variações de cada componente.
Supondo que Y. seja um vetor estacionãrio,pré-
multiplicando a equação (17) por Y , e tomando o valor espe-*C — .K
rado obtêm-se:
t t
k t t-k . t-i t-k
onde F, ê chamada matriz auto-covariância,
Segue que:
rk = Ak r0 (18)
158,
Define-se:
Y-. , , = E y* y. - função auto-covariancia
Y».u=Ey.y.1 - função covariância cruzadaXj5K IX 1I-K
Yii k ~p . « -. = —— 2 - função auto-correlaçao
Yii k ~p. . , - — r - função correlação cruzada
3' (y y )2
160
Então, = E
Yk Yk+i •' * Yk+p-i
Yk+1
'k+p-i Y,
onde
Y21,k
Y
Y1
nu ,k ...Y'mm,k
4.3.3 - Condição para Serie ser Estacionaria
A matriz ro ê a matriz covariância do vetor Y .
Sua diagonal são as variâncias dos componentes de Y. e os de
mais elementos as covariancias. Os termos nulos são as vari
âncias E e.. e.. , e as covariancias E y. e. , . As variãn-lt lt-K J- L j L Jv
161.
cias indicam as flutuações e as covariâncias os co-movimentos.
Uma vez estimada a matriz A pelo método da má
xima verossimilhança, pode-se estimar rQ . Usando a equação
C17), multiplicando por Y e tomando o valor esperado:
EY Y =AFY Y A + P c- r
r0 = a r0 a" + z
pois, E Yt_i et = 0
Então, ro pode ser obtida por iteração onde Z pode ser
estimada a partir de = y .^ , onde y. é" o valor a
justado e y. o valor real.
eit
M.t
'2t
'mt
A solução para T no processo iterativo existe
e o pr>ocesso converge se, e somente se, os autovalores da ma
triz A forem em modulo menor que 1.
Fazendo Y. • = A Y._. + e .L J L J L J
sucessivamente
em C17) pode-se escrever:
162
Yt = £t + A Vi + A' Vi
Então:
To = Z + A Z A + A2 Z AZ + ...
Supondo que A satisfaça às condições para que se possa
escrever A = B D B~ , onde D e uma matriz diagonal, tem-se:
rQ=£ + BDB 2B1DB + BD2B1EB1D2B +...
Fazendo W = B"1 EB"1 ' :
TQ =BWB +BDWDB* + B D2 W E2 B' + ...
Fo = BCW + D W D + D2W D2 + . . . )B*
= BCw.. + „.. Xi X. + Wij X^X.2 + ...)B' (18)
onde o termo entre parênteses corresponde ao elemento ij.
Então, a partir de C18):
Io -d L J B
Logo,
-*■ se Y for fracamente estacionaria implica |X.| < 1 pa
ra existir TQ .
<- se | X • | < 1 então existe Fo < °° e por construção
F, = A Tft o que implica y- • v independe de t, e
163.
= Cl + A + A2 + . . . )E
Logo, Y, e fracamente estacionario.
E Yt Yt_k
Note que y, ser estacionario implica que
vale para todo t.
Dada uma amostra de um vetor Y,, feitas as de
vidas diferenciações, ê também interessante subtrair a media,
mesmo que a componente não apresente tendência, o que é o me£
mo que diferenciar uma vez.
Doravante vamos supor sem
pre Ey . _,_ - 0
yit
As auto-covariâncias da amostra são:
k u n yit yi yit yjtjt-k]
De forma análoga as correlações:
A matriz R deve tender para a matriz nula quan
do k aumentar se Y for um vetor estacionario. Pois, como se
viu, ser estacionario implica em segundos momentos finitos e
164.
F - A ro. Ora, como os auto-vetores de A têm \\\ < 1,
Se R, não tender a zero, deve-se verificar na
amostra Y alguma componente a ser diferenciada.
- Estimativas Iniciais de p,q e
Teste de Hipótese
Para um processo univariado auto-regressivo
ter-se-ia:
't
10
1
10
yt-l
yt-2
V
(19)
Multiplicando por y.t-_T<. e tomando o valor espe_
rado:
Yk
Yk-i
Yk-p+i
l o
o í.
1 o
Yk-i
k-2
Yk-n
(20)
165.
Ou seja,
= A y 1, onde y indica um vetor dos y.
Então
% ' (21)
Logo :
Y yk-p
(22)
Ora, fazendo A = B Dk B"' em (21)(V. NOTA):
Yk = [bn bi2-« b1 Yn
bP Y,
b1 Y0)X1K+ (bl2--b2 y bpy0)X k
p
Ou seja, y^ é" uma combinação linear dos X..
Sob a condição |X.| < 1, y tende a zero quan
do k -♦•-«>.
Suponha que Xx seja um auto-valor complexo. En
tao A vi = Xj Vi -*■ A vi = Xj Vj , ou seja o conjugado de Xjtam
bem e auto-valor.
NOTA:
bi i » t>i2>... são elementos de B
e b e a i-esima linha de B~ .
166.
Tem-se que b sao autovetores de A, pois supo-
nha existe i tal que b1 B D -t- b1 B Xi, então B~ B D ¥• B~ B D
que e uma contradição.
Se b e um auto vetor complexo associado a Xla
faço b ser o auto vetor associado a X2 = Xlt
De forma análoga se mostra que bXi e b12 são
conjugados, caso Xx seja complexo e X2 = Xlt
Fazendo:
(bM bxYo) = s e1^ e Xl = v ei9
(b12 b2Y0) = s e"1* X2 = r e"19
Então
Yk = s rK(e K + e K ) + ...
= s rk 2 cos(9k +*)+...
Ou seja, Y-. e sempre um numero real, e a existência de
um autovalor complexo em A implica numa componente oscilato-
ria amortecida em y, de freqüência angular 8.
NOTA:
a • b = a • b
167
Para ura processo multivariado auto-regressivo
A =
Ai. A2 . . . A 0P
I .
I
0
0
0 0
0 I
I 0
Note que y0> Ti> •••YD_i devem ser determina
das pela iteração.
rk •**Yk+p-i
Yk+p-i '"
0
A, A, . . .A 0 0i 2 p
•I,
I .
-'IO
Yk-i '"' Yk+p-2 0
Yk+p-2••• Yk-i
Então, para k > p :
Yk+p-i Yk+p-2v, + . . . + A y, , (23)'k+p-3 p 'k-i
As matrizes Y decaem para zero,pois F, = A Fo ,
mas aqui decaem segundo (23). Denomina-se (23) de equações de
168.
Yule-Walker.
Para um processo multivariado de médias moveis
A =
0
I•
•
I
0
Q
0
0
0
B
0
I
I Q
Ora, aqui pelas equações (23) Yk = 0 para k > q.
Esta é uma diferença fundamental entre os pro
cessos auto-regressivos. e os processos médias moveis
Auto regressivos - yv decai lentamente
Médias moveis - y, acaba bruscamente.K
Se Yv acaba bruscamente na amostra, nosso pro-
cesso ê, sem duvida nenhuma, de médias moveis e o q inicial e
sugerido como q = k. Caso contrário, o processo poderia ser
auto-regressivo ou ARMA.
Se o processo for puramente auto-regressivo as
169.
matrizes A. podem ser determinadas por regressão simples,
pois:
onde a. ê a i-iêsima linha de A..1 3
Feitas as regressões dos Y-+3 1 < i < m,
montam-se as matrizes A^, e pelos testes de hipóteses discuti
dos no capítulo anterior, se determina a partir de que valor
P as matrizes A- são nulas. Usa-se este valor como aproxima
ção inicial de p.
Então, num processo auto-regressivo as matri
zes A- devem ser zero bruscamente. Caso contrario, se as A.
decaem lentamente, por exclusão, usa-se um processo ARMA.
Caso se opte por um processo ARMA, adota-se p
como sendo o valor, a partir do qual as A. são suficientemen
te próximas de zero, mas aqui elas decaem lentamente, e o mes
mo com os Y para obter o valor inicial de q. Assim se esti
mam os valores iniciais de p, q.
Então, aplica-se o método da máxima verossimi
lhança para se obter as matrizes A-, B..
170.
Faz-se, então, o teste de hipótese introduzido
por Hosking (19 80), onde:
J t t t-r
onde e é o vetor resíduo obtido usando e. = v. - vx ít ^ít yit
C = (C1? C2, ... Cs)
vec C = (c1M,c211,...c121,...c112,...cmms)f
Demonstra-se que:
n vec C (I 8 C 9 C ) vec C ^ x22.s m (s-p-q)
onde s deve satisfazer certos requisitos, como s < n.
Este teste diz se se pode ou não conside
rar et UTi vetor ruído branco. Caso não se possa, alteram-se
os valores p e q, ate que se possa.
4*3*5 ~ de Modelos ARMA
Uma boa estimativa destes parâmetros é pela uti
lizaçao do método da mínima distância, que nada mais é que
minimizacao da soma do quadrado de resíduos.
uma
171,
Seja:
et = yt " A! yt-, - •■• - AP yt-P " Bi et-, - ••• - Bq et-q
Supondo
e = e = . . . e =0p p-i P+i-q
Minimize:
E e S"1 e (1)t=p+i
-i n 'e S = (n - p) £ e ° e o
t=p+i
O processo iterativo e da seguinte forma:
a) Supõe-se S = I
b) Minimiza-se (1) em relação a todos os para-
metros desconhecidos de A., B..
c) Com os parâmetros estimados em (b) estima-
se e. ° e, consequentemente, S°.
d) Substitui-se S° em (1) e repete-se o proce
dimento.
Este método foi sugerido'por Malinvaud(1970).
Outras estimativas de parâmetros foram sugeri
das por Wilson (1973) e Hillmer e Tiao (1972). Nestas estima
172.
tivas acha-se uma aproximação da função verossimilhança e, en
tão, faz-se a minimização sem qualquer iteração,
Para um processo auto-regressivo multivariado
da forma:
yt = et + Bi £t-i Bq
supõe-se que os e são vetores normais, independentes, e tem
covariância
Uma amostra com n observações yx, ... y nes
te modelo oode ser escrita como:
Vi
y,
n
rI
B Bq q-1
Q *. 3 Bi In
•
0
. .Bx"
..B2
•
Bq
-q+i
e-q+2
o que e o mesmo que
(2)
y = De + C £... (3)
Então, as matrizes D, C são funções das matrizes B.
Reescrevendo (3)
L-D ' C D _-1
y .
"o
y -
d"1 c.
it= Z - Xb
173.
onde
Z =
D-1
- I
X =
£,.= b.
Supor que (e...,e) tem distribuição normal com
media zero e matriz covariancia I , ® Z = Z , então, tem-n+q n+q
se :
n+qexP{- ^
n+qÉ1-. (4)
onde, « significa proporcional
Faz-se, então, uma mudança de variável para ob
ter-se:
2 exp[- -kz - ~^ (Z - Xb)] (5)
Para se achar a fdt> de y se integra em b.
Demonstra-se que fazendo
Z - Xb = Z - Xb + Xb - Xb
NOTA:
|A 8 B| = |A |m |3|n se A n x n B m x m,
onde b = (X E-1 X)-1X E~ Zn+q n+q
174.
e substituindo no expoente de (4), obtém-se:
L(B,E |Z)«|E'n+q
exp{—g—(!'n+q 'n+q
Xb)}
Porem
(6)
%~1 z = y' [o d"1 '] Fe"1 o1n+q J l q
0 1
D"1
y = y D E D y
X
i _
)n x = [-1 cV1'] "x oiq
o en
_ T
d"1 c
nA = Anq
Note que e... = b
Então, se reescreve (5) como
L(B,E |y) <r|s | 2 |Ai"2 exp(- h - eA A
Faz-se, então, duas hipóteses simplificadoras
- e... = 0
- ignora-se |E | 2 |AJ~2
Então; L(B,E|y) «n
"^ exü(- ^ y D~ E~ D~ y)
Este resultado foi obtido por Wilson (.1973)
No caso de um modelo ARMA
175,
yt = A, yt_1 B
pode-se escrever
' I
-A.
-A
-A IP*- i
p+1
I
Bi
B2
*
B
I
Bi
B
-q+i
'n
B B . . .Bq q-i i
B
B -
•-q+i
-q+2
A AP
* .A
• • • /\.
' A
y_P+2 (7)
A princípio se supõe p = q, se p ¥=> q faz-se as matrizes
A.., ou B.. que faltarem zero,
Se escreve (7) como
176.
-C. DAA A
y^ fb o
CB DB
V
(8)
onde yj = Cy2, . . . , y ) e y2 = Cy , ...y),eva soma dos
dois últimos termos de (7).
Hillmer e Tiao C19 79) demonstraram que quando
n ê grande, apenas a linha inferior de (8) é relevante, ou se_
ja, despreza-se F. e FR e recai-se no problema (2).
Apôs as devidas mudanças, chega-se a
LCA,R,E|y)
Cn-p)
expC- T w2 DR En_. w2
(9)
onde w2 = DA y2 - CA yx