modelos espac˘o de estados profa. airlane alencar depto de ...lane/mae5870/statespace.pdf ·...
TRANSCRIPT
'
&
$
%
MODELOS ESPACO DE ESTADOS
Profa. Airlane Alencar
Depto de Estatıstica - IME-USP
www.ime.usp.br/∼lane
1
'
&
$
%
Motivacao
Propor e ajustar um modelo que apresenta componentes naoobservadas. Essas componentes podem ser:
• tendencia, sazonalidade;
• dados faltantes.
Harvey (1961): Filtro de Kalman para obter EMV viadecomposicao do erro de predicao
2
'
&
$
%
Modelo Espaco de Estados
yt = Ftxt +Dtzt + vt, (1)
xt = µ+Gtxt−1 + wt. (2)
em que:
1. xt e um vetor p× 1;
2. zt e um vetor de variaveis conhecidas r × 1;
3. Ft e a matriz de observacao q × p;
4. Dt e uma matriz q × r;
5. Gt e a matriz de transicao p× p;
6. vt iid ∼ Nq(0, V ), wt iid ∼ Nq(0,W ) e assumiremos vt e wt
3
'
&
$
%
nao correlacionados apenas para simplificarmos a apresentacaodo modelo;
7. x0 ∼ Np(ν,Σ).
A equacao (??) e denominada equacao de observacao e relaciona ytcom uma variavel nao observada xt, de ordem p× 1, denominadavariavel de estado. A equacao (??) e denominada equacao deestado. Note que a variavel de estado xt deve conter todainformacao necessaria para que sua dinamica dependaessencialmente de xt−1.
4
'
&
$
%
Espaco de Estados - Aplicacoes
Muitos exemplos de aplicacoes utilizando modelos espaco de estadossao encontrados em Shumway e Stoffer (2000), Harvey (1990) eKim e Nelson (1999). Dentre diversos exemplos destacamos:
• analise de parametros biomedicos monitorados ao longo dotempo com muitos dados omissos (Jones 1993);
• modelos ARMA podem ser analisados sob a forma espaco deestados;
• construcao de indicador economico coincidente extraindo acomponente comum de diversas variaveis macroeconomicas(Stock e Watson 1991).
5
'
&
$
%
Exemplo 1 - Modelo AR(2)
yt = φ1yt−1 + φ2yt−2 + at, t = 1, . . . , N
yt =[
1 0]xt
xt =
et
et−1
=
φ1 φ2
1 0
xt−1 +
at
0
6
'
&
$
%
Exemplo 2 - Modelo MA(1)
yt = µ+ θat−1 + at, t = 1, . . . , N
yt = µ+[
1 θ] at
at−1
xt =
at
at−1
=
0 0
1 0
+
at−1
at−2
+
at
0
V =
σ2 0
0 0
, W = 0
7
'
&
$
%
Exemplo 3 - Modelo Regressao Linear
yt = ztβt + at, t = 1, . . . , N
com yt variavel resposta, zt variavel explicativa e βt vetor decoeficientes desconhecidos. Podemos considerar
• Modelo estatico: βt = β;
• Modelo dinamico: β = βt−1 + wt.
8
'
&
$
%
Inferencia
A modelagem na forma espaco de estados envolve as seguntesetapas:
• definicao do modelo identificavel;
• fixados os parametros do modelo, utiliza-se o Filtro de Kalmanpara obtencao de previsoes lineares de mınimos quadrados parao vetor de estados.
• estimacao dos parametros;
• avaliacao do ajuste do modelo.
9
'
&
$
%
Identificabilidade
Podemos parametrizar os coeficientes e a estrutura de correlacaoem funcao de Θ, vetor k × 1, de modo que: Ft = Ft(Θ), D = D(Θ),µ = µ(Θ), G = G(Θ), V = V (Θ), W = W (Θ), ν = ν(Θ) eΣ = Σ(Θ).
Segundo Rothenberg(1971), um modelo e dito globalmenteidentificavel em um particular parametro θ0 se, para qualquer valorde θ, existe uma possıvel realizacao YT = (y1, . . . , yT ) tal que ovalor da verossimilhanca em θ seja diferente do valor em θ0.
10
'
&
$
%
Quando nao temos identificabilidade? E mais facil entender,considerando, por exemplo:
yt = Fxt + vt,
xt = Gxt−1 + wt.
com yt e xt escalares.
Note que se considero (2xt) = G2xt−1 + (2wt) e F/2 obtenhoexatamente o mesmo modelo. A funcao de verossimilhanca tambemsera a mesma.
11
'
&
$
%
Filtro de Kalman
Seja ys = (y1, . . . , ys), o vetor de informacoes disponıveis ate oinstante s. Supondo o parametro Θ conhecido, o filtro de Kalmanconsiste no algoritmo que fornece um estimador para xt baseadoem ys. Adotando a notacao apresentada em Shumway e Stoffer(2000), definimos:
xt|s = IE(xt|ys),Pt|s = IE[(xt − xt|s)(xt − xt|s)′|ys],Pt1,t2|s = IE[(xt1 − xt1|s)(xt2 − xt2|s)′|ys].
Sob a hipotese de normalidade, obteremos o estimador xt|s e suavariancia Pt|s. Mesmo sem a hipotese de normalidade, osestimadores obtidos sao os que minimizam o erro quadratico mediona classe dos estimadores lineares (Shumway e Stoffer (2000)).
12
'
&
$
%
A partir dos valores iniciais x0|0 = µ e P0|0 = Σ, o Filtro deKalman apresenta equacoes de predicao para s = t− 1 e deatualizacao para s = t, com t = 1, . . . , T .
Equacoes de Predicao
xt|t−1 = µ+Gxt−1|t−1,
Pt|t−1 = GPt−1|t−1G′ +W.
Considerando o conhecimento de yt, atualizamos a predicao.
Equacoes de Atualizacao
xt|t = xt|t−1 +Kt(yt − Ftxt|t−1 −Dzt),Pt|t = Pt|t−1 −KtFtPt|t−1,
em que Kt e o ganho do filtro,
Kt = Pt|t−1F′t (FtPt|t−1F
′t + V )−1.
13
'
&
$
%
Os estimadores de xt baseados na informacao completa da amostrayT sao obtidos a partir das equacoes conhecidas como equacoes desuavizacao. Esses estimadores suavizados correspondem aosestimadores de mınimo erro quadratico medio. A partir dos valoresde xT |T e PT |T utilizamos as equacoes de suavizacao parat = T, . . . , 1.
Equacoes de Suavizacao
xt−1|T = xt−1|t−1 + Jt−1(xt|T −Gxt−1|t−1 − µ),
Pt−1|T = Pt−1|t−1 + Jt−1(Pt|T − Pt|t−1)J ′t−1,
onde
Jt−1 = Pt−1|t−1G′(Pt|t−1)−1.
A completa derivacao das equacoes do Filtro de Kalman e desuavizacao e apresentada em Harvey (1990) e Hamilton (1994),onde tambem sao encontradas equacoes para a obtencao de
14
'
&
$
%
previsoes xt|s e Pt|s para t > s e as propriedades de convergencia dofiltro de Kalman para sistemas estaveis. A obtencao das equacoesde predicao, atualizacao e suavizacao segundo a inferenciabayesiana e apresentada em West e Harrison (1997).
15
'
&
$
%
Estimacao
A estimacao dos parametros sera realizada pelo metodo de maximaverossimilhanca. Para o modelo apresentado a funcao logaritmo daverossimilhanca e dada por
ln(L) =T∑t=1
|Σt(Θ)|+T∑t=1
εt(Θ)′Σt(Θ)εt(Θ),
onde
εt(Θ) = yt − Ftxt|t−1 −Dzt,Σt(Θ) = FtPt|t−1F
′t + V.
A maximizacao pode ser realizada pelo metodo Newton-Raphson(Gupta e Mehra (1974)), pelo algoritmo escore (Harvey (1989)).Nesse caso, a variancia assintotica de Θ e utilizando o inverso damatriz informacao de Fisher.
16
'
&
$
%
Outro metodo de estimacao utiliza o algoritmo EM (Shumway eStoffer, 1982). A formulacao do algoritmo EM, principaispropriedades e alguns exemplos foi pioneiramente apresentada emDempster, Laird e Rubin (1977). Alguns resultados deconvergencia para o algoritmo EM sao encontrados em Wu (1983),McLahan e Krishnan (1997) que apresentam uma completadiscussao do assunto e Shumway e Stoffer (1982) que utilizam oalgoritmo EM para modelos espaco de estados.
Basicamente, o objetivo do algoritmo e maximizar a funcao deverossimilhanca completa, ou seja, verossimilhanca para os dadosobservados e nao observados, (yT , xT ) = (y1, . . . , yT , x0, . . . , xT ):
fΘ(yT , xT ) = fν,Σ(x0)T∏t=1
fG,W (xt|xt−1)fF,V (yt|xt).
17
'
&
$
%
Para o modelo proposto, temos que o ln(L(Θ)) e:
− 12 ln |Σ| − 1
2 (x0 − ν)′Σ−1(x0 − ν) +
−n2 ln|W | −12
∑Tt=1 (xt − µ−Gxt−1)′W−1(xt − µ−Gxt−1)
−n2 ln|V | −12
∑Tt=1(yt − Ftxt −Dzt)′V −1(yt − Ftxt −Dzt).
O algoritmo EM e um algoritmo iterativo e ao ser iniciado o vetorde parametros deve ser inicializado com Θ = Θ(0). Em cadaiteracao j, o algoritmo e dividido em 2 passos. No passo de calculoda esperanca (E), e calculada a esperanca da funcao ln(L(Θ)) dadatoda informacao disponıvel YT para Θ = Θ(j−1). No passo demaximizacao (M), encontraremos os estimadores que maximizamH = IEΘ(j−1)(ln(L(Θ))|yT ).
18
'
&
$
%
Passo E
IEΘ(j−1) (ln(L(Θ))|yT )
− 12ln|Σ| − 1
2tr{Σ−1[P0|T + (x0|T − ν)′(x0|T − ν)]}
− 12tr[W−1(C −BG′ −GB′ +GAG′)]− n
2ln|W |
− 12tr{
∑Tt=1 V
−1[(yt − Ftxt|T −Dzt)(yt − Ftxt|TDzt)′ + FtPt|TF′t ]} − n
2ln|V |,
A =T∑t=1
Pt−1|T + xt−1|Tx′t−1|T
B =T∑t=1
Pt,t−1|T + xt|Tx′t−1|T
C =T∑t=1
Pt|T + xt|Tx′t|T
19
'
&
$
%
Passo M
Em seguida, encontramos o estimador Θ(j) que maximiza H. Porexemplo, para Ft conhecido e para Θ = (G,V,W, µ,Σ), temos osestimadores (Shumway e Stoffer 2000):
Gt = BA−1,
W =1T
(C −BG′ − GB′ + GAG),
V =1T
T∑t=1
[(yt − Ftxt|T −Dzt)(yt − Ftxt|T −Dzt)′ + FtPt|TF′t ],
ν = x0|T ,
Σ = P0|T .
20
'
&
$
%
Para avaliar a distribuicao e calcular medidas de variabilidadeassociadas aos estimadores dos parametros, Stoffer e Wall (1991)sugerem um metodo bootstrap para modelos espaco de estados.
Topicos para Discussao em Shumway e Stoffer
• Bootstrap;
• Alteracoes quando ha dados faltantes;
• Modelo com mudanca de regime;
• Modelos nao lineares e nao gaussianos usando metodos MonteCarlo;
• Volatilidade Estocastica.
21
'
&
$
%
Referencias
[1] Alencar, A. P. (2006). Tese de Doutorado.
[2] Hamilton, J. D. (1994). Time series analysis. Princeton, N.J.:Princeton University Press.
[3] Morettin, P. A. e Toloi, C.M.C. (2006). Analise de SeriesTemporais. Edgard Blucher.
[4] Shumway, R. H. e Stoffer, D. S. (2000). Time series analysisand its application. New York: Springer-Verlag.
[5] Stoffer, D. S. e Wall, K. (1991). Bootstrapping state spacemodels: Gaussian maximum likelihood estimation and theKalman filter. Journal of the American StatisticianAssociation, 86, 1024-1033.
22