modelos espaço-temporais: interpolando com incorporação de incerteza dani gamerman im-ufrj dani...

Post on 18-Apr-2015

105 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Modelos espaço-temporais:interpolando com incorporação de

incerteza

Dani GamermanIM-UFRJ

http://acd.ufrj.br/~dani

Trabalho em colaboração com:Marina S. Paez (IM-UFRJ)Victor de Oliveira (Caracas)Flavia Landim (IM-UFRJ)

9ª ESTE – 07 a 10 de agosto de 2001Hotel Fazenda Tauá

Introdução

Exemplos: 1) medições de poluentes ao longo do tempo em uma coleção de estações monitoradoras

2) contagens de ocorrências de eventos hospitalares ao longo do tempo em uma coleção de regiões geográficas

Dados do tipo (1) são contínuos e modelados por normais após alguma transformação tipo log ou

Ciências ambientais – dados na forma de várias séries temporais geograficamente referenciadas

1. Concentração de partículas PM10 (g/m3) ao longo do tempo

Exemplo: Dados de poluição no Rio de Janeiro

• 16 postos de monitoramento;

• medições feitas de janeiro a dezembro, a cada seis dias, no ano de 1999;

• 59 períodos de tempo no total;

• grande quantidade de dados omissos;

1 - Bonsucesso 2 - Botafogo3 - Caxias4 - Centro5 - Sumaré6 - Copacabana7 - Inhaúma8 - Itaguaí9 - Jacarepaguá 10 - Maracanã 11 - Nova Iguaçú 12 - Nilópolis 13 - Niterói 14 - São Cristóvão 15 - São Gonçalo16 - São João de Meriti

Localização dos postos de monitoramento

no mapa do Rio de Janeiro

Temperatura ambiente com base horária obtida através das informações meteorológicas de superfície do Aeroporto do Galeão.

2. Temperatura máxima diária

Trabalhamos com a temperatura máxima diária

De acordo com a Conama, Br padrão primário - média anual: 50padrão primário - média diária: 150nível de atenção: 250 nível de alerta: 420 nível de emergência: 500

Site Mínimo Máximo Média D. Padrão

Bonsucesso 36.00 207.00 101.00 36.95Botafogo 23.00 146.00 53.23 22.30Centro 21.00 91.00 49.09 16.96Centro de Estudos 1.00 81.00 31.32 20.20Copacabana 23.00 102.00 55.14 23.54Caxias 53.00 225.00 123.02 44.19Inhaúma 29.00 159.00 92.10 32.83Itaguaí 4.00 114.00 40.03 27.45Jacarepaguá 31.00 172.00 98.73 28.32Maracanã 22.00 76.00 45.65 16.31Nilópolis 27.00 195.00 75.11 43.47Niterói 69.00 208.00 112.82 31.68Nova Iguaçú 70.00 310.00 140.51 57.06São Cristóvão 26.00 177.00 70.53 30.71São Gonçalo 27.00 224.00 121.80 37.33São João de Meriti 56.00 276.00 126.85 52.77

Estatísticas descritivas

Análise exploratória no espaço

Média por estação

Objetivos desse tipo de estudo

1) compreender o fenômeno de dependência no tempo e no espaço, se possível através de variáveis explicativas

2) fazer afirmações probabilísticas para novos valores:

• no tempo (previsão)

• no espaço (interpolação)

Processo Gaussiano (PG) (ou campo aleatório Gaussiano)

S uma região de Rp (em geral, p=2)

{ X (s) : s S } é um PG sem, s1 , ... , sm S

( X(s1) , ... , X(sm) ) ~ Nm (, )

Simplificações comuns:

onde = ( (s1) , ... , (sm) ) e

= ((si) (sj) (si, sj) )i,j

2) Homoscedasticidade (s) = , s

Notação: X(.) ~ PG((.),2(.))

1) Isotropia (si,sj)=(h) com h=|si– sj |

Análise estatística

Ponto de partida: modelos de regressão

Y(s,t) = (s,t) + e(s,t) onde (s,t) = 0 + 1 X1(s,t) + ... + pXp(s,t) ee(s,t) ~ N(0, e

2) indep.

Supõe-se que Xj(s,t) removem autocorrelação temporalCaso contrário, pode-se incluir componente temporal (t)

Usualmente e(s,t) permanecem correlacionados espacialmente

Nesse caso, e(s,t) = e0(s) + e1(s,t) e0(s) erros correl. espacialmentee1(s,t) resíduo puro (ruído branco) 0(s) = 0 + e0(s)

Inferência 1. nos primórdios (3 etapas)

• Como estimar 0(s) ?

Abordagem tradicional: geoestatística 0(.) ~ PG(0,0

20(.)) oue0(.) = 0(.) 0 ~ PG(0,0

20(.))

(b) 0 estimado a partir de r0(s,t)

(c) inferência feita com base em

(a) 0 , 1 , ... , p estimados no modelo de regressão e resíduos r0(s,t) = Y(s,t) (s,t) construídos

Logo, 0obs ~ N(0 1, 0

2 R)0

obs = (0(s1) , ... , 0(sm) )

O vetor de hiperparâmetros 0 contém e2 e os parâmetros de 0

2 e 0

Problemas: (a) r0(s,t) e(s,t)(b) 0

2) depois...• 0 , 1 , ... , p e 0 estimados juntos resolve (a)• mas incorporar incerteza de é complicado

3) Solução natural (Kitanidis, 1986; Handcock & Stein, 1993): • especificar distr. para 0 • fazer inferência Bayesiana

Interpolação Espacial

m = número de observações

g = número de postos da grade

s1, ... ,sm = postos observados

s1n,...,sg

n = postos da grade (de interpolação)

Y1n,...,Yg

n = observações nos postos da grade

dYPYYPYYP obsobsnobsn )|(),|()|(

- todos os parâmetros do modeloYmis - dados omissos, tratado como parâmetro

1. Inferência Frequentista: gera Yn de ),|( obsn YYP

• Obtemos P(Yn|Yobs) via simulação.

Passos para a geração de Yn|Yobs :

Interpolação

Se (0) com probabilidade 1 então

),|()|( )0( obsnobsn YYPYYP

)|( obsYP 2. Inferência Bayesiana i ) gera de

ii ) gera Yn de ),|( obsn YYP

Modelando os dados de poluição no Rio

Y(s,t) = (s,t) + (s,t)(s,t) = 0 (s) + TEMP(t) ’X(t)(t)(s,t) independentes N(0,2)

0~ N(0, 2(.(h exp(-hfunção de correlação exponencial(t~ AR(1)

Y(s,t) = raiz quadrada de PM10 no site s e tempo t

X (t) = (TEMP, SEG, TER, QUA, QUI, SEX, SÁB)

Médias interpoladas do nível de PM10

Médias interpoladas do nível de PM10

Prob ( PM10 > 100 g/m3 | Yobs )

Até aqui,

Y(s,t)= (s,t) + e(s,t) onde

(s,t)=0(s) + 1X1(s,t) + ... + pXp(s,t) e

e(s,t) ~ N(0, e2) independentes

Heterogeneidade espacial não precisa estar restrita a 0

Generalizações

Priori:

0(.) ~ PG(0,020(.))

0 ~ p(0)

Na análise dos dados do Rio, temp depende do local

Podemos acomodar variações espaciais dos outros coeficientes j, j=1, ... , p.

modelo anterior

Y(s,t) = (s,t) + e(s,t) onde (s,t) = 0(s) + 1 X1(s,t) + ... + p Xp(s,t) e(s,t) ~ N(0, e

2) independentes

Extensão do modelo anterior

Y(s,t) = (s,t) + e(s,t) onde (s,t) = 0(s) + 1(s)X1(s,t) + ... + p(s)Xp(s,t) e(s,t) ~ N(0, e

2) independentes

Outras possibilidades para os j(.)´s:

a) mesma corr. espacial j = , j

b) correlação a priori entre os PG´s

Novamente, abordagem usual é assumirj(.) ~ PG(j,j

2j(.)), ind j=0,...,p

Como estimar j(s), j=0,1,...,p ?

j

Problemas (os mesmos de antes): (a) bj(s) j(s)

(b) j

2) solução natural: especificar distr. a priori ~ p() onde = (0,...,p)j ~ p(j), ind j = 0,...,pEm geral, priori vaga para

1) solução clássica (Oehlert, 1993; Solna & Switzer, 1996):

(a) 0 (s), 1 (s), ... , p (s) estimados por

b0(s), b1(s), ... , bp (s) no modelo de regressão (local)

(b) j estimado a partir de bj(s)

(c) inferência feita com base em ´sj

Modelo

Parâmetros: = ( obs , , , e2 )

jobs = (j(s1) , ... , j(sm) ), j=0, 1, ... , pobs = (0

obs , ... , pobs )

= ( 0 , 1 , ... , p )

Dados: Yobs = (Y(s1,1) , ... , Y(sm,T)) Xobs = (X(s1,1) , ... , X(sm,T))

2

obsY

obs

,obsX

Dados simulados Y(s,t) = (s,t) (s,t), t=1,...,30 (s,t) = 0(s)+ 1(s) X(s,t)

(s,t) ~ N(0, e2) independentes com e

2=1

0 ~ N(, 2(1 ~ N(, 2( X(s,t) ~ N(, 2(, para todo tempo t

j( são funções de correlação exponencial

0= 100 1= 5 2= 00= 0.4 1= 0.8 2= 1.5 0

2= 0.1 1

2= 1 2

2= 0.333

+

=

+

0

1X

0.1 0.3 0.5 0.7 0.9

Coordenada 1

0.1

0.3

0.5

0.7

0.9

Co

ord

en

ad

a 2

-0.9

-0.2

0.5

2.0

2.7

Y

Amostras “observadas”

(b) amostra aleatória de tamanho 25

0.2 0.4 0.6 0.8 1.0

coordenada 1

0.0

0.2

0.4

0.6

0.8

1.0

Co

ord

en

ad

a 1

0.2 0.4 0.6 0.8 1.0

coordenada 1

0.1

0.3

0.5

0.7

0.9

Co

ord

en

ad

a 1

0.1 0.3 0.5 0.7 0.9

coordenada 1

0.0

0.2

0.4

0.6

0.8

1.0

Co

ord

en

ad

a 1

0.0 0.2 0.4 0.6 0.8 1.0

coordenada 1

0.0

0.2

0.4

0.6

0.8

1.0

Co

ord

en

ad

a 1

(a) amostra regular de tamanho 25

(c) amostra regular de tamanho 100 (d) amostra aleatória de tamanho 100

Exemplo: amostra regular de tamanho 25

0

0.2 0.4 0.6 0.8 1.0

lat

0.2

0.4

0.6

0.8

1.0

long

1

0.2 0.4 0.6 0.8 1.0

lat

0.2

0.4

0.6

0.8

1.0

long

X( . , 30)

0.2 0.4 0.6 0.8 1.0

lat

0.2

0.4

0.6

0.8

1.0

lon

g

-0.3

-0.3

0.0

0.0

0.4

0.4

0.8

1.2

Y( . , 30)

0.2 0.4 0.6 0.8 1.0

lat

0.2

0.4

0.6

0.8

1.0

lon

g

97.8

97.8

100.0

100.0

102.2

102.2

104.4

104

.4

106.6 108.9

Inferência

Relembrando, = ( obs , , , e2 )

Verossimilhança:L() = p(Yobs | obs , e

2 )

Priori:p()=j p( j

obs | j,j ) p() j p(j) p(e2)

Posteriori:( ) L ( ) p( )

• Muitos parâmetros

• Forma funcional complicada

• Solução via MCMC

usam jobs como se fossem dados

= ( obs , , , e2 )

(c) [ e2 | resto ] ~ [ e

2 | Yobs , obs ] ~ Gama inversa

Condicionais completas

(a) [ obs | resto ] ~ Normal

(b) [ | resto] ~ j [ j | jobs , j ]

~ j Normal

(d) | resto ~ j p(j | jobs )

usam jobs como se fossem dados

difíceis de amostrar Metropolis - Hastings

Análise dos dados simulados

Histograma da amostra dos parâmetros

i = i

-2

Interpolação espacial

Grade de interpolação: s1n , ... , sg

n

jn = (j(s1

n) , ... , j(sgn) ), j=0, 1, ... , p

n = (0n , ... , p

n )

Precisamos obter interpolações dos j´s para poder fazer interpolação dos Yn

2

obsYnY

,

obs n

obsX nX

Interpolação dos Y´s

(Yn,n,| Yobs) = (Yn|n, , Yobs) (n,| Yobs)

= (Yn| n ,) (n,| Yobs)

Simulação de [Yn |Yobs] tb em 2 etapas:

(a) [ n, | Yobs ] MCMC e IntEsp

(b) [ Yn| n ,] usando NM

Interpolação dos j´s

(n,obs,| Yobs) = ( n | obs, , Yobs) ( obs, | Yobs) = ( n | obs ,) ( obs, | Yobs)

Simulação de [ n | Yobs ] em 2 etapas:(a)[ obs, | Yobs ] usando MCMC(b)[ n | obs ,] usando NM

Dados simulados: Interpolação 1

valores reais

valores interpolados

0.1 0.3 0.5 0.7 0.9

Coordenada 1

0.1

0.3

0.5

0.7

0.9

Co

ord

en

ad

a 2

0.1 0.3 0.5 0.7 0.9

Coordenada 1

0.1

0.3

0.5

0.7

0.9

Co

ord

en

ad

a 2

0.1 0.3 0.5 0.7 0.9

Coordenada 1

0.1

0.3

0.5

0.7

0.9

Co

ord

en

ad

a 2

Dados simulados: Interpolação Y( . ,30)

valores reais

valores interpolados

0.1 0.3 0.5 0.7 0.9Coordenada 1

0.1

0.3

0.5

0.7

0.9

Co

ord

en

ad

a 2

Interpolação dos X´s

Essas interpolações pressupõe que dispomos dos valores interpolados das covariáveis Xj , j=1, ... , p

Caso contrário, é preciso interpola-las.

2

obsYnY

,

obs n

obsX

x

nX

Modelo completado com

X(.) | x ~ PG(x,x2x(.))

Simulação de [Xn|Yobs,Xobs] em 2 etapas:

(a) [x | Xobs ] MCMC

(b) [Xn| x, Xobs ] usando NM

(Xn, x | Yobs , Xobs) = (Xn , x| Xobs ) = (Xn| x, Xobs) (x | Xobs )

Dados Simulados - Resultados obtidos interpolando X

Histograma da amostra dos parâmetros

menos disperso que quando X é conhecido

Interpolação de X( . , 30)

0.1 0.3 0.5 0.7 0.9

lat

0.1

0.3

0.5

0.7

0.9

lon

g

0.1 0.3 0.5 0.7 0.9

Coordenada 1

0.1

0.3

0.5

0.7

0.9

Co

ord

en

ad

a 2

valores reais

valores interpolados

Interpolação de Y( . , 30)

X conhecido

X desconhecido

0.1 0.3 0.5 0.7 0.9

Coordenada 1

0.1

0.3

0.5

0.7

0.9

Co

ord

en

ad

a 2

0.1 0.3 0.5 0.7 0.9

Coordenada 1

0.1

0.3

0.5

0.7

0.9

Co

ord

en

ad

a 2

113.2

• Antes, o modelo era dado por:

Y(s,t) = 0 (s) + 1 TEMP(t) + ´ X(t) (s,t)

Aplicação para os dados de poluição

(s,t) independentes N(0,2)0~ N(, 2(.1~ N(, 2(.i(., i=1,2 são funções de correlação exponenciais

Y(s,t) = raiz quadrada de PM10 no site s e tempo t

X(t) = (SEG, TER, QUA, QUI, SEX, SÁB)

Y(s,t) = 0 (s) + 1 (s)TEMP(t) + ´ X(t) (s,t)

• Agora, coeficiente da temperatura varia no espaço

Resultados obtidos para os dados de poluição no Rio

Histograma da amostra dos hiperparâmetros

onde i = i -2

Interpolação do coeficiente

40 50 60 70

0

5

10

15

20

Médias interpoladas do nível de PM10

Y(s,t)= (s,t) + e(s,t) onde (s,t)=0(s,t)+1(s,t)X1(s,t)+...+p(s,t)Xp(s,t) e(s,t) ~ N(0, e

2) independentes

extensão do modelo anterior

Y(s,t)= (s,t) + e(s,t) onde (s,t)=0(s )+1(s )X1(s,t)+...+p(s )Xp(s,t) e(s,t) ~ N(0, e

2) independentes

modelo anterior

Outra extensão:

A extensão natural é assumirj(.,t) ~ PG(j(t) , j

2j(.)), ind j=0,...,p

Modelo deve ser completado com:

(a) priori para como antes(b) especificação da evolução temporal dos j´s

Podemos também acomodar variações temporais dos coeficientes j, j=0,...,p.

Sugestão é usar modelos dinâmicos(Landim & Gamerman, 2000)

(t) | (t-1) ~ N( Gt (t-1) , Wt )

= parâmetros desconhecidos da evolução de

Agora, os parâmetros do modelo são = ( g , , , , e

2 )

onde = ( (1) , ... , (T) ) e(t) = ( 0(t), 1(t), ... , p(t) ), t=1, ... , T

Ciclo de simulação tem 2 mudanças:I) etapa adicional para II) etapa modificada para

Aplicação a dados simulados

Y(s,t) = 0(s,t) + 1(s,t)X1(s,t) + (s,t)j(.,t) ~PG (j(t), j

2(.))j(t) = j(t-1) + j(t-1)(. função de correlação exponencial com = 1.

Histograma a posteriori de

Trajetória de (t) - média e limites de credibilidade

Comentários finais

• Temos maior flexibilidade para acomodar variações no espaço e no tempo.

• Todas as amostras da posteriori foram geradas no software BUGS, com interpolações feitas no Fortran.

• Podemos estender para acomodar processos anisotrópicos para algumas componentes do modelo.

Palestra disponível em http://acd.ufrj.br/~dani/papers/9ESTE.ppt

• Podemos estender para observações na família exponencial e estimação da transf. normalizadora.

top related