abordagem bayesiana para dados de painel€¦ · neste trabalho abordamos dois conjuntos de dados -...

UFRJ

Universidade Federal do Rio de Janeiro

Abordagem Bayesiana para Dados de Painel

Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros

2014

UFRJ



Projeto Final submetido ao Programa de Graduacao em

Estatıstica do Instituto de Matematica da Universidade

Federal do Rio de Janeiro como parte dos requisitos ne-

cessarios para obtencao do grau de Bacharel em Ciencias

Estatısticas.

Orientador: Ralph dos Santos Silva

Rio de Janeiro, 8 dezembro de 2014.




Projeto Final de Conclusao de Curso apresentado ao Departamento de Metodos Es-

tatısticos do Instituto de Matematica da Universidade Federal do Rio de Janeiro como parte

dos requisitos necessarios para obtencao do tıtulo de Bacharel em Estatıstica.

Prof. Ralph dos Santos Silva

IM-UFRJ

Prof.a Alexandra Mello Schmidt

IM-UFRJ

Prof.a Thaıs Cristina Oliveira da Fonseca

IM-UFRJ

Rio de Janeiro, 8 de dezembro de 2014.

Castro, Nicolai Reis; Queiroz, Rodrigo de Souza Barros

Abordagem Bayesiana para Dados de Painel/ Nicolai Reis Castro e

Rodrigo Queiroz- Rio de Janeiro: UFRJ/IM, 2014.

iv, 42f.: il.; 31cm.


Projeto Final (Monografia) - UFRJ/IM/ Programa de Graduacao em

Estatıstica, 2014.

Referencias Bibliograficas: f.33.

1. Abordagem Bayesiana. 2. Dados de Painel. I. Silva, Ralph dos

Santos. II. Universidade Federal do Rio de Janeiro, Instituto de Ma-

tematica. III. Tıtulo.

RESUMO




Resumo do Projeto Final submetido ao Programa de Graduacao em Estatıstica do Ins-

tituto de Matematica da Universidade Federal do Rio de Janeiro como parte dos requisitos

necessarios para obtencao do grau de Bacharel em Estatıstica.

Neste trabalho abordamos dois conjuntos de dados - casos de obitos pela Sındrome da Imuno-

Deficiencia Adquirida (SIDA) por Unidade Federativa e casos de mortalidade infantil tambem por Uni-

dade Federativa. Utilizamos Estatısticas Descritivas para compreender a dinamica inicial dos dados e

tambem para verificar a presenca de possıveis pontos discrepantes e a significancia de autocorrelacoes

dos dados. Seguimos com a estimacao de modelos de regressao por mınimos quadrados para entender

como a incidencia de SIDA poderia impactar no numero de obitos. Fazemos um estudo semelhante para

os dados de mortalidade infantil. Entretanto, estes modelos nao se mostram adequados. Daı, propomos

varios modelos para dados de painel, fazemos ajuste pelo enfoque bayesiano e escolhemos o melhor

modelo (ajuste) via o criterio de informacao do desvio. Finalmente, dado o melhor ajuste, fazemos

previsoes para poucos anos a frente.

Palavras-chave: Monte Carlo via cadeias de Markov, mortalidade infantil, selecao de modelos,

Sındrome da Imuno-Deficiencia Adquirida.

ABSTRACT

Bayesian Approach to Panel Data

Nicolai Reis Castro e Rodrigo Queiroz

Advisor: Ralph dos Santos Silva

Abstract do Projeto Final submetido ao Programa de Graduacao em Estatıstica do Ins-

tituto de Matematica da Universidade Federal do Rio de Janeiro como parte dos requisitos

necessarios para obtencao do grau de Bacharel em Estatıstica.

In this work we study two data sets - cases of death by Acquired Immunodeficiency Syndrome (AIDS)

by states of Brazil and cases of infant mortality by states of Brazil as well. We start with descriptive

statistic analysis for understanding the basics of the data set as well as for identifying outliers and sig-

nificant autocorrelations. Further we estimate regression model by ordinary least square to study how

the incidence of AIDS can impact on the amount of death. We proceed with the same scheme for the

infant mortality data. However, these models were not suited for these data sets. Thus, we propose

several panel data models, estimate these models by the Bayesian approach and choose de best fit model

by means of the deviance information criterion. Finally, we use the best model fit to forecast one- or

two-years ahead.

Key-words: Acquired immunodeficiency syndrome, infant mortality, model selection, Markov chain

Monte Carlo.

Para

Paulo Castro e Martha Ramos Reis

e

Jose Paulo de Souza Barros e Izabel Oliveira de Queiroz

AGRADECIMENTOS

Em especial a nossos pais.

Ao nosso orientador Ralph dos Santos Silva;

e

A todos os professores do DME/IM/UFRJ;

SUMARIO

Lista de Tabelas iii

Lista de Figuras iv

Capıtulo 1: Introducao 1

1.1 Series de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Capıtulo 2: Metodologia 3

2.1 Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 Inferencia Bayesiana Usando Monte Carlo via Cadeias de Markov . . . . . . . . . . . . . 3

2.2.1 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2.2 Criterio de Convergencia - BGR . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2.3 Criterio de Informacao de Desvio . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2.4 OpenBUGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3 Metodo dos Mınimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.4 Series Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4.1 Estacionariedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4.2 Autocovariancia e Autocorrelacao . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4.3 Modelo Autoregressivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4.4 Modelos de Defasagens Distribuıdas . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4.5 Analise de Intervencao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4.6 Teste Independencia dos Resıduos: Ljung-Box . . . . . . . . . . . . . . . . . . . 11

Capıtulo 3: Aplicacao 12

3.1 Obitos por Sındrome da Imuno-Deficiencia Adquirida . . . . . . . . . . . . . . . . . . . 12

3.2 Mortalidade Infantil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Capıtulo 4: Consideracoes Finais 27

4.1 Obitos por Sındrome da Imuno-Deficiencia Adquirida . . . . . . . . . . . . . . . . . . . 27

4.2 Mortalidade Infantil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Referencias Bibliograficas 33

i

Apendice A: Ordenacao das Unidades da Federacao 34

Apendice B: Distribuicao a Posteriori: Modelo para os Dados de SIDA 35

Apendice C: Distribuicao a Posteriori: Modelo para os Dados de TMI 38

ii

LISTA DE TABELAS

3.1 DIC: dados de SIDA - Parte I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2 DIC: dados de SIDA - Parte II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.3 DIC: dados de SIDA - Parte III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.4 DIC: dados de SIDA - Parte IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.5 DIC: dados de SIDA - Parte V . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.6 Sumario da distribuicao a posteriori: Modelo M16 - SIDA - Parte I . . . . . . . . . . . . 19

3.7 DIC: dados de TMI - Parte I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.8 DIC: dados de TMI - Parte II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.9 Sumario da distribuicao a posteriori: Modelo M6 - TMI - Parte I . . . . . . . . . . . . 26

A.1 Ordenacao dos ındices dos coeficientes em relacao aos estados. . . . . . . . . . . . . . . 34

B.1 Sumario da distribuicao a posteriori: Modelo M16 - SIDA - Parte II . . . . . . . . . . . 35

B.2 Sumario da distribuicao a posteriori: Modelo M16 - SIDA - Parte III . . . . . . . . . . . 36

B.3 Sumario da distribuicao a posteriori: Modelo M16 - SIDA - Parte IV . . . . . . . . . . . 37

C.1 Sumario da distribuicao a posteriori: Modelo M6 - TMI - Parte II . . . . . . . . . . . . 38

C.2 Sumario da distribuicao a posteriori: Modelo M6 - TMI - Parte III . . . . . . . . . . . . 39

C.3 Sumario da distribuicao a posteriori: Modelo M6 - TMI - Parte IV . . . . . . . . . . . . 40

C.4 Sumario da distribuicao a posteriori: Modelo M6 - TMI - Parte V . . . . . . . . . . . . 41

C.5 Sumario da distribuicao a posteriori: Modelo M6 - TMI - Parte VI . . . . . . . . . . . . 42

iii

LISTA DE FIGURAS

3.1 Analise de Resıduos do Ajuste Final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.2 Media da Serie de TMI por UF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.3 Graficos de ACF de uma defasagem - TMI. . . . . . . . . . . . . . . . . . . . . . . . . 23

3.4 Analise de Resıduos do Ajuste Final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1 Predicao para os estados representativos de cada regiao - SIDA . . . . . . . . . . . . . . 28

4.2 Predicao para estados representativos de cada regiao - TMI . . . . . . . . . . . . . . . . 31

iv

1

Capıtulo 1

INTRODUCAO

Neste trabalho estudamos os seguintes conjuntos de dados de painel: mortalidade infantil e obito

pela Sındrome da Imuno-Deficiencia Adquirida (SIDA), ambos categorizados por unidade federativa.

Propusemos diversos modelos para estes dados e estimamos todas as quantidades desconhecidas destes

modelos atraves do enfoque bayesiano. Os dados apresentados foram retirados do banco de dados do

DATASUS.

Inicialmente, esperavamos associar os dados de mortalidade infantil a quatro variaveis explicativas -

proporcao da populacao servida por esgotamento sanitario, proporcao da populacao servida por rede de

abastecimento de agua, renda media domiciliar e taxa de analfabetismo; quanto aos dados de obito por

SIDA, esperavamos associa-los a uma variavel explicativa - incidencia de SIDA.

Primeiro apresentaremos a metodologia utilizada em nossas avaliacoes e posteriormente descrevere-

mos a aplicacao dos dados.

1.1 Series de Dados

A primeira serie escolhida foi a taxa de mortalidade especıfica por SIDA do ano de 1990 a 2009. Ela conta

o numero de obitos pela SIDA por 100.000 habitantes na populacao residente em determinado espaco

geografico no ano considerado. Esta serie estima o numero de mortes associado a SIDA e dimensiona

a magnitude da doenca como problema de saude publica, bem como retrata a incidencia da doenca na

populacao, associada a fatores de risco principalmente comportamentais, como o uso de drogas injetaveis

e praticas sexuais. Expressa tambem as condicoes de diagnostico e qualidade de assistencia medica

dispensada, bem como o efeito de acoes educativas e a adocao de medidas individuais de prevencao.

Estamos usando esta serie para analisar variacoes geograficas e temporais da mortalidade por SIDA em

segmentos populacionais, identificando situacoes de desigualdade e tendencias que demandem acoes e

estudos especıficos. Tais dados sao provenientes do Ministerio da Saude, da Secretaria de Vigilancia a

Saude: Sistema de Informacoes sobre Mortalidade e base demografica do Instituto Brasileiro de Geografia

e Estatıstica. Vale ressaltar que de 1990 a 1995 ha um grande aumento da mortalidade por SIDA em

2

todas as regioes. No perıodo de 1995 a 2000 esta tendencia se inverte, de modo que ha reducao em todas

as regioes (excetuando a Norte), acompanhando a adocao da terapia medicamentosa com antiretrovirais

e a implementacao da polıtica nacional de distrbuicao gratuita desses medicamentos.

A segunda base de dados escolhida foi a Taxa de Mortalidade Infantil (TMI). Ela conta o numero

de obitos de menores de um ano de idade, por 1.000 (mil) nascidos vivos, em determinado espaco

geografico em determinado ano (entre 1997 e 2011), compreendendo a soma dos obitos ocorridos nos

perıodos neonatal (0-6 dias), neonatal tardio (7-27 dias), e pos-neonatal (apos 28 dias). Esta serie

procura estimar o risco de um nascido vivo morrer em seu primeiro ano de vida. A taxa de mortalidade

pode ser considerada alta (50 ou mais), media (20-49), ou baixa (0-19), em funcao da proximidade ou

distancia de valores alcancados em sociedades mais desenvolvidas, refletindo, de maneira geral, baixos

nıveis de saude, de desenvolvimento socioeconomico e de condicoes de vida. Nosso objetivo e analisar

variacoes geograficas e temporais da mortalidade infantil, contribuindo na avaliacao dos nıveis de saude

e de desenvolvimento socioeconomico da populacao. E possıvel notar consistente tendencia de reducao

da mortalidade infantil em todas as regioes brasileiras, que reflete no declınio da fecundidade nas ultimas

decadas e o efeito das intervencoes publicas nas areas de saude e saneamento. Ainda assim, os valores

medios continuam elevados, sobretudo nas regioes Norte e Nordeste.

No capıtulo 2 revisaremos conceitos, princıpios e metodos de analisar conjuntos de dados. No capıtulo

3 faremos estudos usando os metodos usados no capıtulo anterior e, finalmente, no capıtulo 4 avaliaremos

nossa abordagem, bem como os resultados adquiridos atraves dela, no que concernem nossas bases de

dados.

3

Capıtulo 2

METODOLOGIA

Neste capıtulo revisaremos brevemente a inferencia bayesiana, o metodos de Monte Carlo via cadeias

de Markov, mınimos quadrados, modelos autorregressivos e criterios importantes para selecionar modelos.

2.1 Inferencia Bayesiana

Inferencia e um conjunto de tecnicas que tem por objetivo estudar uma populacao atraves de evidencias

fornecidas por uma amostra. A inferencia bayesiana descreve as incertezas associadas a variaveis nao

observaveis de forma probabilıstica. De forma iterativa, as incerterzas sao atualizadas apos observacoes

de novos resultados.

A inferencia bayesiana e proveniente da probabilidade a posteriori f(θ|x), sendo esta proporcional

a combinacao entre a probabilidade a priori f(θ) e a funcao de verossimilhanca `(θ|x), que leva em

consideracao os dados observados.

A equacao referente seria

f(θ|x) ∝ `(θ|x)f(θ).

2.2 Inferencia Bayesiana Usando Monte Carlo via Cadeias de Markov

A ideia basica de Monte Carlo via cadeias de Markov e construir uma cadeia de Markov cuja distribuicao

de equilıbrio e igual a distribuicao de interesse, em nosso caso a distribuicao a posteriori. Apos a realizacao

de um numero finito de simulacoes desta cadeia, o objetivo e atingir a distribuicao de equilıbrio, com

isso dando origem a uma amostra de distribuicao de interesse.

Considerando que θ = (θ1, θ2, . . . , θp)′ possuem densidade conjunta π(θ) = (θ1, θ2, . . . , θp) e que

q(θ,θ∗) define a distribuicao condicional em θ∗ das transicoes do estado θ. Sendo com isso, possıvel a

construcao de um cadeia com probabilidades de transicao invariantes no tempo, onde cada estado pode

ser obtido de um outro estado com um numero finito de iteracoes, podendo-se alcancar distribuicao de

equilıbrio.

4

2.2.1 Amostrador de Gibbs

O amostrador de Gibbs e um dos metodos mais utilizados na construcao da cadeia de Markov - proposto

por Geman e Geman (1984) e popularizado por Gelfand e Smith (1990) - e um esquema de amostragem

de uma Cadeia de Markov, cujas probabilidades de transicao dos estados sao realizadas a partir das

distribuicoes condicionais completas.

Seja π(θ) a distribuicao de interesse, sendo θ = (θ1, θ2, . . . , θp)′. Deseja-se gerar uma amostra de

π(θ) e supoe-se que esta geracao e complicada para se realizar diretamente.

Considerando πi(θi) = pi(θi|θ−i) como funcao densidade condicional de θi, dados os valores de

todos os outros θj (j 6= i), assumindo-se que e possıvel amostrar valores destas distribuicoes para cada

i = 1, 2, . . . , p.

Considere que dado um conjunto de valores iniciais θ(0) = (θ(0)1 , θ

(0)2 , . . . , θ

(0)p )′, o algoritmo ja esteja

na j-esima iteracao da cadeia θ(j). Entao, a posicao da cadeia na iteracao seguinte (j + 1) e obtida da

seguinte forma:

1. Gera-se θ(j+1)1 de π1(θ1|θ(j)2 , . . . , θ

(j)p );

2. Gera-se θ(j+1)2 de π2(θ2|θ(j+1)

1 , θ(j)3 , . . . , θ

(j)p ); e

3. Repete-se sucessivamente os Passos 1 e 2 anteriores para i = 3, 4, . . . , p, onde no ultimo passo gera-

se θ(j+1)p de πp(θp|θ(j+1)

1 , θ(j+1)2 , . . . , θ

(j+1)p−1 ), obtendo-se o vetor θ(j+1) = (θ

(j+1)1 , . . . , θ

(j+1)p )′.

Sob certas condicoes de regularidade (Tierney, 1994), a distribuicao limite de θ(j) tende a π(θ).

2.2.2 Criterio de Convergencia - BGR

Abordaremos superficialmente o criterio de convergencia criado por Gelman e Rubin e posteriormente

aperfeicoado por Brooks e Gelman (1997) que citam passos para a geracao de um diagnostico de

convergencia de multiplos fatores. Nos referimos a este criterio como BGR.

Passos (para cada parametro):

1. Gere m ≥ 2 cadeias de tamanho 2n de valores iniciais sobredispersos;

2. Descarte os primeiros n resultados de cada cadeia;

3. Calcule as variancias dentro de cada cadeia e entre as cadeias;

4. Calcule a variancia estimada como uma media ponderada entre a variancia dentro de cada cadeia

e a variancia entre as cadeias

5

5. Calcule o fator de reducao potencial de escala.

De modo que a variancia dentro de cada cadeia e dada por

W =1

m

m∑j=1

s2j

sendo

s2j =1

n− 1

n∑i=1

(θij − θj)2,

de modo que s2j e a formula para a variancia da j-esima cadeia. Portanto, W e a media das variancias

da cadeia. O W provavelmente subestima a variancia verdadeira da distribuicao estacionaria, tendo em

vista que as cadeias geradas provavelmente nao alcancaram todos os pontos da distribuicao estacionaria.

A variancia entre cadeias e dada por

B =n

m− 1

m∑j=1

(θj − θ)2

sendo

θ =1

m

m∑j=1

θj .

Temos que B e a variancia das cadeias multiplicada por n, porque cada cadeia e constituıda por n

resultados. Podemos estimar a variancia da distribuicao estacionaria atraves da media ponderada de W

e B.

V ar(θ) =

(1− 1

n

)W +

1

nB.

Por causa da sobredispersao dos valores iniciais, este estimador da variancia superestima a variancia real,

mas e nao-tendenciosa conforme a distribuicao inicial se iguala a distribuicao estacionaria.

O fator de reducao potencial de escala possui a forma

R =

√V ar(θ)

W.

Quando R for alta, talvez ao superar 1,1, ou 1,2, devemos gerar mais valores para as cadeias de modo a

aproximar suas convergencia ate que alcancem a distribuicao estacionaria. Caso tenhamos mais de um

parametro, temos de calcular um fator de reducao potencial de escala para cada parametro. Devemos

rodar tantas iteracoes quanto forem necessarias para que todos fatores sejam pequenos o bastante. Deste

modo nos sera possıvel combinar todos os mn resultados de nossas cadeias para gerar uma cadeia para

a distribuicao estacionaria.

6

2.2.3 Criterio de Informacao de Desvio

O Criterio de Informacao do Desvio (do ingles DIC) e definido como:

DIC = D(θ) + 2pD

= D(θ) + pD,

sendo pD = D(θ)−D(θ), D(θ) = −2 ln(p(y|θ)) e a funcao de verossimilhancTemos tambem que D(θ)

e a media a posteriori do desvio, D(θ) uma estimativa pontual do desvio obtida a partir da utilicao

da media a posteriori de θ, denotada por θ, e pD uma estimativa do numero efetivo de parametros.

O modelo que apresenta o menor DIC e considerado como aquele que melhor pode predizer um novo

conjunto de dados com a mesma estrutura dos dados observados.

2.2.4 OpenBUGS

O OpenBUGS e um programa criado para efetuar analises bayesianas de modelos estatısticos complexos

usando Monte Carlo via cadeias de Markov (MCMC). Ha uma grande literatura associada a analise

bayesiana e MCMC, como pode ser encontrado em Carlin e Louis (1996), Gelman et al. (2014), Brooks

(1998) e Gilks, Richardson, e Spiegelhalter (1996). Em seu manual, no capıtulo 9 do auto-entitulado

manual Classic BUGS, “Topicos em Modelagens” discute prioris nao-informativas, crıticas de modelos,

ranking, erros de medicao, verossimilhancas condicionais, parametrizacao, modelos espaciais e mais,

enquanto a documentacao do Diagnostico de Convergencia e Analise de Producao (CODA) engloba

diagnosticos de convergencia. Congdon (2001) ensina a analisar uma extensa gama de modelos usando

o OpenBUGS. Os usuarios de OpenBUGS devem estar cientes dos metodos bayesianos via MCMC por

tras do programa (Gilks et al., 1996). Tendo especificado o modelo como uma distribuicao conjunta

em todas as quantidades, sejam elas parametros ou observaveis, o objetivo torna-se amostrar valores

das quantidades desconhecidas do modelo via sua distribuicao a posteriori, dados seus nos estocasticos

observados. OpenBUGS usa tres famılias de algoritmos de MCMC: amostrador de Gibbs, algoritmo de

Metropolis Hastings e (slice sampling). Vale mencionar que as praticas associadas as secoes anteriores,

bem como as presentes no manual supracitado, estao disponıveis no OpenBUGS.

2.3 Metodo dos Mınimos Quadrados

O Metodo dos Mınimos Quadrados Ordinarios (MQO) e uma tecnica de otimizacao que visa buscar o

melhor ajuste para um conjunto de dados em um modelo de regressao tentando minimizar a soma dos

quadrados dos resıduos da diferenca entre um conjunto de dados reais e suas estimativas, comumente

utilizado em Econometria. Lembrando que sao requisitos para este metodo que os erros sejam distribuıdos

aleatoriamente, independentes e identicamente distribuıdos. O Teorema Gauss-Markov (Hayashi, 2000)

7

garante indiretamente que o estimador obtido atraves do MQO e nao-tendencioso e possui a variancia

linear mınima na variavel resposta.

Nosso objetivo e explicar uma variavel aleatoria y atraves de uma regressao baseada em um vetor de

tamanho r de variaveis explicativas x. Efetuaremos

y = α+ x′β + ε

sendo

• α: constante do modelo;

• β: vetor de parametros que servem de coeficientes das variaveis x;

• ε: o erro, a variacao de y que nao e explicada pelo modelo.

Observamos entao n valores de y, y = (y1, y2, . . . , yn)′, e n valores do vetor de variaveis explicativas x,

X = (x1,x2, . . . ,xn). Sabemos que as quantidades α, β e ε sao nao-observaveis, mas o metodo dos

mınimos quadrados nos fornecera uma boa estimativa sobre eles. Com efeito, mudaremos a notacao das

variaveis de modo que ao estimar o modelo usando a base de dados, estaremos estimando, na verdade

yi = α+ x′iβ + εi,

onde i indica cada uma das n observacoes da base de dados e ε nao e mais um erro, porem um resıduo

da diferenca entre yi e yi, sendo yi = α+ x′iβ.

O estimador resultante do metodo dos MQO minimiza o erro quadratico medio (de fato, poderıamos,

entao, chama-lo do “melhor estimador linear nao tendencioso”, BLUE ).

Facamos:

yi = α+ x′iβ + εi,

S(εi) =

n∑i=1

ε2i .

Nosso objetivo e minimizar

S(α, β) =n∑i=1

(yi − α− x′iβ)2.

Para minimizarmos o erro, derivaremos S(α, β) em relacao a α e β e igualando-a a zero.

∂S

∂α= −2

n∑i=1

(yi − α− xiβ)2 = 0

∂S

∂β= −2

n∑i=1

(yi − α− xiβ)2 = 0

8

De modo que chegaremos a

α = y − x′β.

onde y e a media amostral dos yi’s e x e a media dos vetores amostral xi’s. Substituindo o resultado

encontrado para α para encontrarmos β temos

β = (X ′X)−1X ′(y − α1).

2.4 Series Temporais

Revisaremos nesta secao alguns conceitos de series temporais. Princıpios que nao devemos violar,

metodos que podemos utilizar e testes que devemos realizar para garantir que nosso modelo sera bem

ajustado e que caso insiramos componentes autorregressivas (veremos em subsecao logo mais) estas nao

trarao problemas de ma especificacao ao modelo.

2.4.1 Estacionariedade

Uma serie temporal {yt} e dita estritamente estacionaria se todas as distribuicoes de qualquer colecao

finita de vetores aleatorios indexados no tempo permanecem as mesmas sob translacoes no tempo. Ou

seja, temos todos os momentos - incluindo media, variancia e covariancia - constantes ao longo do

tempo.

Uma serie temporal {yt} e dita estacionaria de segunda ordem se a media e a variancia sao constantes

ao longo do tempo, e se sua autocovariancia e sua autocorrelacao (termos definidos nas proximas

subsecoes) dependem somente da defasagem (distancia entre as observacoes).

2.4.2 Autocovariancia e Autocorrelacao

Se o modelo de serie temporal, {yt}, e estacionario de segunda ordem, a funcao de autocovariancia

(FACV), γk, e definida como uma funcao de defasagem k:

γk = E[(yt − µ)(yt+k − µ)],

sendo µ o nıvel da serie, ou seja, µ = E(yt) e k a defasagem.

A funcao de autocorrelacao (FAC) de defasagem k e definida por:

ρk =γkγ0,

sendo γ0 a variancia, γ0 = Var(yt), do processo gerador da serie temporal e ρ0 = 1.

9

A FAC amostral e um bom instrumento de avaliacao para grau de dependencia dos dados,fornecendo

uma boa estimacao para a funcao de autocorrelacao da serie temporal,neste caso supondo que os valores

observados provem de uma serie estacionaria..

Sejam y1, . . . , yn observacoes de uma serie temporal de tamanho n. A media amostral de y1, . . . , yn

e dada por

y =1

n

n∑t=1

yt.

A funcao de autocovariancia amostral e dada por:

γk =1

n

n−|k|∑t=1

(yt+|k| − y)(yt − y), para − n < k < n,

e a funcao de autocorrelacao amostral por

ρk =γkγ0, para − n < k < n.

2.4.3 Modelo Autoregressivo

O modelo autoregressivo de ordem p e usado quando ha autocorrelacao entre as observacoes, ou seja,

o processo autoregressivo e usado quando um valor de uma variavel n o perıodo t depende de seu valor

no perıodo anterior (t -1) e de um termo aleatorio.A forma geral do modelo autoregressivo de ordem p

denotado por AR e definido como:

yt = µ+ φ1yt−1 + φ2yt−2 + · · ·+ φpyt−p + εt.

Sendo que para cada t, assumimos yt−1, yt−2, yt−3, ..., sao independentes de εt, pelo fato de yt

incorporar todos os valores novos da serie que nao sao explicados pelos valores passados.

Um caso particular e o modelo autoregressivo de ordem 1, denotado por AR(1), que e definido como:

yt = µ+ φyt−1 + εt,

sendo εt um erro aleatorio do tipo ruıdo branco, isto e, independentes para todo t, com media 0 (zero)

e variancia constante.

O processo AR(1), tem as seguintes funcoes de autocovariancia:

γ0 =σ2ε

1− φ2

e

γk =φkσ2ε1− φ2

,

e a seguinte funcao de autocorrelacao:

ρk = φk para k = 1, 2, 3, ...

10

2.4.4 Modelos de Defasagens Distribuıdas

A forma geral de um modelo linear de defasagens distribuıdas e

yt =

∞∑i=0

βixt−i + εt,

onde qualquer mudanca afetara E(yt) nos perıodos subsequentes. Por exemplo, imagine os pagamentos

de dividendos de uma empresa qualquer, sejam estes (yt) e veja como yt nao depende apenas de lucros

provenientes do perıodo presente (xt), como dos lucros provenientes de perıodos anteriores (xt−s).

O termo βi presente na equacao e o i-esimo coeficiente de reacao e normalmente podemos assumir

que limi→∞ βi = 0 e∑∞

i=0 βi = c ≤ ∞. Podemos assumir que as mudancas em xt nao devem ser de

grande influencia a yt apos um perıodo de tempo m, o que implicaria que que βi sumiria apos a chegada

de βm. Neste caso o modelo e reduzido a um modelo defasagens distribuıdas finitas, para o qual o limite

superior presente no somatorio da forma geral do modelo linear de defasagens distribuıdas e m. Veja

aplicacoes destes modelos em Ravines, Schmidt, e Migon (2006).

Consideraremos casos particulares destes modelos em nossas analises de dados.

2.4.5 Analise de Intervencao

Por uma intervencao entendemos a ocorrencia de um determinado evento E em dado instante de tempo

T , conhecido a priori, onde tal ocorrencia pode influenciar tanto temporariamente, como permanente-

mente a serie estudada. A analise de intervencao tem por objetivo avaliar o impacto deste evento E no

comportamento da serie.

Por Morettin e Toloi (2006), as series indicadoras de intervencoes podem ser representadas por dois

tipos de variaveis binarias:

• Funcao degrau:

xj,t =

S(T )t = 0, se t < T ;

S(T )t = 1, se t > T .

• Funcao impulso:

xj,t =

I(T )t = 0, se t 6= T ;

I(T )t = 1, se t = T .

E trivial notarmos que o efeito da funcao degrau e permanente, enquanto o efeito da funcao impulso

e temporario. Uma classe geral de modelos que levam em conta a ocorrencia de multiplas intervencoes

e dada por

yt =

k∑j=1

νj(B)xj,t + εt

em que

11

• xj,t, j = 1, 2, . . . , k sao as variaveis de intervencao;

• νj(B), j = 1, 2, . . . , k sao funcoes racionais da formaωj(B)Bbj

δj(B) , onde ωj(B) = ωj,0−ωj,1B−· · ·−ωj,sB

s e δj(B) = 1− δj,1B− · · · − δj,rBr sao polinomios em B, bj e a defasagem no tempo para

o inıcio do efeito da j-esima intervencao e

• εt e a serie temporal livre do efeito das intervencoes e e denominada serie residual.

Em geral, o efeito de uma intervencao e mudar o nıvel da serie ou, entao, a inclinacao. Entretanto, ha

tres fontes de ruıdos que podem obscurecer o efeito da intervencao:

1. tendencia;

2. sazonalidade; e

3. erro aleatorio.

O fato de existir tendencia numa serie pode levar a falsas conclusoes. De fato, se esta existir e uma

intervencao ocorrer no instante T , o fato do nıvel pos-intervencao ser maior do que o nıvel pre-intervencao

pode ser devido simplesmente a tendencia.

Utilizaremos a analise de intervencao em uma das aplicacoes aos dados reais.

2.4.6 Teste Independencia dos Resıduos: Ljung-Box

O teste de Ljung-Box consiste em analisar as autocorrelacoes entre resıduos encontrados. A estatıstica

Q do teste e verificada para testar se um determinado conjunto de autocorrelacoes de resıduos e es-

tatisticamente diferente de zero. Esta estatıstica, sob a hipotese nula H0 de que os resıduos nao sao

autocorrelacionados, possui distribuicao qui-quadrado com m graus de liberdade e e definida como:

Q = n(n+ 2)∑m

k=1

ρ2kn− k

,

onde n e o tamanho da amostra e m o numero de defasagens. Em caso de independencia dos resıduos,

espera-se que as autocorrelacoes para qualquer defasagem sejam proximas de zero. Valores altos de pelo

menos uma autoautocorrelacao sugere dependencia dos residuos, levando a rejeicao da hipotese nula.

12

Capıtulo 3

APLICACAO

Neste trabalho analisamos conjuntos de dados estruturados como dados de painel. Para isto, re-

corremos a modelos estatısticos envolvendo defasagens distribuıdas, autoregressao ou intervencao. Esti-

maremos as quantidades desconhecidas dos modelos atraves do enfoque bayesiana. Temos por objetivo

entender as series de dados, explicar seus parametros e comportamentos e ser capazes de predizer suas

proximas ocorrencias.

Escolhemos dois conjuntos de dados de interesse:

1. Taxa de mortalidade especıfica associada a SIDA; e

2. Taxa de mortalidade infantil.

Ambos conjuntos sao estao estruturados como dados de painel, observados em cada Unidade Federativa

(UF) brasileira anualmente. As duas bases foram extraıdas do banco de dados do DataSUS, bem como

as variaveis explicativas a elas associadas.

Em nossa notacao nos referimos aos coeficientes, especıficos de cada UF seguindo a ordem descrita

na tabela A.1 do Apendice 4.2. Para a primeira base de dados os anos variam de 1990 a 2008, ao qual

nos referimos do ano 1 ao 19, e para o segundo conjunto de dados os anos variam de 1997 a 2011 e nos

referimos de forma semelhante ao primeiro.

A seguir, concentramos nossas analises em cada conjunto de dados separadamente.

3.1 Obitos por Sındrome da Imuno-Deficiencia Adquirida

Analisamos aqui a serie de obitos provenientes de portadores de SIDA. Nossa base e referente ao perıodo

entre 1990 e 2008. Decidimos tentar explicar nossa serie de interesse atraves de um conjunto de

dados, tambem adquirido no DataSUS, que nos da o numero de casos de incidencia de SIDA, tambem

estruturado por UF anualmente.

Abaixo disponibilizamos - a fim de introduzir a descricao dos dados - as medias por UF, de 1990 a

2008, das series incidencia e obito por SIDA. Procuramos explicar a taxa de mortalidade especıfica por

SIDA atraves do numero de incidencias de SIDA.

13

Média da Taxa de Incidência de SIDA − 1990 a 2008

[0,2.5](2.5,5](5,7.5](7.5,10](10,12.5](12.5,15](15,17.5](17.5,20](20,22.5](22.5,25](25,28]

(a) Media da Serie de Incidencia de SIDA por UF.

Média de TME por SIDA − 1990 a 2008

[0,2.5](2.5,5](5,7.5](7.5,10](10,13]

(b) Media da Serie de TME por SIDA por UF.

Utilizando estatısticas descritivas e analise de regressao por mınimos quadrados descritos no capıtulo

2, nossos estudos preliminares foram conduzidos para entender o comportamento de ambas as series ao

longo dos anos e por Unidade Federativa. Os resultados nos indicam que:

• Caso analisemos ao longo dos anos, veremos que ate 1996 ha tendencia de crescimento na taxa

de mortalidade especıfica, tendencia que observamos inverter-se do ano seguinte em diante;

• Ainda analisando a taxa de mortalidade especıfica anualmente, podemos observar assimetria posi-

tiva associada a serie, bem como o modulo da curtose caindo rapidamente com o tempo, indicando

maior dispersao dos dados nos anos iniciais;

• Analisando o numero de incidencias, nota-se que o numero de casos aumenta ao longo dos anos,

tendencia que nao acompanha nossa variavel de interesse, indicando que devemos inserir no modelo

uma componente temporal para explicar o que esta variavel nao consegue;

• Agora observando nossas series por estado, e possıvel perceber que ha disparidades no comporta-

mento das series entre UFs, levando a crer que algumas delas (Rio de Janeiro, Sao Paulo, Santa

Catarina, Rio Grande do Sul e Distrito Federal) estavam mais propıcias que outras a abrigarem

obitos provenientes de portadores de SIDA que outras, tanto pela serie de obitos, como pela serie

de incidencias;

14

• Observando as correlacoes ano a ano, verificamos pelo valor alto que o numero de obitos esta bem

associado ao numero de incidencias;

• Observando as correlacoes UF a UF, podemos justificar a presenca da componente temporal, pois

alguns dos estados possuem baixa aderencia entre as series de dados caso observemo-as.

Portanto, nossos primeiros modelos, de acordo com nossa interpretacao dos dados, seguem distri-

buicoes Normal e t-Student. Inicialmente testamos a t-Student, mudando apenas os graus de liberdade

a elas associados: dois, tres, quatro e cinco graus de liberdade.

Utilizamos o metodo dos mınimos quadrados descritos no capıtulo 2, atraves do programa R, fize-

mos varios ajustes para obter as estimativas do modelo e estas sao utilizadas como valores iniciais dos

coeficientes dos parametros em nossos modelos descritos no OpenBUGS. Isto foi feito para ajudar na con-

vergencia das cadeias, ao realizarmos sucessivas simulacoes a fim de testar os modelos. Tal procedimento

mostrou-se bastante util e eficaz para esta aplicacao.

A estrutura do nosso modelo inicial e dado por

yi,t = ci + βixi,t + δit+ εi,t, i = 1, 2, . . . , 27 e t = 1, 2, . . . , 19,

sendo yi,t a numero de obtidos, xi,t a incidencia de SIDA, t a propria variavel tempo utilizada para

tentar captar a tendencia linear ao longo dos anos e εi,t erros aleatorios independentes e identicamente

distribuıdos com media e variancia finitas e constantes. Os primeiros cinco modelos (M1,M2, . . . ,M5)

so diferem na distribuicao de εi,t (normal e t-Student com diferentes graus de liberdade).

Para este modelo e os demais descritos abaixo, completamos a especificacao com

ci ∼ N (µc, σ2c )

βi ∼ N (µβ, σ2β)

δi ∼ N (µδ, σ2δ ),

para i = 1, 2, . . . , 27; priori normal com media 0 e variancia 1.000 para µc, µβ e µδ, e priori gama inversa

com media 1 e variancia 100 para σ2c , σ2β e σ2δ .

Como utilizamos o OpenBUGS para efetuar as simulacoes dos modelos propostos, geramos as t-

Student atraves da mistura de escala: (yi,t|µi,t, λ) ∼ N (µi,t, λ) e (λ|ν, σ2) ∼ GI(ν2 ,νσ2

2 ) tal que

(yi,t|µi,t, σ2, ν) ∼ tν(µ, σ2) com µi,t = ci + βixi,t + δit.

Ajustamos entao estes modelos aos dados utilizando o OpenBUGS. Geramos 3 cadeias em paraelelo

cada uma com 100.000 iteracoes e descartamos as 50.000 primeiras de cada. Utilizamos a criterio BGR

descrita no capıtulo 2 e disponıvel no OpenBUGS para analisar a convergencia das cadeias. Utilizamos

este mesmo tipo de procedimento e analise para os demais modelos deste trabalho. O DIC para cada

modelo pode ser visto na tabela 3.1. Os resultados inesperados pD associados aos modelos M2 e M3

15

Tabela 3.1: Comparacao de modelos via DIC: dados de SIDA - Parte I.

Modelo Distribuicao de yi,t DIC pD

M1 N (µi,t, σ2) 1015,0 69,38

M2 t2(µi,t, σ2) 1093,0 -604,50

M3 t3(µi,t, σ2) 1619,0 -78,09

M4 t4(µi,t, σ2) 1710,0 12,74

M5 t5(µi,t, σ2) 1743,0 45,26

nos induziram a pensar que os modelos possivelmente teriam sido mal especificados, indicando que seria

necessario muda-los. Optamos por mudar ligeiramente a mistura Normal-Gama-Inversa, de modo que

nao mais farıamos a mistura usando um fator λ global, porem um fator λi variando para cada UF, de

modo a melhor adaptar-se a cada uma delas. A melhora foi inegavel. Nao apenas os pD deixaram de

apontar problema de especificacao de modelo, como os proprios DIC caıram.

Agora, para os modelos M6, M7, M8 e M9, continuamos a ter distribuicoes t-Student com 2, 3,

4 e 5 graus de liberdade para cada UF, ou seja, (yi,t|µi,t, λi) ∼ N (µi,t, λi) e (λi|ν, σ2) ∼ GI(ν2 ,νσ2

2 ).

Repetimos o procedimento de ajuste dos modelos anteriores. Utilizando o OpenBUGS, geramos

100.00 iteracoes e descartamos as 50.000 primeiras. Os resultados do DIC para estes diferentes modelos

encontram-se na tabela 3.2. Entao, usando o DIC como criterio de selecao de modelos, ja excluindo os

Tabela 3.2: Comparacao de modelos via DIC: dados de SIDA - Parte II.


M6 t2,i(µi,t, σ2) 1007,0 98,48

M7 t3,i(µi,t, σ2) 1325,0 98,85

M8 t4,i(µi,t, σ2) 1328,0 95,60

M9 t5,i(µi,t, σ2) 1331,0 94,42

modelos M2 e M3 por indıcios de ma especificacao, pudemos selecionar os modelos M1 e M6 como

os melhores modelos. Infelizmente, ao analisarmos os resıduos associados, verificamos que estes nao

16

satisfizeram premissas do modelo: os erros apresentaram heterocedasticidade se observados ao longo do

tempo, indicando dependencia temporal e a necessidade da inclusao de uma variavel autorregressiva.

Como supracitado, os modelos M1 e M6 apresentaram melhores DIC e foram escolhidos para receber

uma componente autorregressiva (ver modelo autoregressivo no capıtulo 2) de uma defasagem para cada

UF.

O modelo segue agora a seguinte estrutura:

yi,t = ci + βixi,t + δtt+ θiyi,t−1 + εi,t,

com as mesmas premissas sobre εi,t, |θi| < 1 para cada UF e θi ∼ U(−1, 1) para i = 1, 2, . . . , 27. Repe-

timos o procedimento de gerar valores da distribuicao a posteriori deste modelo utilizando o OpenBUGS.

Novamente, diferindo entre eles apenas a distribuicao. Na tabela 3.3 podemos ver o DIC para os dois

modelos considerados. O DIC do modeloM11 e o menor de todos. As analises dos resıduos dos modelos

Tabela 3.3: Comparacao de modelos via DIC: dados de SIDA - Parte III.


M10 N (µi,t, σ2) 1181,0 81,05

M11 t2,i(µi,t, σ2) 1006,0 100,20

M10 e M11 apresentam boa especificacao sem dependencia em sua estrutura. Porem, ao observarmos

os percentis 2.5% e 97.5% da estatıstica a posteriori dos modelos analisados, os coeficientes associados

as variaveis explicativas e temporal apresentaram alta probabilidade de nao serem significativos para

todos os valores de βi e δi. Isto poderia indicar que tanto o coeficiente β, como o coeficiente δ, ou ate

mesmo ambos, poderiam ser nao-significativos. Entao foram criados outros seis modelos:

Os modelos M12 (normal) e M15 (t2) seguem a estrutura:

yi,t = ci + βixi,t + θiyi,t−1 + εi,t;

os modelos M13 (normal) e M16 (t2) a estrutura:

yi,t = ci + δit+ θiyi,t−1 + εi,t;

e os M14 (normal) e M17 (t2) a estrutura:

yi,t = ci + θiyi,t−1 + εi,t;

cada par de modelos diferindo apenas em distribuicao.

17

Mais uma vez, utilizando o OpenBUGS, geramos 3 cadeias com 100.000 iteracoes da distribuicao a

posteriori dos modelos e descartamos as 50.000 iteracoes. A tabela 3.4 traz os valores do DIC dos

ajustes dos modelosM12 aM17. O que nos leva a descartar modelos com distribuicao Normal devido

Tabela 3.4: Comparacao de modelos via DIC: dados de SIDA - Parte IV.


M12 N (µi,t, σ2) 1263,0 59,17

M13 N (µi,t, σ2) 1221,0 68,56

M14 N (µi,t, σ2) 1327,0 32,55

M15 t2,i(µi,t, σ2) 1015,0 85,61

M16 t2,i(µi,t, σ2) 1009,0 90,61

M17 t2,i(µi,t, σ2) 1051,0 64,53

aos altos valores do DIC. As estatısticas a posteriori de cada um dos modelos apresentava coeficientes

nao significativos, indicando que a presenca da variavel explicativa atrapalhava a variavel temporal e

vice-versa. Os resultados indicavam que a variavel regressiva deveria ser excluıda e o modelo a ser

adotado deveria ser o M16, mas decidimos testar duas classes de modelos antes de descartar uma

variavel explicativa e apontar que a serie estudada seria capaz de explicar a si propria, dependendo de

seus valores anteriores.

Introduzimos a serie de dados duas estrategias:

• Modelos com defasagem distribuıda; e

• Modelos com variaveis de intervencao.

Tres modelos foram criados: o primeira com uma defasagem distribuıda, o segundo com duas defasagens

distribuıdas e o terceiro e um modelo com uma variavel de intervencao, dado que, como visto na

estatıstica descritiva, pudemos ver mudancas na tendencia da variavel a ser explicada. Seguem os

modelos:

M18 : yi,t = ci + β1,ixi,t + β2,ixi,t−1 + δit+ εi,t

M19 : yi,t = ci + β1,ixi,t + β2,ixi,t−1 + β3,ixi,t−2 + δit+ εi,t

M20 : yi,t = ci + β1,ixi,t + β2,idt + δit+ θiyi,t−1 + εi,t,

18

sendo dt = 0 para t = 1, . . . , 6 e dt = 1 para t = 7, . . . , 19. Evitamos criar modelos com muitas

defasagens distribuiıdas, pois nossa serie de dados e relativamente curta.

Estes modelos foram tambem implementados no OpenBUGS. Geramos 3 cadeias com 100.000 iteracoes

e descartamos as 50.000 primeiras. Para os modelos acima, a tabela 3.5 mostra os respectivos DICs.

Tabela 3.5: Comparacao de modelos via DIC: dados de SIDA - Parte V.


M18 t2,i(µi,t, σ2) 1437,0 62,85

M19 t2,i(µi,t, σ2) 1255,0 67,01

M20 t2,i(µi,t, σ2) 999,2 112,00

Apesar do modeloM20 ter apresentado menor DIC, os coeficientes associados as covariaveis xi,t e dt

mostraram ser nao-significativos com uma probabilidade alta para regioes perto do zero. Por isto, estes

modelos confirmaram nossas suspeitas de que nos seria melhor explicar a taxa de mortalidade especıfica

por portadores de SIDA atraves da propria serie de dados. Ficamos entao com o modelo M16 tendo

em vista que, dados as analises completas, apresenta DIC baixo comparado aos demais, coeficientes

significativos, resıduos nao correlacionados (teste de Ljung-Box) e homocedasticidade via analise grafica

dos resıduos como por exemplo a figura 3.1.

●

●

●

●

●

●●

●

●

●●●

●

●

●●

●●

●

●●

●

●

●

●

●

●●

●

●

●

●●

●● ●

●

●●

●

● ●

1 3 5 7 9 11 13 15 17 19

−4

−2

02

46

8

Figura 3.1: Analise de Resıduos do Ajuste Final.

19

Relembramos aqui que o modelo M16 e dado por

yi,t = ci + δit+ θiyi,t−1 + εi,t

como modelo de mistura de escala tal que yi,t ∼ t2(µi,t, σ2).A tabela 3.6 e as tabelas B.1, B.2 e B.3 do apendice B trazem o resumo da distribuicao a posteriori:

media, desvio padrao, percentis de 2.5%, 50% e 97.5%.

Tabela 3.6: Sumario dos parametros da distribuicao posteriori do modelo finalM16 usado para taxa de mortalidadepor SIDA.

Parametro Media D. Padrao 2,5% Mediana 97,5%

µc 0,8669 0,1526 0,5897 0,8601 1,1870

σ2c 0,3466 0,1759 0,1100 0,3123 0,7809

µδ 0,0453 0,0163 0,0137 0,0451 0,0781

σ2δ 0,0047 0,0020 0,0019 0,0043 0,0099

σ2 0,2200 0,0476 0,1391 0,2159 0,3243

Nos interpretamos os parametros da seguinte forma:

• ci sendo a propensao inicial associada a cada UF de haver obitos relativos a portadores de SIDA;

• δi sendo a tendencia temporal associada a cada UF; e

• θi sendo a influencia do volume de obitos no tempo anterior associada a cada UF em determinado

instante de tempo.

3.2 Mortalidade Infantil

Apos a conclusao da analise da primeira base de dados na secao 3.1, comecamos nossos estudos sobre a

segunda base de dados - a taxa de mortalidade infantil. Nossa base e referente ao perıodo entre 1997 e

2011. Decidimos tentar explicar nossa serie de interesse atraves de quatro conjuntos de dados, tambem

adquiridos no DataSUS, que nos dao:

1. o ındice de analfabetismo associado a cada UF, ano a ano;

20

2. a proporcao da populacao servida por esgotamento sanitario;

3. a proporcao da populacao servida por rede de abastecimento de agua; e

4. a renda media domicilar per capita.

Estes dados tambem estao estruturados por UF anualmente.

Abaixo iremos, como na analise anterior, disponibilizar as medias das quatro variaveis explicativas,

bem como a media da variavel resposta. Todos os cinco graficos nas figuras ?? e 3.2 contemplarao o

perıodo de 1997 a 2011.

21

Média da Taxa (%) de Analfabetismo − 1997 a 2011

[0,5](5,10](10,15](15,20](20,25](25,30]

(a) Media da Serie de Analfabetismo por UF.

Média da Pop. servida por Esgot. Sanit. − 1997 a 2011

[0,20](20,40](40,60](60,80](80,100]

(b) Media da Serie de PSES por UF.

Média da População servida por Água − 1997 a 2011

[0,20](20,40](40,60](60,80](80,100]

(c) Media da Serie de PSAA por UF.

Média da Renda Domiciliar per capita − 1997 a 2011

[0,200](200,400](400,600](600,800](800,1000](1000,1200](1200,1400]

(d) Media da Serie de Renda por UF.

22

Média da Taxa de Mortalidade Infantil − 1997 a 2011

[0,10](10,20](20,30](30,40]

Figura 3.2: Media da Serie de TMI por UF.

E abaixo encontram-se alguns graficos - relativos ados dados sobre a proporcao da populacao servida

por abastecimento de agua - que mostram a funcao de autocorrelacao que estuda uma defasagem. Este

comportamento esta presente em quase todas as UF.

Estudos preliminares utilizando estatısticas descritivas e analise de regressao via mınimos quadrados

ponderados foram conduzidos para entender o comportamento de cada serie ao longo dos anos e por

UF. Os resultados nos indicam que:

• a funcao de autocorrelacao relativa a base terceira variavel explicativa apresentou sazonalidade - o

que somado ao fato de nao ter se mostrado significativa ao descrever nossa variavel de interesse,

nos levou a excluı-la;

Como para a base de dados anterior, utilizamos o metodo dos mınimos quadrados para obter estimativas

iniciais sobre os os parametros a serem utilizados em nossos modelos para ajudar na convergencia

das cadeias de Markov referente as nossas distribuicoes a posteriori. De fato, adotaremos a mesma

metodologia usada anteriormente.

Usaremos novamente o OpenBUGS para ajustar nossos modelos e o DIC para fazer comparacao dos

ajustes dos modelos. Usaremos modelos Normal e t-Student com tres, quatro, cinco e dez graus de

liberdade. Dado estas especificacoes para a distribuicao de yi,t, definimos os modelos M1 a M5 da

seguinte forma:

yi,t = ci + β1,ix1,i,t + β2,ix2,i,t + β3,ix3,i,t + β4,it+ εi,t,

diferindo entre eles apenas suas distribuicoes. Temos yi,t a TMI, x1,i,t o ındice de analfabetismo, x2,i,t

a proporcao da populacao servida por esgotamento sanitario e x3,i,t a renda media domicilar per capita.

23

●

●●

●

●

●

●

●

●

●

● ●

●

●

−0.5 0.0 0.5 1.0 1.5

−0.

50.

00.

51.

01.

5

lag 1

x_i

(a) Espırito Santo.

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−0.6 −0.4 −0.2 0.0 0.2 0.4

−0.

6−

0.4

−0.

20.

00.

20.

4

lag 1

x_i

(b) Minas Gerais.

●

●●

●

●

●

●

●

●

●

●

●

●

●

−4 −3 −2 −1 0 1 2

−4

−3

−2

−1

01

2

lag 1

x_i

(c) Para

●

●

●

●

●

●

●

●●

●

●

●

●

●

−2 0 2 4

−3

−2

−1

01

23

4

lag 1

x_i

(d) Rio Grande do Norte.

●

●

●

●

●

●

●

●

●●

●

●

●

●

−1.0 −0.5 0.0 0.5

−1.

0−

0.5

0.0

0.5

lag 1

x_i

(e) Rio Grande do Sul.

●

●

●

●

●

●

●

●

●

●

●

●

●

●

−0.6 −0.4 −0.2 0.0 0.2 0.4

−0.

4−

0.2

0.0

0.2

0.4

lag 1

x_i

(f) Santa Catarina.

Figura 3.3: Graficos de ACF de uma defasagem - TMI.

24

Para todos os modelos nesta aplicacao da TMI, completamos a especificacao com

ci ∼ N (µc, σ2c )

β1,i ∼ N (µβ1 , σ2β1)

β2,i ∼ N (µβ2 , σ2β2)

β3,i ∼ N (µβ3 , σ2β3),

para i = 1, 2, . . . , 27; priori normal com media 0 e variancia 1.000 para µc, µβ1 , µβ2 e µβ3 , e priori gama

inversa com media 1 e variancia 100 para σ2c , σ2β1 , σ2β2 e σ2β3 .

Seguimos os passos anteriores e implementamos estes modelos no OpenBUGS. Daı, tambem geramos

3 cadeias com 100.000 iteracoes cada e descartamos as 50.000 primeiras de cada uma. Fizemos as

analises de convergencia pertinentes via graficos e estatıstica de convergencia BGR. A tabela 3.7 exibe

os DICs para estes modelos ajustados aos dados de TMI.

Tabela 3.7: Comparacao de modelos via DIC: dados da taxa de mortalidade infantil - Parte I.


M1 N (µi,t, σ2) 1226,0 112,80

M2 t3(µi,t, σ2) 1163,0 49,43

M3 t4(µi,t, σ2) 1221,0 108,00

M4 t5(µi,t, σ2) 1238,0 125,10

M5 t10(µi,t, σ2) 1243,0 129,60

Aqui temos µi,t = ci + β1,ix1,i,t + β2,ix2,i,t + β3,ix3,i,t + β4,it.

Ja possuindo a experiencia adquirida do estudo da base de dados anterior, decidimos substituir o λ

global por λi’s por UF, de forma a deixar o modelo mais flexıvel. Assim criamos os modelos M6 a M9.

Rodamos as devidas iteracoes, analisamos convergencia e obtemos os DICs apresentados na tabela 3.8.

Os modelos M6 , M7 e M8 mostraram-se igualmente satisfatorios, tendo em vista que distancias de

ate 5 entre o DIC de modelos diferentes indicam que os mesmos ajustaram-se igualmente bem. Sabendo

que os resıduos comportaram-se bem e as variaveis foram significativas, todos os modelos, deM1 aM9

, dependem apenas do DIC para a escolha. Sendo assim, escolhemos o modeloM6 , por ter apresentado

o melhor DIC dentre os verificados, apesar da maior penalizacao por parametros pD. Usaremos este

modelo para explicar a taxa de mortalidade infantil.

25

Tabela 3.8: Comparacao de modelos via DIC: dados da taxa de mortalidade infantil - Parte II.


M6 t3(µi,t, σ2) 1057,0 147,46

M7 t4(µi,t, σ2) 1058,0 144,90

M8 t5(µi,t, σ2) 1060,0 142,60

M9 t10(µi,t, σ2) 1076,0 135,30

Na figura 3.4 abaixo segue a analise grafica dos resıduos.

●●●

●

●

●

●

●●●

●

●

●

●

● ●●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●

1 2 3 4 5 6 7 8 9 10 12 14

−4

−2

02

4

Figura 3.4: Analise de Resıduos do Ajuste Final.

A tabela 3.9 e as tabelas C.1, C.2, C.3, C.4 e C.5 do apendice C trazem o resumo da distribuicao a

posteriori: media, desvio padrao, percentis de 2.5%, 50% e 97.5%.

Nos interpretamos os parametros da seguinte forma:

• ci sendo a propensao inicial associada a cada UF da ocorrencia de obitos de menores de um ano

de idade;

• β1,i sendo a influencia do ındice de analfabetismo associada a cada UF;

26

Tabela 3.9: Sumario dos parametros da distribuicao posteriori do modelo final M6 usado para TMI.


µβ1 0,0071 0,0406 -0,0729 0,0070 0,0873

σ2β1 0,0429 0,0126 0,0247 0,0407 0,0739

µβ2 0,0076 0,03850 -0,0686 0,0076 0,0838

σ2β2 0,0401 0,0118 0,0232 0,0381 0,0690

µβ3 0,3821 0,09431 0,1991 0,3804 0,5683

σ2β3 0,1287 0,0493 0,0612 0,1195 0,2499

µβ4 -1,0870 0,1236 -1,3340 -1,0860 -0,8461

σ2β4 0,3723 0,1209 0,1999 0,3518 0,6658

µc 22,5000 2,1350 18,1900 22,5400 26,5900

σ2c 80,5800 31,4900 36,5000 74,8700 157,5000

σ2 0,3216 0,0643 0,2122 0,3162 0,4638

• β2,i sendo a influencia do servico de esgotamento sanitario associada a cada UF;

• β3,i sendo a influencia da renda media domiciliar per capita associada a cada UF; e

• β4,i sendo a tendencia temporal associada a cada UF.

27

Capıtulo 4

CONSIDERACOES FINAIS

Neste trabalho pudemos trabalhar abordagens que facilitam a analise bayesiana em dados estruturados

como paineis. Trabalhamos com diversos modelos buscados na literatura, usando princıpios, testes e

criterios estudados nos cursos de graduacao. A inferencia pode ser realizada atraves do algoritmo de

MCMC de modo simples usando o programa OpenBUGS. Para os dois conjuntos de dados - SIDA e

TMI - fizemos a analise bayesiana dos modelos utilizando prioris vagas para os hiperparametros. A

utilizacao de valores iniciais obtidos via analise de regressao por mınimos quadrados ajudaram as cadeias

a convergirem mais rapidamente para as distribuicoes de interesse.

4.1 Obitos por Sındrome da Imuno-Deficiencia Adquirida

Observando as informacoes da distribuicao a posteriori concluımos que as regioes Sul, Sudeste e Centro-

Oeste, com a adicao dos estados de Roraima e Pernambuco, estao mais propensos do que os demais a

abrigarem obitos associados a portadores de SIDA. Isto pode estar associado a subnumeracao de casos

nos demais estados. Podemos ver que Rio Grande do Sul e Santa Catarina sao os dois estados com

maior propensao a abrigar tais obitos.

No que concerne a tendencia temporal, podemos perceber que Rio Grande do Norte, Minas Gerais,

Rio de Janeiro, Sao Paulo e Distrito Federal estao com tendencia temporal negativa, ou seja, o volume

de obitos associados a estas UFs esta caindo com o tempo, possivelmente fruto de medidas educativas e

assistencialistas para conter o surto da doenca. Os demais estados possuem tendencia positiva, ou seja,

crescente, sendo Roraima e Rondonia os estados com maior crescimento de numero de obitos ao longo

dos anos e Rio de Janeiro o estado com maior queda.

Por ultimo, analisando a influencia da propria variavel no tempo anterior, nota-se que Rio de Janeiro,

Sao Paulo, Rio Grande do Sul, Distrito Federal e Santa Catarina sao extremamente dependentes de suas

ocorrencias no tempo anterior, valendo ressaltar que os dois primeiros estados possuem seus respectivos

operadores de defasagem superiores a 0,9.

Retiramos um ano de nossa base de dados, o ano de 2008, refizemos o ajuste do modelo M16 e

realizamos uma previsao dois passos a frente, comparando com valores reais, dado que previamente

possuıamos os dados sobre o ano de 2009. Escolhemos graficos de UFs, incluindo conturbadas UFs que

apresentaram alta correlacao entre seus resıduos em modelos anteriores, para serem expostos aqui, de

28

forma a mostrar o resultado do ajuste. A figura 4.1 mostra os dados reais, os dados ajustados (preditos),

o intervalos de confianca e para os ultimos dois anos (19 e 20) a previsao com base no modelo M16.

5 10 15 20

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

Anos

óbito

s po

r S

IDA

dados estimadoslimite inferior de confiançalimite superior de confiançadados reais

(a) Bahia

5 10 15 20

24

68

Anos

óbito

s po

r S

IDA


(b) Mato Grosso do Sul

5 10 15 20

05

1015

Anos

óbito

s po

r S

IDA


(c) Rio de Janeiro

5 10 15 20

24

68

1012

14

Anos

óbito

s po

r S

IDA


(d) Rio Grande do Sul

5 10 15 20

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Anos

óbito

s po

r S

IDA


(e) Acre

5 10 15 20

05

1015

20

Anos

óbito

s po

r S

IDA


(f) Sao Paulo

Figura 4.1: Predicao para estados representativos de cada regiao - SIDA.

29

As predicoes mostraram-se satisfatorias, com poucos pontos fora do intervalo de confianca.

E para melhor visualizar as previsoes dos dois ultimos anos e compara-las aos valores reais, construımos

os dois pares de graficos abaixo.

Previsão da TME por SIDA − 2008

[0,3](3,6](6,9](9,12](12,15]

(a) Previsao de 2008.

Valor real da TME por SIDA − 2008

[0,3](3,6](6,9](9,12](12,15]

(b) Valores Reais de 2008.

Previsão da TME por SIDA − 2009

[0,3](3,6](6,9](9,12](12,15]

(c) Previsao de 2009.

Valor real da TME por SIDA − 2009

[0,3](3,6](6,9](9,12](12,15]

(d) Valores Reais de 2009.

Caso pudessemos escolher estados aos quais devessemos dedicar mais atencao e iniciativas educativas,

preventivas e interventivas, tais estados seriam Rio de Janeiro, Sao Paulo, Santa Catarina, Rio Grande

do Sul e Mato Grosso.

30

4.2 Mortalidade Infantil

Observando as informacoes da distribuicao a posteriori concluımos que os estados de Espırito Santo,

Pernambuco, Amapa, Para e Ceara sofrem maior influencia do analfabetismo. Isto corrobora a posicao

dos ındices de analfabetismo associados aos estados em questao.

Maranhao, Alagoas, Paraıba, Rio Grande do Norte e Bahia encontram-se no topo da lista dos

influenciados pelo servico de esgotamento sanitario.

A influencia da renda media domiciliar per capita e mais forte nos estados de Alagoas, Maranhao,

Ceara, Pernambuco e Rio Grande do Norte.

Por ultimo, analisando a influencia da variavel temporal, nota-se que todos os coeficientes sao ne-

gativos, isto e, o ındice de mortalidade infantil esta caindo com o passar dos anos. Os estados com

queda mais acentuada sao Paraıba, Alagoas, Rio Grande do Norte, Sergipe e Ceara. Isso nos permite

conjecturar que o governo, ao longo dos anos, percebeu a necessidade de intervir nos estados de maior

ındice de mortalidade infantil.

Retiramos um ano de nossa base de dados, o ano de 2011, refizemos o ajuste do modelo M3 e

realizamos uma previsao um passo a frente, comparando com valores reais. Escolhemos graficos - figura

4.2 - de UFs para serem expostos aqui, de forma a mostrar o resultado do ajuste.

As predicoes mostraram-se satisfatorias, com poucos pontos fora do intervalo de confianca.

E, novamente, para melhor visualizacao da previsao feita e comparacao da mesma com valores reais,

construımos os graficos abaixo.

Muitos destes estados ja estao recebendo assistencia governamental, porem caso pudessemos esco-

lher cinco cujos ındices indicam requerer mais atencao, estes seriam Amapa, Maranhao, Para, Acre e

Roraima.

31

2 4 6 8 10 12 14

1214

1618

2022

Anos

óbito

s po

r S

IDA


(e) Espırito Santo

2 4 6 8 10 12 14

1520

2530

Anos

óbito

s po

r S

IDA


(f) Minas Gerais

2 4 6 8 10 12 14

2025

3035

Anos

óbito

s po

r S

IDA


(g) Para

2 4 6 8 10 12 14

1520

2530

3540

Anos

óbito

s po

r S

IDA


(h) Rio Grande do Norte

2 4 6 8 10 12 14

1012

1416

18

Anos

óbito

s po

r S

IDA


(i) Rio Grande do Sul

2 4 6 8 10 12 14

810

1214

1618

20

Anos

óbito

s po

r S

IDA


(j) Santa Catarina

Figura 4.2: Predicao para estados representativos de cada regiao - TMI.

32

Previsão da TMI (%) − 2011

[0,5](5,10](10,15](15,20](20,25](25,30]

(a) Previsao de 2008.

Valor real da TMI (%) − 2011

[0,5](5,10](10,15](15,20](20,25](25,30]

(b) Valores Reais de 2008.

33

REFERENCIAS BIBLIOGRAFICAS

Brooks, S. P. (1998). Markov chain monte carlo method and its application. The Statistician, 47 ,

69–100.

Brooks, S. P., e Gelman, A. (1997). General methods for monitoring convergence of iterative simulations.

Journal of Computational and Graphical Statistics, 7 , 434-455.

Carlin, B. P., e Louis, T. A. (1996). Bayes and empirical bayes methods for data analysis (1st ed.).

London: Chapman and Hall.

Congdon, P. (2001). Bayesian statistical modelling (1st ed.). Chichester: John Wiley and Sons.

Gelfand, A., e Smith, A. (1990). Sampling based approaches to calculating marginal densities. Journal

of the American Statistical Association, 85 , 398–409.

Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., e Rubin, D. B. (2014). Bayesian

data analysis (3rd ed.). Florida: Taylor and Francis.

Geman, S., e Geman, D. (1984). Stochastic relaxation, gibbs distributions and the Bayesian restoration

of images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 6 , 721–741.

Gilks, W. R., Richardson, S., e Spiegelhalter, D. (1996). Markov chain monte carlo in practice (1st ed.).

London: Chapman and Hall.

Hayashi, F. (2000). Econometrics. Princeton: Princeton University Press.

Morettin, P. A., e Toloi, C. M. C. (2006). Analise de series temporais (2nd ed.). Sao Paulo: Edgard

Blucher.

Ravines, R. E. R., Schmidt, A. M., e Migon, H. S. (2006). Revisiting distributed lag models through a

bayesian perspective. Applied Stochastic Models in Business and Industry , 22(2), 193-210.

Tierney, L. (1994). Markov chains for exploring posterior distributions. Annals of Statistics, 22 , 1701–

1786.

34

Apendice A

ORDENACAO DAS UNIDADES DA FEDERACAO

Tabela A.1: Ordenacao dos ındices dos coeficientes em relacao aos estados.

i Unidade Federativa i Unidade Federativa

1 Rondonia 15 Sergipe

2 Acre 16 Bahia

3 Amazonas 17 Minas Gerais

4 Roraima 18 Espırito Santo

5 Para 19 Rio de Janeiro

6 Amapa 20 Sao Paulo

7 Tocantins 21 Parana

8 Maranhao 22 Santa Catarina

9 Piauı 23 Rio Grande do Sul

10 Ceara 24 Mato Grosso do Sul

11 Rio Grande do Norte 25 Mato Grosso

12 Paraıba 26 Goias

13 Pernambuco 27 Distrito Federal

14 Alagoas

35

Apendice B

DISTRIBUICAO A POSTERIORI: MODELO PARA OS DADOS DE SIDA

Tabela B.1: Sumario dos parametros c′is da distribuicao posteriori do modelo final M16 usado para taxa demortalidade por SIDA.


c1 0,3456 0,2201 -0,0719 0,3391 0,7983

c2 0,4397 0,2969 -0,1376 0,4365 1,032

c3 0,3815 0,2494 -0,0979 0,3776 0,8875

c4 1,327 0,5139 0,3742 1,306 2,396

c5 0,3061 0,187 -0,0532 0,3027 0,6843

c6 0,4774 0,3368 -0,1749 0,4742 1,154

c1 0,0671 0,2057 -0,3187 0,0598 0,4935

c8 0,2285 0,2276 -0,2056 0,2235 0,6911

c9 0,2889 0,173 -0,0419 0,2859 0,6407

c10 0,7895 0,2613 0,2829 0,7873 1,314

c11 0,8427 0,338 0,1863 0,8392 1,521

c12 0,7557 0,2858 0,2029 0,7517 1,333

c13 1,1580 0,3871 0,4187 1,15 1,94

c14 0,5804 0,2338 0,1273 0,5775 1,051

c15 0,8574 0,3146 0,2371 0,8565 1,482

c16 0,7715 0,2340 0,3262 0,7660 1,249

c17 1,2380 0,3897 0,5006 1,2280 2,027

c18 1,2630 0,3896 0,5173 1,2560 2,053

c19 1,1760 0,5684 0,1689 1,1340 2,42

c20 1,0210 0,5593 -0,0085 0,9930 2,20

c21 1,2720 0,3586 0,5855 1,2680 1,993

c22 1,4950 0,4098 0,7139 1,4880 2,316

c23 1,6100 0,4362 0,7835 1,6010 2,492

c24 1,3380 0,4683 0,4639 1,3230 2,299

c25 0,9179 0,3927 0,1581 0,9117 1,707

c26 1,2500 0,3703 0,5330 1,2480 1,988

c27 1,2190 0,5721 0,1933 1,18 2,452

36

Tabela B.2: Sumario dos parametros δ′is da distribuicao posteriori do modelo final M16 usado para taxa demortalidade por SIDA.


δ1 0,1116 0,0533 0,0108 0,1110 0,2192

δ2 0,0542 0,0365 -0,0181 0,0543 0,1260

δ3 0,0977 0,0481 0,0074 0,0967 0,1954

δ4 0,1207 0,0619 0,0039 0,1189 0,2476

δ5 0,0824 0,0434 0,0053 0,0804 0,1721

δ6 0,0955 0,0438 0,0085 0,0955 0,1815

δ7 0,0993 0,0383 0,0224 0,0999 0,1736

δ8 0,0888 0,0397 0,0133 0,0881 0,1681

δ9 0,0981 0,0344 0,0296 0,0985 0,1659

δ10 0,0333 0,0251 -0,0156 0,0332 0,0834

δ11 -0,0228 0,0250 -0,0711 -0,0231 0,0272

δ12 0,0447 0,0276 -0,0091 0,0445 0,0998

δ13 0,0280 0,0352 -0,0393 0,0273 0,0994

δ14 0,0546 0,0280 -0,0006 0,0545 0,1097

δ15 0,0464 0,0316 -0,0160 0,0464 0,1088

δ16 0,0571 0,0281 0,0037 0,0563 0,1140

δ17 -0,0068 0,0308 -0,0656 -0,0075 0,0559

δ18 0,0417 0,0412 -0,0373 0,0410 0,1249

δ19 -0,0270 0,0467 -0,1181 -0,0274 0,0662

δ20 -0,0247 0,0538 -0,1317 -0,0242 0,0796

δ21 0,0073 0,0327 -0,0552 0,0069 0,0731

δ22 0,0083 0,0391 -0,0661 0,0074 0,0882

δ23 0,0222 0,0479 -0,0663 0,0209 0,1209

δ24 0,0356 0,0381 -0,0382 0,0354 0,1117

δ25 0,0807 0,0503 -0,0147 0,0794 0,1829

δ26 0,0210 0,0302 -0,0376 0,0206 0,0818

δ27 -0,0240 0,0486 -0,1198 -0,0239 0,0718

37

Tabela B.3: Sumario dos parametros θ′is da distribuicao posteriori do modelo final M16 usado para taxa demortalidade por SIDA.


θ1 0,4708 0,2115 0,0448 0,4736 0,8761

θ2 0,2939 0,2469 -0,2015 0,2956 0,7732

θ3 0,5893 0,1878 0,2047 0,5943 0,9353

θ4 0,4120 0,1972 0,0236 0,4122 0,7965

θ5 0,6365 0,1858 0,2466 0,6472 0,9569

θ6 0,1348 0,2428 -0,3446 0,1345 0,617

θ7 0,1450 0,2716 -0,3868 0,1418 0,6896

θ8 0,4520 0,2481 -0,0536 0,4590 0,9064

θ9 0,1230 0,2769 -0,4261 0,1227 0,6728

θ10 0,5267 0,1812 0,1565 0,5298 0,8764

θ11 0,6469 0,1510 0,3359 0,6512 0,9302

θ12 0,3964 0,2164 -0,0414 0,4011 0,8115

θ13 0,6930 0,1315 0,4254 0,6963 0,9403

θ14 0,2871 0,2457 -0,2044 0,2886 0,7681

θ15 0,3619 0,2062 -0,0492 0,3635 0,7686

θ16 0,4583 0,2090 0,0329 0,4650 0,852

θ17 0,7570 0,1080 0,5345 0,7603 0,9554

θ18 0,6671 0,1334 0,3953 0,6698 0,9221

θ19 0,9247 0,0459 0,8222 0,9299 0,9946

θ20 0,9241 0,0466 0,8198 0,9293 0,9947

θ21 0,7357 0,1146 0,5024 0,7385 0,95

θ22 0,8338 0,0789 0,6704 0,8369 0,9758

θ23 0,8639 0,0712 0,7126 0,8677 0,9855

θ24 0,7186 0,1208 0,4709 0,7216 0,9441

θ25 0,6611 0,1481 0,3594 0,6656 0,9373

θ26 0,6214 0,1366 0,3475 0,6223 0,8888

θ27 0,8523 0,0804 0,6794 0,8583 0,9856

38

Apendice C

DISTRIBUICAO A POSTERIORI: MODELO PARA OS DADOS DE TMI

Tabela C.1: Sumario dos parametros c′is da distribuicao posteriori do modelo final M6 usado para taxa de mor-talidade infantil.


c1 28,2500 3,1740 21,7300 28,3000 34,4600

c2 22,5 5,0450 12,2600 22,5000 32,3100

c3 34,7700 3,4300 27,8000 34,9200 41,1600

c4 19,3500 5,0170 9,2700 19,4000 29,3100

c5 38,5000 3,3820 31,0800 38,8400 44,0100

c6 27,4600 4,7530 17,8100 27,5400 36,7700

c7 38,1000 5,9950 26,0300 38,1000 49,7000

c8 15,5400 4,7280 6,4160 15,3900 25,1900

c9 27,0200 6,5280 13,4700 27,0900 39,3900

c10 21,8400 5,3720 11,5000 21,8300 32,7700

c11 21,0700 5,7230 9,6730 21,4100 31,5600

c12 23,5900 6,8710 10,1200 23,6200 37,3900

c13 18,0200 6,2450 5,2130 18,2600 29,7700

c14 13,0100 5,9680 0,6095 13,0900 24,6700

c15 32,1400 3,8150 24,5400 32,1800 39,6200

c16 24,2100 4,7520 14,7800 24,2600 33,4300

c17 22,0400 3,6310 14,7500 22,1300 29,2200

c18 11,4700 3,2220 5,3870 11,4100 18,1400

c19 23,8900 5,7300 12,3600 23,8100 34,7500

c20 11,9400 5,4560 2,6960 11,3100 24,5900

c21 13,1600 2,6440 8,0310 13,0500 18,5200

c22 18,7900 3,2410 12,1000 18,8500 25,0400

c23 14,6000 3,4920 8,2570 14,5500 21,8100

c24 20,9300 3,0250 14,9900 20,9200 26,6300

c25 28,2800 2,5750 23,0700 28,3400 33,2200

c26 21,2700 3,3580 14,6900 21,2200 27,8100

c27 17,7500 5,6150 6,0660 18,2000 27,8000

39

Tabela C.2: Sumario dos parametros β′1,is da distribuicao posteriori do modelo final M6 usado para taxa de

mortalidade infantil.


β1,1 0,0147 0,0148 -0,0149 0,0149 0,0440

β1,2 -0,0006 0,0589 -0,1153 -0,0015 0,1185

β1,3 0,0073 0,0273 -0,0443 0,0062 0,0642

β1,4 0,0385 0,0307 -0,0231 0,0389 0,0987

β1,5 0,0503 0,0228 0,0070 0,0497 0,0972

β1,6 0,0523 0,0327 -0,0153 0,0532 0,1151

β1,7 -0,0280 0,0187 -0,0669 -0,0274 0,0075

β1,8 -0,0268 0,0446 -0,1137 -0,0272 0,0633

β1,9 -0,0027 0,0508 -0,1026 -0,0033 0,1003

β1,10 0,0474 0,0501 -0,0488 0,0465 0,1485

β1,11 0,0075 0,0252 -0,0411 0,0068 0,0590

β1,12 0,0368 0,1059 -0,1669 0,0341 0,2553

β1,13 0,0536 0,0254 0,0031 0,0532 0,1055

β1,14 0,0098 0,0202 -0,0284 0,0092 0,0512

β1,15 -0,0006 0,0197 -0,0387 -0,0008 0,0387

β1,16 -0,0104 0,0276 -0,0649 -0,0106 0,0444

β1,17 -0,0036 0,0304 -0,0672 -0,0025 0,0527

β1,18 0,0643 0,0309 0,0003 0,0651 0,1228

β1,19 -0,0712 0,0602 -0,1836 -0,0730 0,0479

β1,20 -0,0036 0,0615 -0,1470 0,0049 0,0937

β1,21 0,0059 0,0179 -0,0282 0,0055 0,0428

β1,22 -0,0628 0,0310 -0,1266 -0,0627 -0,0015

β1,23 0,0465 0,0285 -0,0109 0,0469 0,1023

β1,24 0,0011 0,0079 -0,0145 0,0011 0,0168

β1,25 -0,0117 0,0197 -0,0508 -0,0119 0,0278

β1,26 0,0156 0,0160 -0,0168 0,0157 0,0474

β1,27 -0,0439 0,0541 -0,1433 -0,0457 0,0677

40




β2,1 0,0037 0,0031 -0,0023 0,0037 0,0102

β2,2 0,0126 0,0062 0,0003 0,0127 0,0250

β2,3 0,0039 0,0063 -0,0082 0,0038 0,0173

β2,4 0,0008 0,0048 -0,0086 0,0007 0,0107

β2,5 -0,0125 0,0059 -0,02306 0,0129 0,0002

β2,6 -0,0018 0,0122 -0,0250 -0,0022 0,0238

β2,7 -0,0034 0,0078 -0,01941 -0,0034 0,0121

β2,8 0,0324 0,0160 -0,0010 0,0330 0,0625

β2,9 0,0148 0,0160 -0,0184 0,0153 0,0451

β2,10 0,0097 0,0130 -0,0175 0,0100 0,0344

β2,11 0,0195 0,0067 0,0059 0,0197 0,0325

β2,12 0,0196 0,0191 -0,0196 0,0199 0,0569

β2,13 0,0160 0,0092 -0,0029 0,0161 0,0340

β2,14 0,0280 0,0068 0,01381 0,0283 0,0407

β2,15 0,0029 0,0058 -0,0091 0,0031 0,0140

β2,16 0,0192 0,0067 0,0054 0,0192 0,0329

β2,17 0,0070 0,0027 0,0016 0,0070 0,0127

β2,18 0,0038 0,0039 -0,0041 0,0039 0,0116

β2,19 0,0049 0,0026 -0,0002 0,0049 0,0100

β2,20 0,0077 0,0020 0,0037 0,0077 0,0120

β2,21 0,0069 0,0036 0,0001 0,0069 0,0140

β2,22 0,0076 0,0027 0,0019 0,0077 0,0128

β2,23 -0,0050 0,0029 -0,0113 -0,0049 0,0004

β2,24 0,0031 0,0031 -0,0029 0,0031 0,0093

β2,25 0,0040 0,0037 -0,0034 0,0041 0,0111

β2,26 -0,0047 0,0044 -0,0135 -0,0048 0,0043

β2,27 0,0032 0,0015 0,0000 0,0032 0,0062

41




β3,1 0,5048 0,1800 0,1444 0,5038 0,8822

β3,2 0,2600 0,1545 -0,0435 0,2598 0,5675

β3,3 0,2539 0,1412 -0,0145 0,2496 0,5481

β3,4 0,1656 0,2249 -0,2799 0,1640 0,6175

β3,5 0,0406 0,1311 -0,1879 0,0304 0,3254

β3,6 0,3788 0,2334 -0,0878 0,3810 0,8305

β3,7 0,2785 0,2692 -0,2449 0,2862 0,8014

β3,8 0,7069 0,1372 0,4299 0,7108 0,9701

β3,9 0,4218 0,1915 0,0645 0,4176 0,8183

β3,10 0,6355 0,2087 0,2150 0,6354 1,0360

β3,11 0,5490 0,2074 0,1695 0,5394 0,9587

β3,12 0,5294 0,2160 0,1005 0,5296 0,9558

β3,13 0,6228 0,2266 0,1976 0,6154 1,0760

β3,14 0,7713 0,1582 0,4623 0,7692 1,1030

β3,15 0,5097 0,1513 0,2160 0,5083 0,8111

β3,16 0,4788 0,1947 0,1057 0,4813 0,8628

β3,17 0,3476 0,2460 -0,1359 0,3433 0,8524

β3,18 0,2728 0,1984 -0,1233 0,2770 0,6557

β3,19 0,2758 0,2877 -0,2963 0,2804 0,8327

β3,20 0,2811 0,3168 -0,3741 0,2990 0,8511

β3,21 0,4761 0,2669 -0,0325 0,4724 1,0080

β3,22 0,0338 0,2960 -0,5571 0,0289 0,6180

β3,23 0,4802 0,3089 -0,1339 0,4835 1,0950

β3,24 0,3863 0,2363 -0,0670 0,3885 0,8518

β3,25 0,2057 0,2001 -0,1784 0,2018 0,6027

β3,26 0,3423 0,2178 -0,0831 0,3452 0,7707

β3,27 0,1067 0,3024 -0,4976 0,1112 0,6871

42




β4,1 -1,1810 0,0541 -1,2890 -1,1810 -1,0730

β4,2 -0,9034 0,0952 -1,0930 -0,9033 -0,7152

β4,3 -1,3570 0,1097 -1,5670 -1,3610 -1,1310

β4,4 -0,3437 0,1116 -0,5709 -0,3417 -0,1283

β4,5 -0,9814 0,05070 -1,0810 -0,9819 -0,8788

β4,6 -0,2833 0,2136 -0,7250 -0,2774 0,1206

β4,7 -1,3470 0,2693 -1,8390 -1,3520 -0,7915

β4,8 -1,3890 0,2423 -1,8690 -1,3890 -0,9107

β4,9 -1,6910 0,3306 -2,3060 -1,7060 -0,9720

β4,10 -1,7580 0,2765 -2,2950 -1,7630 -1,2070

β4,11 -1,7730 0,1769 -2,1060 -1,7760 -1,4100

β4,12 -2,1540 0,2877 -2,7040 -2,1650 -1,5610

β4,13 -1,6430 0,1760 -1,9930 -1,6440 -1,2950

β4,14 -1,8330 0,1626 -2,1490 -1,8350 -1,5010

β4,15 -1,7710 0,1555 -2,0720 -1,7760 -1,4540

β4,16 -1,4250 0,1769 -1,7600 -1,4340 -1,0700

β4,17 -1,0020 0,1104 -1,2140 -1,0030 -0,7760

β4,18 -0,6578 0,1193 -0,8971 -0,6569 -0,4208

β4,19 -0,7086 0,0746 -0,8522 -0,7098 -0,5602

β4,20 -0,6437 0,06585 -0,7787 -0,6415 -0,5219

β4,21 -0,7976 0,1311 -1,0620 -0,7946 -0,5579

β4,22 -0,7714 0,1174 -0,9881 -0,7739 -0,5327

β4,23 -0,3107 0,0813 -0,4739 -0,3095 -0,1493

β4,24 -0,7561 0,1085 -0,9676 -0,7545 -0,5424

β4,25 -0,9443 0,1096 -1,156 -0,9471 -0,7233

β4,26 -0,3770 0,1415 -0,6559 -0,3749 -0,1020

β4,27 -0,5537 0,0947 -0,7393 -0,5538 -0,3654

abordagem bayesiana para dados de painel€¦ · neste trabalho abordamos dois conjuntos de dados -...

Documents