abordagem bayesiana para dados de painel€¦ · neste trabalho abordamos dois conjuntos de dados -...
TRANSCRIPT
UFRJ
Universidade Federal do Rio de Janeiro
Abordagem Bayesiana para Dados de Painel
Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros
2014
UFRJ
Abordagem Bayesiana para Dados de Painel
Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros
Projeto Final submetido ao Programa de Graduacao em
Estatıstica do Instituto de Matematica da Universidade
Federal do Rio de Janeiro como parte dos requisitos ne-
cessarios para obtencao do grau de Bacharel em Ciencias
Estatısticas.
Orientador: Ralph dos Santos Silva
Rio de Janeiro, 8 dezembro de 2014.
Abordagem Bayesiana para Dados de Painel
Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros
Orientador: Ralph dos Santos Silva
Projeto Final de Conclusao de Curso apresentado ao Departamento de Metodos Es-
tatısticos do Instituto de Matematica da Universidade Federal do Rio de Janeiro como parte
dos requisitos necessarios para obtencao do tıtulo de Bacharel em Estatıstica.
Prof. Ralph dos Santos Silva
IM-UFRJ
Prof.a Alexandra Mello Schmidt
IM-UFRJ
Prof.a Thaıs Cristina Oliveira da Fonseca
IM-UFRJ
Rio de Janeiro, 8 de dezembro de 2014.
Castro, Nicolai Reis; Queiroz, Rodrigo de Souza Barros
Abordagem Bayesiana para Dados de Painel/ Nicolai Reis Castro e
Rodrigo Queiroz- Rio de Janeiro: UFRJ/IM, 2014.
iv, 42f.: il.; 31cm.
Orientador: Ralph dos Santos Silva
Projeto Final (Monografia) - UFRJ/IM/ Programa de Graduacao em
Estatıstica, 2014.
Referencias Bibliograficas: f.33.
1. Abordagem Bayesiana. 2. Dados de Painel. I. Silva, Ralph dos
Santos. II. Universidade Federal do Rio de Janeiro, Instituto de Ma-
tematica. III. Tıtulo.
RESUMO
Abordagem Bayesiana para Dados de Painel
Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros
Orientador: Ralph dos Santos Silva
Resumo do Projeto Final submetido ao Programa de Graduacao em Estatıstica do Ins-
tituto de Matematica da Universidade Federal do Rio de Janeiro como parte dos requisitos
necessarios para obtencao do grau de Bacharel em Estatıstica.
Neste trabalho abordamos dois conjuntos de dados - casos de obitos pela Sındrome da Imuno-
Deficiencia Adquirida (SIDA) por Unidade Federativa e casos de mortalidade infantil tambem por Uni-
dade Federativa. Utilizamos Estatısticas Descritivas para compreender a dinamica inicial dos dados e
tambem para verificar a presenca de possıveis pontos discrepantes e a significancia de autocorrelacoes
dos dados. Seguimos com a estimacao de modelos de regressao por mınimos quadrados para entender
como a incidencia de SIDA poderia impactar no numero de obitos. Fazemos um estudo semelhante para
os dados de mortalidade infantil. Entretanto, estes modelos nao se mostram adequados. Daı, propomos
varios modelos para dados de painel, fazemos ajuste pelo enfoque bayesiano e escolhemos o melhor
modelo (ajuste) via o criterio de informacao do desvio. Finalmente, dado o melhor ajuste, fazemos
previsoes para poucos anos a frente.
Palavras-chave: Monte Carlo via cadeias de Markov, mortalidade infantil, selecao de modelos,
Sındrome da Imuno-Deficiencia Adquirida.
ABSTRACT
Bayesian Approach to Panel Data
Nicolai Reis Castro e Rodrigo Queiroz
Advisor: Ralph dos Santos Silva
Abstract do Projeto Final submetido ao Programa de Graduacao em Estatıstica do Ins-
tituto de Matematica da Universidade Federal do Rio de Janeiro como parte dos requisitos
necessarios para obtencao do grau de Bacharel em Estatıstica.
In this work we study two data sets - cases of death by Acquired Immunodeficiency Syndrome (AIDS)
by states of Brazil and cases of infant mortality by states of Brazil as well. We start with descriptive
statistic analysis for understanding the basics of the data set as well as for identifying outliers and sig-
nificant autocorrelations. Further we estimate regression model by ordinary least square to study how
the incidence of AIDS can impact on the amount of death. We proceed with the same scheme for the
infant mortality data. However, these models were not suited for these data sets. Thus, we propose
several panel data models, estimate these models by the Bayesian approach and choose de best fit model
by means of the deviance information criterion. Finally, we use the best model fit to forecast one- or
two-years ahead.
Key-words: Acquired immunodeficiency syndrome, infant mortality, model selection, Markov chain
Monte Carlo.
Para
Paulo Castro e Martha Ramos Reis
e
Jose Paulo de Souza Barros e Izabel Oliveira de Queiroz
AGRADECIMENTOS
Em especial a nossos pais.
Ao nosso orientador Ralph dos Santos Silva;
e
A todos os professores do DME/IM/UFRJ;
SUMARIO
Lista de Tabelas iii
Lista de Figuras iv
Capıtulo 1: Introducao 1
1.1 Series de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Capıtulo 2: Metodologia 3
2.1 Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Inferencia Bayesiana Usando Monte Carlo via Cadeias de Markov . . . . . . . . . . . . . 3
2.2.1 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.2 Criterio de Convergencia - BGR . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.3 Criterio de Informacao de Desvio . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.4 OpenBUGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Metodo dos Mınimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Series Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.1 Estacionariedade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.2 Autocovariancia e Autocorrelacao . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.3 Modelo Autoregressivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.4 Modelos de Defasagens Distribuıdas . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4.5 Analise de Intervencao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4.6 Teste Independencia dos Resıduos: Ljung-Box . . . . . . . . . . . . . . . . . . . 11
Capıtulo 3: Aplicacao 12
3.1 Obitos por Sındrome da Imuno-Deficiencia Adquirida . . . . . . . . . . . . . . . . . . . 12
3.2 Mortalidade Infantil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Capıtulo 4: Consideracoes Finais 27
4.1 Obitos por Sındrome da Imuno-Deficiencia Adquirida . . . . . . . . . . . . . . . . . . . 27
4.2 Mortalidade Infantil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Referencias Bibliograficas 33
i
Apendice A: Ordenacao das Unidades da Federacao 34
Apendice B: Distribuicao a Posteriori: Modelo para os Dados de SIDA 35
Apendice C: Distribuicao a Posteriori: Modelo para os Dados de TMI 38
ii
LISTA DE TABELAS
3.1 DIC: dados de SIDA - Parte I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 DIC: dados de SIDA - Parte II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 DIC: dados de SIDA - Parte III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4 DIC: dados de SIDA - Parte IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.5 DIC: dados de SIDA - Parte V . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.6 Sumario da distribuicao a posteriori: Modelo M16 - SIDA - Parte I . . . . . . . . . . . . 19
3.7 DIC: dados de TMI - Parte I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.8 DIC: dados de TMI - Parte II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.9 Sumario da distribuicao a posteriori: Modelo M6 - TMI - Parte I . . . . . . . . . . . . 26
A.1 Ordenacao dos ındices dos coeficientes em relacao aos estados. . . . . . . . . . . . . . . 34
B.1 Sumario da distribuicao a posteriori: Modelo M16 - SIDA - Parte II . . . . . . . . . . . 35
B.2 Sumario da distribuicao a posteriori: Modelo M16 - SIDA - Parte III . . . . . . . . . . . 36
B.3 Sumario da distribuicao a posteriori: Modelo M16 - SIDA - Parte IV . . . . . . . . . . . 37
C.1 Sumario da distribuicao a posteriori: Modelo M6 - TMI - Parte II . . . . . . . . . . . . 38
C.2 Sumario da distribuicao a posteriori: Modelo M6 - TMI - Parte III . . . . . . . . . . . . 39
C.3 Sumario da distribuicao a posteriori: Modelo M6 - TMI - Parte IV . . . . . . . . . . . . 40
C.4 Sumario da distribuicao a posteriori: Modelo M6 - TMI - Parte V . . . . . . . . . . . . 41
C.5 Sumario da distribuicao a posteriori: Modelo M6 - TMI - Parte VI . . . . . . . . . . . . 42
iii
LISTA DE FIGURAS
3.1 Analise de Resıduos do Ajuste Final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2 Media da Serie de TMI por UF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Graficos de ACF de uma defasagem - TMI. . . . . . . . . . . . . . . . . . . . . . . . . 23
3.4 Analise de Resıduos do Ajuste Final. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1 Predicao para os estados representativos de cada regiao - SIDA . . . . . . . . . . . . . . 28
4.2 Predicao para estados representativos de cada regiao - TMI . . . . . . . . . . . . . . . . 31
iv
1
Capıtulo 1
INTRODUCAO
Neste trabalho estudamos os seguintes conjuntos de dados de painel: mortalidade infantil e obito
pela Sındrome da Imuno-Deficiencia Adquirida (SIDA), ambos categorizados por unidade federativa.
Propusemos diversos modelos para estes dados e estimamos todas as quantidades desconhecidas destes
modelos atraves do enfoque bayesiano. Os dados apresentados foram retirados do banco de dados do
DATASUS.
Inicialmente, esperavamos associar os dados de mortalidade infantil a quatro variaveis explicativas -
proporcao da populacao servida por esgotamento sanitario, proporcao da populacao servida por rede de
abastecimento de agua, renda media domiciliar e taxa de analfabetismo; quanto aos dados de obito por
SIDA, esperavamos associa-los a uma variavel explicativa - incidencia de SIDA.
Primeiro apresentaremos a metodologia utilizada em nossas avaliacoes e posteriormente descrevere-
mos a aplicacao dos dados.
1.1 Series de Dados
A primeira serie escolhida foi a taxa de mortalidade especıfica por SIDA do ano de 1990 a 2009. Ela conta
o numero de obitos pela SIDA por 100.000 habitantes na populacao residente em determinado espaco
geografico no ano considerado. Esta serie estima o numero de mortes associado a SIDA e dimensiona
a magnitude da doenca como problema de saude publica, bem como retrata a incidencia da doenca na
populacao, associada a fatores de risco principalmente comportamentais, como o uso de drogas injetaveis
e praticas sexuais. Expressa tambem as condicoes de diagnostico e qualidade de assistencia medica
dispensada, bem como o efeito de acoes educativas e a adocao de medidas individuais de prevencao.
Estamos usando esta serie para analisar variacoes geograficas e temporais da mortalidade por SIDA em
segmentos populacionais, identificando situacoes de desigualdade e tendencias que demandem acoes e
estudos especıficos. Tais dados sao provenientes do Ministerio da Saude, da Secretaria de Vigilancia a
Saude: Sistema de Informacoes sobre Mortalidade e base demografica do Instituto Brasileiro de Geografia
e Estatıstica. Vale ressaltar que de 1990 a 1995 ha um grande aumento da mortalidade por SIDA em
2
todas as regioes. No perıodo de 1995 a 2000 esta tendencia se inverte, de modo que ha reducao em todas
as regioes (excetuando a Norte), acompanhando a adocao da terapia medicamentosa com antiretrovirais
e a implementacao da polıtica nacional de distrbuicao gratuita desses medicamentos.
A segunda base de dados escolhida foi a Taxa de Mortalidade Infantil (TMI). Ela conta o numero
de obitos de menores de um ano de idade, por 1.000 (mil) nascidos vivos, em determinado espaco
geografico em determinado ano (entre 1997 e 2011), compreendendo a soma dos obitos ocorridos nos
perıodos neonatal (0-6 dias), neonatal tardio (7-27 dias), e pos-neonatal (apos 28 dias). Esta serie
procura estimar o risco de um nascido vivo morrer em seu primeiro ano de vida. A taxa de mortalidade
pode ser considerada alta (50 ou mais), media (20-49), ou baixa (0-19), em funcao da proximidade ou
distancia de valores alcancados em sociedades mais desenvolvidas, refletindo, de maneira geral, baixos
nıveis de saude, de desenvolvimento socioeconomico e de condicoes de vida. Nosso objetivo e analisar
variacoes geograficas e temporais da mortalidade infantil, contribuindo na avaliacao dos nıveis de saude
e de desenvolvimento socioeconomico da populacao. E possıvel notar consistente tendencia de reducao
da mortalidade infantil em todas as regioes brasileiras, que reflete no declınio da fecundidade nas ultimas
decadas e o efeito das intervencoes publicas nas areas de saude e saneamento. Ainda assim, os valores
medios continuam elevados, sobretudo nas regioes Norte e Nordeste.
No capıtulo 2 revisaremos conceitos, princıpios e metodos de analisar conjuntos de dados. No capıtulo
3 faremos estudos usando os metodos usados no capıtulo anterior e, finalmente, no capıtulo 4 avaliaremos
nossa abordagem, bem como os resultados adquiridos atraves dela, no que concernem nossas bases de
dados.
3
Capıtulo 2
METODOLOGIA
Neste capıtulo revisaremos brevemente a inferencia bayesiana, o metodos de Monte Carlo via cadeias
de Markov, mınimos quadrados, modelos autorregressivos e criterios importantes para selecionar modelos.
2.1 Inferencia Bayesiana
Inferencia e um conjunto de tecnicas que tem por objetivo estudar uma populacao atraves de evidencias
fornecidas por uma amostra. A inferencia bayesiana descreve as incertezas associadas a variaveis nao
observaveis de forma probabilıstica. De forma iterativa, as incerterzas sao atualizadas apos observacoes
de novos resultados.
A inferencia bayesiana e proveniente da probabilidade a posteriori f(θ|x), sendo esta proporcional
a combinacao entre a probabilidade a priori f(θ) e a funcao de verossimilhanca `(θ|x), que leva em
consideracao os dados observados.
A equacao referente seria
f(θ|x) ∝ `(θ|x)f(θ).
2.2 Inferencia Bayesiana Usando Monte Carlo via Cadeias de Markov
A ideia basica de Monte Carlo via cadeias de Markov e construir uma cadeia de Markov cuja distribuicao
de equilıbrio e igual a distribuicao de interesse, em nosso caso a distribuicao a posteriori. Apos a realizacao
de um numero finito de simulacoes desta cadeia, o objetivo e atingir a distribuicao de equilıbrio, com
isso dando origem a uma amostra de distribuicao de interesse.
Considerando que θ = (θ1, θ2, . . . , θp)′ possuem densidade conjunta π(θ) = (θ1, θ2, . . . , θp) e que
q(θ,θ∗) define a distribuicao condicional em θ∗ das transicoes do estado θ. Sendo com isso, possıvel a
construcao de um cadeia com probabilidades de transicao invariantes no tempo, onde cada estado pode
ser obtido de um outro estado com um numero finito de iteracoes, podendo-se alcancar distribuicao de
equilıbrio.
4
2.2.1 Amostrador de Gibbs
O amostrador de Gibbs e um dos metodos mais utilizados na construcao da cadeia de Markov - proposto
por Geman e Geman (1984) e popularizado por Gelfand e Smith (1990) - e um esquema de amostragem
de uma Cadeia de Markov, cujas probabilidades de transicao dos estados sao realizadas a partir das
distribuicoes condicionais completas.
Seja π(θ) a distribuicao de interesse, sendo θ = (θ1, θ2, . . . , θp)′. Deseja-se gerar uma amostra de
π(θ) e supoe-se que esta geracao e complicada para se realizar diretamente.
Considerando πi(θi) = pi(θi|θ−i) como funcao densidade condicional de θi, dados os valores de
todos os outros θj (j 6= i), assumindo-se que e possıvel amostrar valores destas distribuicoes para cada
i = 1, 2, . . . , p.
Considere que dado um conjunto de valores iniciais θ(0) = (θ(0)1 , θ
(0)2 , . . . , θ
(0)p )′, o algoritmo ja esteja
na j-esima iteracao da cadeia θ(j). Entao, a posicao da cadeia na iteracao seguinte (j + 1) e obtida da
seguinte forma:
1. Gera-se θ(j+1)1 de π1(θ1|θ(j)2 , . . . , θ
(j)p );
2. Gera-se θ(j+1)2 de π2(θ2|θ(j+1)
1 , θ(j)3 , . . . , θ
(j)p ); e
3. Repete-se sucessivamente os Passos 1 e 2 anteriores para i = 3, 4, . . . , p, onde no ultimo passo gera-
se θ(j+1)p de πp(θp|θ(j+1)
1 , θ(j+1)2 , . . . , θ
(j+1)p−1 ), obtendo-se o vetor θ(j+1) = (θ
(j+1)1 , . . . , θ
(j+1)p )′.
Sob certas condicoes de regularidade (Tierney, 1994), a distribuicao limite de θ(j) tende a π(θ).
2.2.2 Criterio de Convergencia - BGR
Abordaremos superficialmente o criterio de convergencia criado por Gelman e Rubin e posteriormente
aperfeicoado por Brooks e Gelman (1997) que citam passos para a geracao de um diagnostico de
convergencia de multiplos fatores. Nos referimos a este criterio como BGR.
Passos (para cada parametro):
1. Gere m ≥ 2 cadeias de tamanho 2n de valores iniciais sobredispersos;
2. Descarte os primeiros n resultados de cada cadeia;
3. Calcule as variancias dentro de cada cadeia e entre as cadeias;
4. Calcule a variancia estimada como uma media ponderada entre a variancia dentro de cada cadeia
e a variancia entre as cadeias
5
5. Calcule o fator de reducao potencial de escala.
De modo que a variancia dentro de cada cadeia e dada por
W =1
m
m∑j=1
s2j
sendo
s2j =1
n− 1
n∑i=1
(θij − θj)2,
de modo que s2j e a formula para a variancia da j-esima cadeia. Portanto, W e a media das variancias
da cadeia. O W provavelmente subestima a variancia verdadeira da distribuicao estacionaria, tendo em
vista que as cadeias geradas provavelmente nao alcancaram todos os pontos da distribuicao estacionaria.
A variancia entre cadeias e dada por
B =n
m− 1
m∑j=1
(θj − θ)2
sendo
θ =1
m
m∑j=1
θj .
Temos que B e a variancia das cadeias multiplicada por n, porque cada cadeia e constituıda por n
resultados. Podemos estimar a variancia da distribuicao estacionaria atraves da media ponderada de W
e B.
V ar(θ) =
(1− 1
n
)W +
1
nB.
Por causa da sobredispersao dos valores iniciais, este estimador da variancia superestima a variancia real,
mas e nao-tendenciosa conforme a distribuicao inicial se iguala a distribuicao estacionaria.
O fator de reducao potencial de escala possui a forma
R =
√V ar(θ)
W.
Quando R for alta, talvez ao superar 1,1, ou 1,2, devemos gerar mais valores para as cadeias de modo a
aproximar suas convergencia ate que alcancem a distribuicao estacionaria. Caso tenhamos mais de um
parametro, temos de calcular um fator de reducao potencial de escala para cada parametro. Devemos
rodar tantas iteracoes quanto forem necessarias para que todos fatores sejam pequenos o bastante. Deste
modo nos sera possıvel combinar todos os mn resultados de nossas cadeias para gerar uma cadeia para
a distribuicao estacionaria.
6
2.2.3 Criterio de Informacao de Desvio
O Criterio de Informacao do Desvio (do ingles DIC) e definido como:
DIC = D(θ) + 2pD
= D(θ) + pD,
sendo pD = D(θ)−D(θ), D(θ) = −2 ln(p(y|θ)) e a funcao de verossimilhancTemos tambem que D(θ)
e a media a posteriori do desvio, D(θ) uma estimativa pontual do desvio obtida a partir da utilicao
da media a posteriori de θ, denotada por θ, e pD uma estimativa do numero efetivo de parametros.
O modelo que apresenta o menor DIC e considerado como aquele que melhor pode predizer um novo
conjunto de dados com a mesma estrutura dos dados observados.
2.2.4 OpenBUGS
O OpenBUGS e um programa criado para efetuar analises bayesianas de modelos estatısticos complexos
usando Monte Carlo via cadeias de Markov (MCMC). Ha uma grande literatura associada a analise
bayesiana e MCMC, como pode ser encontrado em Carlin e Louis (1996), Gelman et al. (2014), Brooks
(1998) e Gilks, Richardson, e Spiegelhalter (1996). Em seu manual, no capıtulo 9 do auto-entitulado
manual Classic BUGS, “Topicos em Modelagens” discute prioris nao-informativas, crıticas de modelos,
ranking, erros de medicao, verossimilhancas condicionais, parametrizacao, modelos espaciais e mais,
enquanto a documentacao do Diagnostico de Convergencia e Analise de Producao (CODA) engloba
diagnosticos de convergencia. Congdon (2001) ensina a analisar uma extensa gama de modelos usando
o OpenBUGS. Os usuarios de OpenBUGS devem estar cientes dos metodos bayesianos via MCMC por
tras do programa (Gilks et al., 1996). Tendo especificado o modelo como uma distribuicao conjunta
em todas as quantidades, sejam elas parametros ou observaveis, o objetivo torna-se amostrar valores
das quantidades desconhecidas do modelo via sua distribuicao a posteriori, dados seus nos estocasticos
observados. OpenBUGS usa tres famılias de algoritmos de MCMC: amostrador de Gibbs, algoritmo de
Metropolis Hastings e (slice sampling). Vale mencionar que as praticas associadas as secoes anteriores,
bem como as presentes no manual supracitado, estao disponıveis no OpenBUGS.
2.3 Metodo dos Mınimos Quadrados
O Metodo dos Mınimos Quadrados Ordinarios (MQO) e uma tecnica de otimizacao que visa buscar o
melhor ajuste para um conjunto de dados em um modelo de regressao tentando minimizar a soma dos
quadrados dos resıduos da diferenca entre um conjunto de dados reais e suas estimativas, comumente
utilizado em Econometria. Lembrando que sao requisitos para este metodo que os erros sejam distribuıdos
aleatoriamente, independentes e identicamente distribuıdos. O Teorema Gauss-Markov (Hayashi, 2000)
7
garante indiretamente que o estimador obtido atraves do MQO e nao-tendencioso e possui a variancia
linear mınima na variavel resposta.
Nosso objetivo e explicar uma variavel aleatoria y atraves de uma regressao baseada em um vetor de
tamanho r de variaveis explicativas x. Efetuaremos
y = α+ x′β + ε
sendo
• α: constante do modelo;
• β: vetor de parametros que servem de coeficientes das variaveis x;
• ε: o erro, a variacao de y que nao e explicada pelo modelo.
Observamos entao n valores de y, y = (y1, y2, . . . , yn)′, e n valores do vetor de variaveis explicativas x,
X = (x1,x2, . . . ,xn). Sabemos que as quantidades α, β e ε sao nao-observaveis, mas o metodo dos
mınimos quadrados nos fornecera uma boa estimativa sobre eles. Com efeito, mudaremos a notacao das
variaveis de modo que ao estimar o modelo usando a base de dados, estaremos estimando, na verdade
yi = α+ x′iβ + εi,
onde i indica cada uma das n observacoes da base de dados e ε nao e mais um erro, porem um resıduo
da diferenca entre yi e yi, sendo yi = α+ x′iβ.
O estimador resultante do metodo dos MQO minimiza o erro quadratico medio (de fato, poderıamos,
entao, chama-lo do “melhor estimador linear nao tendencioso”, BLUE ).
Facamos:
yi = α+ x′iβ + εi,
S(εi) =
n∑i=1
ε2i .
Nosso objetivo e minimizar
S(α, β) =n∑i=1
(yi − α− x′iβ)2.
Para minimizarmos o erro, derivaremos S(α, β) em relacao a α e β e igualando-a a zero.
∂S
∂α= −2
n∑i=1
(yi − α− xiβ)2 = 0
∂S
∂β= −2
n∑i=1
(yi − α− xiβ)2 = 0
8
De modo que chegaremos a
α = y − x′β.
onde y e a media amostral dos yi’s e x e a media dos vetores amostral xi’s. Substituindo o resultado
encontrado para α para encontrarmos β temos
β = (X ′X)−1X ′(y − α1).
2.4 Series Temporais
Revisaremos nesta secao alguns conceitos de series temporais. Princıpios que nao devemos violar,
metodos que podemos utilizar e testes que devemos realizar para garantir que nosso modelo sera bem
ajustado e que caso insiramos componentes autorregressivas (veremos em subsecao logo mais) estas nao
trarao problemas de ma especificacao ao modelo.
2.4.1 Estacionariedade
Uma serie temporal {yt} e dita estritamente estacionaria se todas as distribuicoes de qualquer colecao
finita de vetores aleatorios indexados no tempo permanecem as mesmas sob translacoes no tempo. Ou
seja, temos todos os momentos - incluindo media, variancia e covariancia - constantes ao longo do
tempo.
Uma serie temporal {yt} e dita estacionaria de segunda ordem se a media e a variancia sao constantes
ao longo do tempo, e se sua autocovariancia e sua autocorrelacao (termos definidos nas proximas
subsecoes) dependem somente da defasagem (distancia entre as observacoes).
2.4.2 Autocovariancia e Autocorrelacao
Se o modelo de serie temporal, {yt}, e estacionario de segunda ordem, a funcao de autocovariancia
(FACV), γk, e definida como uma funcao de defasagem k:
γk = E[(yt − µ)(yt+k − µ)],
sendo µ o nıvel da serie, ou seja, µ = E(yt) e k a defasagem.
A funcao de autocorrelacao (FAC) de defasagem k e definida por:
ρk =γkγ0,
sendo γ0 a variancia, γ0 = Var(yt), do processo gerador da serie temporal e ρ0 = 1.
9
A FAC amostral e um bom instrumento de avaliacao para grau de dependencia dos dados,fornecendo
uma boa estimacao para a funcao de autocorrelacao da serie temporal,neste caso supondo que os valores
observados provem de uma serie estacionaria..
Sejam y1, . . . , yn observacoes de uma serie temporal de tamanho n. A media amostral de y1, . . . , yn
e dada por
y =1
n
n∑t=1
yt.
A funcao de autocovariancia amostral e dada por:
γk =1
n
n−|k|∑t=1
(yt+|k| − y)(yt − y), para − n < k < n,
e a funcao de autocorrelacao amostral por
ρk =γkγ0, para − n < k < n.
2.4.3 Modelo Autoregressivo
O modelo autoregressivo de ordem p e usado quando ha autocorrelacao entre as observacoes, ou seja,
o processo autoregressivo e usado quando um valor de uma variavel n o perıodo t depende de seu valor
no perıodo anterior (t -1) e de um termo aleatorio.A forma geral do modelo autoregressivo de ordem p
denotado por AR e definido como:
yt = µ+ φ1yt−1 + φ2yt−2 + · · ·+ φpyt−p + εt.
Sendo que para cada t, assumimos yt−1, yt−2, yt−3, ..., sao independentes de εt, pelo fato de yt
incorporar todos os valores novos da serie que nao sao explicados pelos valores passados.
Um caso particular e o modelo autoregressivo de ordem 1, denotado por AR(1), que e definido como:
yt = µ+ φyt−1 + εt,
sendo εt um erro aleatorio do tipo ruıdo branco, isto e, independentes para todo t, com media 0 (zero)
e variancia constante.
O processo AR(1), tem as seguintes funcoes de autocovariancia:
γ0 =σ2ε
1− φ2
e
γk =φkσ2ε1− φ2
,
e a seguinte funcao de autocorrelacao:
ρk = φk para k = 1, 2, 3, ...
10
2.4.4 Modelos de Defasagens Distribuıdas
A forma geral de um modelo linear de defasagens distribuıdas e
yt =
∞∑i=0
βixt−i + εt,
onde qualquer mudanca afetara E(yt) nos perıodos subsequentes. Por exemplo, imagine os pagamentos
de dividendos de uma empresa qualquer, sejam estes (yt) e veja como yt nao depende apenas de lucros
provenientes do perıodo presente (xt), como dos lucros provenientes de perıodos anteriores (xt−s).
O termo βi presente na equacao e o i-esimo coeficiente de reacao e normalmente podemos assumir
que limi→∞ βi = 0 e∑∞
i=0 βi = c ≤ ∞. Podemos assumir que as mudancas em xt nao devem ser de
grande influencia a yt apos um perıodo de tempo m, o que implicaria que que βi sumiria apos a chegada
de βm. Neste caso o modelo e reduzido a um modelo defasagens distribuıdas finitas, para o qual o limite
superior presente no somatorio da forma geral do modelo linear de defasagens distribuıdas e m. Veja
aplicacoes destes modelos em Ravines, Schmidt, e Migon (2006).
Consideraremos casos particulares destes modelos em nossas analises de dados.
2.4.5 Analise de Intervencao
Por uma intervencao entendemos a ocorrencia de um determinado evento E em dado instante de tempo
T , conhecido a priori, onde tal ocorrencia pode influenciar tanto temporariamente, como permanente-
mente a serie estudada. A analise de intervencao tem por objetivo avaliar o impacto deste evento E no
comportamento da serie.
Por Morettin e Toloi (2006), as series indicadoras de intervencoes podem ser representadas por dois
tipos de variaveis binarias:
• Funcao degrau:
xj,t =
S(T )t = 0, se t < T ;
S(T )t = 1, se t > T .
• Funcao impulso:
xj,t =
I(T )t = 0, se t 6= T ;
I(T )t = 1, se t = T .
E trivial notarmos que o efeito da funcao degrau e permanente, enquanto o efeito da funcao impulso
e temporario. Uma classe geral de modelos que levam em conta a ocorrencia de multiplas intervencoes
e dada por
yt =
k∑j=1
νj(B)xj,t + εt
em que
11
• xj,t, j = 1, 2, . . . , k sao as variaveis de intervencao;
• νj(B), j = 1, 2, . . . , k sao funcoes racionais da formaωj(B)Bbj
δj(B) , onde ωj(B) = ωj,0−ωj,1B−· · ·−ωj,sB
s e δj(B) = 1− δj,1B− · · · − δj,rBr sao polinomios em B, bj e a defasagem no tempo para
o inıcio do efeito da j-esima intervencao e
• εt e a serie temporal livre do efeito das intervencoes e e denominada serie residual.
Em geral, o efeito de uma intervencao e mudar o nıvel da serie ou, entao, a inclinacao. Entretanto, ha
tres fontes de ruıdos que podem obscurecer o efeito da intervencao:
1. tendencia;
2. sazonalidade; e
3. erro aleatorio.
O fato de existir tendencia numa serie pode levar a falsas conclusoes. De fato, se esta existir e uma
intervencao ocorrer no instante T , o fato do nıvel pos-intervencao ser maior do que o nıvel pre-intervencao
pode ser devido simplesmente a tendencia.
Utilizaremos a analise de intervencao em uma das aplicacoes aos dados reais.
2.4.6 Teste Independencia dos Resıduos: Ljung-Box
O teste de Ljung-Box consiste em analisar as autocorrelacoes entre resıduos encontrados. A estatıstica
Q do teste e verificada para testar se um determinado conjunto de autocorrelacoes de resıduos e es-
tatisticamente diferente de zero. Esta estatıstica, sob a hipotese nula H0 de que os resıduos nao sao
autocorrelacionados, possui distribuicao qui-quadrado com m graus de liberdade e e definida como:
Q = n(n+ 2)∑m
k=1
ρ2kn− k
,
onde n e o tamanho da amostra e m o numero de defasagens. Em caso de independencia dos resıduos,
espera-se que as autocorrelacoes para qualquer defasagem sejam proximas de zero. Valores altos de pelo
menos uma autoautocorrelacao sugere dependencia dos residuos, levando a rejeicao da hipotese nula.
12
Capıtulo 3
APLICACAO
Neste trabalho analisamos conjuntos de dados estruturados como dados de painel. Para isto, re-
corremos a modelos estatısticos envolvendo defasagens distribuıdas, autoregressao ou intervencao. Esti-
maremos as quantidades desconhecidas dos modelos atraves do enfoque bayesiana. Temos por objetivo
entender as series de dados, explicar seus parametros e comportamentos e ser capazes de predizer suas
proximas ocorrencias.
Escolhemos dois conjuntos de dados de interesse:
1. Taxa de mortalidade especıfica associada a SIDA; e
2. Taxa de mortalidade infantil.
Ambos conjuntos sao estao estruturados como dados de painel, observados em cada Unidade Federativa
(UF) brasileira anualmente. As duas bases foram extraıdas do banco de dados do DataSUS, bem como
as variaveis explicativas a elas associadas.
Em nossa notacao nos referimos aos coeficientes, especıficos de cada UF seguindo a ordem descrita
na tabela A.1 do Apendice 4.2. Para a primeira base de dados os anos variam de 1990 a 2008, ao qual
nos referimos do ano 1 ao 19, e para o segundo conjunto de dados os anos variam de 1997 a 2011 e nos
referimos de forma semelhante ao primeiro.
A seguir, concentramos nossas analises em cada conjunto de dados separadamente.
3.1 Obitos por Sındrome da Imuno-Deficiencia Adquirida
Analisamos aqui a serie de obitos provenientes de portadores de SIDA. Nossa base e referente ao perıodo
entre 1990 e 2008. Decidimos tentar explicar nossa serie de interesse atraves de um conjunto de
dados, tambem adquirido no DataSUS, que nos da o numero de casos de incidencia de SIDA, tambem
estruturado por UF anualmente.
Abaixo disponibilizamos - a fim de introduzir a descricao dos dados - as medias por UF, de 1990 a
2008, das series incidencia e obito por SIDA. Procuramos explicar a taxa de mortalidade especıfica por
SIDA atraves do numero de incidencias de SIDA.
13
Média da Taxa de Incidência de SIDA − 1990 a 2008
[0,2.5](2.5,5](5,7.5](7.5,10](10,12.5](12.5,15](15,17.5](17.5,20](20,22.5](22.5,25](25,28]
(a) Media da Serie de Incidencia de SIDA por UF.
Média de TME por SIDA − 1990 a 2008
[0,2.5](2.5,5](5,7.5](7.5,10](10,13]
(b) Media da Serie de TME por SIDA por UF.
Utilizando estatısticas descritivas e analise de regressao por mınimos quadrados descritos no capıtulo
2, nossos estudos preliminares foram conduzidos para entender o comportamento de ambas as series ao
longo dos anos e por Unidade Federativa. Os resultados nos indicam que:
• Caso analisemos ao longo dos anos, veremos que ate 1996 ha tendencia de crescimento na taxa
de mortalidade especıfica, tendencia que observamos inverter-se do ano seguinte em diante;
• Ainda analisando a taxa de mortalidade especıfica anualmente, podemos observar assimetria posi-
tiva associada a serie, bem como o modulo da curtose caindo rapidamente com o tempo, indicando
maior dispersao dos dados nos anos iniciais;
• Analisando o numero de incidencias, nota-se que o numero de casos aumenta ao longo dos anos,
tendencia que nao acompanha nossa variavel de interesse, indicando que devemos inserir no modelo
uma componente temporal para explicar o que esta variavel nao consegue;
• Agora observando nossas series por estado, e possıvel perceber que ha disparidades no comporta-
mento das series entre UFs, levando a crer que algumas delas (Rio de Janeiro, Sao Paulo, Santa
Catarina, Rio Grande do Sul e Distrito Federal) estavam mais propıcias que outras a abrigarem
obitos provenientes de portadores de SIDA que outras, tanto pela serie de obitos, como pela serie
de incidencias;
14
• Observando as correlacoes ano a ano, verificamos pelo valor alto que o numero de obitos esta bem
associado ao numero de incidencias;
• Observando as correlacoes UF a UF, podemos justificar a presenca da componente temporal, pois
alguns dos estados possuem baixa aderencia entre as series de dados caso observemo-as.
Portanto, nossos primeiros modelos, de acordo com nossa interpretacao dos dados, seguem distri-
buicoes Normal e t-Student. Inicialmente testamos a t-Student, mudando apenas os graus de liberdade
a elas associados: dois, tres, quatro e cinco graus de liberdade.
Utilizamos o metodo dos mınimos quadrados descritos no capıtulo 2, atraves do programa R, fize-
mos varios ajustes para obter as estimativas do modelo e estas sao utilizadas como valores iniciais dos
coeficientes dos parametros em nossos modelos descritos no OpenBUGS. Isto foi feito para ajudar na con-
vergencia das cadeias, ao realizarmos sucessivas simulacoes a fim de testar os modelos. Tal procedimento
mostrou-se bastante util e eficaz para esta aplicacao.
A estrutura do nosso modelo inicial e dado por
yi,t = ci + βixi,t + δit+ εi,t, i = 1, 2, . . . , 27 e t = 1, 2, . . . , 19,
sendo yi,t a numero de obtidos, xi,t a incidencia de SIDA, t a propria variavel tempo utilizada para
tentar captar a tendencia linear ao longo dos anos e εi,t erros aleatorios independentes e identicamente
distribuıdos com media e variancia finitas e constantes. Os primeiros cinco modelos (M1,M2, . . . ,M5)
so diferem na distribuicao de εi,t (normal e t-Student com diferentes graus de liberdade).
Para este modelo e os demais descritos abaixo, completamos a especificacao com
ci ∼ N (µc, σ2c )
βi ∼ N (µβ, σ2β)
δi ∼ N (µδ, σ2δ ),
para i = 1, 2, . . . , 27; priori normal com media 0 e variancia 1.000 para µc, µβ e µδ, e priori gama inversa
com media 1 e variancia 100 para σ2c , σ2β e σ2δ .
Como utilizamos o OpenBUGS para efetuar as simulacoes dos modelos propostos, geramos as t-
Student atraves da mistura de escala: (yi,t|µi,t, λ) ∼ N (µi,t, λ) e (λ|ν, σ2) ∼ GI(ν2 ,νσ2
2 ) tal que
(yi,t|µi,t, σ2, ν) ∼ tν(µ, σ2) com µi,t = ci + βixi,t + δit.
Ajustamos entao estes modelos aos dados utilizando o OpenBUGS. Geramos 3 cadeias em paraelelo
cada uma com 100.000 iteracoes e descartamos as 50.000 primeiras de cada. Utilizamos a criterio BGR
descrita no capıtulo 2 e disponıvel no OpenBUGS para analisar a convergencia das cadeias. Utilizamos
este mesmo tipo de procedimento e analise para os demais modelos deste trabalho. O DIC para cada
modelo pode ser visto na tabela 3.1. Os resultados inesperados pD associados aos modelos M2 e M3
15
Tabela 3.1: Comparacao de modelos via DIC: dados de SIDA - Parte I.
Modelo Distribuicao de yi,t DIC pD
M1 N (µi,t, σ2) 1015,0 69,38
M2 t2(µi,t, σ2) 1093,0 -604,50
M3 t3(µi,t, σ2) 1619,0 -78,09
M4 t4(µi,t, σ2) 1710,0 12,74
M5 t5(µi,t, σ2) 1743,0 45,26
nos induziram a pensar que os modelos possivelmente teriam sido mal especificados, indicando que seria
necessario muda-los. Optamos por mudar ligeiramente a mistura Normal-Gama-Inversa, de modo que
nao mais farıamos a mistura usando um fator λ global, porem um fator λi variando para cada UF, de
modo a melhor adaptar-se a cada uma delas. A melhora foi inegavel. Nao apenas os pD deixaram de
apontar problema de especificacao de modelo, como os proprios DIC caıram.
Agora, para os modelos M6, M7, M8 e M9, continuamos a ter distribuicoes t-Student com 2, 3,
4 e 5 graus de liberdade para cada UF, ou seja, (yi,t|µi,t, λi) ∼ N (µi,t, λi) e (λi|ν, σ2) ∼ GI(ν2 ,νσ2
2 ).
Repetimos o procedimento de ajuste dos modelos anteriores. Utilizando o OpenBUGS, geramos
100.00 iteracoes e descartamos as 50.000 primeiras. Os resultados do DIC para estes diferentes modelos
encontram-se na tabela 3.2. Entao, usando o DIC como criterio de selecao de modelos, ja excluindo os
Tabela 3.2: Comparacao de modelos via DIC: dados de SIDA - Parte II.
Modelo Distribuicao de yi,t DIC pD
M6 t2,i(µi,t, σ2) 1007,0 98,48
M7 t3,i(µi,t, σ2) 1325,0 98,85
M8 t4,i(µi,t, σ2) 1328,0 95,60
M9 t5,i(µi,t, σ2) 1331,0 94,42
modelos M2 e M3 por indıcios de ma especificacao, pudemos selecionar os modelos M1 e M6 como
os melhores modelos. Infelizmente, ao analisarmos os resıduos associados, verificamos que estes nao
16
satisfizeram premissas do modelo: os erros apresentaram heterocedasticidade se observados ao longo do
tempo, indicando dependencia temporal e a necessidade da inclusao de uma variavel autorregressiva.
Como supracitado, os modelos M1 e M6 apresentaram melhores DIC e foram escolhidos para receber
uma componente autorregressiva (ver modelo autoregressivo no capıtulo 2) de uma defasagem para cada
UF.
O modelo segue agora a seguinte estrutura:
yi,t = ci + βixi,t + δtt+ θiyi,t−1 + εi,t,
com as mesmas premissas sobre εi,t, |θi| < 1 para cada UF e θi ∼ U(−1, 1) para i = 1, 2, . . . , 27. Repe-
timos o procedimento de gerar valores da distribuicao a posteriori deste modelo utilizando o OpenBUGS.
Novamente, diferindo entre eles apenas a distribuicao. Na tabela 3.3 podemos ver o DIC para os dois
modelos considerados. O DIC do modeloM11 e o menor de todos. As analises dos resıduos dos modelos
Tabela 3.3: Comparacao de modelos via DIC: dados de SIDA - Parte III.
Modelo Distribuicao de yi,t DIC pD
M10 N (µi,t, σ2) 1181,0 81,05
M11 t2,i(µi,t, σ2) 1006,0 100,20
M10 e M11 apresentam boa especificacao sem dependencia em sua estrutura. Porem, ao observarmos
os percentis 2.5% e 97.5% da estatıstica a posteriori dos modelos analisados, os coeficientes associados
as variaveis explicativas e temporal apresentaram alta probabilidade de nao serem significativos para
todos os valores de βi e δi. Isto poderia indicar que tanto o coeficiente β, como o coeficiente δ, ou ate
mesmo ambos, poderiam ser nao-significativos. Entao foram criados outros seis modelos:
Os modelos M12 (normal) e M15 (t2) seguem a estrutura:
yi,t = ci + βixi,t + θiyi,t−1 + εi,t;
os modelos M13 (normal) e M16 (t2) a estrutura:
yi,t = ci + δit+ θiyi,t−1 + εi,t;
e os M14 (normal) e M17 (t2) a estrutura:
yi,t = ci + θiyi,t−1 + εi,t;
cada par de modelos diferindo apenas em distribuicao.
17
Mais uma vez, utilizando o OpenBUGS, geramos 3 cadeias com 100.000 iteracoes da distribuicao a
posteriori dos modelos e descartamos as 50.000 iteracoes. A tabela 3.4 traz os valores do DIC dos
ajustes dos modelosM12 aM17. O que nos leva a descartar modelos com distribuicao Normal devido
Tabela 3.4: Comparacao de modelos via DIC: dados de SIDA - Parte IV.
Modelo Distribuicao de yi,t DIC pD
M12 N (µi,t, σ2) 1263,0 59,17
M13 N (µi,t, σ2) 1221,0 68,56
M14 N (µi,t, σ2) 1327,0 32,55
M15 t2,i(µi,t, σ2) 1015,0 85,61
M16 t2,i(µi,t, σ2) 1009,0 90,61
M17 t2,i(µi,t, σ2) 1051,0 64,53
aos altos valores do DIC. As estatısticas a posteriori de cada um dos modelos apresentava coeficientes
nao significativos, indicando que a presenca da variavel explicativa atrapalhava a variavel temporal e
vice-versa. Os resultados indicavam que a variavel regressiva deveria ser excluıda e o modelo a ser
adotado deveria ser o M16, mas decidimos testar duas classes de modelos antes de descartar uma
variavel explicativa e apontar que a serie estudada seria capaz de explicar a si propria, dependendo de
seus valores anteriores.
Introduzimos a serie de dados duas estrategias:
• Modelos com defasagem distribuıda; e
• Modelos com variaveis de intervencao.
Tres modelos foram criados: o primeira com uma defasagem distribuıda, o segundo com duas defasagens
distribuıdas e o terceiro e um modelo com uma variavel de intervencao, dado que, como visto na
estatıstica descritiva, pudemos ver mudancas na tendencia da variavel a ser explicada. Seguem os
modelos:
M18 : yi,t = ci + β1,ixi,t + β2,ixi,t−1 + δit+ εi,t
M19 : yi,t = ci + β1,ixi,t + β2,ixi,t−1 + β3,ixi,t−2 + δit+ εi,t
M20 : yi,t = ci + β1,ixi,t + β2,idt + δit+ θiyi,t−1 + εi,t,
18
sendo dt = 0 para t = 1, . . . , 6 e dt = 1 para t = 7, . . . , 19. Evitamos criar modelos com muitas
defasagens distribuiıdas, pois nossa serie de dados e relativamente curta.
Estes modelos foram tambem implementados no OpenBUGS. Geramos 3 cadeias com 100.000 iteracoes
e descartamos as 50.000 primeiras. Para os modelos acima, a tabela 3.5 mostra os respectivos DICs.
Tabela 3.5: Comparacao de modelos via DIC: dados de SIDA - Parte V.
Modelo Distribuicao de yi,t DIC pD
M18 t2,i(µi,t, σ2) 1437,0 62,85
M19 t2,i(µi,t, σ2) 1255,0 67,01
M20 t2,i(µi,t, σ2) 999,2 112,00
Apesar do modeloM20 ter apresentado menor DIC, os coeficientes associados as covariaveis xi,t e dt
mostraram ser nao-significativos com uma probabilidade alta para regioes perto do zero. Por isto, estes
modelos confirmaram nossas suspeitas de que nos seria melhor explicar a taxa de mortalidade especıfica
por portadores de SIDA atraves da propria serie de dados. Ficamos entao com o modelo M16 tendo
em vista que, dados as analises completas, apresenta DIC baixo comparado aos demais, coeficientes
significativos, resıduos nao correlacionados (teste de Ljung-Box) e homocedasticidade via analise grafica
dos resıduos como por exemplo a figura 3.1.
●
●
●
●
●
●●
●
●
●●●
●
●
●●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●● ●
●
●●
●
● ●
1 3 5 7 9 11 13 15 17 19
−4
−2
02
46
8
Figura 3.1: Analise de Resıduos do Ajuste Final.
19
Relembramos aqui que o modelo M16 e dado por
yi,t = ci + δit+ θiyi,t−1 + εi,t
como modelo de mistura de escala tal que yi,t ∼ t2(µi,t, σ2).A tabela 3.6 e as tabelas B.1, B.2 e B.3 do apendice B trazem o resumo da distribuicao a posteriori:
media, desvio padrao, percentis de 2.5%, 50% e 97.5%.
Tabela 3.6: Sumario dos parametros da distribuicao posteriori do modelo finalM16 usado para taxa de mortalidadepor SIDA.
Parametro Media D. Padrao 2,5% Mediana 97,5%
µc 0,8669 0,1526 0,5897 0,8601 1,1870
σ2c 0,3466 0,1759 0,1100 0,3123 0,7809
µδ 0,0453 0,0163 0,0137 0,0451 0,0781
σ2δ 0,0047 0,0020 0,0019 0,0043 0,0099
σ2 0,2200 0,0476 0,1391 0,2159 0,3243
Nos interpretamos os parametros da seguinte forma:
• ci sendo a propensao inicial associada a cada UF de haver obitos relativos a portadores de SIDA;
• δi sendo a tendencia temporal associada a cada UF; e
• θi sendo a influencia do volume de obitos no tempo anterior associada a cada UF em determinado
instante de tempo.
3.2 Mortalidade Infantil
Apos a conclusao da analise da primeira base de dados na secao 3.1, comecamos nossos estudos sobre a
segunda base de dados - a taxa de mortalidade infantil. Nossa base e referente ao perıodo entre 1997 e
2011. Decidimos tentar explicar nossa serie de interesse atraves de quatro conjuntos de dados, tambem
adquiridos no DataSUS, que nos dao:
1. o ındice de analfabetismo associado a cada UF, ano a ano;
20
2. a proporcao da populacao servida por esgotamento sanitario;
3. a proporcao da populacao servida por rede de abastecimento de agua; e
4. a renda media domicilar per capita.
Estes dados tambem estao estruturados por UF anualmente.
Abaixo iremos, como na analise anterior, disponibilizar as medias das quatro variaveis explicativas,
bem como a media da variavel resposta. Todos os cinco graficos nas figuras ?? e 3.2 contemplarao o
perıodo de 1997 a 2011.
21
Média da Taxa (%) de Analfabetismo − 1997 a 2011
[0,5](5,10](10,15](15,20](20,25](25,30]
(a) Media da Serie de Analfabetismo por UF.
Média da Pop. servida por Esgot. Sanit. − 1997 a 2011
[0,20](20,40](40,60](60,80](80,100]
(b) Media da Serie de PSES por UF.
Média da População servida por Água − 1997 a 2011
[0,20](20,40](40,60](60,80](80,100]
(c) Media da Serie de PSAA por UF.
Média da Renda Domiciliar per capita − 1997 a 2011
[0,200](200,400](400,600](600,800](800,1000](1000,1200](1200,1400]
(d) Media da Serie de Renda por UF.
22
Média da Taxa de Mortalidade Infantil − 1997 a 2011
[0,10](10,20](20,30](30,40]
Figura 3.2: Media da Serie de TMI por UF.
E abaixo encontram-se alguns graficos - relativos ados dados sobre a proporcao da populacao servida
por abastecimento de agua - que mostram a funcao de autocorrelacao que estuda uma defasagem. Este
comportamento esta presente em quase todas as UF.
Estudos preliminares utilizando estatısticas descritivas e analise de regressao via mınimos quadrados
ponderados foram conduzidos para entender o comportamento de cada serie ao longo dos anos e por
UF. Os resultados nos indicam que:
• a funcao de autocorrelacao relativa a base terceira variavel explicativa apresentou sazonalidade - o
que somado ao fato de nao ter se mostrado significativa ao descrever nossa variavel de interesse,
nos levou a excluı-la;
Como para a base de dados anterior, utilizamos o metodo dos mınimos quadrados para obter estimativas
iniciais sobre os os parametros a serem utilizados em nossos modelos para ajudar na convergencia
das cadeias de Markov referente as nossas distribuicoes a posteriori. De fato, adotaremos a mesma
metodologia usada anteriormente.
Usaremos novamente o OpenBUGS para ajustar nossos modelos e o DIC para fazer comparacao dos
ajustes dos modelos. Usaremos modelos Normal e t-Student com tres, quatro, cinco e dez graus de
liberdade. Dado estas especificacoes para a distribuicao de yi,t, definimos os modelos M1 a M5 da
seguinte forma:
yi,t = ci + β1,ix1,i,t + β2,ix2,i,t + β3,ix3,i,t + β4,it+ εi,t,
diferindo entre eles apenas suas distribuicoes. Temos yi,t a TMI, x1,i,t o ındice de analfabetismo, x2,i,t
a proporcao da populacao servida por esgotamento sanitario e x3,i,t a renda media domicilar per capita.
23
●
●●
●
●
●
●
●
●
●
● ●
●
●
−0.5 0.0 0.5 1.0 1.5
−0.
50.
00.
51.
01.
5
lag 1
x_i
(a) Espırito Santo.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−0.6 −0.4 −0.2 0.0 0.2 0.4
−0.
6−
0.4
−0.
20.
00.
20.
4
lag 1
x_i
(b) Minas Gerais.
●
●●
●
●
●
●
●
●
●
●
●
●
●
−4 −3 −2 −1 0 1 2
−4
−3
−2
−1
01
2
lag 1
x_i
(c) Para
●
●
●
●
●
●
●
●●
●
●
●
●
●
−2 0 2 4
−3
−2
−1
01
23
4
lag 1
x_i
(d) Rio Grande do Norte.
●
●
●
●
●
●
●
●
●●
●
●
●
●
−1.0 −0.5 0.0 0.5
−1.
0−
0.5
0.0
0.5
lag 1
x_i
(e) Rio Grande do Sul.
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−0.6 −0.4 −0.2 0.0 0.2 0.4
−0.
4−
0.2
0.0
0.2
0.4
lag 1
x_i
(f) Santa Catarina.
Figura 3.3: Graficos de ACF de uma defasagem - TMI.
24
Para todos os modelos nesta aplicacao da TMI, completamos a especificacao com
ci ∼ N (µc, σ2c )
β1,i ∼ N (µβ1 , σ2β1)
β2,i ∼ N (µβ2 , σ2β2)
β3,i ∼ N (µβ3 , σ2β3),
para i = 1, 2, . . . , 27; priori normal com media 0 e variancia 1.000 para µc, µβ1 , µβ2 e µβ3 , e priori gama
inversa com media 1 e variancia 100 para σ2c , σ2β1 , σ2β2 e σ2β3 .
Seguimos os passos anteriores e implementamos estes modelos no OpenBUGS. Daı, tambem geramos
3 cadeias com 100.000 iteracoes cada e descartamos as 50.000 primeiras de cada uma. Fizemos as
analises de convergencia pertinentes via graficos e estatıstica de convergencia BGR. A tabela 3.7 exibe
os DICs para estes modelos ajustados aos dados de TMI.
Tabela 3.7: Comparacao de modelos via DIC: dados da taxa de mortalidade infantil - Parte I.
Modelo Distribuicao de yi,t DIC pD
M1 N (µi,t, σ2) 1226,0 112,80
M2 t3(µi,t, σ2) 1163,0 49,43
M3 t4(µi,t, σ2) 1221,0 108,00
M4 t5(µi,t, σ2) 1238,0 125,10
M5 t10(µi,t, σ2) 1243,0 129,60
Aqui temos µi,t = ci + β1,ix1,i,t + β2,ix2,i,t + β3,ix3,i,t + β4,it.
Ja possuindo a experiencia adquirida do estudo da base de dados anterior, decidimos substituir o λ
global por λi’s por UF, de forma a deixar o modelo mais flexıvel. Assim criamos os modelos M6 a M9.
Rodamos as devidas iteracoes, analisamos convergencia e obtemos os DICs apresentados na tabela 3.8.
Os modelos M6 , M7 e M8 mostraram-se igualmente satisfatorios, tendo em vista que distancias de
ate 5 entre o DIC de modelos diferentes indicam que os mesmos ajustaram-se igualmente bem. Sabendo
que os resıduos comportaram-se bem e as variaveis foram significativas, todos os modelos, deM1 aM9
, dependem apenas do DIC para a escolha. Sendo assim, escolhemos o modeloM6 , por ter apresentado
o melhor DIC dentre os verificados, apesar da maior penalizacao por parametros pD. Usaremos este
modelo para explicar a taxa de mortalidade infantil.
25
Tabela 3.8: Comparacao de modelos via DIC: dados da taxa de mortalidade infantil - Parte II.
Modelo Distribuicao de yi,t DIC pD
M6 t3(µi,t, σ2) 1057,0 147,46
M7 t4(µi,t, σ2) 1058,0 144,90
M8 t5(µi,t, σ2) 1060,0 142,60
M9 t10(µi,t, σ2) 1076,0 135,30
Na figura 3.4 abaixo segue a analise grafica dos resıduos.
●●●
●
●
●
●
●●●
●
●
●
●
● ●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
1 2 3 4 5 6 7 8 9 10 12 14
−4
−2
02
4
Figura 3.4: Analise de Resıduos do Ajuste Final.
A tabela 3.9 e as tabelas C.1, C.2, C.3, C.4 e C.5 do apendice C trazem o resumo da distribuicao a
posteriori: media, desvio padrao, percentis de 2.5%, 50% e 97.5%.
Nos interpretamos os parametros da seguinte forma:
• ci sendo a propensao inicial associada a cada UF da ocorrencia de obitos de menores de um ano
de idade;
• β1,i sendo a influencia do ındice de analfabetismo associada a cada UF;
26
Tabela 3.9: Sumario dos parametros da distribuicao posteriori do modelo final M6 usado para TMI.
Parametro Media D. Padrao 2,5% Mediana 97,5%
µβ1 0,0071 0,0406 -0,0729 0,0070 0,0873
σ2β1 0,0429 0,0126 0,0247 0,0407 0,0739
µβ2 0,0076 0,03850 -0,0686 0,0076 0,0838
σ2β2 0,0401 0,0118 0,0232 0,0381 0,0690
µβ3 0,3821 0,09431 0,1991 0,3804 0,5683
σ2β3 0,1287 0,0493 0,0612 0,1195 0,2499
µβ4 -1,0870 0,1236 -1,3340 -1,0860 -0,8461
σ2β4 0,3723 0,1209 0,1999 0,3518 0,6658
µc 22,5000 2,1350 18,1900 22,5400 26,5900
σ2c 80,5800 31,4900 36,5000 74,8700 157,5000
σ2 0,3216 0,0643 0,2122 0,3162 0,4638
• β2,i sendo a influencia do servico de esgotamento sanitario associada a cada UF;
• β3,i sendo a influencia da renda media domiciliar per capita associada a cada UF; e
• β4,i sendo a tendencia temporal associada a cada UF.
27
Capıtulo 4
CONSIDERACOES FINAIS
Neste trabalho pudemos trabalhar abordagens que facilitam a analise bayesiana em dados estruturados
como paineis. Trabalhamos com diversos modelos buscados na literatura, usando princıpios, testes e
criterios estudados nos cursos de graduacao. A inferencia pode ser realizada atraves do algoritmo de
MCMC de modo simples usando o programa OpenBUGS. Para os dois conjuntos de dados - SIDA e
TMI - fizemos a analise bayesiana dos modelos utilizando prioris vagas para os hiperparametros. A
utilizacao de valores iniciais obtidos via analise de regressao por mınimos quadrados ajudaram as cadeias
a convergirem mais rapidamente para as distribuicoes de interesse.
4.1 Obitos por Sındrome da Imuno-Deficiencia Adquirida
Observando as informacoes da distribuicao a posteriori concluımos que as regioes Sul, Sudeste e Centro-
Oeste, com a adicao dos estados de Roraima e Pernambuco, estao mais propensos do que os demais a
abrigarem obitos associados a portadores de SIDA. Isto pode estar associado a subnumeracao de casos
nos demais estados. Podemos ver que Rio Grande do Sul e Santa Catarina sao os dois estados com
maior propensao a abrigar tais obitos.
No que concerne a tendencia temporal, podemos perceber que Rio Grande do Norte, Minas Gerais,
Rio de Janeiro, Sao Paulo e Distrito Federal estao com tendencia temporal negativa, ou seja, o volume
de obitos associados a estas UFs esta caindo com o tempo, possivelmente fruto de medidas educativas e
assistencialistas para conter o surto da doenca. Os demais estados possuem tendencia positiva, ou seja,
crescente, sendo Roraima e Rondonia os estados com maior crescimento de numero de obitos ao longo
dos anos e Rio de Janeiro o estado com maior queda.
Por ultimo, analisando a influencia da propria variavel no tempo anterior, nota-se que Rio de Janeiro,
Sao Paulo, Rio Grande do Sul, Distrito Federal e Santa Catarina sao extremamente dependentes de suas
ocorrencias no tempo anterior, valendo ressaltar que os dois primeiros estados possuem seus respectivos
operadores de defasagem superiores a 0,9.
Retiramos um ano de nossa base de dados, o ano de 2008, refizemos o ajuste do modelo M16 e
realizamos uma previsao dois passos a frente, comparando com valores reais, dado que previamente
possuıamos os dados sobre o ano de 2009. Escolhemos graficos de UFs, incluindo conturbadas UFs que
apresentaram alta correlacao entre seus resıduos em modelos anteriores, para serem expostos aqui, de
28
forma a mostrar o resultado do ajuste. A figura 4.1 mostra os dados reais, os dados ajustados (preditos),
o intervalos de confianca e para os ultimos dois anos (19 e 20) a previsao com base no modelo M16.
5 10 15 20
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
Anos
óbito
s po
r S
IDA
dados estimadoslimite inferior de confiançalimite superior de confiançadados reais
(a) Bahia
5 10 15 20
24
68
Anos
óbito
s po
r S
IDA
dados estimadoslimite inferior de confiançalimite superior de confiançadados reais
(b) Mato Grosso do Sul
5 10 15 20
05
1015
Anos
óbito
s po
r S
IDA
dados estimadoslimite inferior de confiançalimite superior de confiançadados reais
(c) Rio de Janeiro
5 10 15 20
24
68
1012
14
Anos
óbito
s po
r S
IDA
dados estimadoslimite inferior de confiançalimite superior de confiançadados reais
(d) Rio Grande do Sul
5 10 15 20
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Anos
óbito
s po
r S
IDA
dados estimadoslimite inferior de confiançalimite superior de confiançadados reais
(e) Acre
5 10 15 20
05
1015
20
Anos
óbito
s po
r S
IDA
dados estimadoslimite inferior de confiançalimite superior de confiançadados reais
(f) Sao Paulo
Figura 4.1: Predicao para estados representativos de cada regiao - SIDA.
29
As predicoes mostraram-se satisfatorias, com poucos pontos fora do intervalo de confianca.
E para melhor visualizar as previsoes dos dois ultimos anos e compara-las aos valores reais, construımos
os dois pares de graficos abaixo.
Previsão da TME por SIDA − 2008
[0,3](3,6](6,9](9,12](12,15]
(a) Previsao de 2008.
Valor real da TME por SIDA − 2008
[0,3](3,6](6,9](9,12](12,15]
(b) Valores Reais de 2008.
Previsão da TME por SIDA − 2009
[0,3](3,6](6,9](9,12](12,15]
(c) Previsao de 2009.
Valor real da TME por SIDA − 2009
[0,3](3,6](6,9](9,12](12,15]
(d) Valores Reais de 2009.
Caso pudessemos escolher estados aos quais devessemos dedicar mais atencao e iniciativas educativas,
preventivas e interventivas, tais estados seriam Rio de Janeiro, Sao Paulo, Santa Catarina, Rio Grande
do Sul e Mato Grosso.
30
4.2 Mortalidade Infantil
Observando as informacoes da distribuicao a posteriori concluımos que os estados de Espırito Santo,
Pernambuco, Amapa, Para e Ceara sofrem maior influencia do analfabetismo. Isto corrobora a posicao
dos ındices de analfabetismo associados aos estados em questao.
Maranhao, Alagoas, Paraıba, Rio Grande do Norte e Bahia encontram-se no topo da lista dos
influenciados pelo servico de esgotamento sanitario.
A influencia da renda media domiciliar per capita e mais forte nos estados de Alagoas, Maranhao,
Ceara, Pernambuco e Rio Grande do Norte.
Por ultimo, analisando a influencia da variavel temporal, nota-se que todos os coeficientes sao ne-
gativos, isto e, o ındice de mortalidade infantil esta caindo com o passar dos anos. Os estados com
queda mais acentuada sao Paraıba, Alagoas, Rio Grande do Norte, Sergipe e Ceara. Isso nos permite
conjecturar que o governo, ao longo dos anos, percebeu a necessidade de intervir nos estados de maior
ındice de mortalidade infantil.
Retiramos um ano de nossa base de dados, o ano de 2011, refizemos o ajuste do modelo M3 e
realizamos uma previsao um passo a frente, comparando com valores reais. Escolhemos graficos - figura
4.2 - de UFs para serem expostos aqui, de forma a mostrar o resultado do ajuste.
As predicoes mostraram-se satisfatorias, com poucos pontos fora do intervalo de confianca.
E, novamente, para melhor visualizacao da previsao feita e comparacao da mesma com valores reais,
construımos os graficos abaixo.
Muitos destes estados ja estao recebendo assistencia governamental, porem caso pudessemos esco-
lher cinco cujos ındices indicam requerer mais atencao, estes seriam Amapa, Maranhao, Para, Acre e
Roraima.
31
2 4 6 8 10 12 14
1214
1618
2022
Anos
óbito
s po
r S
IDA
dados estimadoslimite inferior de confiançalimite superior de confiançadados reais
(e) Espırito Santo
2 4 6 8 10 12 14
1520
2530
Anos
óbito
s po
r S
IDA
dados estimadoslimite inferior de confiançalimite superior de confiançadados reais
(f) Minas Gerais
2 4 6 8 10 12 14
2025
3035
Anos
óbito
s po
r S
IDA
dados estimadoslimite inferior de confiançalimite superior de confiançadados reais
(g) Para
2 4 6 8 10 12 14
1520
2530
3540
Anos
óbito
s po
r S
IDA
dados estimadoslimite inferior de confiançalimite superior de confiançadados reais
(h) Rio Grande do Norte
2 4 6 8 10 12 14
1012
1416
18
Anos
óbito
s po
r S
IDA
dados estimadoslimite inferior de confiançalimite superior de confiançadados reais
(i) Rio Grande do Sul
2 4 6 8 10 12 14
810
1214
1618
20
Anos
óbito
s po
r S
IDA
dados estimadoslimite inferior de confiançalimite superior de confiançadados reais
(j) Santa Catarina
Figura 4.2: Predicao para estados representativos de cada regiao - TMI.
32
Previsão da TMI (%) − 2011
[0,5](5,10](10,15](15,20](20,25](25,30]
(a) Previsao de 2008.
Valor real da TMI (%) − 2011
[0,5](5,10](10,15](15,20](20,25](25,30]
(b) Valores Reais de 2008.
33
REFERENCIAS BIBLIOGRAFICAS
Brooks, S. P. (1998). Markov chain monte carlo method and its application. The Statistician, 47 ,
69–100.
Brooks, S. P., e Gelman, A. (1997). General methods for monitoring convergence of iterative simulations.
Journal of Computational and Graphical Statistics, 7 , 434-455.
Carlin, B. P., e Louis, T. A. (1996). Bayes and empirical bayes methods for data analysis (1st ed.).
London: Chapman and Hall.
Congdon, P. (2001). Bayesian statistical modelling (1st ed.). Chichester: John Wiley and Sons.
Gelfand, A., e Smith, A. (1990). Sampling based approaches to calculating marginal densities. Journal
of the American Statistical Association, 85 , 398–409.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., e Rubin, D. B. (2014). Bayesian
data analysis (3rd ed.). Florida: Taylor and Francis.
Geman, S., e Geman, D. (1984). Stochastic relaxation, gibbs distributions and the Bayesian restoration
of images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 6 , 721–741.
Gilks, W. R., Richardson, S., e Spiegelhalter, D. (1996). Markov chain monte carlo in practice (1st ed.).
London: Chapman and Hall.
Hayashi, F. (2000). Econometrics. Princeton: Princeton University Press.
Morettin, P. A., e Toloi, C. M. C. (2006). Analise de series temporais (2nd ed.). Sao Paulo: Edgard
Blucher.
Ravines, R. E. R., Schmidt, A. M., e Migon, H. S. (2006). Revisiting distributed lag models through a
bayesian perspective. Applied Stochastic Models in Business and Industry , 22(2), 193-210.
Tierney, L. (1994). Markov chains for exploring posterior distributions. Annals of Statistics, 22 , 1701–
1786.
34
Apendice A
ORDENACAO DAS UNIDADES DA FEDERACAO
Tabela A.1: Ordenacao dos ındices dos coeficientes em relacao aos estados.
i Unidade Federativa i Unidade Federativa
1 Rondonia 15 Sergipe
2 Acre 16 Bahia
3 Amazonas 17 Minas Gerais
4 Roraima 18 Espırito Santo
5 Para 19 Rio de Janeiro
6 Amapa 20 Sao Paulo
7 Tocantins 21 Parana
8 Maranhao 22 Santa Catarina
9 Piauı 23 Rio Grande do Sul
10 Ceara 24 Mato Grosso do Sul
11 Rio Grande do Norte 25 Mato Grosso
12 Paraıba 26 Goias
13 Pernambuco 27 Distrito Federal
14 Alagoas
35
Apendice B
DISTRIBUICAO A POSTERIORI: MODELO PARA OS DADOS DE SIDA
Tabela B.1: Sumario dos parametros c′is da distribuicao posteriori do modelo final M16 usado para taxa demortalidade por SIDA.
Parametro Media D. Padrao 2,5% Mediana 97,5%
c1 0,3456 0,2201 -0,0719 0,3391 0,7983
c2 0,4397 0,2969 -0,1376 0,4365 1,032
c3 0,3815 0,2494 -0,0979 0,3776 0,8875
c4 1,327 0,5139 0,3742 1,306 2,396
c5 0,3061 0,187 -0,0532 0,3027 0,6843
c6 0,4774 0,3368 -0,1749 0,4742 1,154
c1 0,0671 0,2057 -0,3187 0,0598 0,4935
c8 0,2285 0,2276 -0,2056 0,2235 0,6911
c9 0,2889 0,173 -0,0419 0,2859 0,6407
c10 0,7895 0,2613 0,2829 0,7873 1,314
c11 0,8427 0,338 0,1863 0,8392 1,521
c12 0,7557 0,2858 0,2029 0,7517 1,333
c13 1,1580 0,3871 0,4187 1,15 1,94
c14 0,5804 0,2338 0,1273 0,5775 1,051
c15 0,8574 0,3146 0,2371 0,8565 1,482
c16 0,7715 0,2340 0,3262 0,7660 1,249
c17 1,2380 0,3897 0,5006 1,2280 2,027
c18 1,2630 0,3896 0,5173 1,2560 2,053
c19 1,1760 0,5684 0,1689 1,1340 2,42
c20 1,0210 0,5593 -0,0085 0,9930 2,20
c21 1,2720 0,3586 0,5855 1,2680 1,993
c22 1,4950 0,4098 0,7139 1,4880 2,316
c23 1,6100 0,4362 0,7835 1,6010 2,492
c24 1,3380 0,4683 0,4639 1,3230 2,299
c25 0,9179 0,3927 0,1581 0,9117 1,707
c26 1,2500 0,3703 0,5330 1,2480 1,988
c27 1,2190 0,5721 0,1933 1,18 2,452
36
Tabela B.2: Sumario dos parametros δ′is da distribuicao posteriori do modelo final M16 usado para taxa demortalidade por SIDA.
Parametro Media D. Padrao 2,5% Mediana 97,5%
δ1 0,1116 0,0533 0,0108 0,1110 0,2192
δ2 0,0542 0,0365 -0,0181 0,0543 0,1260
δ3 0,0977 0,0481 0,0074 0,0967 0,1954
δ4 0,1207 0,0619 0,0039 0,1189 0,2476
δ5 0,0824 0,0434 0,0053 0,0804 0,1721
δ6 0,0955 0,0438 0,0085 0,0955 0,1815
δ7 0,0993 0,0383 0,0224 0,0999 0,1736
δ8 0,0888 0,0397 0,0133 0,0881 0,1681
δ9 0,0981 0,0344 0,0296 0,0985 0,1659
δ10 0,0333 0,0251 -0,0156 0,0332 0,0834
δ11 -0,0228 0,0250 -0,0711 -0,0231 0,0272
δ12 0,0447 0,0276 -0,0091 0,0445 0,0998
δ13 0,0280 0,0352 -0,0393 0,0273 0,0994
δ14 0,0546 0,0280 -0,0006 0,0545 0,1097
δ15 0,0464 0,0316 -0,0160 0,0464 0,1088
δ16 0,0571 0,0281 0,0037 0,0563 0,1140
δ17 -0,0068 0,0308 -0,0656 -0,0075 0,0559
δ18 0,0417 0,0412 -0,0373 0,0410 0,1249
δ19 -0,0270 0,0467 -0,1181 -0,0274 0,0662
δ20 -0,0247 0,0538 -0,1317 -0,0242 0,0796
δ21 0,0073 0,0327 -0,0552 0,0069 0,0731
δ22 0,0083 0,0391 -0,0661 0,0074 0,0882
δ23 0,0222 0,0479 -0,0663 0,0209 0,1209
δ24 0,0356 0,0381 -0,0382 0,0354 0,1117
δ25 0,0807 0,0503 -0,0147 0,0794 0,1829
δ26 0,0210 0,0302 -0,0376 0,0206 0,0818
δ27 -0,0240 0,0486 -0,1198 -0,0239 0,0718
37
Tabela B.3: Sumario dos parametros θ′is da distribuicao posteriori do modelo final M16 usado para taxa demortalidade por SIDA.
Parametro Media D. Padrao 2,5% Mediana 97,5%
θ1 0,4708 0,2115 0,0448 0,4736 0,8761
θ2 0,2939 0,2469 -0,2015 0,2956 0,7732
θ3 0,5893 0,1878 0,2047 0,5943 0,9353
θ4 0,4120 0,1972 0,0236 0,4122 0,7965
θ5 0,6365 0,1858 0,2466 0,6472 0,9569
θ6 0,1348 0,2428 -0,3446 0,1345 0,617
θ7 0,1450 0,2716 -0,3868 0,1418 0,6896
θ8 0,4520 0,2481 -0,0536 0,4590 0,9064
θ9 0,1230 0,2769 -0,4261 0,1227 0,6728
θ10 0,5267 0,1812 0,1565 0,5298 0,8764
θ11 0,6469 0,1510 0,3359 0,6512 0,9302
θ12 0,3964 0,2164 -0,0414 0,4011 0,8115
θ13 0,6930 0,1315 0,4254 0,6963 0,9403
θ14 0,2871 0,2457 -0,2044 0,2886 0,7681
θ15 0,3619 0,2062 -0,0492 0,3635 0,7686
θ16 0,4583 0,2090 0,0329 0,4650 0,852
θ17 0,7570 0,1080 0,5345 0,7603 0,9554
θ18 0,6671 0,1334 0,3953 0,6698 0,9221
θ19 0,9247 0,0459 0,8222 0,9299 0,9946
θ20 0,9241 0,0466 0,8198 0,9293 0,9947
θ21 0,7357 0,1146 0,5024 0,7385 0,95
θ22 0,8338 0,0789 0,6704 0,8369 0,9758
θ23 0,8639 0,0712 0,7126 0,8677 0,9855
θ24 0,7186 0,1208 0,4709 0,7216 0,9441
θ25 0,6611 0,1481 0,3594 0,6656 0,9373
θ26 0,6214 0,1366 0,3475 0,6223 0,8888
θ27 0,8523 0,0804 0,6794 0,8583 0,9856
38
Apendice C
DISTRIBUICAO A POSTERIORI: MODELO PARA OS DADOS DE TMI
Tabela C.1: Sumario dos parametros c′is da distribuicao posteriori do modelo final M6 usado para taxa de mor-talidade infantil.
Parametro Media D. Padrao 2,5% Mediana 97,5%
c1 28,2500 3,1740 21,7300 28,3000 34,4600
c2 22,5 5,0450 12,2600 22,5000 32,3100
c3 34,7700 3,4300 27,8000 34,9200 41,1600
c4 19,3500 5,0170 9,2700 19,4000 29,3100
c5 38,5000 3,3820 31,0800 38,8400 44,0100
c6 27,4600 4,7530 17,8100 27,5400 36,7700
c7 38,1000 5,9950 26,0300 38,1000 49,7000
c8 15,5400 4,7280 6,4160 15,3900 25,1900
c9 27,0200 6,5280 13,4700 27,0900 39,3900
c10 21,8400 5,3720 11,5000 21,8300 32,7700
c11 21,0700 5,7230 9,6730 21,4100 31,5600
c12 23,5900 6,8710 10,1200 23,6200 37,3900
c13 18,0200 6,2450 5,2130 18,2600 29,7700
c14 13,0100 5,9680 0,6095 13,0900 24,6700
c15 32,1400 3,8150 24,5400 32,1800 39,6200
c16 24,2100 4,7520 14,7800 24,2600 33,4300
c17 22,0400 3,6310 14,7500 22,1300 29,2200
c18 11,4700 3,2220 5,3870 11,4100 18,1400
c19 23,8900 5,7300 12,3600 23,8100 34,7500
c20 11,9400 5,4560 2,6960 11,3100 24,5900
c21 13,1600 2,6440 8,0310 13,0500 18,5200
c22 18,7900 3,2410 12,1000 18,8500 25,0400
c23 14,6000 3,4920 8,2570 14,5500 21,8100
c24 20,9300 3,0250 14,9900 20,9200 26,6300
c25 28,2800 2,5750 23,0700 28,3400 33,2200
c26 21,2700 3,3580 14,6900 21,2200 27,8100
c27 17,7500 5,6150 6,0660 18,2000 27,8000
39
Tabela C.2: Sumario dos parametros β′1,is da distribuicao posteriori do modelo final M6 usado para taxa de
mortalidade infantil.
Parametro Media D. Padrao 2,5% Mediana 97,5%
β1,1 0,0147 0,0148 -0,0149 0,0149 0,0440
β1,2 -0,0006 0,0589 -0,1153 -0,0015 0,1185
β1,3 0,0073 0,0273 -0,0443 0,0062 0,0642
β1,4 0,0385 0,0307 -0,0231 0,0389 0,0987
β1,5 0,0503 0,0228 0,0070 0,0497 0,0972
β1,6 0,0523 0,0327 -0,0153 0,0532 0,1151
β1,7 -0,0280 0,0187 -0,0669 -0,0274 0,0075
β1,8 -0,0268 0,0446 -0,1137 -0,0272 0,0633
β1,9 -0,0027 0,0508 -0,1026 -0,0033 0,1003
β1,10 0,0474 0,0501 -0,0488 0,0465 0,1485
β1,11 0,0075 0,0252 -0,0411 0,0068 0,0590
β1,12 0,0368 0,1059 -0,1669 0,0341 0,2553
β1,13 0,0536 0,0254 0,0031 0,0532 0,1055
β1,14 0,0098 0,0202 -0,0284 0,0092 0,0512
β1,15 -0,0006 0,0197 -0,0387 -0,0008 0,0387
β1,16 -0,0104 0,0276 -0,0649 -0,0106 0,0444
β1,17 -0,0036 0,0304 -0,0672 -0,0025 0,0527
β1,18 0,0643 0,0309 0,0003 0,0651 0,1228
β1,19 -0,0712 0,0602 -0,1836 -0,0730 0,0479
β1,20 -0,0036 0,0615 -0,1470 0,0049 0,0937
β1,21 0,0059 0,0179 -0,0282 0,0055 0,0428
β1,22 -0,0628 0,0310 -0,1266 -0,0627 -0,0015
β1,23 0,0465 0,0285 -0,0109 0,0469 0,1023
β1,24 0,0011 0,0079 -0,0145 0,0011 0,0168
β1,25 -0,0117 0,0197 -0,0508 -0,0119 0,0278
β1,26 0,0156 0,0160 -0,0168 0,0157 0,0474
β1,27 -0,0439 0,0541 -0,1433 -0,0457 0,0677
40
Tabela C.3: Sumario dos parametros β′2,is da distribuicao posteriori do modelo final M6 usado para taxa de
mortalidade infantil.
Parametro Media D. Padrao 2,5% Mediana 97,5%
β2,1 0,0037 0,0031 -0,0023 0,0037 0,0102
β2,2 0,0126 0,0062 0,0003 0,0127 0,0250
β2,3 0,0039 0,0063 -0,0082 0,0038 0,0173
β2,4 0,0008 0,0048 -0,0086 0,0007 0,0107
β2,5 -0,0125 0,0059 -0,02306 0,0129 0,0002
β2,6 -0,0018 0,0122 -0,0250 -0,0022 0,0238
β2,7 -0,0034 0,0078 -0,01941 -0,0034 0,0121
β2,8 0,0324 0,0160 -0,0010 0,0330 0,0625
β2,9 0,0148 0,0160 -0,0184 0,0153 0,0451
β2,10 0,0097 0,0130 -0,0175 0,0100 0,0344
β2,11 0,0195 0,0067 0,0059 0,0197 0,0325
β2,12 0,0196 0,0191 -0,0196 0,0199 0,0569
β2,13 0,0160 0,0092 -0,0029 0,0161 0,0340
β2,14 0,0280 0,0068 0,01381 0,0283 0,0407
β2,15 0,0029 0,0058 -0,0091 0,0031 0,0140
β2,16 0,0192 0,0067 0,0054 0,0192 0,0329
β2,17 0,0070 0,0027 0,0016 0,0070 0,0127
β2,18 0,0038 0,0039 -0,0041 0,0039 0,0116
β2,19 0,0049 0,0026 -0,0002 0,0049 0,0100
β2,20 0,0077 0,0020 0,0037 0,0077 0,0120
β2,21 0,0069 0,0036 0,0001 0,0069 0,0140
β2,22 0,0076 0,0027 0,0019 0,0077 0,0128
β2,23 -0,0050 0,0029 -0,0113 -0,0049 0,0004
β2,24 0,0031 0,0031 -0,0029 0,0031 0,0093
β2,25 0,0040 0,0037 -0,0034 0,0041 0,0111
β2,26 -0,0047 0,0044 -0,0135 -0,0048 0,0043
β2,27 0,0032 0,0015 0,0000 0,0032 0,0062
41
Tabela C.4: Sumario dos parametros β′3,is da distribuicao posteriori do modelo final M6 usado para taxa de
mortalidade infantil.
Parametro Media D. Padrao 2,5% Mediana 97,5%
β3,1 0,5048 0,1800 0,1444 0,5038 0,8822
β3,2 0,2600 0,1545 -0,0435 0,2598 0,5675
β3,3 0,2539 0,1412 -0,0145 0,2496 0,5481
β3,4 0,1656 0,2249 -0,2799 0,1640 0,6175
β3,5 0,0406 0,1311 -0,1879 0,0304 0,3254
β3,6 0,3788 0,2334 -0,0878 0,3810 0,8305
β3,7 0,2785 0,2692 -0,2449 0,2862 0,8014
β3,8 0,7069 0,1372 0,4299 0,7108 0,9701
β3,9 0,4218 0,1915 0,0645 0,4176 0,8183
β3,10 0,6355 0,2087 0,2150 0,6354 1,0360
β3,11 0,5490 0,2074 0,1695 0,5394 0,9587
β3,12 0,5294 0,2160 0,1005 0,5296 0,9558
β3,13 0,6228 0,2266 0,1976 0,6154 1,0760
β3,14 0,7713 0,1582 0,4623 0,7692 1,1030
β3,15 0,5097 0,1513 0,2160 0,5083 0,8111
β3,16 0,4788 0,1947 0,1057 0,4813 0,8628
β3,17 0,3476 0,2460 -0,1359 0,3433 0,8524
β3,18 0,2728 0,1984 -0,1233 0,2770 0,6557
β3,19 0,2758 0,2877 -0,2963 0,2804 0,8327
β3,20 0,2811 0,3168 -0,3741 0,2990 0,8511
β3,21 0,4761 0,2669 -0,0325 0,4724 1,0080
β3,22 0,0338 0,2960 -0,5571 0,0289 0,6180
β3,23 0,4802 0,3089 -0,1339 0,4835 1,0950
β3,24 0,3863 0,2363 -0,0670 0,3885 0,8518
β3,25 0,2057 0,2001 -0,1784 0,2018 0,6027
β3,26 0,3423 0,2178 -0,0831 0,3452 0,7707
β3,27 0,1067 0,3024 -0,4976 0,1112 0,6871
42
Tabela C.5: Sumario dos parametros β′4,is da distribuicao posteriori do modelo final M6 usado para taxa de
mortalidade infantil.
Parametro Media D. Padrao 2,5% Mediana 97,5%
β4,1 -1,1810 0,0541 -1,2890 -1,1810 -1,0730
β4,2 -0,9034 0,0952 -1,0930 -0,9033 -0,7152
β4,3 -1,3570 0,1097 -1,5670 -1,3610 -1,1310
β4,4 -0,3437 0,1116 -0,5709 -0,3417 -0,1283
β4,5 -0,9814 0,05070 -1,0810 -0,9819 -0,8788
β4,6 -0,2833 0,2136 -0,7250 -0,2774 0,1206
β4,7 -1,3470 0,2693 -1,8390 -1,3520 -0,7915
β4,8 -1,3890 0,2423 -1,8690 -1,3890 -0,9107
β4,9 -1,6910 0,3306 -2,3060 -1,7060 -0,9720
β4,10 -1,7580 0,2765 -2,2950 -1,7630 -1,2070
β4,11 -1,7730 0,1769 -2,1060 -1,7760 -1,4100
β4,12 -2,1540 0,2877 -2,7040 -2,1650 -1,5610
β4,13 -1,6430 0,1760 -1,9930 -1,6440 -1,2950
β4,14 -1,8330 0,1626 -2,1490 -1,8350 -1,5010
β4,15 -1,7710 0,1555 -2,0720 -1,7760 -1,4540
β4,16 -1,4250 0,1769 -1,7600 -1,4340 -1,0700
β4,17 -1,0020 0,1104 -1,2140 -1,0030 -0,7760
β4,18 -0,6578 0,1193 -0,8971 -0,6569 -0,4208
β4,19 -0,7086 0,0746 -0,8522 -0,7098 -0,5602
β4,20 -0,6437 0,06585 -0,7787 -0,6415 -0,5219
β4,21 -0,7976 0,1311 -1,0620 -0,7946 -0,5579
β4,22 -0,7714 0,1174 -0,9881 -0,7739 -0,5327
β4,23 -0,3107 0,0813 -0,4739 -0,3095 -0,1493
β4,24 -0,7561 0,1085 -0,9676 -0,7545 -0,5424
β4,25 -0,9443 0,1096 -1,156 -0,9471 -0,7233
β4,26 -0,3770 0,1415 -0,6559 -0,3749 -0,1020
β4,27 -0,5537 0,0947 -0,7393 -0,5538 -0,3654