modelos hierárquicos para não-resposta em pesquisas ...5.2.1 modelo de não-resposta não...
TRANSCRIPT
Modelos hierárquicos para não-resposta em
pesquisas amostrais
Erika Lorena Huesa Flechas
Universidade Federal do Rio de Janeiro
Instituto de Matemática
Departamento de Métodos Estatísticos
2017
ii
CIP - Catalogação na Publicação
Elaborado pelo Sistema de Geração Automática da UFRJ com osdados fornecidos pelo(a) autor(a).
H887mHuesa Flechas, Erika Lorena Modelos hierárquicos para não-resposta empesquisas amostrais / Erika Lorena Huesa Flechas. - Rio de Janeiro, 2017. 66 f.
Orientador: Fernando Antonio da Silva Moura. Dissertação (mestrado) - Universidade Federal doRio de Janeiro, Instituto de Matemática, Programade Pós-Graduação em Estatística, 2017.
1. Não Resposta. 2. Modelos hierárquicos. 3.Distribuição Spike and Slab. 4. Inferênciabayesiana. I. da Silva Moura, Fernando Antonio ,orient. II. Título.
iii
À Deus quem fez possível tudo, minha mãe e meus irmãos, meus grandes amores.
iv
�Todo lo puedo en Cristo que me fortalece."
Filipenses 4:13.
v
Agradecimentos
Em primeiro lugar, a Deus pela vida e por todas as oportunidades.
A Minha mãe, Stella por todos seus sacrifícios, por me ensinar a ser uma lutadora e
por seu amor incondicional. Aos meus irmãos, Nathalia e Crhistian, por con�ar e estar
sempre junto a mim. Naqueles tempos, quando a distância e a solidão me invadiram
vocês foram minha maior inspiração para não desistir. Este trabalho é para vocês.
Ao meu amor Javier, por ter me acompanhado nos momentos mais difíceis durante
estes dois anos, onde nem eu acreditava em mim. Obrigada por sempre me ouvir, pelo
carinho e por todas as experiências em Campinas e no Rio.
A Lina, que se tornou minha amiga, sempre com um sorriso, desde que ela chegou foi
uma grande companhia. A Gabriela, que começou esta aventura com a gente e esteve
sempre disposta a dar conselhos, ouvindo e enchendo-nos de alegria. A Mariana por
sempre ouvir, ser sincera e dar bons conselhos. Ao Carlos, que sempre tinha alguma
coisa que me fez rir e sempre esteve disposto a ajudar. Ao Angel, por me ouvir em
tempos de crise. Ao Jesus, por ser meu guia quando cheguei no Rio.
A Cely, professora e amiga, muito obrigada por me acolher na sua casa e me tratar
como sua família, por ajudar-nos a mim e ao Javi, por todos os conselhos e sobre tudo
pelo carinho. A Vanessa, pela companhia e ajuda em tudo o que eu precisei. Aos meus
companheiros de turma, Widemberg, Daniela, Sergio, Lucas e Marcos. Pelas horas de
estudo e acolhe-nos aos estrangeiros tão bem.
A minhas amigas na Colômbia Diana, Olivia, Lorena e Carolina que sempre estiveram
comigo.
Ao meu orientador, o Professor Fernando Moura por ter me apoiado neste trabalho e
especialmente, por ser uma pessoa tão compreensiva.
Finalmente, agradeço a UFRJ e à CAPES pela oportunidade e o apoio �nanceiro.
vi
Resumo
Em pesquisas amostrais é comum encontrar conjuntos de dados com não-resposta (dados
faltantes). Geralmente essa proporção de informação faltante é descartada e as análises
são baseadas no conjunto de dados restantes. Outro tipo de solução é imputar os valores
faltantes. Em alguns casos este tipo de tratamento pode ser inadequado, pois se a
informação observada e faltante tiverem caraterísticas diferentes a análise realizada é
inadequada. Para lidar com este problema de�nem-se tipos de mecanismo de não-resposta
para o conjunto de dados incompleto.
Nesta dissertação são estudadas algumas abordagens para o tratamento da não-
resposta baseadas em modelos hierárquicos Bayesianos para cada tipo de mecanismo.
Modelos para não-resposta apresentados recentemente na literatura assume que todas as
areas possuem o mesmo mecanismo. O objetivo deste trabalho é propor um modelo no
qual é possível que o mecanismo de não-resposta seja diferente em cada área. Isto é feito
através da inclusão de um tipo de distribuição a priori spike and slab. Os modelos apre-
sentados são ajustados a um conjunto de dados reais e comparados mediante o critério
preditivo a posteriori.
Palavras-chave: Modelos hierárquicos, não-resposta, distribuição spike and slab, in-
ferência Bayesiana.
vii
Abstract
Surveys sampling usually have nonresponse (missing data). Usually, this proportion
of missing information is discarded and analysis are based on the remaining data set.
Another type of solution is to impute the missing values. In some cases this type of
treatment may be inadequate, because if the observed and the missing information have
di�erent characteristics the analysis performed would be inadequate. To deal with this
problem there are diferent types of nonresponse mechanism for the incomplete data set.
In this dissertation we study some nonresponse approaches based on Bayesian hie-
rarchical models for each type of mechanism. Nonresponse models recently presented in
literature have the same mechanism. The aim of this work is to propose a model in which
is possible that the nonresponse mechanism be di�erent in each area, this is done by the
inclusion of a spike and slab prior distribution. The proposed models are �tted in a real
data set and compared by using a posterior predictive criterion.
Keywords: Hierarchical models, nonresponse, spike and slab distribution, Bayesian
inference.
viii
Sumário
1 Introdução 1
2 Métodos baseados no desenho amostral 4
2.1 Ajuste de pesos amostrais com propensão de resposta . . . . . . . . . . . 4
2.2 Subamostragem de não respondentes . . . . . . . . . . . . . . . . . . . . 6
2.3 Resposta aleatorizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Métodos baseados em modelos 8
3.1 Imputação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.1.1 Imputação simples . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.1.2 Imputação múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 Modelos de superpopulação para pesquisas amostrais com não-resposta . 11
3.2.1 Modelos de mecanismo de não-resposta não ignorável . . . . . . . 12
3.2.2 Estudo de simulação . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.3 Mecanismo de não-resposta ignorável . . . . . . . . . . . . . . . . 18
3.3 Modelos com efeitos aleatórios questionáveis . . . . . . . . . . . . . . . . 19
3.3.1 Modelo de Fay and Herriot e distribuição spike and slab . . . . . 20
4 Modelo proposto: modelo de não-resposta não ignorável com distribui-
ção spike and slab 22
4.1 O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.3 Estudo de simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5 Aplicação a dados reais 29
5.1 Terceira Pesquisa Nacional de Saúde e da Nutrição (NHANES III 1988-1994) 29
5.1.1 Modelo de não-resposta ignorável . . . . . . . . . . . . . . . . . . 30
ix
5.1.2 Modelo de não-resposta não ignorável e distribuição spike and slab 31
5.1.3 Comparação de modelos . . . . . . . . . . . . . . . . . . . . . . . 36
5.2 Pesquisa Nacional de Saúde (PNS) - Brasil 2013 . . . . . . . . . . . . . . 38
5.2.1 Modelo de não-resposta não ignorável e distribuição spike and slab 39
6 Conclusões e trabalhos futuros 42
A Condicionais completas do modelo não ignorável 44
B Condicionais completas do modelo não ignorável com distribuição spike
and slab 47
Referências Bibliográ�cas 53
x
Lista de Figuras
3.1 Dados simulados. Modelo 1: Histograma da variável Y. . . . . . . . . . . 15
3.2 Grá�co da densidade e histórico das cadeias dos parâmetros β1, ν11, α1 e
β2, para os dados simulados do Modelo 1. . . . . . . . . . . . . . . . . . . 16
3.3 Dados simulados. Modelo 1. Esquerda: Grá�co do histórico das cadeias
dos parâmetros β1, β2, σ21 e ν11, para o ajuste do Modelo 1. Direita: Grá-
�co do histórico das cadeias dos parâmetros θ, β2 e σ21 para o ajuste do
Modelo 1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4 Grá�co da densidade e histórico das cadeias dos parâmetros θ, α1, σ21 e
β2, para os dados simulados do Modelo 1.1. . . . . . . . . . . . . . . . . . 18
4.1 Grá�co da densidade e histórico das cadeias dos parâmetros β2, θ, α1, σ21
e π, para os dados simulados do Modelo 2. . . . . . . . . . . . . . . . . . 27
5.1 Dados NHANES III. Modelo ignorável: critério de convergência de Geweke
e autocorrelação para os parâmetros β2, θ e σ21. . . . . . . . . . . . . . . 31
5.2 Dados NHANES III. Modelo não ignorável spike and slab: critério de
convergência de Geweke para os parâmetros α1, α2, θ e π. . . . . . . . . 32
5.3 Dados NHANES III. Modelo não ignorável spike and slab: critério de
convergência de Geweke e autocorrelação para os parâmetros δi. . . . . . 33
5.4 Dados NHANES III. Modelo não ignorável spike and slab: intervalos de
95% de credibilidade para δi ν2i e probabilidade a posteriori de ν2i = 0. . 35
5.5 Dados NHANES III. Modelo não ignorável spike and slab: intervalo de
95% de credibilidade para δ15 ν2,15 e probabilidade a posteriori de ν2,15 = 0 36
5.6 Dados PNS. Modelo não ignorável spike and slab: critério de convergência
de Geweke e autocorrelação para os parâmetros α1, α2, θ e π. . . . . . . 40
5.7 Dados PNS. Modelo não ignorável spike and slab: critério de convergência
de Geweke e autocorrelação para os parâmetros δi. . . . . . . . . . . . . . 40
xi
5.8 Grá�co da densidade e histórico das cadeias dos parâmetros β2, θ, α1 e σ21
para o Modelo 2 ajustado aos dados da PNS. . . . . . . . . . . . . . . . . 41
xii
Lista de Tabelas
3.1 Dados Simulados. Modelo 1: valores �xados para os parâmetros. . . . . . 14
3.2 Dados Simulados. Modelo 1.1: valores �xados para os parâmetros. . . . . 17
4.1 Sumários da probabilidade a posteriori (Prob. ap) de δi = 1 e os valores
simulados (Sim) para cada δi, para os dados simulados do Modelo 2. . . . 28
5.1 Dados NHANES III. Modelo ignorãvel: média, desvio padrão (Desv.) e
intervalo de 95% de credibilidade (I.C) para os parâmetros β2, θ, σ2e e σ
21. 31
5.2 Dados NHANES III. Modelo não ignorável: média, desvio padrão (Desv.)
e intervalo de 95% de credibilidade (I.C) para os parâmetros β2, θ, σ2e α2
e α1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.3 Dados NHANES III. Sumários da média da probabilidade a posteriori
(Prob. ap) de δi = 1 e os valores atribuídos para cada δi (Valor). . . . . . 34
5.4 Dados NHANES III. Critério de seleção de modelo DIC. Modelo 2: modelo
não ignorável com distribuição spike and slab. Modelo 0: modelo ignorável. 37
5.5 Dados NHANES III. Critério preditivo a posteriori para o modelo ig-
norável (Modelo 0), o modelo não ignorável com distribuição spike and
slab (Modelo 2) e o modelo não ignorável (Modelo 1.1). . . . . . . . . . . 38
5.6 Dados PNS. Modelo não ignorável: média, desvio padrão (Desv.) e in-
tervalo de 95% de credibilidade (I.C) para os parâmetros β2, θ, σ2e α2 e
α1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
xiii
Capítulo 1
Introdução
O problema de não-resposta ou dados faltantes surge quando há falta de informação
para algumas das unidades observadas de estudo. Exemplos da presença de não-resposta
são os respondentes de um estudo de famílias que se recusam a informar seu salário ou a
responder todas as perguntas do questionário. Pode também ocorrer em estudos longi-
tudinais quando alguns dos entrevistados perdem o interesse em participar da pesquisa,
embora poderiam ter respondido, ver Little and Rubin (2002).
O desenho amostral, a captação de dados, o tamanho e conteúdo do questionário são
fundamentais para evitar a presença de dados faltantes, pois a de�nição de um marco
amostral detalhado pode ajudar a encontrar o participante a ser entrevistado. O modo
no qual o entrevistador faz as perguntas determina também se o indivíduo responde ou
não. É desejável que a taxa de não resposta seja baixa para serem feitas estimações
da população inteira ou de certos domínios e subpopulações com precisões aceitáveis.
O valor aceitável para a taxa depende dos objetivos do estudo, pois uma taxa de 5%
pode ser baixa se serão feitas estimações globais, mas pode ser alta para alguns itens e
domínios. Assim estimações para pequenas áreas caraterizadas por estes itens podem ser
afetadas.
Uma primeira solução para o problema de dados faltantes é a eliminação da observação
da análise. Neste caso são excluídos aqueles indivíduos com alguns valores faltantes,
analisando-se só as unidades com informação completa. Este enfoque está baseado na
idéia de não manipulação dos dados, pois tentar completar os dados seria acrescentar
informação que não vem da população e pode não ser adequado. Esta estratégia pode
ser inadequada, pois o tamanho amostral efetivo diminui. O interesse do pesquisador está
em fazer inferência sobre a população objetivo completa ao invés de fazer só na porção
1
da população que apresenta resposta para todas as variáveis do estudo.
A presença da não-resposta pode estar relacionada com o valor da variável de estudo,
por exemplo, o salário do indivíduo. Este pode pensar que ao declarar seu salário serão
aumentados seus impostos e assim decide não responder. Perguntas como a orientação
sexual ou o ponto de vista sobre o aborto podem fazer com que o indivíduo não se sinta
confortável em ter que responder à uma pessoa desconhecida e se sentir constrangido.
Em outros casos a falta de informação pode ser devida a um erro ao preencher os dados
coletados ou a uma negação em responder, sem estar relacionado com o valor da resposta.
Este tipo de condições dividem o problema em dois casos. O mecanismo de não-
resposta, que consiste na relação entre os dados faltantes e as variáveis, é ignorável
quando se assume que as distribuições dos dados observados e os dados faltantes são
iguais. Quando a probabilidade de responder depende do valor da variável de interesse
ou quando os dados observados e faltantes têm distribuições diferentes o mecanismo de
não-resposta é dito não ignorável.
O mecanismo de não-resposta ignorável está divido em mecanismo de forma comple-
tamente aleatória (MCAR1) e em mecanismo de forma aleatória (MAR2). No primeiro
caso a propensão de uma observação ser faltante é completamente aleatória, os valores
faltantes são uma amostra aleatória do conjunto de dados, ou seja, não existe nenhuma
relação entre o dado ser ou não observado e os valores das variáveis. No segundo caso
a propensão de uma observação ser faltante está relacionado só com alguns dos dados
observados, ou seja o mecanismo é condicionalmente aleatório dado os valores observados
das variáveis auxiliares, as quais ajudam a explicar se um indivíduo responde ou não,
consultar Little and Rubin (2002) e Martin (2011) para mais detalhes.
O propósito principal desta dissertação de mestrado é estudar o modelo hierárquico
Bayesiano proposto por Nandram and Choi (2005) e modi�car a distribuição dos efeitos
aleatórios segundo a metodologia proposta por Datta and Mandal (2015). Isto é feito para
permitir que as áreas possuam diferentes tipos de mecanismos de não-resposta podendo-
se avaliar a probabilidade de que o mecanismo seja ignorável para cada área. Além disso,
são apresentadas duas aplicações, a primeira com dados da terceira Pesquisa Nacional de
Saúde e Nutrição (NHANES III) e a segunda com dados da Pesquisa Nacional de Saúde
no Brasil (PNS).
A estrutura da dissertação é a seguinte, no Capítulo 2 são apresentados alguns trata-
mentos da não-resposta baseados no desenho amostral, no Capítulo 3 são apresentadas as
1Sigla em inglês de Missing Completely at Random.2Sigla em inglês de Missing at Random.
2
abordagens baseadas em modelos, no Capítulo 4 é apresentado o modelo proposto, no Ca-
pítulo 5 são apresentadas as aplicações com dados reais e no Capítulo 6 são apresentadas
as conclusões e trabalhos futuros.
3
Capítulo 2
Métodos baseados no desenho amostral
2.1 Ajuste de pesos amostrais com propensão de res-
posta
Nesta abordagem os indivíduos que respondem são ponderados pelos pesos reajusta-
dos com o �m de compensar as observações faltantes. Este enfoque é simples e corrige o
vício da não-resposta se o mecanismo é MAR, ver Chambers and Skinner (2003).
Uma unidade j = 1, ..., n. pertencente à amostra de tamanho n com probabilidade
πj representa π−1j unidades na população, logo deveria ter um peso igual a wj = π−1j na
estimação de quantidades populacionais. Seja a variável indicadora de resposta Rj = 1
para os respondentes e Rj = 0 caso contrário, observada completamente na amostra
mas desconhecida para os elementos não amostrados. Denote por ρj = P (Rj = 1) a
probabilidade do elemento j responder dado que a amostra s = i1, . . . in. é selecionada e
denote por sres = {i1I(Ri1 = 1), . . . , inI(Rin = 1)}. o conjunto de elementos da amostra
que respondem.
Se a probabilidade de responder é independente da probabilidade de seleção, obtemos
o peso ajustado para cada respondente igual a wj = 1πjρj
. Na prática ρj é desconhecido
e deve ser estimado a partir da informação disponível para todos os indivíduos, ver
Bethlehem and Bi�gnandi (2012).
Denotemos o conjunto de variáveis aleatórias auxiliares para o indivíduo j por Xj =
(Xj1, Xj2, ..., XjP ). Supondo que os valores destas variáveis são conhecidos para todos
os elementos amostrais e que cada elemento na população tem uma probabilidade de
resposta ρj desconhecida e diferente de zero, a propensão de resposta ρ(xj) dados os
valores do conjunto das variáveis auxiliares é de�nida por:
4
ρ(xj) = P (Rj = 1|Xj = xj) (2.1)
O indicador de não-resposta é modelado mediante uma regressão. A previsão obtida
pela regressão denominada de escore de propensão "propensity score (PS)" é a proba-
bilidade de resposta estimada. Para se estimar ρ(xj) é proposto o modelo de regressão
logística. Este assume que a relação entre a propensão de resposta e as variáveis auxiliares
é dada por:
logit(ρ(xj)) = log
(ρ(xj)
1− ρ(xj)
)=
P∑p=1
xjpβp (2.2)
A transformação logit garante que as propensões de resposta estejam no intervalo
(0, 1). Logo tem-se a seguinte expressão para as propensões de resposta:
ρ(xj) =exp(xtjβ)
1 + exp(xtjβ)(2.3)
Um estimador aproximadamente não-viesado do total da variável Y na população U,
tY =∑
U yj, com j = 1, . . . , N. e N o tamanho populacional, é dado por:
tY π∗ =∑Sres
yjπj ρ(xj)
(2.4)
As quantidades 1/ρ(xj) podem ser vistas como as ponderações necessárias para eli-
minar o viés da não-resposta. O estimador de Horvitz-Thompson, tHT =∑
syπk, para o
total não será mais não-viesado, já que não são observados todos os elementos amostrais.
O método de ponderação de propensão de resposta direta usa o PS para construir os
ajustes de não-resposta aplicados aos pesos amostrais dos respondentes. A forma mais
simples designa à todos os respondentes o ajuste de não-resposta igual ao inverso da
média dos PS, ou seja, existe um único fator de ajuste para todos os respondentes. Outro
método é designar à cada individuo o fator ajustado igual ao inverso do seu PS. Outra
alternativa é particionar a amostra em m células e designar à cada respondente dentro
de cada célula o fator de não-resposta igual ao inverso da média dos PS dessa célula, ou
seja, m fatores de ajuste de não-resposta são aplicados aos dados. Outro ajuste é dado
pela ponderação da propensão de resposta estrati�cada. Nesta metodologia os PS são
usados só para estrati�car a amostra em m classes e o fator de ajuste pode ser calculado
como o inverso da fração de respondentes dentro da célula. Embora o ajuste das células
5
seja feito utilizando um modelo de regressão, este método imita o método tradicional de
pesos ajustados, ver Lieu N. Hazelwood and Wolken (2007).
2.2 Subamostragem de não respondentes
Uma abordagem alternativa baseada no desenho é subamostrar os não respondentes
e fazer o máximo esforço em conseguir suas respostas. Este enfoque foi desenvolvido
por Hansen and Hurwitz (1946). O objetivo é estimar o total da variável aleatória y,
t =∑
U yt, na população U.
Uma amostra sa de tamanho na é selecionada da população U, de acordo com o
desenho Pa(.) com probabilidades de inclusão πaj, πajk e 4jk = πjk−πjπk. Esta amostra
é dividida em dois conjuntos, sa1 composto pelos respondentes e sa2 composto pelos não
respondentes, de tamanhos na1 e na2 respetivamente. Uma subamostra s2 é selecionada
de sa2 mediante um desenho P (. | sa2) com probabilidades de inclusão πj|sa2 , πjk|sa2 ,
4jk|sa2 .
Os valores de todos os elementos da amostra s2 devem ser obtidos para se ter es-
timadores não viesados. Esta técnica se assemelha à amostragem em duas fases para
estrati�cação, mas aqui a partição é aleatória. Seja s = sa1⋃s2 o conjunto dos valores
observados de y, assim o total é estimado por:
t =∑s
yt =∑s
ytπ∗k
(2.5)
Com
π∗k =
πak se t ∈ sa1
πak πk|Sa2 se t ∈ sa2(2.6)
Pode-se reescrever o estimador do total como
t =∑sa1
yak +∑s2
yj (2.7)
2.3 Resposta aleatorizada
Os estudos que contêm perguntas sensíveis como o uso de drogas, apresentam não-
resposta. Nestes casos um método que dá proteção a identidade do indivíduo pode ser
uma boa solução, mas nos casos de entrevista pessoal, a técnica de resposta aleatorizada
6
introduzida por Warner (1965) pode ser uma melhor opção, pois assegura a cooperação
de todos os indivíduos na obtenção dos dados reais.
A metodologia é a seguinte, o indivíduo seleciona através de um mecanismo aleatório
um dos seguintes estados: "Eu possuo o atributo" ou "Eu não possuo o atributo".
Logo é questionado e responde falso ou verdadeiro sem revelar qual das a�rmações está
respondendo. O especialista conhece a prioiri a probabilidade de seleção de cada uma
das opções.
Seja yj = 1 se o individuo j na população �nita possui o atributo e yj = 0 caso
contrário, xj = 1 se a resposta é verdadeira ou xj = 0 caso contrário e P a probabilidade
conhecida de seleção da a�rmação "possuo o atributo". Se P 6= 1/2, de�ne-se o estimador
não viesado de yj por:
yj =xj + P − 1
2P − 1(2.8)
O π − estimador não pode ser calculado, pois o valor real de yt usualmente não é
conhecido, portanto propõe-se o seguinte estimador alternativo:
tRR =∑s
yjπj
(2.9)
7
Capítulo 3
Métodos baseados em modelos
3.1 Imputação
A imputação consiste em completar o conjunto de dados com predições dos valores
faltantes. Depois é possível realizar uma análise com métodos ou modelos estatísticos
para dados completos.
3.1.1 Imputação simples
Apresentam-se duas abordagens para gerar os valores faltantes no caso da imputação
simples:
1. Modelagem explícita: A distribuição preditiva está baseada em um modelo estatís-
tico formal e os supostos são explícitos. Este inclui:
• Imputação pela média: os valores faltantes são imputados pela média dos
dados observados.
• Imputação pela regressão: imputando os valores faltantes pelas previsões de
um modelo de regressão.
• Imputação pela regressão estocástica: substituindo os valores faltantes pela
previsão de um modelo de regressão acrescentando uma predição do resíduo
para apresentar a incerteza do valor predito.
2. Modelagem implícita: está enfocada num algoritmo que implica num modelo sub-
jacente. Os supostos estão implícitos, precisa-se ser cuidadoso para aplicá-lo.
8
• Imputação hot deck : substituição dos valores faltantes pelos valores das uni-
dades observadas similares no conjunto de dados.
• Imputação cold deck : imputa os valores faltantes da variável por um valor
constante de um estudo passado.
O problema presente no método da imputação da média é que os indivíduos no meio
da distribuição têm mais probabilidade de responder que aqueles que se encontram nos
extremos, assim o valor da média pode não ser o melhor valor a imputar. Além disso, se
a quantidade de dados faltantes é grande a variância vai ser subestimada. Todas estas
técnicas que imputam os valores faltantes e os dados completos são analisadas mediante
os métodos tradicionais sem levar conta da incerteza da imputação feita anteriormente.
3.1.2 Imputação múltipla
O método da imputação múltipla descrito em Rubin (1987) consiste em gerar Q
valores da distribuição preditiva dos valores faltantes dado os valores observados formando
assim Q conjuntos de dados. Logo estima-se o modelo para cada um destes e seus
resultados são combinados de forma simples. Cada estimação dos parâmetros é a média
dos Q conjuntos.
A distribuição a posteriori para um modelo com mecanismo de não-resposta ignorável
é dada por :
f(θ | yobs, r) ≡ f(θ | yobs) ∝ f(θ)× f(yobs | θ) (3.1)
onde f(θ) é a distribuição a priori e f(yobs | θ) a densidade dos dados observados,
ymis os valores faltantes, yobs os valores observados. Rubin (1987) obtem f(θ | yobs) da
seguinte forma:
f(θ | yobs) =
∫f(θ, ymis | yobs) dymis (3.2)
=
∫f(θ | ymis, yobs)f(ymis | yobs) dymis (3.3)
Onde
f(θ | ymis, yobs) ∝ f(θ)L(θ | yobs, ymis) (3.4)
9
O que implica que a distribuição a posteriori de θ, f(θ | yobs), pode ser simulada
primeiro amostrando os valores faltantes da distribuição marginal a posteriori de f(ymis |yobs) e imputando depois os valores amostrados para completar o conjunto de dados. Logo
se amostra da distribuição a posteriori de θ com os dados completados, f(θ | yobs, yqmis).A imputação múltipla aproxima a integral em (3.3) por:
f(θ | yobs) '1
Q
Q∑q=1
f(θ | yqmis, yobs) (3.5)
onde Y qmis é amostrado da distribuição preditiva dos dados faltantes, Y q
mis ∼ f(ymis | yobs).Similarmente obtemos:
E(θ | yobs) '∫θ
1
Q
Q∑q=1
f(θ|yqmis, yobs) dθ = θ (3.6)
Onde θ = 1Q
∑Qq=1 θ
q e θq = E(θ | yobs, yqmis)
V ar(θ | yobs) ' θ1
Q
Q∑q=1
Vq +1
Q− 1
Q∑q=1
(θq − θ)(θq − θ)′ = V +B (3.7)
Onde:
- Vq = V ar(θ | yqmis, Yobs) é a variância a posteriori com os dados completados.
- V = 1Q
∑Qq=1 Vq é a média sobre Vq dos conjuntos imputados.
- B = 1Q−1
∑Qq=1 (θq − θ)(θq − θ)′ é a variância da imputação.
Se o valor de Q é pequeno a média a posteriori é aproximada pela equação (3.6), mas
a aproximação da variância é obtida pela multiplicação da variância da imputação pelo
fator 1 +Q−1.
O método exposto tem um enfoque bayesiano mas possui boas propriedades frequen-
tistas. Além disso, a análise dos dados completados mediante a imputação não tem que
levar em conta o modelo usado para imputar os valores faltantes. Este método é mais
utilizado do que o método da imputação pela média, pois o interesse é fazer inferência
sobre os parâmetros e não estimar só os valores faltantes.
A di�culdade está em amostrar os valores da distribuição a posteriori dos valores de
Ymis | yobs. Uma melhor solução que implica um esforço computacional maior é calcular
Y imis ∼ f(ymis | yobs, θi−1) e θi ∼ f(θi | yimis, yobs), ou seja uma aplicação do amostrador
10
de Gibbs, ver Chambers and Skinner (2003). Este enfoque ignora o mecanismo de não-
resposta. Se quisermos levar em conta este, a variável R deveria estar no modelo.
3.2 Modelos de superpopulação para pesquisas amos-
trais com não-resposta
Seja U a população de tamanho N , o conjunto de dados completo y = (yinc, yexc).
Onde yinc = (yobs, ymis) são os valores da amostra s,yexc são os valores não amostrais; yobs
são os valores observados na amostra e ymis são os valores faltantes da amostra.
Seja a variável indicadora amostral I = (I1, . . . , IN) , com Ij = 1 se a unidade j está
na amostra e Ij = 0 caso contrario. Considere a variável indicadora de não-resposta R
de�nida na seção anterior e denote por Z o conjunto de variáveis auxiliares conhecidas
para todas as unidades da população.
Little (1982) de�ne o modelo de superpopulação para dados faltantes, através da
distribuição conjunta de I, Y,R dado z como segue:
f(i, y, r|z; θ, ψ, φ) = f(y|z; θ)f(i|z, y;ψ)f(r|z, y, i;φ) (3.8)
O último termo da expressão (3.8) modela o padrão de não-resposta R através da
distribuição condicional de R dado z, y, i, indexado pelo conjunto de parâmetros φ. A
distribuição dos dados observados (i, yobs, rs) é obtida integrando-se (3.8) sobre os com-
ponentes não observados. Note que a distribuição conjunta é dada por:
f(i, yobs, rs|z; θ, ψ, φ) =
∫f(y|z; θ)f(i|z, y;ψ)f(rs|z, y, i;σ, φ) dyexc dymis (3.9)
A maioria dos métodos de superpopulação para o tratamento da não-resposta es-
tão baseados em modelos que não incluem distribuições para as variáveis indicadoras
da amostra e não-resposta e também estão restritos à distribuição marginal dos dados
observados, isto é:
f(yobs|z; θ) =
∫f(y|z; θ) dyexc dymis (3.10)
Diz-se que o desenho amostral e o mecanismo de não-resposta são ignoráveis se as
inferências sobre θ baseadas em (3.10) são equivalentes às inferências baseadas na dis-
tribuição completa em (3.9). As expressões são equivalentes se diferem por um fator
11
independente de θ. As seguintes condições são su�cientes para a equivalência: θ, φ, ψ
são distintos (têm distribuições a priori independentes) e as distribuições de I e R não
dependem dos elementos não observados, ver Little (1982).
O mecanismo de não-resposta é caracterizado pela distribuição condicional de R dado
Y , se os valores faltantes não dependen de Y , ou seja sobre um mecanismo de não-resposta
MCAR obtem-se f(r|y, φ) = f(r|φ), ∀ y, φ. Se o suposto é menos restritivo, MAR, temos
f(r|y, φ) = f(r|yobs, φ), ∀ ymis, φ. O mecanismo de não-resposta é chamado não faltante
aleatoriamente (NMAR1) se a distribuição de R depende dos valores faltantes na amostra,
ver Little and Rubin (2002).
3.2.1 Modelos de mecanismo de não-resposta não ignorável
Os modelos para dados que não são MAR podem ser divididos em dois casos: o pri-
meiro quando o mecanismo de não-resposta é não ignorável e o parâmetro φ é conhecido,
por exemplo os dados censurados; o segundo caso quando o parâmetro φ é desconhe-
cido, ou seja, a não-resposta depende dos valores Ymis após de ter sido condicionado à
informação de covariáveis disponíveis para respondentes e não respondentes.
Seja f(r, y|θ, φ) =∏n
j=1 f(rj, yj|θ, φ) a distribuição conjunta de R e Y . Existem dois
tipos de abordagem para o caso em que φ é desconhecido, ver Little and Rubin (2002):
1. Modelos de seleção: A distribuição conjunta de Rj e Yj pode ser escrita como
f(rj, yj|θ, φ) = f(yj|θ)f(rj|yj, φ). Com o primeiro fator descrevendo a distribuição
de yj na população e o segundo a incidência dos dados faltantes como uma função
de yj. Os parâmetros θ e φ são distintos.
2. Modelos de mistura de padrões: A distribuição conjunta de Rj e Yj pode ser
escrita como
f(rj, yj|θ, φ) = f(yj|rj, θ)f(rj|φ). A primeira expressão descreve a distribuição de
yj no estrato de�nido por diferentes padrões de não-resposta e a segunda distribui-
ção modela a incidência dos diferentes padrões. Os parâmetros θ e φ são distintos.
Modelos normais de mistura de padrões
Um modelo normal de mistura de padrões para a variável Y sujeita a valores faltantes
é dado por :
(Yj|Rj = m)ind∼ N(µ(m), σ
2(m)), m = 0, 1. Rj ∼ Bern(π) (3.11)
1Sigla em inglês de No Missing at Random
12
O modelo descreve que Y é uma mistura de duas distribuições normais, com média
µ = πµ(1) + (1− π)µ(0) e variância πσ2(1) + (1− π)σ2
(0) + π(1− π)(µ(1) − µ(0))2.
Nandram and Choi (2005) de�nem uma abordagem baseada em modelos hierárquicos
bayesianos sob o suposto que o mecanismo de não-resposta não pode ser ignorado, pois os
respondentes podem diferir dos não respondentes. Os autores assumem que a população
objetivo pode ser dividida em áreas ou conjuntos de características similares, cada uma
de tamanho conhecido Ni com i = 1, . . . , l. Supondo que uma amostra probabilística de
tamanho ni é selecionada em cada área, sejam: yij o valor do indivíduo j na área i para a
variável de interesse Y com j = 1, . . . , ni; aij o valor da variável auxiliar conhecida para
a população completa e rij a variável indicadora de resposta.
O modelo de mistura de padrões (Modelo 1) pode ser descrito em duas etapas. A
primeira contém a modelagem da variável indicadora de resposta e a segunda de�ne a
distribuição da variável resposta, ver Liu (2003).
• Etapa 1: O mecanismo de não-resposta descrito mediante a variável Rij depende
da variável auxiliar bij como segue:
rij|α1, α2, ηi ∼ Bernoulli
(exp(α1 + α2 bij + ηi)
1 + exp(α1 + α2 bij + ηi)
)(3.12)
Com ηi | ση ∼ N(0, ση), σ−2η ∼ Gamma(0.01, 0.01), α1, α2 ∼ Unif(−∞,+∞).
• Etapa 2: O modelo que descreve os dados utilizando uma variável auxiliar aij é
de�nido como:
yij = β1 + ν1i + (β2 + ν2i rij) aij + eij (3.13)
Com eij | σ2e ∼ N(0, σ2
e), ν1i | σ21 ∼ N(0, σ2
1), ν2i | σ22 ∼ N(0, σ2
2)
σ−21 , σ−22 , σ−2e ∼ Gamma(0.01, 0.01), β1, β2 ∼ Unif(−∞,+∞).
Este modelo de�ne uma distribuição para os respondentes e outra para os não res-
pondentes, portanto conclui-se que o mecanismo de não-resposta é não ignorável.
13
Estimação
A distribuição a posteriori conjunta de todos os parâmetros para o modelo de�nido
pelas etapas (3.12) e (3.13) é dada por:
f(ymis,β,α,σ2,ν | yobs, robs) ∝
l∏i=1
ni∏j=1
[1
σeexp
{−(yij − (β0 + ν1i + (β1 + ν2irij)aij)
2
2σ2e
}]
×l∏
i=1
ni∏j=1
[exp((α1 + α2bij + ηi)rij)
1 + exp(α1 + α2bij + ηi)
]×(
1
σ22
)a2−1
exp
(−b2σ2
2
)
×l∏
i=1
[1
σ1exp
(−ν21i2σ2
1
)× 1
σ2× exp
(−ν22i2σ2
2
)]× 1
σηexp
(−η2i2σ2
η
)
×(
1
σ2η
)a2−1
exp
(−b2σ2
η
)×(
1
σ2e
)a2−1
exp
(−b2σ2
e
)×(
1
σ21
)a2−1
exp
(−b2σ2
1
)Com a = 0.001 e b = 0.001. Para serem obtidas amostras da distribuição a posteriori
dos parâmetros é necessário utilizar Metropolis-Hastings, pois algumas das distribuições
condicionais completas não possuem forma fechada, ver o Apêndice A.
3.2.2 Estudo de simulação
A �m de estudar o comportamento do Modelo 1 descrito anteriormente em (3.12)
e (3.13), foi realizado um estudo de simulação para se veri�car se os parâmetros são
recuperados. Na Tabela 3.1 encontram-se os valores �xados. A escolha dos valores dos
parâmetros foi baseada no ajuste deste modelo para o conjunto de dados da Pesquisa
Nacional de Saúde do IBGE, sendo Yij o índice de massa corporal e a variável auxiliar aij
a idade do individuo j na área i. Detalhes sobre estes dados serão dados no Capítulo 5.
Foram geradas 14513 observações para 27 áreas. Gerando-se uma taxa de não-resposta
em torno de 10% em cada área.
Parâmetro Valor Parâmetro Valor
β1 24 β2 0.04
σ21 0.1 σ22 0.01
σ2e 25 σ2η 0.2
α1 1.8 α2 0.02
Tabela 3.1: Dados Simulados. Modelo 1: valores �xados para os parâmetros.
14
Na Figura 3.1 pode-se observar a distribuição dos dados simulados, que têm o com-
portamento esperado de uma distribuição normal. Foram atribuídas as seguintes distri-
buições a priori independentes e não informativas para os parâmetros β e α.
β1, α1, α2 ∼ N(0, 100) e β2 ∼ N(0, 10).
0
500
1000
1500
0 20 40
Y
Cou
nt
Histograma de Y
Figura 3.1: Dados simulados. Modelo 1: Histograma da variável Y.
A estimação da distribuição a posteriori dos parâmetros foi feita utilizando MCMC
(Monte Carlo via Cadeias de Markov), para mais informação sobre este método ver
Gamerman and Lopes (2006). Foram geradas duas cadeias de tamanho 31000 com um
período de aquecimento de 1000, tomando os valores a cada 10 iterações 2. Na Figura 3.2
apresentam-se os grá�cos3 do histórico e a densidade das cadeias para alguns parâmetros.
Cabe ressaltar que os parâmetros β1 e ν11 não parecem convergir enquanto os restantes
sim. A linha azul tracejada representa o valor �xado na simulação para cada parâmetro.
Com o �m de acelerar a convergência das cadeias foi proposto reparametrizar os
parâmetros β1 e ν1i da seguinte forma: β1i|σ21 ∼ N(θ, σ2
1). Assim �ca de�nido o Modelo
1.1 na segunda etapa como:
yij = β1i + (β2 + ν2i rij) aij + eij (3.14)2Os modelos foram rodados em OpenBUGS através do pacote do R, R2OpenBUGS.3 Os grá�cos foram obtidos com o pacote do R ggmcmc, ver Fernández-i Marín (2016).
15
β1
1000 6000 11000 16000 21000−10
0
10
20
Iterationva
lue
Chain
1
2
β1
−10 0 10 200
1
2
3
value
dens
ity
Chain
1
2
ν1
1000 6000 11000 16000 21000
0
10
20
30
Iteration
valu
e
Chain
1
2
ν1
0 10 20 300.00
0.25
0.50
0.75
value
dens
ity
Chain
1
2
β2
1000 6000 11000 16000 21000
0.03
0.04
0.05
Iteration
valu
e
Chain
1
2
β2
0.03 0.04 0.050
25
50
75
valuede
nsity
Chain
1
2
α1
1000 6000 11000 16000 21000
1.5
1.8
2.1
Iteration
valu
e
Chain
1
2
α1
1.5 1.8 2.10
1
2
3
value
dens
ity
Chain
1
2
Figura 3.2: Grá�co da densidade e histórico das cadeias dos parâmetros β1, ν11, α1 e β2,
para os dados simulados do Modelo 1.
Com eij | σ2e ∼ N(0, σ2
e), β1i | σ21 ∼ N(θ, σ2
1), ηi ∼ N(0, σ2n)
β2 ∼ N(0, w), ν2i ∼ N(0, σ22), σ−21 , σ−22 , σ−2e ∼ Gamma(0.01, 0.01)
θ, α1, α2 ∼ N(0, k) com w = 10, k = 100.
A primeira etapa tem a mesma forma de (3.13) mudando as distribuições a priori dos
parâmetros α1 e α2 como foi descrito anteriormente.
Com o �m de apresentar o efeito da reparametrização na aceleração da convergência
das cadeias do Modelo 1, foram comparados os ajustes dos modelos de�nidos em (3.13)
e (3.14) para os dados simulados sob o Modelo 1, da seguinte forma: geraram-se duas
cadeias de tamanho 5000 para cada modelo. Na Figura 3.3 encontra-se um resumo dos
históricos das cadeias para os parâmetros β1, β2, σ21 e ν11 do Modelo 1, e os parâmetros
θ, β2 e σ21 do Modelo 1.1. Analisando-se o traço da cadeia do parâmetro σ2
1 para o Modelo
1.1, a partir da iteração 1000, pode-se observar que as cadeias parecem convergir para o
mesmo valor, enquanto para o Modelo .1.1 ainda não convergiram.
Para analisar o comportamento do Modelo 1.1 foram gerados N = 14513 dados para
16
β1
0 1000 2000 3000 4000 5000
−50
0
50
Iterationva
lue
Chain
1
2
θ
0 1000 2000 3000 4000 5000
0
10
20
30
Iteration
valu
e
Chain
1
2
β2
0 1000 2000 3000 4000 5000
0.0
0.3
0.6
Iteration
valu
e
Chain
1
2
β2
0 1000 2000 3000 4000 5000−0.2
−0.1
0.0
0.1
0.2
0.3
Iteration
valu
e
Chain
1
2
σ2
0 1000 2000 3000 4000 50000
20000
40000
60000
80000
Iteration
valu
e
Chain
1
2
σ2
0 1000 2000 3000 4000 50000
30000
60000
90000
120000
Iterationva
lue
Chain
1
2
ν1
0 1000 2000 3000 4000 5000−200
0
200
Iteration
valu
e
Chain
1
2
σ2
1000 1500 2000 2500 30000.00
0.25
0.50
0.75
Iteration
valu
e
Chain
1
2
Figura 3.3: Dados simulados. Modelo 1. Esquerda: Grá�co do histórico das cadeias dos
parâmetros β1, β2, σ21 e ν11, para o ajuste do Modelo 1. Direita: Grá�co do histórico das
cadeias dos parâmetros θ, β2 e σ21 para o ajuste do Modelo 1.1
l = 27 áreas, mantendo a taxa de não-resposta em torno de 10% em cada área. Na Tabela
3.2 encontram-se os valores �xados dos parâmetros.
Parâmetro Valor Parâmetro Valor
θ 24 β1 0.04
σ21 0.1 σ22 0.01
σ2e 25 σ2η 0.2
α1 1.8 α2 0.02
Tabela 3.2: Dados Simulados. Modelo 1.1: valores �xados para os parâmetros.
Na Figura 3.4 apresentam-se os grá�cos do histórico e a densidade das cadeias. Foram
geradas duas cadeias de tamanho 151000 com um período de aquecimento de 1000, to-
mando os valores a cada 50 iterações. Pode-se observar que as cadeias parecem convergir.
Exceto a cadeia do parâmetro β2, a moda a posteriori das cadeias está próxima do valor
17
�xado na simulação.
θ
1000 26000 51000 76000 101000
23.50
23.75
24.00
24.25
Iteration
valu
e
Chain
1
2
θ
23.50 23.75 24.00 24.250
1
2
3
value
dens
ity
Chain
1
2
β2
1000 26000 51000 76000 101000
0.00
0.05
0.10
Iteration
valu
e
Chain
1
2
β2
0.00 0.05 0.100
5
10
15
value
dens
ity
Chain
1
2
α1
1000 26000 51000 76000 1010001.25
1.50
1.75
2.00
2.25
Iteration
valu
e
Chain
1
2
α1
1.25 1.50 1.75 2.00 2.250
1
2
3
value
dens
ity
Chain
1
2
σ2
1000 26000 51000 76000 1010000.0
0.1
0.2
0.3
0.4
Iteration
valu
e
Chain
1
2
σ2
0.0 0.1 0.2 0.3 0.40
5
10
15
20
value
dens
ity
Chain
1
2
Figura 3.4: Grá�co da densidade e histórico das cadeias dos parâmetros θ, α1, σ21 e β2,
para os dados simulados do Modelo 1.1.
3.2.3 Mecanismo de não-resposta ignorável
Um modelo hierárquico em que o mecanismo de não-resposta é ignorável pode ser
obtido através do modelo descrito em (3.12) e (3.13) quando ν2i = 0 ∀i, assim o Modelo
0 que descreve os dados utilizando uma variável auxiliar é dado por:
yij = β1 + νi + β2 aij + eij (3.15)
Com eij | σ2 ∼ N(0, σ2), νi | δ2 ∼ N(0, δ2), σ−2, δ−2 ∼ Gamma(0.01, 0.01),
β1, β2 ∼ Unif(−∞,+∞).
Para testar se ν2i = 0 observa-se o respectivo intervalo de credibilidade e no caso em
que o valor zero esteja contido no intervalo se diz que o mecanismo de não-resposta é
ignorável.
18
3.3 Modelos com efeitos aleatórios questionáveis
Existem varias técnicas para avaliar a inclusão de parâmetros em um modelo. Para o
modelo de regressão Mitchell and Beauchamp (1988) de�nem mediante o enfoque baye-
siano a distribuição spike and slab, um tipo de distribuição a priori para cada coe�ciente
de regressão. Esta é de�nida como sendo uma mistura de uma distribuição degenerada
em zero (spike) e uma distribuição uniforme difusa em outra parte (slab). O objetivo
principal é calcular as probabilidades a posteriori dos diferentes modelos que incluem
ou não os diferentes parâmetros para escolher assim o "melhor" submodelo, permitindo
também o cálculo da probabilidade a posteriori de que o parâmetro seja igual a zero.
Gonçalves (2006) de�ne uma metodologia aplicada à Teoria de Resposta ao Item
(TRI), para determinar quais itens possuem funcionamento diferencial do item (DIF).
Em outras palavras, consideraram a hipótese de que alguns itens possam ter um compor-
tamento diferente dentro de dois ou mais grupos. Para o parâmetro relacionado ao DIF,
é considerada uma distribuição a priori do tipo point-mass mixture. Com probabilidade
1 − p do parâmetro ter uma distribuição degenerada em zero e com probabilidade p de
ter uma distribuição contínua. A partir da média a posteriori de p é determinado se o
item tem DIF.
A função dos efeitos aleatórios na modelagem é importante, pois estes levam em
conta a falta de ajuste do modelo para a variável de interesse. Datta and Mandal (2011)
demonstraram que se a escolha das variáveis auxiliares for adequada, o ajuste da variável
resposta através destas determina a exclusão dos efeitos aleatórios no modelo de pequenas
áreas. Os autores de�nem um teste de hipótese no qual a hipótese nula é representada
por um modelo sem efeitos aleatórios. A estatística de teste está baseada no ajuste de
um modelo que leva em conta só as variáveis auxiliares.
Datta and Mandal (2015) de�nem uma distribuição do tipo spike and slab para os
efeitos aleatórios no modelo hierárquico de pequenas áreas de (Fay and Herriot; 1979)
da seguinte forma: com probabilidade (1 − π) o efeito aleatório é omitido (distribuição
degenerada em zero) para qualquer área e com probabilidade π o efeito aleatório tem uma
distribuição não degenerada normal. Esta metodologia é proposta baseada no enfoque de
Datta and Mandal (2011). Neste caso os efeitos aleatórios podem ser excluídos só para
algumas áreas e não necessariamente para todas.
19
3.3.1 Modelo de Fay and Herriot e distribuição spike and slab
Nas pesquisas amostrais são calculados estimadores e quantidades populacionais a
partir dos valores da amostra obtida. Isto pode ser feito através do uso dos pesos amos-
trais expandindo os valores observados ou mediante a modelagem da variável de interesse.
Na estatística clássica é feita uma estimação dos valores não observados e na estatística
Bayesiana são calculadas as distribuições preditivas para as unidades não amostrais.
Algumas vezes é de interesse o cálculo de indicadores para algumas áreas ou grupos
especí�cos, chamados domínios. O tamanho da amostra é calculado para obter um nível
de precisão aceitável na estimação das quantidades populacionais, mas é possível que
o tamanho das unidades observadas para alguns domínios seja pequeno para realizar
estimações con�áveis. As áreas com esse tipo de condições são denominadas de pequenas
áreas.
Seja Yi o estimador baseado no desenho para a área i para a variável de interesse Y
e xi a variável auxiliar correspondente. Fay and Herriot (1979) introduziram um modelo
para pequenas áreas baseado nos estimadores diretos da seguinte forma:
Yi = θi + ei, θi = xtiβ + νi, i = 1, . . . , l. (3.16)
Com ei ∼ N(0, Di) νiind∼ N(0, σ2
ν)
Onde θi é uma medida resumo da caraterística a estimar para a área i, ei é o erro
amostral do estimador Yi, νi é o efeito aleatório da área. Note que neste modelo todas
as áreas possuem um efeito aleatório associado.
Datta and Mandal (2015) propõem o seguinte modelo baseado no modelo de Fay and
Harriot. Assume-se que algumas áreas poderiam não ter efeito de área, sobre o enfoque
Bayesiano o modelo é de�nido como segue:
1. Condicional a θ1, . . . , θl, δ1, . . . , δl, ν1, . . . , νl, p, β e σ2ν os estimadores diretos
Yiind∼ N(θi, Di).
2. Condicional a δ1, . . . , δl, ν1, . . . , νl, p, β e σ2ν , θi é dado por:
θi = xtiβ + δiνi
e δ1, . . . , δl independentes e identicamente distribuídos com
P (δi = 1) = π = 1− P (δi = 0)
20
Condicional a δ1, . . . , δl e σ2ν os efeitos aleatórios ν1, .., νl são independentes e identi-
camente distribuídos com νi = 0 quando δi = 0 e condicional a δi = 1, νiind∼ N(0, σ2
ν)
para i = 1, . . . , l.
3. A priori os hiperparâmetros β, σ2ν , π são independentemente distribuídos
P (β, σ2ν , π) = P (σ2
ν)P (π)P (β).
Atribuindo-se as seguintes distribuições a priori : uniforme imprópria para β, σ2ν ∼
InvGama(b, a) e p ∼ Beta(c, d).
Neste modelo tem-se suposto que o Di é conhecido, para algumas áreas. É necessário
adicionar um efeito aleatório de área normal e é pouco provável que todas as áreas
precisam deste efeito.
Seja y = (y1, . . . , yl), ν = (ν1, . . . , νl)t, δ = (δ1, . . . , δl)
t, D = diag(D1, . . . , Dl), X =
(x1, . . . , xm)t, γ−i = (γ1, . . . , γi−1, γi+1, . . . , γl). A distribuição a posteriori conjunta de
todos os parâmetros a partir do modelo de�nido anteriormente é dada por:
f(β, δ,ν, σ2ν , π | y) ∝
l∏i=1
[exp
{−(yi − xt
iβ − δi νi)2
2Di
}]×
l∏i=1
[1
σνexp
{−ν2i2σ2
ν
}]δi[I(νi = 0)]1−δi
× pc−1(1− p)d−1 ×l∏
i=1
[πδi(1− π)1−δi
]× σ−(b+1)
ν exp
{−aσ2ν
}Para a estimação das distribuições a posteriori, o algoritmo de Gibbs é usado. As condi-
cionais completas são dadas por:
1. β | ν, δ, p, σν2 ,y ∼ N((XtD−1X)−1XtD−1(y − δ · ν), (XtD−1X)−1), com
δ · ν = (δ1 ν1, . . . , δl νl)t
2. νi | ν−i, δ,β, p, σν ,y é degenerada em zero se δi = 0, se δi = 1 temos:
νi | ν−i, δi = 1, δ−i, β, p, σν ,y ∼ N
(σ2ν
σ2ν +Di
(yi − xi β),σ2ν Di
σ2ν +Di
)3. P (δi = 1 | ν, δ−i, β, p, σ
2ν , y) = π
π+(1−π)√σ2ν+DiDi
exp
{(yi−x
ti β)
2 σ2ν
2Di (Di+σ2ν )
}
4. σ2ν | ν, δ, β, p, y ∼ InvGamma
(b+ 1
2
∑li=1 δi, a+ 1
2
∑li=1 δi ν
2i
)Para mais detalhes sobre o cálculo de P (δi = 1 | ν, δ−i, β, p, σ
2ν , y) e a demostração
de que a distribuição a posteriori de β é propria ver Datta and Mandal (2015).
21
Capítulo 4
Modelo proposto: modelo de
não-resposta não ignorável com
distribuição spike and slab
Na Seção 3.2.3 foi de�nido um modelo com mecanismo de não-resposta ignorável
baseado no modelo apresentado em Liu (2003). Para avaliar a hipótese de ν2i = 0, é
sugerido fazer uma análise dos intervalos de credibilidade dos efeitos aleatórios, sendo
de�nida a seguinte regra: se o intervalo contém o zero o efeito é não signi�cativo e assim
o mecanismo de não-resposta que esta associado a este é ignorável.
Baseado no modelo hierárquico de não-resposta não ignorável apresentado em Nan-
dram and Choi (2005) e o modelo de Fay and Herriot e distribuição spike and slab
apresentado por e Datta and Mandal (2015), é proposto um modelo de não-resposta não
ignorável com distribuição spike and slab. A idéia principal do modelo proposto nesta
dissertação de mestrado é modi�car a distribuição a priori dos efeitos ν2i, anteriormente
de�nida como, ν2i ∼ N(0, σ22), por uma distribuição a priori spike and slab.
4.1 O modelo
O modelo de não-resposta não ignorável com distribuição spike and slab Modelo 2
é de�nido em duas etapas da seguinte forma:
• Etapa 1:
rij|α1, α2, σ2η ∼ Bernoulli
(exp(α1 + α2 bij + ηi)
1 + exp(α1 + α2 bij + ηi)
)22
Com ηi ∼ N(0, σ2n), σ−2η ∼ Gamma(a, b), α1, α2 ∼ N(0, k)
• Etapa 2:
yij = β1i + (β2 + ν2i rij δi) aij + eij i = 1, ..., l. e j = 1, ..., ni (4.1)
Com eij | σ2e ∼ N(0, σ2
e), β1i | σ21 ∼ N(θ, σ2
1), β2 ∼ N(0, w)
σ−2e , σ−21 , σ−22 ∼ G(a, b), θ ∼ N(0, k), δi | π ∼ Bern(π), π ∼ Beta(c, d)
ν2i ∼ (1− π) I{0}(ν2i) + π N(0, σ22)
A probabilidade a posteriori de δi = 1 de�ne se na área i o efeito aleatório ν2i é
incluído, assumindo assim que existe diferença no mecanismo de não-resposta desta área.
Logo existem áreas nas quais o mecanismo de não-resposta é ignorável e outras nas quais
é não ignorável. Para uma população com este tipo de comportamento, seria inadequado
assumir um modelo de não-resposta no qual se de�ne que todas as áreas têm o mesmo
tipo de mecanismo.
4.2 Estimação
A distribuição a posteriori conjunta dos parâmetros de interesse para o modelo pro-
posto anteriormente é dada por:
p(ν2i,α,β, π,σ2, δ,ymis | yobs, r) ∝
l∏i=1
ni∏j=1
[1
σeexp
{−(yij − β1i − β2 aij − ν2i rij δi aij)2
2σ2e
}]
×l∏
i=1
[1
σ1exp
{−(β1i − θ)2
2σ21
}[1
σ2exp
{−ν22i2σ2
2
}]δi[I(ν2i = 0)]1−δi
]
×l∏
i=1
ni∏j=1
[exp{(α1 + α2 bij + ηi) rij}1 + exp{α1 + α2 bij + ηi}
]× exp
{−β2
2
2w
}× exp
{−θ2
2 k
}
×l∏
i=1
[πδi(1− π)1−δi × 1
σ2η
exp
{−η2i2σ2
}]× πc−1(1− π)d−1
× exp{−α2
1
2 k
}× exp
{−α2
2
2 k
}×(
1
σ22
)a−1exp
{−bσ22
}×(
1
σ2e
)a−1×(
1
σ2η
)a−1exp
{−bσ2η
}×(
1
σ21
)a−1exp
{−bσ21
}× exp
{−bσ2e
}23
A estimação da distribuição a posteriori dos parâmetros foi feita utilizando o algor-
timo de Gibbs com paso de Metropolis. As condicionais completas são dadas por:
1. yij(mis) | ν2i, β, rij, σe, δi ∼ N(β1i + β2 aij + ν2i rij δi aij, σ2e)
2. β1i | ν2i, β2, θ, rij, σ2e , σ
21, δi ∼ N
((∑nij=1(yij −β2 aij −ν2i rij δi aij)
σ2e
+ θσ21
)(σ21 σ
2e
σ2e+σ
21ni
),
σ2e σ
21
(σ2e+σ
21ni)
)3. Se δi = 0 então p(ν2i = 0) = 1, Se δi = 1 então:
ν2i | β, rij, σ2e , σ
22, δi ∼ N
(ni∑j=1
(yij − β2 aij − β1i) (rij δi aij)
σ2e
(∑nij=1(rij δi aij)
2
σ2e
+1
σ22
)−1,
σ2eσ
22∑ni
j=1(rij δi aij)2σ2
2 + σ2e
)
4. Para β2:
β2 | ν2i, β1i, rij, σ2e , δi ∼ N
(l∑
i=1
ni∑j=1
aij(yij − ν2i rij δi aij − β1i)
(w
w∑l
i=1
∑nij=1 a
2ij + σ2
e
),
σ2ew
w∑l
i=1
∑nij=1 a
2ij + σ2
e
)
5. θ | β1i, σ21 ∼ N
(∑li=1 β1i
(k
lk+σ21
),kσ2
1
lk+σ21
)6. p(α1, α2 | η, r) ∝
∏li=1
∏nij=1
[exp{(α1+α2 aij+ηi) rij}1+exp{α1+α2 aij +ηi}
]× exp
{−α2
1
2k
}× exp
{−α2
2
2k
}7. p(ηi | α1, α2, r, σ
2η) ∝
∏nij=1
[exp{(α1+α2 aij+ηi) rij}1+exp{α1+α2 aij +ηi}
]× exp
{−η2i2σ2
η
}8. π | δ ∼ Beta
(∑li=1 δi + c, l + d−
∑li=1 δi
)9. σ−22 | δ, ν2i ∼ Gamma
(∑li=1
δi2
+ a,∑li=1 δi ν
22i
2+ b)
10. σ−2e | β, ν2i, r, δ ∼ Gamma(n2
+ a,∑l
i=1
∑nij=1
(yij −β1i−β2 aij −ν2i rij δi aij)22
+ b)
11. σ−21 | β1i, θ ∼ Gamma(l2
+ a,∑l
i=1(β1i− θ)2
2+ b)
12. σ−2η | η ∼ Gamma(l2
+ a,∑l
i=1η2i2
+ b)
24
13. p(δi = 1 | β1i, β2, σ2e , σ
22, r, y) = π
π+(1−π)
∏nij=1
1√2πσe
exp
{−(yij −β1i −β2 aij)2
2σ2e
}∏nij=1
1√2π(σ2e+σ
22 (aij rij)
2)exp
{−(yij −β1i −β2 aij)2
2(σ2e+σ22 (aij rij)
2)
}
O cálculo detalhado das condicionais completas de 2 - 12 se encontra no Apéndice B. Para
o cálculo de p(δi = 1 | β1i, β2, σ2e , σ
22, r, y) é preciso calcular a distribuição condicional de
yij | β, σ2e , σ
22, rij. De (4.1) temos o seguinte:
E[yij | β, σ2e , σ
22, rij] = Eδi, ν2i
[E[yij | β, σ2
e , σ22, rij, δi, ν2i]
]= Eδi, ν2i [β1i + β2 aij + ν2i δi aij]
= β1i + β2 aij ∀ δi
(4.2)
Sabe-se que :
V [yij | β, σ2e , σ
22, rij] =Eδi, ν2i
[V [yij | β, σ2
e , σ22, rij, δi, ν2i]
]+
Vδi, ν2i[E[yij | β, σ2
e , σ22, rij, δi, ν2i]
] (4.3)
Calculando os termos em (4.3):
Vδi, ν2i[E[yij | β, σ2
e , σ22, rij, δi, ν2i
]= Vδi, ν2i [β1i + β2 aij + ν2i δi aij]
=
(aijrij)2σ2
2 se δi = 1
0 se δi = 0
(4.4)
Eδi, ν2i[V [yij | β, σ2
e , σ22, rij, δi, ν2i]
]= Eδi, ν2i [σ
2e ] = σ2
e ∀ δi (4.5)
Assim obtem-se :
V [yij | β, σ2e , σ
22, rij] =
(aijrij)2σ2
2 + σ2e se δi = 1
σ2e se δi = 0
(4.6)
25
Seja ε = (β1i, β2, σ2e , σ
22, rij), usando o teorema de Bayes e as expressões obtidas em
(4.2) e (4.6) obtém-se:
P (δi = 1 | ε, y) =P (δi = 1; ε, y)
P (ε, y)
=P (ε, y | δi = 1)P (δi = 1)
P (ε, y)
=P (ε, y | δi = 1)P (δi = 1)
P (ε, y | δi = 1)P (δi = 1) + P (ε, y | δi = 0)P (δi = 0)
=π
π + (1− π)P (ε,y|δi=0)P (δi=0)P (ε,y|δi=1)P (δi=1)
=π
π + (1− π)
∏nij=1
1√2πσe
exp
{−(yij −β1i −β2 aij)2
2σ2e
}∏nij=1
1√2π(σ2e+σ
22 (aij rij)
2)exp
{−(yij −β1i −β2 aij)2
2(σ2e+σ22 (aij rij)
2)
}
4.3 Estudo de simulação
Com o objetivo de estudar o desempenho do modelo proposto na equação (4.1), foi
feito um estudo de simulação para veri�car a recuperação dos parâmetros.
Foram gerados N = 14513 dados para l = 27 áreas com os seguintes parâmetros:
yij = β1i + (0.03 + ν2i rij δi) aij + eij i = 1, ..., 27. e j = 1, ..., ni (4.7)
Com eij ∼ N(0, 225.6), δi ∼ Bernoulli(0.7)
ν2i ∼ 0.3 I{0}(ν2i) + 0.7N(0, 0.1)
rij ∼ Bernoulli
(exp{1.8 + 0.02 aij + ηi}
1 + exp{1.8 + 0.02 aij + ηi}
)
β1i ∼ N(71, 6.6), ηi ∼ N(0, 0.2)
Gerando uma taxa de não-resposta em torno de 10% em cada área. Um dos objetivos
é veri�car se o modelo consegue identi�car em quais áreas o efeito aleatório ν2i deve ser
incluído.
Para a estimação da distribuição a posteriori dos parâmetros foram geradas duas
cadeias, cada uma de tamanho 3000, descartando as primeiras 1000 do período de aque-
cimento e tomando os valores a cada 50 iterações. Na Figura 4.1 são exibidos os grá�cos
26
do histórico das cadeias e o grá�co da densidade dos parâmetros β2, θ, α1, σ21 e π. Pode-
se observar que as cadeias parecem convergir, as estimações estâo próximas da linha azul
tracejada que indica o valor real do parâmetro.
β2
1000 26000 51000 76000 101000−0.10−0.05
0.000.05
Iteration
valu
e
Chain
1
2
β2
−0.10 −0.05 0.00 0.0505
10152025
value
dens
ity
Chain
1
2
θ
1000 26000 51000 76000 101000
68
70
72
Iteration
valu
e
Chain
1
2
θ
68 70 720.0
0.2
0.4
0.6
value
dens
ity
Chain
1
2
α1
1000 26000 51000 76000 101000
1.61.82.02.2
Iteration
valu
e
Chain
1
2
α1
1.6 1.8 2.0 2.20
1
2
3
value
dens
ityChain
1
2
σ2
1000 26000 51000 76000 101000
10
20
30
Iteration
valu
e
Chain
1
2
σ2
10 20 300.00
0.05
0.10
value
dens
ity
Chain
1
2
π
1000 26000 51000 76000 101000
0.40.60.81.0
Iteration
valu
e
Chain
1
2
π
0.4 0.6 0.8 1.00
1
2
3
value
dens
ity
Chain
1
2
Figura 4.1: Grá�co da densidade e histórico das cadeias dos parâmetros β2, θ, α1, σ21 e
π, para os dados simulados do Modelo 2.
Na Tabela 4.1 encontram-se as probabilidades a posteriori de δi = 1. Pode-se ob-
servar que o modelo consegue recuperar os valores reais exceto para três áreas, quando
de�nimos a seguinte regra, se a probabilidade a posteriori de δi = 1 é maior do que 0.4
então atribuímos δi = 1.
27
Parâm. Prob. ap Sim Parâm. Prob. ap Sim Parâm. Prob. ap Sim
δ1 0.3 0 δ10 1 1 δ19 1 1
δ2 0.4 0 δ11 0.4 0 δ20 0.4 0
δ3 0.5 1 δ12 1 1 δ21 0.4 1
δ4 0.7 1 δ13 0.3 0 δ22 1 1
δ5 1.0 1 δ14 0.3 0 δ23 1 1
δ6 1.0 1 δ15 0.3 0 δ24 0.3 1
δ7 1.0 1 δ16 0.7 0 δ25 1 1
δ8 1.0 1 δ17 0.3 0 δ26 0.3 0
δ9 0.3 0 δ18 1 1 δ27 0.4 0
Tabela 4.1: Sumários da probabilidade a posteriori (Prob. ap) de δi = 1 e os valores
simulados (Sim) para cada δi, para os dados simulados do Modelo 2.
28
Capítulo 5
Aplicação a dados reais
5.1 Terceira Pesquisa Nacional de Saúde e da Nutrição
(NHANES III 1988-1994)
Neste capítulo apresenta-se uma aplicação do modelo proposto no Capítulo 4 aos
dados da terceira Pesquisa Nacional de Saúde e Nutrição (NHANES III). O conjunto de
dados analisados é formado pelo índice de massa corporal (IMC) e a idade de crianças
e adolescentes dos municípios dos Estados Unidos com uma população maior do que
500000.
O desenho amostral é multietápico e estrati�cado. Na primeira etapa é feita uma
entrevista geral dos integrantes do domicílio. Na segunda etapa é selecionada uma amos-
tra de pessoas maiores de dois anos para realizar um exame no centro médico. Nesta
etapa ocorre a não-resposta pois alguns indivíduos não participam do exame, a taxa de
não-resposta está em torno de 10%.
O Centro Nacional de Estatísticas de Saúde (NCHS) forneceu os dados usados nesta
aplicação e foram baixados de seu site1. Estes dados foram analisados por Nandram and
Choi (2005), onde propuseram uma abordagem de modelos de não-resposta não ignorável
de seleção e de mistura de padrões. Os autores supõem que o tipo de mecanismo de não-
resposta é o mesmo para todos os estados.
Cohen and Du�y (2002) apontam que a propensão de resposta em estudos de saúde
depende do estado de saúde. Baseado nesse suposto propomos ummodelo de não-resposta
não ignorável spike and Slab para o IMC das crianças e adolescentes de 2 a 19 anos de
idade. Neste modelo o mecanismo de não-resposta pode ser diferente em cada área
1https://www.cdc.gov/nchs/nhanes/nhanes3.htm
29
(estado).
5.1.1 Modelo de não-resposta ignorável
Inicialmente foi ajustado um modelo hierárquico ignorável para os dados, seja yij o
IMC, aij a idade do indivíduo, o modelo pode ser descrito por:
yij = β1i + β2 aij + eij i = 1, . . . , 31. e j = 1, . . . , ni (5.1)
Com eij | σ2e ∼ N(0, σ2
e), β1i,∼ N(θ, σ21), β2 ∼ N(0, 10), θ ∼ N(0, 100)
σ−2e , σ−21 ∼ Gamma(0.01, 0.01)
Para a estimação dos parâmetros foi usado o algoritmo de Gibbs com duas cadeias de
tamanho 3000. Cada uma com um período de aquecimento de 1000 e tomando os valores
a cada 20 iterações. A análise do grá�co das cadeias dos parâmetros foi realizada e se
observou um comportamento que indica convergência. Além disso foi calculado o critério
de convergência Geweke. O método divide a cadeia em dos grupos. A primeira cadeia
é obtida tomando-se uma porcentagem do inicio da cadeia e a segunda tomando-se uma
porcentagem do �nal. A idéia é comparar as médias desses grupos. Se a cadeia converge
as médias serão próximas. O critério para a comparação é baseado na distribuição normal
das diferenças das médias. Para mais detalhes ver Geweke (1992).
Na Figura 5.1 observam-se os valores do critério de convergência para os parâmetros
β2, θ e σ21. Estes encontram-se entre -2 e 2, o que indica que as cadeias convergiram.
Nesta Figura também encontram-se as autocorrelações das cadeias para veri�car a in-
dependência dos valores gerados. Na Tabela 5.1 apresentam-se as estatísticas resumo
para os parâmetros β2, θ, σ2e e σ2
1 do modelo. A média a posteriorii do parâmetro β2
indica que o IMC aumenta conforme a idade aumenta. A média geral do IMC para os
indivíduos de todos os estados é de 14.
30
●●β2
−2 −1 0 1 2
z
Par
amet
er Chain●
●
1
2
Geweke Diagnostics 1 2
β2
0 10 20 30 40 50 0 10 20 30 40 50
−1.0
−0.5
0.0
0.5
1.0
Lag
Aut
ocor
rela
tion
Chain
1
2
●●θ
−2 −1 0 1 2
z
Par
amet
er Chain●
●
1
2
Geweke Diagnostics 1 2
θ
0 10 20 30 40 50 0 10 20 30 40 50
−1.0
−0.5
0.0
0.5
1.0
Lag
Aut
ocor
rela
tion
Chain
1
2
●●σ2
−2 −1 0 1 2
z
Par
amet
er Chain●
●
1
2
Geweke Diagnostics 1 2
σ2
0 10 20 30 40 50 0 10 20 30 40 50
−1.0
−0.5
0.0
0.5
1.0
Lag
Aut
ocor
rela
tion
Chain
1
2
Figura 5.1: Dados NHANES III. Modelo ignorável: critério de convergência de Geweke
e autocorrelação para os parâmetros β2, θ e σ21.
Parâm. Média Desv. I.C. 95%
β2 0.5 0.009 (0.49, 0.53)
θ 14 0.1 (13.7, 14.2)
σ2e 12.1 0.2 (11.7, 12.6)
σ21 0.2 0.1 (0.1, 0.4)
Tabela 5.1: Dados NHANES III. Modelo ignorãvel: média, desvio padrão (Desv.) e
intervalo de 95% de credibilidade (I.C) para os parâmetros β2, θ, σ2e e σ
21.
5.1.2 Modelo de não-resposta não ignorável e distribuição spike
and slab
Baseado no suposto de que pessoas menos saudáveis não participam do exame. De�-
nimos yij o IMC, aij a idade do indivíduo, rij = 1 se o indivíduo realiza o exame, rij = 0
caso contrario. O modelo de não-resposta não ignorável e distribuição spike and slab é
de�nido como:
yij = β1i + (β2 + ν2i rij δi) aij + eij i = 1, . . . , 31. e j = 1, . . . , ni (5.2)
31
Com eij | σ2e ∼ N(0, σ2
e), δi | π ∼ Bernoulli(π)
ν2i ∼ (1− π) I{0}(ν2i) + π N(0, σ22)
rij|α1, α2, ση ∼ Bernoulli
(exp(α1 + α2 aij + ηi)
1 + exp(α1 + α2 aij + ηi)
)
β1i | σ21 ∼ N(θ, σ2
1), ηi ∼ N(0, σ2n) β2 ∼ N(0, 10), σ−2e , σ−21 , σ−22 , σ−2η ∼ Gamma(0.01, 0.01)
θ, α1, α2 ∼ N(0, 100), π ∼ Beta(3, 4)
Neste modelo tem-se o suposto de que em cada área pode-se ter um mecanismo de
não-resposta diferente, ou seja, ignorável ou não. A decisão de que tipo de mecanismo
tem cada área está baseada na probabilidade a posteriori de δi = 1. Para a estimação
dos parâmetros foi usado o algoritmo de Gibbs com duas cadeias de tamanho 3000. Cada
uma com um período de aquecimento de 1000 e tomando-se os valores a cada 20 iterações.
Analisando-se o grá�co das cadeias dos parâmetros, conclui-se que a convergência foi
atingida. Nas Figuras 5.2 e 5.3 observam-se os valores do critério de convergência Geweke
para os parâmetros α1, α2, θ, δi e π. Estes se encontram entre -2 e 2, o que indica que
as cadeias convergiram. Na Figura 5.2 também são apresentadas as autocorrelações das
cadeias para veri�car a independência dos valores gerados.
●●
● ●
α1
α2
−2 −1 0 1 2
z
Par
amet
er Chain●
●
1
2
Geweke Diagnostics 1 2
α1
α2
0 10 20 30 40 50 0 10 20 30 40 50
−1.0−0.5
0.00.51.0
−1.0−0.5
0.00.51.0
Lag
Aut
ocor
rela
tion
Chain
1
2
●●θ
−2 −1 0 1 2
z
Par
amet
er Chain●
●
1
2
Geweke Diagnostics 1 2
θ
0 10 20 30 40 50 0 10 20 30 40 50
−1.0
−0.5
0.0
0.5
1.0
Lag
Aut
ocor
rela
tion
Chain
1
2
●●π
−2 −1 0 1 2
z
Par
amet
er Chain●
●
1
2
Geweke Diagnostics 1 2
π
0 10 20 30 40 50 0 10 20 30 40 50
−1.0
−0.5
0.0
0.5
1.0
Lag
Aut
ocor
rela
tion
Chain
1
2
Figura 5.2: Dados NHANES III. Modelo não ignorável spike and slab: critério de con-
vergência de Geweke para os parâmetros α1, α2, θ e π.
32
●●
●●
●●
●●
●●
●●
●●
●●
●●
●●
● ●
●●
●●
●●
●●
●●
●●
●●
● ●
● ●
●●
●●
●●
●●
●●
● ●
● ●
●●
●●
●●
● ●
δ1
δ2
δ3
δ4
δ5
δ6
δ7
δ8
δ9
δ10
δ11
δ12
δ13
δ14
δ15
δ16
δ17
δ18
δ19
δ20
δ21
δ22
δ23
δ24
δ25
δ26
δ27
δ28
δ29
δ30
δ31
−2 −1 0 1 2
z
Par
amet
er Chain●
●
1
2
Geweke Diagnostics
Figura 5.3: Dados NHANES III. Modelo não ignorável spike and slab: critério de con-
vergência de Geweke e autocorrelação para os parâmetros δi.
Na Tabela 5.2 apresentam-se as estatísticas resumo para os parâmetros do modelo.
As médias a posteriori dos parâmetros β2, θ e σ2e são similares as médias obtidas no
modelo ignorável. Analisando-se os resultados do modelo de não-resposta temos que o
parâmetro α2 indica que a chance de responder aumenta quando a idade aumenta. Na
Tabela 5.3 encontram-se a probabilidade a posteriori dos parâmetros δi = 1. Também
encontram-se os valores atribuídos a posteriori para cada δi a partir da seguinte regra: se
a probabilidade a posteriori de δi = 1 é maior do que 0.4 então δi = 1. Pode-se observar
que existe diferença entre os valores para cada estado. Isto con�rma o suposto de que o
mecanismo de não-resposta é diferente em cada estado.
Parâm. Média Desv. I.C. 95%.
α1 -2.2 0.1 (-2.5, -1.9)
α2 1.1 0.04 (1, 1.2)
β2 0.5 0.02 (0.48, 0.52)
θ 14 0.1 (13.8, 14.2)
σ2e 12.1 0.2 (11.6, 12.6)
Tabela 5.2: Dados NHANES III. Modelo não ignorável: média, desvio padrão (Desv.) e
intervalo de 95% de credibilidade (I.C) para os parâmetros β2, θ, σ2e α2 e α1.
33
Parâm. Prob.ap Valor Parâm. Prob.ap Valor Parâm. Prob.ap Valor
δ1 0.9 1 δ10 0.6 1 δ19 0.6 1
δ2 0.5 1 δ11 0.4 0 δ20 0.5 1
δ3 0.4 0 δ12 0.4 0 δ21 0.6 1
δ4 0.4 0 δ13 0.5 1 δ22 0.4 0
δ5 0.4 0 δ14 0.6 1 δ23 0.4 0
δ6 0.4 0 δ15 0.8 1 δ24 0.9 1
δ7 0.9 1 δ16 0.8 1 δ25 0.9 1
δ8 0.4 0 δ17 0.5 1 δ26 0.5 1
δ9 0.4 0 δ18 0.4 0 δ27 0.5 1
Tabela 5.3: Dados NHANES III. Sumários da média da probabilidade a posteriori (Prob.
ap) de δi = 1 e os valores atribuídos para cada δi (Valor).
Na Figura 5.4 observam-se para alguns estados os intervalos de 95% de credibilidade
para δi ν2i, acima de cada intervalo encontra-se a probabilidade a posteriori de δi =
0. Pode-se observar que a maioria dos intervalos contém o zero e nesses estados tem-
se atribuído a posteriori δi = 0. Nos estados 1 e 7 tem-se atribuído δi = 1 pois a
probabilidade a posteriori de δi = 0 é de 0.1, assim nesses estados teríamos um mecanismo
de não-resposta não ignorável. Para o estado 15 o valor zero está no extremo do intervalo,
e a distribuição de δ15 ν2,15 tem uma massa de probabilidade pequena 0.2 para ν2,15 = 0.
Logo temos diferentes mecanismos de não-resposta entre os estados.
34
●
● ● ● ● ●
●
● ●
0.1
0.5
0.6
0.6
0.6
0.6
0.6
0.6
0.1
−0.10
−0.05
0.00
0.05
0.10
ν 7 ν 2 ν 3 ν 4 ν 5 ν 6 ν 8 ν 9 ν 1
Parameter
HP
D
Figura 5.4: Dados NHANES III. Modelo não ignorável spike and slab: intervalos de 95%
de credibilidade para δi ν2i e probabilidade a posteriori de ν2i = 0.
35
●
0.2
−0.10
−0.05
0.00
ν 15
Parameter
HP
D
Figura 5.5: Dados NHANES III. Modelo não ignorável spike and slab: intervalo de 95%
de credibilidade para δ15 ν2,15 e probabilidade a posteriori de ν2,15 = 0
5.1.3 Comparação de modelos
Critério de informação do desvio DIC
O critério de informação do desvio DIC de�nido em Spiegelhalter and et al. (2002)
pode ser escrito da seguinte forma:
DIC = D + Pd (5.3)
Onde D(θ) é a função desvio calculada utilizando-se a função de log-verosimilhança,
Pd o "número efetivo de parâmetros" dado pela diferença da média a posteriori da função
desvio e a função desvio das médias a posteriori dos parâmetros. Sejam θ(1), ..., θ(M) os
valores gerados utilizando MCMC, as expressões destas medidas são dadas por:
D = E(D(θ) | Y ) ' 1
M
M∑k=1
D(θ(k)), Pd = D −D(θ∗)
D(θ) = − 2 lnf(y | θ), D(θ∗) ' D(θ)
θ =1
M
M∑k=1
θ(k)
36
Na Tabela 5.4 encontra-se o valor do DIC para os modelos ignorável (5.1) e não
ignorável (5.2). Comparando-se os valores, pode-se dizer que o modelo que ajusta melhor
aos dados é o modelo não ignorável com distribuição spike and slab, pois seu DIC (valor
em azul e em negrito) é menor. Isto con�rma que o mecanismo de não-resposta é não
ignorável e existe diferença entre os mecanismos de não-resposta em cada estado.
Modelo Dbar Pd DIC
Modelo 2 31358.54 605.62 31964.16
Modelo 0 31368.68 634.28 32002.96
Tabela 5.4: Dados NHANES III. Critério de seleção de modelo DIC. Modelo 2: modelo
não ignorável com distribuição spike and slab. Modelo 0: modelo ignorável.
Gelman and Hill (2007) descrevem alguns dos problemas resultantes na utilização do
cálculo do DIC para modelos hierárquicos, especi�camente com respeito ao termo Pd
que é instável. Celeux and et al. (2006) abordam a necessidade do cálculo de um DIC
ajustado no caso de dados faltantes. Portanto há a necessidade de se utilizar um outro
critério para a comparação dos modelos ajustados, neste trabalho foi escolhido o Critério
preditivo a posteriori.
Critério preditivo a posteriori
Gelfand and Ghosh (1998) de�nem o critério preditivo a posteriori, cujo objetivo
é obter boas predições dos dados observados. Este é obtido minimizando a perda a
posteriori e é calculado a partir de um termo de bondade de ajuste (G) e um termo de
penalidade (P) descritos da seguinte forma:
Dk = P +k
k + 1G (5.4)
P =∑
ij V ar(ypreij | y), G =
∑ij
{E(ypreij | y)− yobsij
}2Onde ypreij são as previsões ou réplicas de yij e y são os valores da amostra. No caso da
presença de não-resposta, estas medidas são calculadas só para os valores não faltantes
depois de ajustar o modelo de não-resposta.
37
Para os dados da aplicação �xamos k = 100. Na Tabela 5.5 encontra-se o valor de
D100, P e G para o Modelo 0 (ingorável), o Modelo 1.1 (descrito em 3.14) e o Modelo
2 (descrito em 5.2). Com base nesse critério conclui-se que o Modelo 2 é o melhor pois
tem o menor valor (valor em azul e em negrito). Logo, pode-se dizer que o mecanismo
de não-resposta é não ignorável e é diferente em cada estado.
Modelo G P D100
Modelo 0 62466.07 62944.73 124792.3
Modelo 1.1 62261.05 62966.73 124611.3
Modelo 2 62284.32 62901.87 124569.5
Tabela 5.5: Dados NHANES III. Critério preditivo a posteriori para o modelo ignorável
(Modelo 0), o modelo não ignorável com distribuição spike and slab (Modelo 2) e o modelo
não ignorável (Modelo 1.1).
5.2 Pesquisa Nacional de Saúde (PNS) - Brasil 2013
O Instituto Brasileiro de Geogra�a e Estatística (IBGE) realiza a Pesquisa Nacional
de Saúde (PNS) em intervalos regulares de cinco anos com o objetivo de estudar as
características de saúde da população brasileira. A população pesquisada compreendeu
moradores dos domicílios particulares nos 27 estados do país. Um dos interesses está
em construir marcadores fundamentais para o monitoramento de um dos mais graves
problemas que se colocam, hoje, no Brasil, a epidemia de sobrepeso e obesidade, para
mais detalhes ver IBGE (2014).
Os dados foram coletados mediante uma amostragem conglomerada em três estágios
com estrati�cação das unidades primárias de amostragem(UPAs). Os domicílios são as
unidades de segundo estágio e os moradores com 18 anos ou mais de idade de�nem as
unidades de terceiro estágio. Inicialmente foi feito contacto com a pessoa responsável
ou com algum dos moradores do domicílio selecionado. Este respondeu ao questionário
domiciliar e foi elaborada uma lista de todos os moradores adultos do domicílio. Logo
foi selecionado um morador com 18 anos ou mais de idade para agendar a entrevista de
um questionário especí�co, o qual contém aferições de peso e altura. Ainda assim alguns
indivíduos não participaram e a taxa de não-resposta está em torno de 10% em cada
estado.
Um dos objetivos deste trabalho é ajustar um modelo de não-resposta não ignorável
38
para a variável índice de massa corporal (IMC) calculada a partir das aferições do peso
e a altura. Este modelo leva em conta a idade (modelo 1). O pressuposto deste modelo
é que pessoas com sobrepeso e obesidade têm menos disposição de participar do estudo.
Este pressuposto será avaliado no ajuste do modelo.
5.2.1 Modelo de não-resposta não ignorável e distribuição spike
and slab
De�nimos yij o IMC, aij a idade do indivíduo, rij = 1 se o indivíduo realiza as
aferições, rij = 0 caso contrario. O modelo de não-resposta não ignorável e distribuição
spike and slab é de�nido como na equação (5.2).
Neste modelo tem-se o suposto de que em cada área pode-se ter um mecanismo de
não-resposta diferente, ou seja, ignorável ou não. A decisão de que tipo de mecanismo
têm cada área está baseada na probabilidade a posteriori de δi. Para a estimação dos
parâmetros foi usado o algoritmo de Gibbs com duas cadeias de tamanho 3000, cada
uma com um período de aquecimento de 1000 e tomando os valores a cada 50 iterações.
Análisando-se o grá�co das cadeias dos parâmetros observando-se um comportamento
que indica convergência, ver Figura 5.8.
Nas Figuras 5.6 e 5.7 observam-se os valores do critério de convergência Geweke para os
parâmetros. A maioria destes se encontram entre -2 e 2 o que indica que essas cadeias
convergiram. Na Figura 5.2 também são apresentadas as autocorrelações das cadeias
para veri�car a independência dos valores gerados.
39
● ●
● ●
α1
α2
−2 −1 0 1 2
z
Par
amet
er Chain●
●
1
2
Geweke Diagnostics 1 2
α1
α2
0 10 20 30 40 50 0 10 20 30 40 50
−1.0−0.5
0.00.51.0
−1.0−0.5
0.00.51.0
Lag
Aut
ocor
rela
tion
Chain
1
2
●●θ
−2 −1 0 1 2
z
Par
amet
er Chain●
●
1
2
Geweke Diagnostics 1 2
θ
0 10 20 30 40 50 0 10 20 30 40 50
−1.0
−0.5
0.0
0.5
1.0
Lag
Aut
ocor
rela
tion
Chain
1
2
● ●π
−2 −1 0 1 2
z
Par
amet
er Chain●
●
1
2
Geweke Diagnostics 1 2
π
0 10 20 30 40 50 0 10 20 30 40 50
−1.0
−0.5
0.0
0.5
1.0
Lag
Aut
ocor
rela
tion
Chain
1
2
Figura 5.6: Dados PNS. Modelo não ignorável spike and slab: critério de convergência
de Geweke e autocorrelação para os parâmetros α1, α2, θ e π.
●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
●●
●●
●
● ●
● ●
● ●
● ●
● ●
●●
● ●
δ1
δ2
δ3
δ4
δ5
δ6
δ7
δ8
δ9
δ10
δ11
δ12
δ13
δ14
δ15
δ16
δ17
δ18
δ19
δ20
δ21
δ22
δ23
δ24
δ25
δ26
δ27
−3 −2 −1 0 1 2
z
Par
amet
er Chain●
●
1
2
Geweke Diagnostics
Figura 5.7: Dados PNS. Modelo não ignorável spike and slab: critério de convergência
de Geweke e autocorrelação para os parâmetros δi.
40
Na Tabela 5.6 apresentam-se as estatísticas resumo para os parâmetros do modelo.
As médias a posteriori dos parâmetros β2, θ e σ2e são similares as médias obtidas ao
se ajustar o modelo ignorável. Analisando-se os resultados do modelo de não-resposta
temos que o parâmetro α2 não parece indicar que a chance de responder aumenta quando
a idade aumenta. Além disso a média a posteriori de π é de 0.1. O que indicaria que não
existe diferença entre o mecanismo de não-resposta dos estados e pode ser considerado
ignorável.
Parâm. Média Desv. I.C.
α1 1.79 0.01 (1.6, 1.9)
α2 0.018 0.001 (0.016, 0.02)
β2 0.04 0.006 (0.02, 0.05)
θ 24.7 0.1 (24.5, 24.8)
σ2e 24.8 0.1 (24.5, 24.9)
Tabela 5.6: Dados PNS. Modelo não ignorável: média, desvio padrão (Desv.) e intervalo
de 95% de credibilidade (I.C) para os parâmetros β2, θ, σ2e α2 e α1.
β2
1000 26000 51000 76000 1010000.034
0.036
0.038
0.040
0.042
0.044
Iteration
valu
e
Chain
1
2
β2
0.034 0.036 0.038 0.040 0.042 0.0440
100
200
300
value
dens
ity
Chain
1
2
θ
1000 26000 51000 76000 101000
24.4
24.6
24.8
25.0
Iteration
valu
e
Chain
1
2
θ
24.4 24.6 24.8 25.00
1
2
3
4
value
dens
ity
Chain
1
2
α1
1000 26000 51000 76000 101000
1.50
1.75
2.00
2.25
Iteration
valu
e
Chain
1
2
α1
1.50 1.75 2.00 2.250
1
2
3
4
value
dens
ity
Chain
1
2
σ2
1000 26000 51000 76000 101000
0.1
0.2
0.3
0.4
0.5
Iteration
valu
e
Chain
1
2
σ2
0.1 0.2 0.3 0.4 0.50.0
2.5
5.0
7.5
10.0
value
dens
ity
Chain
1
2
Figura 5.8: Grá�co da densidade e histórico das cadeias dos parâmetros β2, θ, α1 e σ21
para o Modelo 2 ajustado aos dados da PNS.
41
Capítulo 6
Conclusões e trabalhos futuros
Este trabalho teve como objetivo propor um modelo hierárquico Bayesiano para a
modelagem de conjuntos de dados com observações faltantes nos quais o mecanismo de
não-resposa é não ignorável. Esta abordagem é construída a partir do modelo de mistura
de padrões apresentado por Nandram and Choi (2005) e o uso da distribuição a priori
spike and slab para os coe�cientes dos modelos de pequenas áreas de�nido em Datta and
Mandal (2015). Este modelo é capaz de identi�car que tipo de mecanismo de não-resposta
possui cada área através do cálculo da probabilidade a posteriori em cada área de ter
o efeito aleatório associado ao mecanismo de não-resposta, admitindo assim diferenças
entre as áreas.
Através de estudos simulados foram analisados os modelos apresentados como base
para a de�nição do novo modelo. Foi proposto também uma reparametrização para
acelerar a convergência no MCMC. Também foi validada a recuperação de parâmetros
para todos os modelos. Foi observado que o modelo proposto consegue identi�car se o
mecanismo de não-resposta é não ignorável para cada área.
Na aplicação aos dados reais de NHANES III constatou-se que o modelo proposto
tem melhor desempenho segundo o critério preditivo a posteriori. Portanto conclui-se
que cada área tem um mecanismo de não-resposta diferente e que a chance de participar
do exame de saúde aumenta conforme a idade aumenta.
Como trabalhos futuros propõe-se realizar a previsão das unidades não amostrais,
com o �m de calcular estimativas para pequenas áreas (estados). As estimações obti-
das através dos modelos podem ser comparadas entre elas e com as estimações baseadas
no desenho amostral. Também propõe-se realizar uma análise de sensibilidade da dis-
tribuição a priori de π, assim como da regra de corte da probabilidade a posteriori de
42
δi = 1.
43
Apêndice A
Condicionais completas do modelo não
ignorável
Amostragem de Gibbs com paso de Metrópolis para o modelo não ignora-
ble em Nandram and Choi (2005) reparametrizado
yij = β1i + (β2 + ν2i rij) aij + eij i = 1, ..., l. e j = 1, ..., ni
Com :
eij | σ2e ∼ N(0, σ2
e),
ν2i | σ22 ∼ N(0, σ2
2),
rij|α1, α2, σ2η ∼ Bernoulli
(exp(α1+α2 aij+ηi)
1+exp(α1+α2 aij+ηi)
),
ηi | σ2η ∼ N(0, σ2
η).
Com prioris:
β2 ∼ N(0, w),
β1i | θ ∼ N(θ, σ21),
σ−2e , σ−21 , σ−22 , σ−2η ∼ Gamma(a, b),
θ, α1, α2 ∼ N(0, k).
44
A distribuição a posteriori conjunta dos parâmetros de interesse é dada por:
f(ymis,β,α,σ2,ν|yobs, robs) ∝
l∏i=1
ni∏j=1
[1
σeexp
{−(yij − (β0 + ν1i + (β1 + ν2irij)aij)
2
2σ2e
}]
×l∏
i=1
ni∏j=1
[exp((α1 + α2aij + ηi)rij)
1 + exp(α1 + α2aij + ηi)
]×(
1
σ22
)a2−1
exp
(−b2σ2
2
)
×l∏
i=1
[1
σ1exp
(−ν21i2σ2
1
)× 1
σ2× exp
(−ν22i2σ2
2
)]× 1
σηexp
(−η2i2σ2
η
)
×(
1
σ2η
)a2−1
exp
(−b2σ2
η
)×(
1
σ2e
)a2−1
exp
(−b2σ2
e
)×(
1
σ21
)a2−1
exp
(−b2σ2
1
)Para os ymis(não respondentes) temos:
yij(mis) | ν, β, rij, σe ∼ N(β1i + β2 aij + ν2i rij aij, σ2e)
β1i | ... ∼ N
((∑nij=1(yij − β2 aij − ν2i rij aij)
σ2e
+θ
σ21
)(σ21 σ
2e
σ2e + σ2
1ni
),
σ2e σ
21
(σ2e + σ2
1ni)
)
ν2i | ... ∼ N
ni∑j=1
(yij − β2 aij − β1i) (rij aij)
σ2e
(∑nij=1(rij aij)
2
σ2e
+1
σ22
)−1,
σ2eσ
22∑ni
j=1(rij aij)2σ2
2 + σ2e
β2 | ... ∼ N
(l∑
i=1
ni∑j=1
aij(yij − ν2i rij aij − β1i)
(w
w∑l
i=1
∑nij=1 a
2ij + σ2
e
),
σ2ew
w∑l
i=1
∑nij=1 a
2ij + σ2
e
)
θ | ... ∼ N
(l∑
i=1
β1i
(k
lk + σ21
),
kσ21
lk + σ21
)
p(α1, α2 | ...) ∝l∏
i=1
ni∏j=1
[exp{(α1 + α2 aij + ηi) rij}1 + exp{α1 + α2 aij + ηi}
]× exp
{−α2
1
2k
}× exp
{−α2
2
2k
}
45
p(ηi | ...) ∝ni∏j=1
[exp{(α1 + α2 aij + ηi) rij}1 + exp{α1 + α2 aij + ηi}
]× exp
{−η2i2σ2
η
}
σ−22 | ... ∼ Gamma
(l
2+ a,
∑li=1 ν
22i
2+ b
)
σ−2e | ... ∼ Gamma
(n
2+ a,
l∑i=1
ni∑j=1
(yij − β1i − β2 aij − ν2i rij aij)2
2+ b
)
σ−21 | ... ∼ Gamma
(l
2+ a,
l∑i=1
(β1i − θ)2
2+ b
)
σ−2η | ... ∼ Gamma
(l
2+ a,
l∑i=1
η2i2
+ b
)
46
Apêndice B
Condicionais completas do modelo não
ignorável com distribuição spike and
slab
Amostragem de Gibbs com passo de Metrópolis para o modelo não igno-
rável com distribuição spike and slab
yij = β1i + (β2 + ν2i rij δi) aij + eij i = 1, ..., l. e j = 1, ..., ni
Onde :
eij | σ2e ∼ N(0, σ2
e),
δi | π ∼ Bernoulli(π),
ν2i ∼ (1− π)I{0}(ν2i) + π N(0, σ22),
rij|α1, α2, ση ∼ Bernoulli(
exp(α1+α2 aij+ηi)
1+exp(α1+α2 aij+ηi)
),
ηi | σ2η ∼ N(0, σ2
η).
Com prioris
β2 ∼ N(0, w),,
β1i | σ21 ∼ N(θ, σ2
1),
σ−2e , σ−21 , σ−22 , σ−2η ∼ Gamma(a, b),
47
θ, α1, α2 ∼ N(0, k),
π ∼ Beta(c, d), c=3, d=4.
A distribuição a posteriori conjunta dos parâmetros de interesse é dada por:
p(ν,α,β, π,σ, δ, ymis | yobs, r) ∝l∏
i=1
ni∏j=1
[1
σeexp
{−(yij − β1i − β2 aij − ν2i rij δi aij)2
2σ2e
}]
×l∏
i=1
[1
σ1exp
{−(β1i − θ)2
2σ21
}[1
σ2exp
{−ν22i2σ2
2
}]δi[I(ν2i = 0)]1−δi
]
×l∏
i=1
ni∏j=1
[exp{(α1 + α2 aij + ηi) rij}1 + exp{α1 + α2 aij + ηi}
]× exp
{−β2
2
2w
}× exp
{−θ2
2 k
}
×l∏
i=1
[πδi(1− π)1−δi × 1
σ2η
exp
{−η2i2σ2
}]× πc−1(1− π)d−1
× exp{−α2
1
2 k
}× exp
{−α2
2
2 k
}×(
1
σ22
)a−1exp
{−bσ22
}×(
1
σ2η
)a−1exp
{−bσ2η
}×(
1
σ21
)a−1exp
{−bσ21
}×(
1
σ2e
)a−1exp
{−bσ2e
}Para os ymis(não respondentes) temos:
yij(mis) | ν, β, rij, σe, δi ∼ N(β1i + β2 aij + ν2i rij δi aij, σ2e)
p(β1i | ...) ∝ni∏j=1
[exp
{−(yij − β2 aij − ν2i rij δi aij − β1i)2
2σ2e
}]× exp
{−(β1i − θ)2
2σ21
}
∝ exp
{−∑ni
j=1(β21i − 2(yij − β2 aij − ν2i rij δi aij)β1i)
2σ2e
− (β21i − 2 β1i θ )
2σ21
}
∝ exp
−1
2σ2e σ
21
(σ2e+σ
21ni)
[β1i −
(∑nij=1(yij − β2 aij − ν2i rij δi aij)
σ2e
+θ
σ21
)(σ21 σ
2e
σ2e + σ2
1ni
)]2Logo
β1i | ... ∼ N
((∑nij=1(yij − β2 aij − ν2i rij δi aij)
σ2e
+θ
σ21
)(σ21 σ
2e
σ2e + σ2
1ni
),
σ2e σ
21
(σ2e + σ2
1ni)
)
48
Se δi = 0 então a posteriori p(ν2i = 0) = 1
Se δi = 1 então
p(ν2i | ...) ∝ni∏j=1
[exp
{−(yij − β2 aij − ν2i rij δi aij − β1i)2
2σ2e
}]× exp
{−ν22i2σ2
2
}
∝ exp
ni∑j=1
−(ν22i (rij aij δi)2 − 2(yij − β2 aij − β1i)(rij δi aij) ν2i)
2σ2e
× exp{−ν22i2σ2
2
}
∝ exp
ni∑j=1
−(ν22i (rij aij δi)2 − 2(yij − β2 aij − β1i)(rij δi aij) ν2i)
2σ2e
−ν22i
2σ22
∝ exp
−1
2
∑nij=1(rij δi aij)
2
σ2e
+1
σ22
ν22i − ni∑j=1
2 (yij − β2 aij − β1i) (rij δi aij) ν2iσ2e
∑nij=1(rij δi aij)
2
σ2e
+1
σ22
−1
∝ exp
−1
2
(σ2eσ
22∑ni
j=1(rij δi aij)
2σ22+σ2e
)ν2i − ni∑
j=1
(yij − β2 aij − β1i) (rij δi aij)σ2e
∑nij=1(rij δi aij)
2
σ2e
+1
σ22
−12
Logo se δi = 1 temos:
ν2i | ... ∼ N
ni∑j=1
(yij − β2 aij − β1i) (rij δi aij)
σ2e
(∑nij=1(rij δi aij)
2
σ2e
+1
σ22
)−1,
σ2eσ
22∑ni
j=1(rij δi aij)2σ2
2 + σ2e
p(β2 | ...) ∝
l∏i=1
ni∏j=1
[exp
{−(yij − ν2i rij δi aij − β1i − β2 aij)
2
2σ2e
}]exp
{−β22
2w
}
∝l∏i=1
ni∏j=1
[exp
{−(β2
2 a2ij − 2 β2 aij (yij − ν2i rij δi aij − β1i))
2σ2e
}]exp
{−β22
2w
}
∝ exp
−(β22
∑li=1
∑nij=1 a
2ij − 2 β2 (
∑li=1
∑nij=1 aij(yij − ν2i rij δi aij − β1i)))
2σ2e
exp{−β22
2w
}
∝ exp
− (β2
2
∑li=1
∑nij=1 a
2ij − 2 β2 (
∑li=1
∑nij=1 aij(yij − ν2i rij δi aij − β1i)))
2σ2e
+β22
2w
∝ exp
− 1
2
∑li=1
∑nij=1 a
2ij
σ2e
+1
w
β22 −
2 β2∑li=1
∑nij=1 aij(yij − ν2i rij δi aij − β1i)
σ2e
∝ exp
−
1
2
σ2ew
w∑li=1
∑nij=1 a
2ij + σ2
e
β22 −
2 β2∑li=1
∑nij=1 aij(yij − ν2i rij δi aij − β1i)
σ2e
w∑li=1
∑nij=1 a
2ij + σ2
e
σ2ew
∝ exp
−
1
2
σ2ew
w∑li=1
∑nij=1 a
2ij + σ2
e
β2
2 −2 β2
∑li=1
∑nij=1 aij(yij − ν2i rij δi aij − β1i)
σ2e
σ2ew
w∑li=1
∑nij=1 a
2ij + σ2
e
∝ exp
−
1
2
σ2ew
w∑li=1
∑nij=1 a
2ij + σ2
e
β2 − l∑
i=1
ni∑j=1
aij(yij − ν2i rij δi aij − β1i)
w
w∑li=1
∑nij=1 a
2ij + σ2
e
2
Logo
β2 | ... ∼ N
(l∑
i=1
ni∑j=1
aij(yij − ν2i rij δi aij − β1i)
(w
w∑l
i=1
∑nij=1 a
2ij + σ2
e
),
σ2ew
w∑l
i=1
∑nij=1 a
2ij + σ2
e
)
49
p(θ | ...) ∝l∏
i=1
[exp
{−(β1i − θ)2
2σ21
}]× exp
{− θ
2
2k
}
∝l∏
i=1
[exp
{−(β2
1i − 2β1iθ + θ2)
2σ21
}]× exp
{− θ
2
2k
}
∝ exp
{−
(∑li=1 θ
2 − 2θ∑l
i=1 β1i2σ2
1
+θ2
2k
)}
∝ exp
{−1
2
(θ2(l
σ21
+1
k
)− 2
θ
σ21
l∑i=1
β1i
)}
∝ exp
{−1
2
(lk + σ2
1
kσ21
)(θ2 − 2θ
∑li=1 β1iσ21
(σ21k
lk + σ21
))}
∝ exp
− 1
2(
kσ21
lk+σ21
) (θ − l∑i=1
β1i
(k
lk + σ21
))2
Logo
θ | ... ∼ N
(l∑
i=1
β1i
(k
lk + σ21
),
kσ21
lk + σ21
)
p(α1, α2 | ...) ∝l∏
i=1
ni∏j=1
[exp{(α1 + α2 aij + ηi) rij}1 + exp{α1 + α2 aij + ηi}
]× exp
{−α2
1
2k
}× exp
{−α2
2
2k
}
p(ηi | ...) ∝ni∏j=1
[exp{(α1 + α2 aij + ηi) rij}1 + exp{α1 + α2 aij + ηi}
]× exp
{−η2i2σ2
η
}
p(π | ...) ∝ π∑li=1 δi+c−1(1− π)l−
∑li=1 δi+d−1
Logo
π | ... ∼ Beta
(l∑
i=1
δi + c, l + d−l∑
i=1
δi
)
50
p(σ−22 | ...) ∝l∏
i=1
[(1
σ22
)1/2
exp
{−ν22i2σ2
2
}]δi (1
σ22
)a−1exp
{−bσ22
}
∝l∏
i=1
[(1
σ22
)δi/2exp
{−δi ν22i
2σ22
}](1
σ22
)a−1exp
{−bσ22
}
∝(
1
σ22
)∑li=1
δi2+a−1
exp
{−
(∑li=1 δi ν
22i
2+ b
)1
σ22
}
Logo
σ−22 | ... ∼ Gamma
(l∑
i=1
δi2
+ a,
∑li=1 δi ν
22i
2+ b
)
p(σ−2e | ...) ∝l∏
i=1
ni∏j=1
[1
σeexp
{−(yij − β1i − β2 aij − ν2i rij δi aij)2
2σ2e
}](1
σ2e
)a−1exp
{−bσ2e
}
∝ exp
{l∑
i=1
ni∑j=1
−(yij − β1i − β2 aij − ν2i rij δi aij)2
2σ2e
}(1
σ2e
)n2(
1
σ2e
)a−1exp
{−bσ2e
}
∝ exp
{−
(l∑
i=1
ni∑j=1
(yij − β1i − β2 aij − ν2i rij δi aij)2
2+ b
)1
σ2e
}(1
σ2e
)n2+a−1
Logo
σ−2e | ... ∼ Gamma
(n
2+ a,
l∑i=1
ni∑j=1
(yij − β1i − β2 aij − ν2i rij δi aij)2
2+ b
)
p(σ−21 | ...) ∝l∏
i=1
[(1
σ21
)1/2
exp
{−(β1i − θ)2
2σ21
}](1
σ21
)a−1exp
{−bσ21
}
∝(
1
σ21
) l2+a−1
exp
{−
(l∑
i=1
(β1i − θ)2
2+ b
)1
σ21
}
Logo
σ−21 | ... ∼ Gamma
(l
2+ a,
l∑i=1
(β1i − θ)2
2+ b
)
51
p(σ−2η | ...) ∝l∏
i=1
[(1
σ2η
)1/2
exp
{−η2i2σ2
η
}](1
σ2η
)a−1exp
{−bσ2η
}
∝(
1
σ2η
) l2+a−1
exp
{−
(l∑
i=1
η2i2
+ b
)1
σ2η
}
Logo
σ−2η | ... ∼ Gamma
(l
2+ a,
l∑i=1
η2i2
+ b
)
p(δi = 1 | β, σ2e , σ22, r, y) =P (δi = 1; β1i, β2, σ
2e , σ
22, r, y)
P (β1i, β2, σ2e , σ22, r, y)
=P (β1i, β2, σ
2e , σ
22, r, y | δi = 1)P (δi = 1)
P (β1i, β2, σ2e , σ22, r, y)
=P (β1i, β2, σ
2e , σ
22, r, y | δi = 1)P (δi = 1)
P (β1i, β2, σ2e , σ22, r, y | δi = 1)P (δi = 1) + P (β1i, β2, σ2e , σ
22, r, y | δi = 0)P (δi = 0)
=π
π + (1− π)P (β1i,β2,σ2e ,σ
22 ,r,y|δi=0)P (δi=0)
P (β1i,β2,σ2e ,σ
22 ,r,y|δi=1)P (δi=1)
=π
π + (1− π)∏nij=1
1√2πσe
exp
{−(yij −β1i −β2 aij)2
2σ2e
}∏nij=1
1√2π(σ2e+σ
22 (aij rij)
2)exp
{−(yij −β1i −β2 aij)2
2(σ2e+σ22 (aij rij)
2)
}
52
Referências Bibliográ�cas
Bethlehem, J. and Bi�gnandi, S. (2012). Handbook of Web Surveys, John Wiley and
Sons.
Celeux, F. and et al. (2006). Deviance information criteria for missing data models,
Bayesian Analysis 1,Number 4.
Chambers, R. L. and Skinner, C. J. (2003). Analysis of Survey Data., John Wiley and
Sons.
Cohen, G. and Du�y, J. (2002). Are non respondents to health surveys less healthy than
respondents?, Journal of O�cial Statistics 18: 13�23.
Datta, G. S. and Mandal, A. (2011). Model selection by testing for the presence of
small-area e�ects in area-level data., Journal of the American Statistical Association
106: 362�374.
Datta, G. S. and Mandal, A. (2015). Small area estimation with uncertain random e�ects,
Journal of the American Statistical Association 110: 1735�1744.
Fay, R. and Herriot, R. (1979). Estimates of income for small places: An application of
james-stein procedures to census data, Journal of the American Statistical Association
74: 269�277.
Fernández-i Marín, X. (2016). ggmcmc: Analysis of mcmc samples and bayesian infe-
rence, Journal of Statistical Software 70,Issue 9.
Gamerman, D. and Lopes, H. F. (2006). Markov chain Monte Carlo: Stochastic Simula-
tion for Bayesian Inference, CRC Press.
Gelfand, A. and Ghosh, S. (1998). Model choice: A minimum posterior predictive loss
approach, Biometrika 85: 1�11.
53
Gelman, A. and Hill, J. (2007). Data Analysis Using Regression and Multile-
vel/Hierarchical Models, Cambridge Universiy Press.
Geweke, J. (1992). Evaluating the accuracy of sampling-based approaches to the calcu-
lation of posterior moments, Bayesian Statistics pp. 169�193.
Gonçalves, F. B. (2006). Análise bayesiana da teoria de resposta ao item: uma abordagem
generalizada, Master's thesis, Universidade Federal do Rio de Janeiro - UFRJ.
Hansen, M. H. and Hurwitz, W. N. (1946). The problem of nonresponse in sample
surveys, Journal of the American Statistical Association 41: 517�529.
IBGE (2014). Pesquisa nacional de saúde 2013 percepção do estado de saúde, estilos de
vida e doenças crônica.
URL: http://biblioteca.ibge.gov.br/visualizacao/livros/liv91110.pdf
Lieu N. Hazelwood, T. L. M. and Wolken, J. D. (2007). Alternative methods of unit
nonresponse weighting adjustments: An application from the 2003 survey of small
business �nances.
URL: http://www.federalreserve.gov/pubs/feds/2007/200710/200710pap.pdf
Little, R. (1982). Models for nonresponse in sample surveys, Journal of the American
Statistical Association 77: 237�250.
Little, R. J. A. and Rubin, D. B. (2002). Statistical Analysis with Missing Data, 2nd.
Ed., John Wiley and Sons, New York, NY.
Liu, N. (2003). Bayesian nonresponse models for the analysis of data from small areas:
An application to bmd and age in nhanes iii, Master's thesis, Worcester Polytechnic
Institute.
Martin, K. (2011). What is the di�erence between mar and mcar missing data?
URL: http://www.theanalysisfactor.com/mar-and-mcar-missing-data/
Mitchell, T. J. and Beauchamp, J. J. (1988). Bayesian variable selection in linear regres-
sion, Journal of the American Statistical Association 83: 1023�1032.
Nandram, B. and Choi, J. (2005). Hierarchical bayesian nonignorable nonresponse re-
gression models for small areas:an application to the nhanes data, Survey Methodology
31: 73�84.
54
Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys, New York: Wiley,
New York, NY.
Spiegelhalter, D. and et al. (2002). Bayesian measures of model complexity and �t., Royal
Statistical Society: Series B 64: 583�639.
Warner, S. L. (1965). Randomized response a survey technique for eliminating evasive
answer bias, Journal of the American Statistical Association 57: 622�627.
55