modelos hierárquicos para não-resposta em pesquisas ...5.2.1 modelo de não-resposta não...

Modelos hierárquicos para não-resposta em

pesquisas amostrais

Erika Lorena Huesa Flechas

Universidade Federal do Rio de Janeiro

Instituto de Matemática

Departamento de Métodos Estatísticos

2017

CIP - Catalogação na Publicação

Elaborado pelo Sistema de Geração Automática da UFRJ com osdados fornecidos pelo(a) autor(a).

H887mHuesa Flechas, Erika Lorena Modelos hierárquicos para não-resposta empesquisas amostrais / Erika Lorena Huesa Flechas. - Rio de Janeiro, 2017. 66 f.

Orientador: Fernando Antonio da Silva Moura. Dissertação (mestrado) - Universidade Federal doRio de Janeiro, Instituto de Matemática, Programade Pós-Graduação em Estatística, 2017.

1. Não Resposta. 2. Modelos hierárquicos. 3.Distribuição Spike and Slab. 4. Inferênciabayesiana. I. da Silva Moura, Fernando Antonio ,orient. II. Título.

iii

À Deus quem fez possível tudo, minha mãe e meus irmãos, meus grandes amores.

iv

�Todo lo puedo en Cristo que me fortalece."

Filipenses 4:13.

v

Agradecimentos

Em primeiro lugar, a Deus pela vida e por todas as oportunidades.

A Minha mãe, Stella por todos seus sacrifícios, por me ensinar a ser uma lutadora e

por seu amor incondicional. Aos meus irmãos, Nathalia e Crhistian, por con�ar e estar

sempre junto a mim. Naqueles tempos, quando a distância e a solidão me invadiram

vocês foram minha maior inspiração para não desistir. Este trabalho é para vocês.

Ao meu amor Javier, por ter me acompanhado nos momentos mais difíceis durante

estes dois anos, onde nem eu acreditava em mim. Obrigada por sempre me ouvir, pelo

carinho e por todas as experiências em Campinas e no Rio.

A Lina, que se tornou minha amiga, sempre com um sorriso, desde que ela chegou foi

uma grande companhia. A Gabriela, que começou esta aventura com a gente e esteve

sempre disposta a dar conselhos, ouvindo e enchendo-nos de alegria. A Mariana por

sempre ouvir, ser sincera e dar bons conselhos. Ao Carlos, que sempre tinha alguma

coisa que me fez rir e sempre esteve disposto a ajudar. Ao Angel, por me ouvir em

tempos de crise. Ao Jesus, por ser meu guia quando cheguei no Rio.

A Cely, professora e amiga, muito obrigada por me acolher na sua casa e me tratar

como sua família, por ajudar-nos a mim e ao Javi, por todos os conselhos e sobre tudo

pelo carinho. A Vanessa, pela companhia e ajuda em tudo o que eu precisei. Aos meus

companheiros de turma, Widemberg, Daniela, Sergio, Lucas e Marcos. Pelas horas de

estudo e acolhe-nos aos estrangeiros tão bem.

A minhas amigas na Colômbia Diana, Olivia, Lorena e Carolina que sempre estiveram

comigo.

Ao meu orientador, o Professor Fernando Moura por ter me apoiado neste trabalho e

especialmente, por ser uma pessoa tão compreensiva.

Finalmente, agradeço a UFRJ e à CAPES pela oportunidade e o apoio �nanceiro.

vi

Resumo

Em pesquisas amostrais é comum encontrar conjuntos de dados com não-resposta (dados

faltantes). Geralmente essa proporção de informação faltante é descartada e as análises

são baseadas no conjunto de dados restantes. Outro tipo de solução é imputar os valores

faltantes. Em alguns casos este tipo de tratamento pode ser inadequado, pois se a

informação observada e faltante tiverem caraterísticas diferentes a análise realizada é

inadequada. Para lidar com este problema de�nem-se tipos de mecanismo de não-resposta

para o conjunto de dados incompleto.

Nesta dissertação são estudadas algumas abordagens para o tratamento da não-

resposta baseadas em modelos hierárquicos Bayesianos para cada tipo de mecanismo.

Modelos para não-resposta apresentados recentemente na literatura assume que todas as

areas possuem o mesmo mecanismo. O objetivo deste trabalho é propor um modelo no

qual é possível que o mecanismo de não-resposta seja diferente em cada área. Isto é feito

através da inclusão de um tipo de distribuição a priori spike and slab. Os modelos apre-

sentados são ajustados a um conjunto de dados reais e comparados mediante o critério

preditivo a posteriori.

Palavras-chave: Modelos hierárquicos, não-resposta, distribuição spike and slab, in-

ferência Bayesiana.

vii

Abstract

Surveys sampling usually have nonresponse (missing data). Usually, this proportion

of missing information is discarded and analysis are based on the remaining data set.

Another type of solution is to impute the missing values. In some cases this type of

treatment may be inadequate, because if the observed and the missing information have

di�erent characteristics the analysis performed would be inadequate. To deal with this

problem there are diferent types of nonresponse mechanism for the incomplete data set.

In this dissertation we study some nonresponse approaches based on Bayesian hie-

rarchical models for each type of mechanism. Nonresponse models recently presented in

literature have the same mechanism. The aim of this work is to propose a model in which

is possible that the nonresponse mechanism be di�erent in each area, this is done by the

inclusion of a spike and slab prior distribution. The proposed models are �tted in a real

data set and compared by using a posterior predictive criterion.

Keywords: Hierarchical models, nonresponse, spike and slab distribution, Bayesian

inference.

viii

Sumário

1 Introdução 1

2 Métodos baseados no desenho amostral 4

2.1 Ajuste de pesos amostrais com propensão de resposta . . . . . . . . . . . 4

2.2 Subamostragem de não respondentes . . . . . . . . . . . . . . . . . . . . 6

2.3 Resposta aleatorizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3 Métodos baseados em modelos 8

3.1 Imputação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.1.1 Imputação simples . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.1.2 Imputação múltipla . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.2 Modelos de superpopulação para pesquisas amostrais com não-resposta . 11

3.2.1 Modelos de mecanismo de não-resposta não ignorável . . . . . . . 12

3.2.2 Estudo de simulação . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2.3 Mecanismo de não-resposta ignorável . . . . . . . . . . . . . . . . 18

3.3 Modelos com efeitos aleatórios questionáveis . . . . . . . . . . . . . . . . 19

3.3.1 Modelo de Fay and Herriot e distribuição spike and slab . . . . . 20

4 Modelo proposto: modelo de não-resposta não ignorável com distribui-

ção spike and slab 22

4.1 O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.2 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.3 Estudo de simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5 Aplicação a dados reais 29

5.1 Terceira Pesquisa Nacional de Saúde e da Nutrição (NHANES III 1988-1994) 29

5.1.1 Modelo de não-resposta ignorável . . . . . . . . . . . . . . . . . . 30

ix

5.1.2 Modelo de não-resposta não ignorável e distribuição spike and slab 31

5.1.3 Comparação de modelos . . . . . . . . . . . . . . . . . . . . . . . 36

5.2 Pesquisa Nacional de Saúde (PNS) - Brasil 2013 . . . . . . . . . . . . . . 38

5.2.1 Modelo de não-resposta não ignorável e distribuição spike and slab 39

6 Conclusões e trabalhos futuros 42

A Condicionais completas do modelo não ignorável 44

B Condicionais completas do modelo não ignorável com distribuição spike

and slab 47

Referências Bibliográ�cas 53

x

Lista de Figuras

3.1 Dados simulados. Modelo 1: Histograma da variável Y. . . . . . . . . . . 15

3.2 Grá�co da densidade e histórico das cadeias dos parâmetros β1, ν11, α1 e

β2, para os dados simulados do Modelo 1. . . . . . . . . . . . . . . . . . . 16

3.3 Dados simulados. Modelo 1. Esquerda: Grá�co do histórico das cadeias

dos parâmetros β1, β2, σ21 e ν11, para o ajuste do Modelo 1. Direita: Grá-

�co do histórico das cadeias dos parâmetros θ, β2 e σ21 para o ajuste do

Modelo 1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.4 Grá�co da densidade e histórico das cadeias dos parâmetros θ, α1, σ21 e

β2, para os dados simulados do Modelo 1.1. . . . . . . . . . . . . . . . . . 18

4.1 Grá�co da densidade e histórico das cadeias dos parâmetros β2, θ, α1, σ21

e π, para os dados simulados do Modelo 2. . . . . . . . . . . . . . . . . . 27

5.1 Dados NHANES III. Modelo ignorável: critério de convergência de Geweke

e autocorrelação para os parâmetros β2, θ e σ21. . . . . . . . . . . . . . . 31

5.2 Dados NHANES III. Modelo não ignorável spike and slab: critério de

convergência de Geweke para os parâmetros α1, α2, θ e π. . . . . . . . . 32

5.3 Dados NHANES III. Modelo não ignorável spike and slab: critério de

convergência de Geweke e autocorrelação para os parâmetros δi. . . . . . 33

5.4 Dados NHANES III. Modelo não ignorável spike and slab: intervalos de

95% de credibilidade para δi ν2i e probabilidade a posteriori de ν2i = 0. . 35

5.5 Dados NHANES III. Modelo não ignorável spike and slab: intervalo de

95% de credibilidade para δ15 ν2,15 e probabilidade a posteriori de ν2,15 = 0 36

5.6 Dados PNS. Modelo não ignorável spike and slab: critério de convergência

de Geweke e autocorrelação para os parâmetros α1, α2, θ e π. . . . . . . 40

5.7 Dados PNS. Modelo não ignorável spike and slab: critério de convergência

de Geweke e autocorrelação para os parâmetros δi. . . . . . . . . . . . . . 40

xi

5.8 Grá�co da densidade e histórico das cadeias dos parâmetros β2, θ, α1 e σ21

para o Modelo 2 ajustado aos dados da PNS. . . . . . . . . . . . . . . . . 41

xii

Lista de Tabelas

3.1 Dados Simulados. Modelo 1: valores �xados para os parâmetros. . . . . . 14

3.2 Dados Simulados. Modelo 1.1: valores �xados para os parâmetros. . . . . 17

4.1 Sumários da probabilidade a posteriori (Prob. ap) de δi = 1 e os valores

simulados (Sim) para cada δi, para os dados simulados do Modelo 2. . . . 28

5.1 Dados NHANES III. Modelo ignorãvel: média, desvio padrão (Desv.) e

intervalo de 95% de credibilidade (I.C) para os parâmetros β2, θ, σ2e e σ

21. 31

5.2 Dados NHANES III. Modelo não ignorável: média, desvio padrão (Desv.)

e intervalo de 95% de credibilidade (I.C) para os parâmetros β2, θ, σ2e α2

e α1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.3 Dados NHANES III. Sumários da média da probabilidade a posteriori

(Prob. ap) de δi = 1 e os valores atribuídos para cada δi (Valor). . . . . . 34

5.4 Dados NHANES III. Critério de seleção de modelo DIC. Modelo 2: modelo

não ignorável com distribuição spike and slab. Modelo 0: modelo ignorável. 37

5.5 Dados NHANES III. Critério preditivo a posteriori para o modelo ig-

norável (Modelo 0), o modelo não ignorável com distribuição spike and

slab (Modelo 2) e o modelo não ignorável (Modelo 1.1). . . . . . . . . . . 38

5.6 Dados PNS. Modelo não ignorável: média, desvio padrão (Desv.) e in-

tervalo de 95% de credibilidade (I.C) para os parâmetros β2, θ, σ2e α2 e

α1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

xiii

Capítulo 1

Introdução

O problema de não-resposta ou dados faltantes surge quando há falta de informação

para algumas das unidades observadas de estudo. Exemplos da presença de não-resposta

são os respondentes de um estudo de famílias que se recusam a informar seu salário ou a

responder todas as perguntas do questionário. Pode também ocorrer em estudos longi-

tudinais quando alguns dos entrevistados perdem o interesse em participar da pesquisa,

embora poderiam ter respondido, ver Little and Rubin (2002).

O desenho amostral, a captação de dados, o tamanho e conteúdo do questionário são

fundamentais para evitar a presença de dados faltantes, pois a de�nição de um marco

amostral detalhado pode ajudar a encontrar o participante a ser entrevistado. O modo

no qual o entrevistador faz as perguntas determina também se o indivíduo responde ou

não. É desejável que a taxa de não resposta seja baixa para serem feitas estimações

da população inteira ou de certos domínios e subpopulações com precisões aceitáveis.

O valor aceitável para a taxa depende dos objetivos do estudo, pois uma taxa de 5%

pode ser baixa se serão feitas estimações globais, mas pode ser alta para alguns itens e

domínios. Assim estimações para pequenas áreas caraterizadas por estes itens podem ser

afetadas.

Uma primeira solução para o problema de dados faltantes é a eliminação da observação

da análise. Neste caso são excluídos aqueles indivíduos com alguns valores faltantes,

analisando-se só as unidades com informação completa. Este enfoque está baseado na

idéia de não manipulação dos dados, pois tentar completar os dados seria acrescentar

informação que não vem da população e pode não ser adequado. Esta estratégia pode

ser inadequada, pois o tamanho amostral efetivo diminui. O interesse do pesquisador está

em fazer inferência sobre a população objetivo completa ao invés de fazer só na porção

1

da população que apresenta resposta para todas as variáveis do estudo.

A presença da não-resposta pode estar relacionada com o valor da variável de estudo,

por exemplo, o salário do indivíduo. Este pode pensar que ao declarar seu salário serão

aumentados seus impostos e assim decide não responder. Perguntas como a orientação

sexual ou o ponto de vista sobre o aborto podem fazer com que o indivíduo não se sinta

confortável em ter que responder à uma pessoa desconhecida e se sentir constrangido.

Em outros casos a falta de informação pode ser devida a um erro ao preencher os dados

coletados ou a uma negação em responder, sem estar relacionado com o valor da resposta.

Este tipo de condições dividem o problema em dois casos. O mecanismo de não-

resposta, que consiste na relação entre os dados faltantes e as variáveis, é ignorável

quando se assume que as distribuições dos dados observados e os dados faltantes são

iguais. Quando a probabilidade de responder depende do valor da variável de interesse

ou quando os dados observados e faltantes têm distribuições diferentes o mecanismo de

não-resposta é dito não ignorável.

O mecanismo de não-resposta ignorável está divido em mecanismo de forma comple-

tamente aleatória (MCAR1) e em mecanismo de forma aleatória (MAR2). No primeiro

caso a propensão de uma observação ser faltante é completamente aleatória, os valores

faltantes são uma amostra aleatória do conjunto de dados, ou seja, não existe nenhuma

relação entre o dado ser ou não observado e os valores das variáveis. No segundo caso

a propensão de uma observação ser faltante está relacionado só com alguns dos dados

observados, ou seja o mecanismo é condicionalmente aleatório dado os valores observados

das variáveis auxiliares, as quais ajudam a explicar se um indivíduo responde ou não,

consultar Little and Rubin (2002) e Martin (2011) para mais detalhes.

O propósito principal desta dissertação de mestrado é estudar o modelo hierárquico

Bayesiano proposto por Nandram and Choi (2005) e modi�car a distribuição dos efeitos

aleatórios segundo a metodologia proposta por Datta and Mandal (2015). Isto é feito para

permitir que as áreas possuam diferentes tipos de mecanismos de não-resposta podendo-

se avaliar a probabilidade de que o mecanismo seja ignorável para cada área. Além disso,

são apresentadas duas aplicações, a primeira com dados da terceira Pesquisa Nacional de

Saúde e Nutrição (NHANES III) e a segunda com dados da Pesquisa Nacional de Saúde

no Brasil (PNS).

A estrutura da dissertação é a seguinte, no Capítulo 2 são apresentados alguns trata-

mentos da não-resposta baseados no desenho amostral, no Capítulo 3 são apresentadas as

1Sigla em inglês de Missing Completely at Random.2Sigla em inglês de Missing at Random.

2

abordagens baseadas em modelos, no Capítulo 4 é apresentado o modelo proposto, no Ca-

pítulo 5 são apresentadas as aplicações com dados reais e no Capítulo 6 são apresentadas

as conclusões e trabalhos futuros.

3

Capítulo 2

Métodos baseados no desenho amostral

2.1 Ajuste de pesos amostrais com propensão de res-

posta

Nesta abordagem os indivíduos que respondem são ponderados pelos pesos reajusta-

dos com o �m de compensar as observações faltantes. Este enfoque é simples e corrige o

vício da não-resposta se o mecanismo é MAR, ver Chambers and Skinner (2003).

Uma unidade j = 1, ..., n. pertencente à amostra de tamanho n com probabilidade

πj representa π−1j unidades na população, logo deveria ter um peso igual a wj = π−1j na

estimação de quantidades populacionais. Seja a variável indicadora de resposta Rj = 1

para os respondentes e Rj = 0 caso contrário, observada completamente na amostra

mas desconhecida para os elementos não amostrados. Denote por ρj = P (Rj = 1) a

probabilidade do elemento j responder dado que a amostra s = i1, . . . in. é selecionada e

denote por sres = {i1I(Ri1 = 1), . . . , inI(Rin = 1)}. o conjunto de elementos da amostra

que respondem.

Se a probabilidade de responder é independente da probabilidade de seleção, obtemos

o peso ajustado para cada respondente igual a wj = 1πjρj

. Na prática ρj é desconhecido

e deve ser estimado a partir da informação disponível para todos os indivíduos, ver

Bethlehem and Bi�gnandi (2012).

Denotemos o conjunto de variáveis aleatórias auxiliares para o indivíduo j por Xj =

(Xj1, Xj2, ..., XjP ). Supondo que os valores destas variáveis são conhecidos para todos

os elementos amostrais e que cada elemento na população tem uma probabilidade de

resposta ρj desconhecida e diferente de zero, a propensão de resposta ρ(xj) dados os

valores do conjunto das variáveis auxiliares é de�nida por:

4

ρ(xj) = P (Rj = 1|Xj = xj) (2.1)

O indicador de não-resposta é modelado mediante uma regressão. A previsão obtida

pela regressão denominada de escore de propensão "propensity score (PS)" é a proba-

bilidade de resposta estimada. Para se estimar ρ(xj) é proposto o modelo de regressão

logística. Este assume que a relação entre a propensão de resposta e as variáveis auxiliares

é dada por:

logit(ρ(xj)) = log

(ρ(xj)

1− ρ(xj)

)=

P∑p=1

xjpβp (2.2)

A transformação logit garante que as propensões de resposta estejam no intervalo

(0, 1). Logo tem-se a seguinte expressão para as propensões de resposta:

ρ(xj) =exp(xtjβ)

1 + exp(xtjβ)(2.3)

Um estimador aproximadamente não-viesado do total da variável Y na população U,

tY =∑

U yj, com j = 1, . . . , N. e N o tamanho populacional, é dado por:

tY π∗ =∑Sres

yjπj ρ(xj)

(2.4)

As quantidades 1/ρ(xj) podem ser vistas como as ponderações necessárias para eli-

minar o viés da não-resposta. O estimador de Horvitz-Thompson, tHT =∑

syπk, para o

total não será mais não-viesado, já que não são observados todos os elementos amostrais.

O método de ponderação de propensão de resposta direta usa o PS para construir os

ajustes de não-resposta aplicados aos pesos amostrais dos respondentes. A forma mais

simples designa à todos os respondentes o ajuste de não-resposta igual ao inverso da

média dos PS, ou seja, existe um único fator de ajuste para todos os respondentes. Outro

método é designar à cada individuo o fator ajustado igual ao inverso do seu PS. Outra

alternativa é particionar a amostra em m células e designar à cada respondente dentro

de cada célula o fator de não-resposta igual ao inverso da média dos PS dessa célula, ou

seja, m fatores de ajuste de não-resposta são aplicados aos dados. Outro ajuste é dado

pela ponderação da propensão de resposta estrati�cada. Nesta metodologia os PS são

usados só para estrati�car a amostra em m classes e o fator de ajuste pode ser calculado

como o inverso da fração de respondentes dentro da célula. Embora o ajuste das células

5

seja feito utilizando um modelo de regressão, este método imita o método tradicional de

pesos ajustados, ver Lieu N. Hazelwood and Wolken (2007).

2.2 Subamostragem de não respondentes

Uma abordagem alternativa baseada no desenho é subamostrar os não respondentes

e fazer o máximo esforço em conseguir suas respostas. Este enfoque foi desenvolvido

por Hansen and Hurwitz (1946). O objetivo é estimar o total da variável aleatória y,

t =∑

U yt, na população U.

Uma amostra sa de tamanho na é selecionada da população U, de acordo com o

desenho Pa(.) com probabilidades de inclusão πaj, πajk e 4jk = πjk−πjπk. Esta amostra

é dividida em dois conjuntos, sa1 composto pelos respondentes e sa2 composto pelos não

respondentes, de tamanhos na1 e na2 respetivamente. Uma subamostra s2 é selecionada

de sa2 mediante um desenho P (. | sa2) com probabilidades de inclusão πj|sa2 , πjk|sa2 ,

4jk|sa2 .

Os valores de todos os elementos da amostra s2 devem ser obtidos para se ter es-

timadores não viesados. Esta técnica se assemelha à amostragem em duas fases para

estrati�cação, mas aqui a partição é aleatória. Seja s = sa1⋃s2 o conjunto dos valores

observados de y, assim o total é estimado por:

t =∑s

yt =∑s

ytπ∗k

(2.5)

Com

π∗k =

πak se t ∈ sa1

πak πk|Sa2 se t ∈ sa2(2.6)

Pode-se reescrever o estimador do total como

t =∑sa1

yak +∑s2

yj (2.7)

2.3 Resposta aleatorizada

Os estudos que contêm perguntas sensíveis como o uso de drogas, apresentam não-

resposta. Nestes casos um método que dá proteção a identidade do indivíduo pode ser

uma boa solução, mas nos casos de entrevista pessoal, a técnica de resposta aleatorizada

6

introduzida por Warner (1965) pode ser uma melhor opção, pois assegura a cooperação

de todos os indivíduos na obtenção dos dados reais.

A metodologia é a seguinte, o indivíduo seleciona através de um mecanismo aleatório

um dos seguintes estados: "Eu possuo o atributo" ou "Eu não possuo o atributo".

Logo é questionado e responde falso ou verdadeiro sem revelar qual das a�rmações está

respondendo. O especialista conhece a prioiri a probabilidade de seleção de cada uma

das opções.

Seja yj = 1 se o individuo j na população �nita possui o atributo e yj = 0 caso

contrário, xj = 1 se a resposta é verdadeira ou xj = 0 caso contrário e P a probabilidade

conhecida de seleção da a�rmação "possuo o atributo". Se P 6= 1/2, de�ne-se o estimador

não viesado de yj por:

yj =xj + P − 1

2P − 1(2.8)

O π − estimador não pode ser calculado, pois o valor real de yt usualmente não é

conhecido, portanto propõe-se o seguinte estimador alternativo:

tRR =∑s

yjπj

(2.9)

7

Capítulo 3

Métodos baseados em modelos

3.1 Imputação

A imputação consiste em completar o conjunto de dados com predições dos valores

faltantes. Depois é possível realizar uma análise com métodos ou modelos estatísticos

para dados completos.

3.1.1 Imputação simples

Apresentam-se duas abordagens para gerar os valores faltantes no caso da imputação

simples:

1. Modelagem explícita: A distribuição preditiva está baseada em um modelo estatís-

tico formal e os supostos são explícitos. Este inclui:

• Imputação pela média: os valores faltantes são imputados pela média dos

dados observados.

• Imputação pela regressão: imputando os valores faltantes pelas previsões de

um modelo de regressão.

• Imputação pela regressão estocástica: substituindo os valores faltantes pela

previsão de um modelo de regressão acrescentando uma predição do resíduo

para apresentar a incerteza do valor predito.

2. Modelagem implícita: está enfocada num algoritmo que implica num modelo sub-

jacente. Os supostos estão implícitos, precisa-se ser cuidadoso para aplicá-lo.

8

• Imputação hot deck : substituição dos valores faltantes pelos valores das uni-

dades observadas similares no conjunto de dados.

• Imputação cold deck : imputa os valores faltantes da variável por um valor

constante de um estudo passado.

O problema presente no método da imputação da média é que os indivíduos no meio

da distribuição têm mais probabilidade de responder que aqueles que se encontram nos

extremos, assim o valor da média pode não ser o melhor valor a imputar. Além disso, se

a quantidade de dados faltantes é grande a variância vai ser subestimada. Todas estas

técnicas que imputam os valores faltantes e os dados completos são analisadas mediante

os métodos tradicionais sem levar conta da incerteza da imputação feita anteriormente.

3.1.2 Imputação múltipla

O método da imputação múltipla descrito em Rubin (1987) consiste em gerar Q

valores da distribuição preditiva dos valores faltantes dado os valores observados formando

assim Q conjuntos de dados. Logo estima-se o modelo para cada um destes e seus

resultados são combinados de forma simples. Cada estimação dos parâmetros é a média

dos Q conjuntos.

A distribuição a posteriori para um modelo com mecanismo de não-resposta ignorável

é dada por :

f(θ | yobs, r) ≡ f(θ | yobs) ∝ f(θ)× f(yobs | θ) (3.1)

onde f(θ) é a distribuição a priori e f(yobs | θ) a densidade dos dados observados,

ymis os valores faltantes, yobs os valores observados. Rubin (1987) obtem f(θ | yobs) da

seguinte forma:

f(θ | yobs) =

∫f(θ, ymis | yobs) dymis (3.2)

=

∫f(θ | ymis, yobs)f(ymis | yobs) dymis (3.3)

Onde

f(θ | ymis, yobs) ∝ f(θ)L(θ | yobs, ymis) (3.4)

9

O que implica que a distribuição a posteriori de θ, f(θ | yobs), pode ser simulada

primeiro amostrando os valores faltantes da distribuição marginal a posteriori de f(ymis |yobs) e imputando depois os valores amostrados para completar o conjunto de dados. Logo

se amostra da distribuição a posteriori de θ com os dados completados, f(θ | yobs, yqmis).A imputação múltipla aproxima a integral em (3.3) por:

f(θ | yobs) '1

Q

Q∑q=1

f(θ | yqmis, yobs) (3.5)

onde Y qmis é amostrado da distribuição preditiva dos dados faltantes, Y q

mis ∼ f(ymis | yobs).Similarmente obtemos:

E(θ | yobs) '∫θ

1

Q

Q∑q=1

f(θ|yqmis, yobs) dθ = θ (3.6)

Onde θ = 1Q

∑Qq=1 θ

q e θq = E(θ | yobs, yqmis)

V ar(θ | yobs) ' θ1

Q

Q∑q=1

Vq +1

Q− 1

Q∑q=1

(θq − θ)(θq − θ)′ = V +B (3.7)

Onde:

- Vq = V ar(θ | yqmis, Yobs) é a variância a posteriori com os dados completados.

- V = 1Q

∑Qq=1 Vq é a média sobre Vq dos conjuntos imputados.

- B = 1Q−1

∑Qq=1 (θq − θ)(θq − θ)′ é a variância da imputação.

Se o valor de Q é pequeno a média a posteriori é aproximada pela equação (3.6), mas

a aproximação da variância é obtida pela multiplicação da variância da imputação pelo

fator 1 +Q−1.

O método exposto tem um enfoque bayesiano mas possui boas propriedades frequen-

tistas. Além disso, a análise dos dados completados mediante a imputação não tem que

levar em conta o modelo usado para imputar os valores faltantes. Este método é mais

utilizado do que o método da imputação pela média, pois o interesse é fazer inferência

sobre os parâmetros e não estimar só os valores faltantes.

A di�culdade está em amostrar os valores da distribuição a posteriori dos valores de

Ymis | yobs. Uma melhor solução que implica um esforço computacional maior é calcular

Y imis ∼ f(ymis | yobs, θi−1) e θi ∼ f(θi | yimis, yobs), ou seja uma aplicação do amostrador

10

de Gibbs, ver Chambers and Skinner (2003). Este enfoque ignora o mecanismo de não-

resposta. Se quisermos levar em conta este, a variável R deveria estar no modelo.

3.2 Modelos de superpopulação para pesquisas amos-

trais com não-resposta

Seja U a população de tamanho N , o conjunto de dados completo y = (yinc, yexc).

Onde yinc = (yobs, ymis) são os valores da amostra s,yexc são os valores não amostrais; yobs

são os valores observados na amostra e ymis são os valores faltantes da amostra.

Seja a variável indicadora amostral I = (I1, . . . , IN) , com Ij = 1 se a unidade j está

na amostra e Ij = 0 caso contrario. Considere a variável indicadora de não-resposta R

de�nida na seção anterior e denote por Z o conjunto de variáveis auxiliares conhecidas

para todas as unidades da população.

Little (1982) de�ne o modelo de superpopulação para dados faltantes, através da

distribuição conjunta de I, Y,R dado z como segue:

f(i, y, r|z; θ, ψ, φ) = f(y|z; θ)f(i|z, y;ψ)f(r|z, y, i;φ) (3.8)

O último termo da expressão (3.8) modela o padrão de não-resposta R através da

distribuição condicional de R dado z, y, i, indexado pelo conjunto de parâmetros φ. A

distribuição dos dados observados (i, yobs, rs) é obtida integrando-se (3.8) sobre os com-

ponentes não observados. Note que a distribuição conjunta é dada por:

f(i, yobs, rs|z; θ, ψ, φ) =

∫f(y|z; θ)f(i|z, y;ψ)f(rs|z, y, i;σ, φ) dyexc dymis (3.9)

A maioria dos métodos de superpopulação para o tratamento da não-resposta es-

tão baseados em modelos que não incluem distribuições para as variáveis indicadoras

da amostra e não-resposta e também estão restritos à distribuição marginal dos dados

observados, isto é:

f(yobs|z; θ) =

∫f(y|z; θ) dyexc dymis (3.10)

Diz-se que o desenho amostral e o mecanismo de não-resposta são ignoráveis se as

inferências sobre θ baseadas em (3.10) são equivalentes às inferências baseadas na dis-

tribuição completa em (3.9). As expressões são equivalentes se diferem por um fator

11

independente de θ. As seguintes condições são su�cientes para a equivalência: θ, φ, ψ

são distintos (têm distribuições a priori independentes) e as distribuições de I e R não

dependem dos elementos não observados, ver Little (1982).

O mecanismo de não-resposta é caracterizado pela distribuição condicional de R dado

Y , se os valores faltantes não dependen de Y , ou seja sobre um mecanismo de não-resposta

MCAR obtem-se f(r|y, φ) = f(r|φ), ∀ y, φ. Se o suposto é menos restritivo, MAR, temos

f(r|y, φ) = f(r|yobs, φ), ∀ ymis, φ. O mecanismo de não-resposta é chamado não faltante

aleatoriamente (NMAR1) se a distribuição de R depende dos valores faltantes na amostra,

ver Little and Rubin (2002).

3.2.1 Modelos de mecanismo de não-resposta não ignorável

Os modelos para dados que não são MAR podem ser divididos em dois casos: o pri-

meiro quando o mecanismo de não-resposta é não ignorável e o parâmetro φ é conhecido,

por exemplo os dados censurados; o segundo caso quando o parâmetro φ é desconhe-

cido, ou seja, a não-resposta depende dos valores Ymis após de ter sido condicionado à

informação de covariáveis disponíveis para respondentes e não respondentes.

Seja f(r, y|θ, φ) =∏n

j=1 f(rj, yj|θ, φ) a distribuição conjunta de R e Y . Existem dois

tipos de abordagem para o caso em que φ é desconhecido, ver Little and Rubin (2002):

1. Modelos de seleção: A distribuição conjunta de Rj e Yj pode ser escrita como

f(rj, yj|θ, φ) = f(yj|θ)f(rj|yj, φ). Com o primeiro fator descrevendo a distribuição

de yj na população e o segundo a incidência dos dados faltantes como uma função

de yj. Os parâmetros θ e φ são distintos.

2. Modelos de mistura de padrões: A distribuição conjunta de Rj e Yj pode ser

escrita como

f(rj, yj|θ, φ) = f(yj|rj, θ)f(rj|φ). A primeira expressão descreve a distribuição de

yj no estrato de�nido por diferentes padrões de não-resposta e a segunda distribui-

ção modela a incidência dos diferentes padrões. Os parâmetros θ e φ são distintos.

Modelos normais de mistura de padrões

Um modelo normal de mistura de padrões para a variável Y sujeita a valores faltantes

é dado por :

(Yj|Rj = m)ind∼ N(µ(m), σ

2(m)), m = 0, 1. Rj ∼ Bern(π) (3.11)

1Sigla em inglês de No Missing at Random

12

O modelo descreve que Y é uma mistura de duas distribuições normais, com média

µ = πµ(1) + (1− π)µ(0) e variância πσ2(1) + (1− π)σ2

(0) + π(1− π)(µ(1) − µ(0))2.

Nandram and Choi (2005) de�nem uma abordagem baseada em modelos hierárquicos

bayesianos sob o suposto que o mecanismo de não-resposta não pode ser ignorado, pois os

respondentes podem diferir dos não respondentes. Os autores assumem que a população

objetivo pode ser dividida em áreas ou conjuntos de características similares, cada uma

de tamanho conhecido Ni com i = 1, . . . , l. Supondo que uma amostra probabilística de

tamanho ni é selecionada em cada área, sejam: yij o valor do indivíduo j na área i para a

variável de interesse Y com j = 1, . . . , ni; aij o valor da variável auxiliar conhecida para

a população completa e rij a variável indicadora de resposta.

O modelo de mistura de padrões (Modelo 1) pode ser descrito em duas etapas. A

primeira contém a modelagem da variável indicadora de resposta e a segunda de�ne a

distribuição da variável resposta, ver Liu (2003).

• Etapa 1: O mecanismo de não-resposta descrito mediante a variável Rij depende

da variável auxiliar bij como segue:

rij|α1, α2, ηi ∼ Bernoulli

(exp(α1 + α2 bij + ηi)

1 + exp(α1 + α2 bij + ηi)

)(3.12)

Com ηi | ση ∼ N(0, ση), σ−2η ∼ Gamma(0.01, 0.01), α1, α2 ∼ Unif(−∞,+∞).

• Etapa 2: O modelo que descreve os dados utilizando uma variável auxiliar aij é

de�nido como:

yij = β1 + ν1i + (β2 + ν2i rij) aij + eij (3.13)

Com eij | σ2e ∼ N(0, σ2

e), ν1i | σ21 ∼ N(0, σ2

1), ν2i | σ22 ∼ N(0, σ2

2)

σ−21 , σ−22 , σ−2e ∼ Gamma(0.01, 0.01), β1, β2 ∼ Unif(−∞,+∞).

Este modelo de�ne uma distribuição para os respondentes e outra para os não res-

pondentes, portanto conclui-se que o mecanismo de não-resposta é não ignorável.

13

Estimação

A distribuição a posteriori conjunta de todos os parâmetros para o modelo de�nido

pelas etapas (3.12) e (3.13) é dada por:

f(ymis,β,α,σ2,ν | yobs, robs) ∝

l∏i=1

ni∏j=1

[1

σeexp

{−(yij − (β0 + ν1i + (β1 + ν2irij)aij)

2

2σ2e

}]

×l∏

i=1

ni∏j=1

[exp((α1 + α2bij + ηi)rij)

1 + exp(α1 + α2bij + ηi)

]×(

1

σ22

)a2−1

exp

(−b2σ2

2

)

×l∏

i=1

[1

σ1exp

(−ν21i2σ2

1

)× 1

σ2× exp

(−ν22i2σ2

2

)]× 1

σηexp

(−η2i2σ2

η

)

×(

1

σ2η

)a2−1

exp

(−b2σ2

η

)×(

1

σ2e

)a2−1

exp

(−b2σ2

e

)×(

1

σ21

)a2−1

exp

(−b2σ2

1

)Com a = 0.001 e b = 0.001. Para serem obtidas amostras da distribuição a posteriori

dos parâmetros é necessário utilizar Metropolis-Hastings, pois algumas das distribuições

condicionais completas não possuem forma fechada, ver o Apêndice A.

3.2.2 Estudo de simulação

A �m de estudar o comportamento do Modelo 1 descrito anteriormente em (3.12)

e (3.13), foi realizado um estudo de simulação para se veri�car se os parâmetros são

recuperados. Na Tabela 3.1 encontram-se os valores �xados. A escolha dos valores dos

parâmetros foi baseada no ajuste deste modelo para o conjunto de dados da Pesquisa

Nacional de Saúde do IBGE, sendo Yij o índice de massa corporal e a variável auxiliar aij

a idade do individuo j na área i. Detalhes sobre estes dados serão dados no Capítulo 5.

Foram geradas 14513 observações para 27 áreas. Gerando-se uma taxa de não-resposta

em torno de 10% em cada área.

Parâmetro Valor Parâmetro Valor

β1 24 β2 0.04

σ21 0.1 σ22 0.01

σ2e 25 σ2η 0.2

α1 1.8 α2 0.02

Tabela 3.1: Dados Simulados. Modelo 1: valores �xados para os parâmetros.

14

Na Figura 3.1 pode-se observar a distribuição dos dados simulados, que têm o com-

portamento esperado de uma distribuição normal. Foram atribuídas as seguintes distri-

buições a priori independentes e não informativas para os parâmetros β e α.

β1, α1, α2 ∼ N(0, 100) e β2 ∼ N(0, 10).

0

500

1000

1500

0 20 40

Y

Cou

nt

Histograma de Y

Figura 3.1: Dados simulados. Modelo 1: Histograma da variável Y.

A estimação da distribuição a posteriori dos parâmetros foi feita utilizando MCMC

(Monte Carlo via Cadeias de Markov), para mais informação sobre este método ver

Gamerman and Lopes (2006). Foram geradas duas cadeias de tamanho 31000 com um

período de aquecimento de 1000, tomando os valores a cada 10 iterações 2. Na Figura 3.2

apresentam-se os grá�cos3 do histórico e a densidade das cadeias para alguns parâmetros.

Cabe ressaltar que os parâmetros β1 e ν11 não parecem convergir enquanto os restantes

sim. A linha azul tracejada representa o valor �xado na simulação para cada parâmetro.

Com o �m de acelerar a convergência das cadeias foi proposto reparametrizar os

parâmetros β1 e ν1i da seguinte forma: β1i|σ21 ∼ N(θ, σ2

1). Assim �ca de�nido o Modelo

1.1 na segunda etapa como:

yij = β1i + (β2 + ν2i rij) aij + eij (3.14)2Os modelos foram rodados em OpenBUGS através do pacote do R, R2OpenBUGS.3 Os grá�cos foram obtidos com o pacote do R ggmcmc, ver Fernández-i Marín (2016).

15

β1

1000 6000 11000 16000 21000−10

0

10

20

Iterationva

lue

Chain

1

2

β1

−10 0 10 200

1

2

3

value

dens

ity

Chain

1

2

ν1

1000 6000 11000 16000 21000

0

10

20

30

Iteration

valu

e

Chain

1

2

ν1

0 10 20 300.00

0.25

0.50

0.75

value

dens

ity

Chain

1

2

β2

1000 6000 11000 16000 21000

0.03

0.04

0.05

Iteration

valu

e

Chain

1

2

β2

0.03 0.04 0.050

25

50

75

valuede

nsity

Chain

1

2

α1

1000 6000 11000 16000 21000

1.5

1.8

2.1

Iteration

valu

e

Chain

1

2

α1

1.5 1.8 2.10

1

2

3

value

dens

ity

Chain

1

2

Figura 3.2: Grá�co da densidade e histórico das cadeias dos parâmetros β1, ν11, α1 e β2,

para os dados simulados do Modelo 1.


e), β1i | σ21 ∼ N(θ, σ2

1), ηi ∼ N(0, σ2n)

β2 ∼ N(0, w), ν2i ∼ N(0, σ22), σ−21 , σ−22 , σ−2e ∼ Gamma(0.01, 0.01)

θ, α1, α2 ∼ N(0, k) com w = 10, k = 100.

A primeira etapa tem a mesma forma de (3.13) mudando as distribuições a priori dos

parâmetros α1 e α2 como foi descrito anteriormente.

Com o �m de apresentar o efeito da reparametrização na aceleração da convergência

das cadeias do Modelo 1, foram comparados os ajustes dos modelos de�nidos em (3.13)

e (3.14) para os dados simulados sob o Modelo 1, da seguinte forma: geraram-se duas

cadeias de tamanho 5000 para cada modelo. Na Figura 3.3 encontra-se um resumo dos

históricos das cadeias para os parâmetros β1, β2, σ21 e ν11 do Modelo 1, e os parâmetros

θ, β2 e σ21 do Modelo 1.1. Analisando-se o traço da cadeia do parâmetro σ2

1 para o Modelo

1.1, a partir da iteração 1000, pode-se observar que as cadeias parecem convergir para o

mesmo valor, enquanto para o Modelo .1.1 ainda não convergiram.

Para analisar o comportamento do Modelo 1.1 foram gerados N = 14513 dados para

16

β1

0 1000 2000 3000 4000 5000

−50

0

50

Iterationva

lue

Chain

1

2

θ

0 1000 2000 3000 4000 5000

0

10

20

30

Iteration

valu

e

Chain

1

2

β2

0 1000 2000 3000 4000 5000

0.0

0.3

0.6

Iteration

valu

e

Chain

1

2

β2

0 1000 2000 3000 4000 5000−0.2

−0.1

0.0

0.1

0.2

0.3

Iteration

valu

e

Chain

1

2

σ2

0 1000 2000 3000 4000 50000

20000

40000

60000

80000

Iteration

valu

e

Chain

1

2

σ2

0 1000 2000 3000 4000 50000

30000

60000

90000

120000

Iterationva

lue

Chain

1

2

ν1

0 1000 2000 3000 4000 5000−200

0

200

Iteration

valu

e

Chain

1

2

σ2

1000 1500 2000 2500 30000.00

0.25

0.50

0.75

Iteration

valu

e

Chain

1

2

Figura 3.3: Dados simulados. Modelo 1. Esquerda: Grá�co do histórico das cadeias dos

parâmetros β1, β2, σ21 e ν11, para o ajuste do Modelo 1. Direita: Grá�co do histórico das

cadeias dos parâmetros θ, β2 e σ21 para o ajuste do Modelo 1.1

l = 27 áreas, mantendo a taxa de não-resposta em torno de 10% em cada área. Na Tabela

3.2 encontram-se os valores �xados dos parâmetros.

Parâmetro Valor Parâmetro Valor

θ 24 β1 0.04

σ21 0.1 σ22 0.01

σ2e 25 σ2η 0.2

α1 1.8 α2 0.02

Tabela 3.2: Dados Simulados. Modelo 1.1: valores �xados para os parâmetros.

Na Figura 3.4 apresentam-se os grá�cos do histórico e a densidade das cadeias. Foram

geradas duas cadeias de tamanho 151000 com um período de aquecimento de 1000, to-

mando os valores a cada 50 iterações. Pode-se observar que as cadeias parecem convergir.

Exceto a cadeia do parâmetro β2, a moda a posteriori das cadeias está próxima do valor

17

�xado na simulação.

θ

1000 26000 51000 76000 101000

23.50

23.75

24.00

24.25

Iteration

valu

e

Chain

1

2

θ

23.50 23.75 24.00 24.250

1

2

3

value

dens

ity

Chain

1

2

β2

1000 26000 51000 76000 101000

0.00

0.05

0.10

Iteration

valu

e

Chain

1

2

β2

0.00 0.05 0.100

5

10

15

value

dens

ity

Chain

1

2

α1

1000 26000 51000 76000 1010001.25

1.50

1.75

2.00

2.25

Iteration

valu

e

Chain

1

2

α1

1.25 1.50 1.75 2.00 2.250

1

2

3

value

dens

ity

Chain

1

2

σ2

1000 26000 51000 76000 1010000.0

0.1

0.2

0.3

0.4

Iteration

valu

e

Chain

1

2

σ2

0.0 0.1 0.2 0.3 0.40

5

10

15

20

value

dens

ity

Chain

1

2

Figura 3.4: Grá�co da densidade e histórico das cadeias dos parâmetros θ, α1, σ21 e β2,

para os dados simulados do Modelo 1.1.

3.2.3 Mecanismo de não-resposta ignorável

Um modelo hierárquico em que o mecanismo de não-resposta é ignorável pode ser

obtido através do modelo descrito em (3.12) e (3.13) quando ν2i = 0 ∀i, assim o Modelo

0 que descreve os dados utilizando uma variável auxiliar é dado por:

yij = β1 + νi + β2 aij + eij (3.15)

Com eij | σ2 ∼ N(0, σ2), νi | δ2 ∼ N(0, δ2), σ−2, δ−2 ∼ Gamma(0.01, 0.01),

β1, β2 ∼ Unif(−∞,+∞).

Para testar se ν2i = 0 observa-se o respectivo intervalo de credibilidade e no caso em

que o valor zero esteja contido no intervalo se diz que o mecanismo de não-resposta é

ignorável.

18

3.3 Modelos com efeitos aleatórios questionáveis

Existem varias técnicas para avaliar a inclusão de parâmetros em um modelo. Para o

modelo de regressão Mitchell and Beauchamp (1988) de�nem mediante o enfoque baye-

siano a distribuição spike and slab, um tipo de distribuição a priori para cada coe�ciente

de regressão. Esta é de�nida como sendo uma mistura de uma distribuição degenerada

em zero (spike) e uma distribuição uniforme difusa em outra parte (slab). O objetivo

principal é calcular as probabilidades a posteriori dos diferentes modelos que incluem

ou não os diferentes parâmetros para escolher assim o "melhor" submodelo, permitindo

também o cálculo da probabilidade a posteriori de que o parâmetro seja igual a zero.

Gonçalves (2006) de�ne uma metodologia aplicada à Teoria de Resposta ao Item

(TRI), para determinar quais itens possuem funcionamento diferencial do item (DIF).

Em outras palavras, consideraram a hipótese de que alguns itens possam ter um compor-

tamento diferente dentro de dois ou mais grupos. Para o parâmetro relacionado ao DIF,

é considerada uma distribuição a priori do tipo point-mass mixture. Com probabilidade

1 − p do parâmetro ter uma distribuição degenerada em zero e com probabilidade p de

ter uma distribuição contínua. A partir da média a posteriori de p é determinado se o

item tem DIF.

A função dos efeitos aleatórios na modelagem é importante, pois estes levam em

conta a falta de ajuste do modelo para a variável de interesse. Datta and Mandal (2011)

demonstraram que se a escolha das variáveis auxiliares for adequada, o ajuste da variável

resposta através destas determina a exclusão dos efeitos aleatórios no modelo de pequenas

áreas. Os autores de�nem um teste de hipótese no qual a hipótese nula é representada

por um modelo sem efeitos aleatórios. A estatística de teste está baseada no ajuste de

um modelo que leva em conta só as variáveis auxiliares.

Datta and Mandal (2015) de�nem uma distribuição do tipo spike and slab para os

efeitos aleatórios no modelo hierárquico de pequenas áreas de (Fay and Herriot; 1979)

da seguinte forma: com probabilidade (1 − π) o efeito aleatório é omitido (distribuição

degenerada em zero) para qualquer área e com probabilidade π o efeito aleatório tem uma

distribuição não degenerada normal. Esta metodologia é proposta baseada no enfoque de

Datta and Mandal (2011). Neste caso os efeitos aleatórios podem ser excluídos só para

algumas áreas e não necessariamente para todas.

19

3.3.1 Modelo de Fay and Herriot e distribuição spike and slab

Nas pesquisas amostrais são calculados estimadores e quantidades populacionais a

partir dos valores da amostra obtida. Isto pode ser feito através do uso dos pesos amos-

trais expandindo os valores observados ou mediante a modelagem da variável de interesse.

Na estatística clássica é feita uma estimação dos valores não observados e na estatística

Bayesiana são calculadas as distribuições preditivas para as unidades não amostrais.

Algumas vezes é de interesse o cálculo de indicadores para algumas áreas ou grupos

especí�cos, chamados domínios. O tamanho da amostra é calculado para obter um nível

de precisão aceitável na estimação das quantidades populacionais, mas é possível que

o tamanho das unidades observadas para alguns domínios seja pequeno para realizar

estimações con�áveis. As áreas com esse tipo de condições são denominadas de pequenas

áreas.

Seja Yi o estimador baseado no desenho para a área i para a variável de interesse Y

e xi a variável auxiliar correspondente. Fay and Herriot (1979) introduziram um modelo

para pequenas áreas baseado nos estimadores diretos da seguinte forma:

Yi = θi + ei, θi = xtiβ + νi, i = 1, . . . , l. (3.16)

Com ei ∼ N(0, Di) νiind∼ N(0, σ2

ν)

Onde θi é uma medida resumo da caraterística a estimar para a área i, ei é o erro

amostral do estimador Yi, νi é o efeito aleatório da área. Note que neste modelo todas

as áreas possuem um efeito aleatório associado.

Datta and Mandal (2015) propõem o seguinte modelo baseado no modelo de Fay and

Harriot. Assume-se que algumas áreas poderiam não ter efeito de área, sobre o enfoque

Bayesiano o modelo é de�nido como segue:

1. Condicional a θ1, . . . , θl, δ1, . . . , δl, ν1, . . . , νl, p, β e σ2ν os estimadores diretos

Yiind∼ N(θi, Di).

2. Condicional a δ1, . . . , δl, ν1, . . . , νl, p, β e σ2ν , θi é dado por:

θi = xtiβ + δiνi

e δ1, . . . , δl independentes e identicamente distribuídos com

P (δi = 1) = π = 1− P (δi = 0)

20

Condicional a δ1, . . . , δl e σ2ν os efeitos aleatórios ν1, .., νl são independentes e identi-

camente distribuídos com νi = 0 quando δi = 0 e condicional a δi = 1, νiind∼ N(0, σ2

ν)

para i = 1, . . . , l.

3. A priori os hiperparâmetros β, σ2ν , π são independentemente distribuídos

P (β, σ2ν , π) = P (σ2

ν)P (π)P (β).

Atribuindo-se as seguintes distribuições a priori : uniforme imprópria para β, σ2ν ∼

InvGama(b, a) e p ∼ Beta(c, d).

Neste modelo tem-se suposto que o Di é conhecido, para algumas áreas. É necessário

adicionar um efeito aleatório de área normal e é pouco provável que todas as áreas

precisam deste efeito.

Seja y = (y1, . . . , yl), ν = (ν1, . . . , νl)t, δ = (δ1, . . . , δl)

t, D = diag(D1, . . . , Dl), X =

(x1, . . . , xm)t, γ−i = (γ1, . . . , γi−1, γi+1, . . . , γl). A distribuição a posteriori conjunta de

todos os parâmetros a partir do modelo de�nido anteriormente é dada por:

f(β, δ,ν, σ2ν , π | y) ∝

l∏i=1

[exp

{−(yi − xt

iβ − δi νi)2

2Di

}]×

l∏i=1

[1

σνexp

{−ν2i2σ2

ν

}]δi[I(νi = 0)]1−δi

× pc−1(1− p)d−1 ×l∏

i=1

[πδi(1− π)1−δi

]× σ−(b+1)

ν exp

{−aσ2ν

}Para a estimação das distribuições a posteriori, o algoritmo de Gibbs é usado. As condi-

cionais completas são dadas por:

1. β | ν, δ, p, σν2 ,y ∼ N((XtD−1X)−1XtD−1(y − δ · ν), (XtD−1X)−1), com

δ · ν = (δ1 ν1, . . . , δl νl)t

2. νi | ν−i, δ,β, p, σν ,y é degenerada em zero se δi = 0, se δi = 1 temos:

νi | ν−i, δi = 1, δ−i, β, p, σν ,y ∼ N

(σ2ν

σ2ν +Di

(yi − xi β),σ2ν Di

σ2ν +Di

)3. P (δi = 1 | ν, δ−i, β, p, σ

2ν , y) = π

π+(1−π)√σ2ν+DiDi

exp

{(yi−x

ti β)

2 σ2ν

2Di (Di+σ2ν )

}

4. σ2ν | ν, δ, β, p, y ∼ InvGamma

(b+ 1

2

∑li=1 δi, a+ 1

2

∑li=1 δi ν

2i

)Para mais detalhes sobre o cálculo de P (δi = 1 | ν, δ−i, β, p, σ

2ν , y) e a demostração

de que a distribuição a posteriori de β é propria ver Datta and Mandal (2015).

21

Capítulo 4

Modelo proposto: modelo de

não-resposta não ignorável com

distribuição spike and slab

Na Seção 3.2.3 foi de�nido um modelo com mecanismo de não-resposta ignorável

baseado no modelo apresentado em Liu (2003). Para avaliar a hipótese de ν2i = 0, é

sugerido fazer uma análise dos intervalos de credibilidade dos efeitos aleatórios, sendo

de�nida a seguinte regra: se o intervalo contém o zero o efeito é não signi�cativo e assim

o mecanismo de não-resposta que esta associado a este é ignorável.

Baseado no modelo hierárquico de não-resposta não ignorável apresentado em Nan-

dram and Choi (2005) e o modelo de Fay and Herriot e distribuição spike and slab

apresentado por e Datta and Mandal (2015), é proposto um modelo de não-resposta não

ignorável com distribuição spike and slab. A idéia principal do modelo proposto nesta

dissertação de mestrado é modi�car a distribuição a priori dos efeitos ν2i, anteriormente

de�nida como, ν2i ∼ N(0, σ22), por uma distribuição a priori spike and slab.

4.1 O modelo

O modelo de não-resposta não ignorável com distribuição spike and slab Modelo 2

é de�nido em duas etapas da seguinte forma:

• Etapa 1:

rij|α1, α2, σ2η ∼ Bernoulli

(exp(α1 + α2 bij + ηi)

1 + exp(α1 + α2 bij + ηi)

)22

Com ηi ∼ N(0, σ2n), σ−2η ∼ Gamma(a, b), α1, α2 ∼ N(0, k)

• Etapa 2:

yij = β1i + (β2 + ν2i rij δi) aij + eij i = 1, ..., l. e j = 1, ..., ni (4.1)


e), β1i | σ21 ∼ N(θ, σ2

1), β2 ∼ N(0, w)

σ−2e , σ−21 , σ−22 ∼ G(a, b), θ ∼ N(0, k), δi | π ∼ Bern(π), π ∼ Beta(c, d)

ν2i ∼ (1− π) I{0}(ν2i) + π N(0, σ22)

A probabilidade a posteriori de δi = 1 de�ne se na área i o efeito aleatório ν2i é

incluído, assumindo assim que existe diferença no mecanismo de não-resposta desta área.

Logo existem áreas nas quais o mecanismo de não-resposta é ignorável e outras nas quais

é não ignorável. Para uma população com este tipo de comportamento, seria inadequado

assumir um modelo de não-resposta no qual se de�ne que todas as áreas têm o mesmo

tipo de mecanismo.

4.2 Estimação

A distribuição a posteriori conjunta dos parâmetros de interesse para o modelo pro-

posto anteriormente é dada por:

p(ν2i,α,β, π,σ2, δ,ymis | yobs, r) ∝

l∏i=1

ni∏j=1

[1

σeexp

{−(yij − β1i − β2 aij − ν2i rij δi aij)2

2σ2e

}]

×l∏

i=1

[1

σ1exp

{−(β1i − θ)2

2σ21

}[1

σ2exp

{−ν22i2σ2

2

}]δi[I(ν2i = 0)]1−δi

]

×l∏

i=1

ni∏j=1

[exp{(α1 + α2 bij + ηi) rij}1 + exp{α1 + α2 bij + ηi}

]× exp

{−β2

2

2w

}× exp

{−θ2

2 k

}

×l∏

i=1

[πδi(1− π)1−δi × 1

σ2η

exp

{−η2i2σ2

}]× πc−1(1− π)d−1

× exp{−α2

1

2 k

}× exp

{−α2

2

2 k

}×(

1

σ22

)a−1exp

{−bσ22

}×(

1

σ2e

)a−1×(

1

σ2η

)a−1exp

{−bσ2η

}×(

1

σ21

)a−1exp

{−bσ21

}× exp

{−bσ2e

}23

A estimação da distribuição a posteriori dos parâmetros foi feita utilizando o algor-

timo de Gibbs com paso de Metropolis. As condicionais completas são dadas por:

1. yij(mis) | ν2i, β, rij, σe, δi ∼ N(β1i + β2 aij + ν2i rij δi aij, σ2e)

2. β1i | ν2i, β2, θ, rij, σ2e , σ

21, δi ∼ N

((∑nij=1(yij −β2 aij −ν2i rij δi aij)

σ2e

+ θσ21

)(σ21 σ

2e

σ2e+σ

21ni

),

σ2e σ

21

(σ2e+σ

21ni)

)3. Se δi = 0 então p(ν2i = 0) = 1, Se δi = 1 então:

ν2i | β, rij, σ2e , σ

22, δi ∼ N

(ni∑j=1

(yij − β2 aij − β1i) (rij δi aij)

σ2e

(∑nij=1(rij δi aij)

2

σ2e

+1

σ22

)−1,

σ2eσ

22∑ni

j=1(rij δi aij)2σ2

2 + σ2e

)

4. Para β2:

β2 | ν2i, β1i, rij, σ2e , δi ∼ N

(l∑

i=1

ni∑j=1

aij(yij − ν2i rij δi aij − β1i)

(w

w∑l

i=1

∑nij=1 a

2ij + σ2

e

),

σ2ew

w∑l

i=1

∑nij=1 a

2ij + σ2

e

)

5. θ | β1i, σ21 ∼ N

(∑li=1 β1i

(k

lk+σ21

),kσ2

1

lk+σ21

)6. p(α1, α2 | η, r) ∝

∏li=1

∏nij=1

[exp{(α1+α2 aij+ηi) rij}1+exp{α1+α2 aij +ηi}

]× exp

{−α2

1

2k

}× exp

{−α2

2

2k

}7. p(ηi | α1, α2, r, σ

2η) ∝

∏nij=1

[exp{(α1+α2 aij+ηi) rij}1+exp{α1+α2 aij +ηi}

]× exp

{−η2i2σ2

η

}8. π | δ ∼ Beta

(∑li=1 δi + c, l + d−

∑li=1 δi

)9. σ−22 | δ, ν2i ∼ Gamma

(∑li=1

δi2

+ a,∑li=1 δi ν

22i

2+ b)

10. σ−2e | β, ν2i, r, δ ∼ Gamma(n2

+ a,∑l

i=1

∑nij=1

(yij −β1i−β2 aij −ν2i rij δi aij)22

+ b)

11. σ−21 | β1i, θ ∼ Gamma(l2

+ a,∑l

i=1(β1i− θ)2

2+ b)

12. σ−2η | η ∼ Gamma(l2

+ a,∑l

i=1η2i2

+ b)

24

13. p(δi = 1 | β1i, β2, σ2e , σ

22, r, y) = π

π+(1−π)

∏nij=1

1√2πσe

exp

{−(yij −β1i −β2 aij)2

2σ2e

}∏nij=1

1√2π(σ2e+σ

22 (aij rij)

2)exp


2(σ2e+σ22 (aij rij)

2)

}

O cálculo detalhado das condicionais completas de 2 - 12 se encontra no Apéndice B. Para

o cálculo de p(δi = 1 | β1i, β2, σ2e , σ

22, r, y) é preciso calcular a distribuição condicional de

yij | β, σ2e , σ

22, rij. De (4.1) temos o seguinte:

E[yij | β, σ2e , σ

22, rij] = Eδi, ν2i

[E[yij | β, σ2

e , σ22, rij, δi, ν2i]

]= Eδi, ν2i [β1i + β2 aij + ν2i δi aij]

= β1i + β2 aij ∀ δi

(4.2)

Sabe-se que :

V [yij | β, σ2e , σ

22, rij] =Eδi, ν2i

[V [yij | β, σ2


]+

Vδi, ν2i[E[yij | β, σ2


] (4.3)

Calculando os termos em (4.3):

Vδi, ν2i[E[yij | β, σ2

e , σ22, rij, δi, ν2i

]= Vδi, ν2i [β1i + β2 aij + ν2i δi aij]

=

(aijrij)2σ2

2 se δi = 1

0 se δi = 0

(4.4)

Eδi, ν2i[V [yij | β, σ2


]= Eδi, ν2i [σ

2e ] = σ2

e ∀ δi (4.5)

Assim obtem-se :

V [yij | β, σ2e , σ

22, rij] =

(aijrij)2σ2

2 + σ2e se δi = 1

σ2e se δi = 0

(4.6)

25

Seja ε = (β1i, β2, σ2e , σ

22, rij), usando o teorema de Bayes e as expressões obtidas em

(4.2) e (4.6) obtém-se:

P (δi = 1 | ε, y) =P (δi = 1; ε, y)

P (ε, y)

=P (ε, y | δi = 1)P (δi = 1)

P (ε, y)

=P (ε, y | δi = 1)P (δi = 1)

P (ε, y | δi = 1)P (δi = 1) + P (ε, y | δi = 0)P (δi = 0)

=π

π + (1− π)P (ε,y|δi=0)P (δi=0)P (ε,y|δi=1)P (δi=1)

=π

π + (1− π)

∏nij=1

1√2πσe

exp


2σ2e

}∏nij=1

1√2π(σ2e+σ

22 (aij rij)

2)exp



2)

}

4.3 Estudo de simulação

Com o objetivo de estudar o desempenho do modelo proposto na equação (4.1), foi

feito um estudo de simulação para veri�car a recuperação dos parâmetros.

Foram gerados N = 14513 dados para l = 27 áreas com os seguintes parâmetros:

yij = β1i + (0.03 + ν2i rij δi) aij + eij i = 1, ..., 27. e j = 1, ..., ni (4.7)

Com eij ∼ N(0, 225.6), δi ∼ Bernoulli(0.7)

ν2i ∼ 0.3 I{0}(ν2i) + 0.7N(0, 0.1)

rij ∼ Bernoulli

(exp{1.8 + 0.02 aij + ηi}

1 + exp{1.8 + 0.02 aij + ηi}

)

β1i ∼ N(71, 6.6), ηi ∼ N(0, 0.2)

Gerando uma taxa de não-resposta em torno de 10% em cada área. Um dos objetivos

é veri�car se o modelo consegue identi�car em quais áreas o efeito aleatório ν2i deve ser

incluído.

Para a estimação da distribuição a posteriori dos parâmetros foram geradas duas

cadeias, cada uma de tamanho 3000, descartando as primeiras 1000 do período de aque-

cimento e tomando os valores a cada 50 iterações. Na Figura 4.1 são exibidos os grá�cos

26

do histórico das cadeias e o grá�co da densidade dos parâmetros β2, θ, α1, σ21 e π. Pode-

se observar que as cadeias parecem convergir, as estimações estâo próximas da linha azul

tracejada que indica o valor real do parâmetro.

β2

1000 26000 51000 76000 101000−0.10−0.05

0.000.05

Iteration

valu

e

Chain

1

2

β2

−0.10 −0.05 0.00 0.0505

10152025

value

dens

ity

Chain

1

2

θ

1000 26000 51000 76000 101000

68

70

72

Iteration

valu

e

Chain

1

2

θ

68 70 720.0

0.2

0.4

0.6

value

dens

ity

Chain

1

2

α1

1000 26000 51000 76000 101000

1.61.82.02.2

Iteration

valu

e

Chain

1

2

α1

1.6 1.8 2.0 2.20

1

2

3

value

dens

ityChain

1

2

σ2

1000 26000 51000 76000 101000

10

20

30

Iteration

valu

e

Chain

1

2

σ2

10 20 300.00

0.05

0.10

value

dens

ity

Chain

1

2

π

1000 26000 51000 76000 101000

0.40.60.81.0

Iteration

valu

e

Chain

1

2

π

0.4 0.6 0.8 1.00

1

2

3

value

dens

ity

Chain

1

2

Figura 4.1: Grá�co da densidade e histórico das cadeias dos parâmetros β2, θ, α1, σ21 e

π, para os dados simulados do Modelo 2.

Na Tabela 4.1 encontram-se as probabilidades a posteriori de δi = 1. Pode-se ob-

servar que o modelo consegue recuperar os valores reais exceto para três áreas, quando

de�nimos a seguinte regra, se a probabilidade a posteriori de δi = 1 é maior do que 0.4

então atribuímos δi = 1.

27

Parâm. Prob. ap Sim Parâm. Prob. ap Sim Parâm. Prob. ap Sim

δ1 0.3 0 δ10 1 1 δ19 1 1

δ2 0.4 0 δ11 0.4 0 δ20 0.4 0

δ3 0.5 1 δ12 1 1 δ21 0.4 1

δ4 0.7 1 δ13 0.3 0 δ22 1 1

δ5 1.0 1 δ14 0.3 0 δ23 1 1

δ6 1.0 1 δ15 0.3 0 δ24 0.3 1

δ7 1.0 1 δ16 0.7 0 δ25 1 1

δ8 1.0 1 δ17 0.3 0 δ26 0.3 0

δ9 0.3 0 δ18 1 1 δ27 0.4 0

Tabela 4.1: Sumários da probabilidade a posteriori (Prob. ap) de δi = 1 e os valores

simulados (Sim) para cada δi, para os dados simulados do Modelo 2.

28

Capítulo 5

Aplicação a dados reais

5.1 Terceira Pesquisa Nacional de Saúde e da Nutrição

(NHANES III 1988-1994)

Neste capítulo apresenta-se uma aplicação do modelo proposto no Capítulo 4 aos

dados da terceira Pesquisa Nacional de Saúde e Nutrição (NHANES III). O conjunto de

dados analisados é formado pelo índice de massa corporal (IMC) e a idade de crianças

e adolescentes dos municípios dos Estados Unidos com uma população maior do que

500000.

O desenho amostral é multietápico e estrati�cado. Na primeira etapa é feita uma

entrevista geral dos integrantes do domicílio. Na segunda etapa é selecionada uma amos-

tra de pessoas maiores de dois anos para realizar um exame no centro médico. Nesta

etapa ocorre a não-resposta pois alguns indivíduos não participam do exame, a taxa de

não-resposta está em torno de 10%.

O Centro Nacional de Estatísticas de Saúde (NCHS) forneceu os dados usados nesta

aplicação e foram baixados de seu site1. Estes dados foram analisados por Nandram and

Choi (2005), onde propuseram uma abordagem de modelos de não-resposta não ignorável

de seleção e de mistura de padrões. Os autores supõem que o tipo de mecanismo de não-

resposta é o mesmo para todos os estados.

Cohen and Du�y (2002) apontam que a propensão de resposta em estudos de saúde

depende do estado de saúde. Baseado nesse suposto propomos ummodelo de não-resposta

não ignorável spike and Slab para o IMC das crianças e adolescentes de 2 a 19 anos de

idade. Neste modelo o mecanismo de não-resposta pode ser diferente em cada área

1https://www.cdc.gov/nchs/nhanes/nhanes3.htm

29

https://www.cdc.gov/nchs/nhanes/nhanes3.htm

(estado).

5.1.1 Modelo de não-resposta ignorável

Inicialmente foi ajustado um modelo hierárquico ignorável para os dados, seja yij o

IMC, aij a idade do indivíduo, o modelo pode ser descrito por:

yij = β1i + β2 aij + eij i = 1, . . . , 31. e j = 1, . . . , ni (5.1)


e), β1i,∼ N(θ, σ21), β2 ∼ N(0, 10), θ ∼ N(0, 100)

σ−2e , σ−21 ∼ Gamma(0.01, 0.01)

Para a estimação dos parâmetros foi usado o algoritmo de Gibbs com duas cadeias de

tamanho 3000. Cada uma com um período de aquecimento de 1000 e tomando os valores

a cada 20 iterações. A análise do grá�co das cadeias dos parâmetros foi realizada e se

observou um comportamento que indica convergência. Além disso foi calculado o critério

de convergência Geweke. O método divide a cadeia em dos grupos. A primeira cadeia

é obtida tomando-se uma porcentagem do inicio da cadeia e a segunda tomando-se uma

porcentagem do �nal. A idéia é comparar as médias desses grupos. Se a cadeia converge

as médias serão próximas. O critério para a comparação é baseado na distribuição normal

das diferenças das médias. Para mais detalhes ver Geweke (1992).

Na Figura 5.1 observam-se os valores do critério de convergência para os parâmetros

β2, θ e σ21. Estes encontram-se entre -2 e 2, o que indica que as cadeias convergiram.

Nesta Figura também encontram-se as autocorrelações das cadeias para veri�car a in-

dependência dos valores gerados. Na Tabela 5.1 apresentam-se as estatísticas resumo

para os parâmetros β2, θ, σ2e e σ2

1 do modelo. A média a posteriorii do parâmetro β2

indica que o IMC aumenta conforme a idade aumenta. A média geral do IMC para os

indivíduos de todos os estados é de 14.

30

●●β2

−2 −1 0 1 2

z

Par

amet

er Chain●

●

1

2

Geweke Diagnostics 1 2

β2

0 10 20 30 40 50 0 10 20 30 40 50

−1.0

−0.5

0.0

0.5

1.0

Lag

Aut

ocor

rela

tion

Chain

1

2

●●θ

−2 −1 0 1 2

z

Par

amet

er Chain●

●

1

2


θ

0 10 20 30 40 50 0 10 20 30 40 50

−1.0

−0.5

0.0

0.5

1.0

Lag

Aut

ocor

rela

tion

Chain

1

2

●●σ2

−2 −1 0 1 2

z

Par

amet

er Chain●

●

1

2


σ2

0 10 20 30 40 50 0 10 20 30 40 50

−1.0

−0.5

0.0

0.5

1.0

Lag

Aut

ocor

rela

tion

Chain

1

2

Figura 5.1: Dados NHANES III. Modelo ignorável: critério de convergência de Geweke

e autocorrelação para os parâmetros β2, θ e σ21.

Parâm. Média Desv. I.C. 95%

β2 0.5 0.009 (0.49, 0.53)

θ 14 0.1 (13.7, 14.2)

σ2e 12.1 0.2 (11.7, 12.6)

σ21 0.2 0.1 (0.1, 0.4)

Tabela 5.1: Dados NHANES III. Modelo ignorãvel: média, desvio padrão (Desv.) e

intervalo de 95% de credibilidade (I.C) para os parâmetros β2, θ, σ2e e σ

21.

5.1.2 Modelo de não-resposta não ignorável e distribuição spike

and slab

Baseado no suposto de que pessoas menos saudáveis não participam do exame. De�-

nimos yij o IMC, aij a idade do indivíduo, rij = 1 se o indivíduo realiza o exame, rij = 0

caso contrario. O modelo de não-resposta não ignorável e distribuição spike and slab é

de�nido como:

yij = β1i + (β2 + ν2i rij δi) aij + eij i = 1, . . . , 31. e j = 1, . . . , ni (5.2)

31


e), δi | π ∼ Bernoulli(π)

ν2i ∼ (1− π) I{0}(ν2i) + π N(0, σ22)

rij|α1, α2, ση ∼ Bernoulli

(exp(α1 + α2 aij + ηi)

1 + exp(α1 + α2 aij + ηi)

)

β1i | σ21 ∼ N(θ, σ2

1), ηi ∼ N(0, σ2n) β2 ∼ N(0, 10), σ−2e , σ−21 , σ−22 , σ−2η ∼ Gamma(0.01, 0.01)

θ, α1, α2 ∼ N(0, 100), π ∼ Beta(3, 4)

Neste modelo tem-se o suposto de que em cada área pode-se ter um mecanismo de

não-resposta diferente, ou seja, ignorável ou não. A decisão de que tipo de mecanismo

tem cada área está baseada na probabilidade a posteriori de δi = 1. Para a estimação

dos parâmetros foi usado o algoritmo de Gibbs com duas cadeias de tamanho 3000. Cada

uma com um período de aquecimento de 1000 e tomando-se os valores a cada 20 iterações.

Analisando-se o grá�co das cadeias dos parâmetros, conclui-se que a convergência foi

atingida. Nas Figuras 5.2 e 5.3 observam-se os valores do critério de convergência Geweke

para os parâmetros α1, α2, θ, δi e π. Estes se encontram entre -2 e 2, o que indica que

as cadeias convergiram. Na Figura 5.2 também são apresentadas as autocorrelações das

cadeias para veri�car a independência dos valores gerados.

●●

● ●

α1

α2

−2 −1 0 1 2

z

Par

amet

er Chain●

●

1

2


α1

α2

0 10 20 30 40 50 0 10 20 30 40 50

−1.0−0.5

0.00.51.0

−1.0−0.5

0.00.51.0

Lag

Aut

ocor

rela

tion

Chain

1

2

●●θ

−2 −1 0 1 2

z

Par

amet

er Chain●

●

1

2


θ

0 10 20 30 40 50 0 10 20 30 40 50

−1.0

−0.5

0.0

0.5

1.0

Lag

Aut

ocor

rela

tion

Chain

1

2

●●π

−2 −1 0 1 2

z

Par

amet

er Chain●

●

1

2


π

0 10 20 30 40 50 0 10 20 30 40 50

−1.0

−0.5

0.0

0.5

1.0

Lag

Aut

ocor

rela

tion

Chain

1

2

Figura 5.2: Dados NHANES III. Modelo não ignorável spike and slab: critério de con-

vergência de Geweke para os parâmetros α1, α2, θ e π.

32

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

● ●

δ1

δ2

δ3

δ4

δ5

δ6

δ7

δ8

δ9

δ10

δ11

δ12

δ13

δ14

δ15

δ16

δ17

δ18

δ19

δ20

δ21

δ22

δ23

δ24

δ25

δ26

δ27

δ28

δ29

δ30

δ31

−2 −1 0 1 2

z

Par

amet

er Chain●

●

1

2

Geweke Diagnostics

Figura 5.3: Dados NHANES III. Modelo não ignorável spike and slab: critério de con-

vergência de Geweke e autocorrelação para os parâmetros δi.

Na Tabela 5.2 apresentam-se as estatísticas resumo para os parâmetros do modelo.

As médias a posteriori dos parâmetros β2, θ e σ2e são similares as médias obtidas no

modelo ignorável. Analisando-se os resultados do modelo de não-resposta temos que o

parâmetro α2 indica que a chance de responder aumenta quando a idade aumenta. Na

Tabela 5.3 encontram-se a probabilidade a posteriori dos parâmetros δi = 1. Também

encontram-se os valores atribuídos a posteriori para cada δi a partir da seguinte regra: se

a probabilidade a posteriori de δi = 1 é maior do que 0.4 então δi = 1. Pode-se observar

que existe diferença entre os valores para cada estado. Isto con�rma o suposto de que o

mecanismo de não-resposta é diferente em cada estado.

Parâm. Média Desv. I.C. 95%.

α1 -2.2 0.1 (-2.5, -1.9)

α2 1.1 0.04 (1, 1.2)

β2 0.5 0.02 (0.48, 0.52)

θ 14 0.1 (13.8, 14.2)

σ2e 12.1 0.2 (11.6, 12.6)

Tabela 5.2: Dados NHANES III. Modelo não ignorável: média, desvio padrão (Desv.) e

intervalo de 95% de credibilidade (I.C) para os parâmetros β2, θ, σ2e α2 e α1.

33

Parâm. Prob.ap Valor Parâm. Prob.ap Valor Parâm. Prob.ap Valor

δ1 0.9 1 δ10 0.6 1 δ19 0.6 1

δ2 0.5 1 δ11 0.4 0 δ20 0.5 1

δ3 0.4 0 δ12 0.4 0 δ21 0.6 1

δ4 0.4 0 δ13 0.5 1 δ22 0.4 0

δ5 0.4 0 δ14 0.6 1 δ23 0.4 0

δ6 0.4 0 δ15 0.8 1 δ24 0.9 1

δ7 0.9 1 δ16 0.8 1 δ25 0.9 1

δ8 0.4 0 δ17 0.5 1 δ26 0.5 1

δ9 0.4 0 δ18 0.4 0 δ27 0.5 1

Tabela 5.3: Dados NHANES III. Sumários da média da probabilidade a posteriori (Prob.

ap) de δi = 1 e os valores atribuídos para cada δi (Valor).

Na Figura 5.4 observam-se para alguns estados os intervalos de 95% de credibilidade

para δi ν2i, acima de cada intervalo encontra-se a probabilidade a posteriori de δi =

0. Pode-se observar que a maioria dos intervalos contém o zero e nesses estados tem-

se atribuído a posteriori δi = 0. Nos estados 1 e 7 tem-se atribuído δi = 1 pois a

probabilidade a posteriori de δi = 0 é de 0.1, assim nesses estados teríamos um mecanismo

de não-resposta não ignorável. Para o estado 15 o valor zero está no extremo do intervalo,

e a distribuição de δ15 ν2,15 tem uma massa de probabilidade pequena 0.2 para ν2,15 = 0.

Logo temos diferentes mecanismos de não-resposta entre os estados.

34

●

● ● ● ● ●

●

● ●

0.1

0.5

0.6

0.6

0.6

0.6

0.6

0.6

0.1

−0.10

−0.05

0.00

0.05

0.10

ν 7 ν 2 ν 3 ν 4 ν 5 ν 6 ν 8 ν 9 ν 1

Parameter

HP

D

Figura 5.4: Dados NHANES III. Modelo não ignorável spike and slab: intervalos de 95%

de credibilidade para δi ν2i e probabilidade a posteriori de ν2i = 0.

35

●

0.2

−0.10

−0.05

0.00

ν 15

Parameter

HP

D

Figura 5.5: Dados NHANES III. Modelo não ignorável spike and slab: intervalo de 95%

de credibilidade para δ15 ν2,15 e probabilidade a posteriori de ν2,15 = 0

5.1.3 Comparação de modelos

Critério de informação do desvio DIC

O critério de informação do desvio DIC de�nido em Spiegelhalter and et al. (2002)

pode ser escrito da seguinte forma:

DIC = D + Pd (5.3)

Onde D(θ) é a função desvio calculada utilizando-se a função de log-verosimilhança,

Pd o "número efetivo de parâmetros" dado pela diferença da média a posteriori da função

desvio e a função desvio das médias a posteriori dos parâmetros. Sejam θ(1), ..., θ(M) os

valores gerados utilizando MCMC, as expressões destas medidas são dadas por:

D = E(D(θ) | Y ) ' 1

M

M∑k=1

D(θ(k)), Pd = D −D(θ∗)

D(θ) = − 2 lnf(y | θ), D(θ∗) ' D(θ)

θ =1

M

M∑k=1

θ(k)

36

Na Tabela 5.4 encontra-se o valor do DIC para os modelos ignorável (5.1) e não

ignorável (5.2). Comparando-se os valores, pode-se dizer que o modelo que ajusta melhor

aos dados é o modelo não ignorável com distribuição spike and slab, pois seu DIC (valor

em azul e em negrito) é menor. Isto con�rma que o mecanismo de não-resposta é não

ignorável e existe diferença entre os mecanismos de não-resposta em cada estado.

Modelo Dbar Pd DIC

Modelo 2 31358.54 605.62 31964.16

Modelo 0 31368.68 634.28 32002.96

Tabela 5.4: Dados NHANES III. Critério de seleção de modelo DIC. Modelo 2: modelo

não ignorável com distribuição spike and slab. Modelo 0: modelo ignorável.

Gelman and Hill (2007) descrevem alguns dos problemas resultantes na utilização do

cálculo do DIC para modelos hierárquicos, especi�camente com respeito ao termo Pd

que é instável. Celeux and et al. (2006) abordam a necessidade do cálculo de um DIC

ajustado no caso de dados faltantes. Portanto há a necessidade de se utilizar um outro

critério para a comparação dos modelos ajustados, neste trabalho foi escolhido o Critério

preditivo a posteriori.

Critério preditivo a posteriori

Gelfand and Ghosh (1998) de�nem o critério preditivo a posteriori, cujo objetivo

é obter boas predições dos dados observados. Este é obtido minimizando a perda a

posteriori e é calculado a partir de um termo de bondade de ajuste (G) e um termo de

penalidade (P) descritos da seguinte forma:

Dk = P +k

k + 1G (5.4)

P =∑

ij V ar(ypreij | y), G =

∑ij

{E(ypreij | y)− yobsij

}2Onde ypreij são as previsões ou réplicas de yij e y são os valores da amostra. No caso da

presença de não-resposta, estas medidas são calculadas só para os valores não faltantes

depois de ajustar o modelo de não-resposta.

37

Para os dados da aplicação �xamos k = 100. Na Tabela 5.5 encontra-se o valor de

D100, P e G para o Modelo 0 (ingorável), o Modelo 1.1 (descrito em 3.14) e o Modelo

2 (descrito em 5.2). Com base nesse critério conclui-se que o Modelo 2 é o melhor pois

tem o menor valor (valor em azul e em negrito). Logo, pode-se dizer que o mecanismo

de não-resposta é não ignorável e é diferente em cada estado.

Modelo G P D100

Modelo 0 62466.07 62944.73 124792.3

Modelo 1.1 62261.05 62966.73 124611.3

Modelo 2 62284.32 62901.87 124569.5

Tabela 5.5: Dados NHANES III. Critério preditivo a posteriori para o modelo ignorável

(Modelo 0), o modelo não ignorável com distribuição spike and slab (Modelo 2) e o modelo

não ignorável (Modelo 1.1).

5.2 Pesquisa Nacional de Saúde (PNS) - Brasil 2013

O Instituto Brasileiro de Geogra�a e Estatística (IBGE) realiza a Pesquisa Nacional

de Saúde (PNS) em intervalos regulares de cinco anos com o objetivo de estudar as

características de saúde da população brasileira. A população pesquisada compreendeu

moradores dos domicílios particulares nos 27 estados do país. Um dos interesses está

em construir marcadores fundamentais para o monitoramento de um dos mais graves

problemas que se colocam, hoje, no Brasil, a epidemia de sobrepeso e obesidade, para

mais detalhes ver IBGE (2014).

Os dados foram coletados mediante uma amostragem conglomerada em três estágios

com estrati�cação das unidades primárias de amostragem(UPAs). Os domicílios são as

unidades de segundo estágio e os moradores com 18 anos ou mais de idade de�nem as

unidades de terceiro estágio. Inicialmente foi feito contacto com a pessoa responsável

ou com algum dos moradores do domicílio selecionado. Este respondeu ao questionário

domiciliar e foi elaborada uma lista de todos os moradores adultos do domicílio. Logo

foi selecionado um morador com 18 anos ou mais de idade para agendar a entrevista de

um questionário especí�co, o qual contém aferições de peso e altura. Ainda assim alguns

indivíduos não participaram e a taxa de não-resposta está em torno de 10% em cada

estado.

Um dos objetivos deste trabalho é ajustar um modelo de não-resposta não ignorável

38

para a variável índice de massa corporal (IMC) calculada a partir das aferições do peso

e a altura. Este modelo leva em conta a idade (modelo 1). O pressuposto deste modelo

é que pessoas com sobrepeso e obesidade têm menos disposição de participar do estudo.

Este pressuposto será avaliado no ajuste do modelo.

5.2.1 Modelo de não-resposta não ignorável e distribuição spike

and slab

De�nimos yij o IMC, aij a idade do indivíduo, rij = 1 se o indivíduo realiza as

aferições, rij = 0 caso contrario. O modelo de não-resposta não ignorável e distribuição

spike and slab é de�nido como na equação (5.2).

Neste modelo tem-se o suposto de que em cada área pode-se ter um mecanismo de

não-resposta diferente, ou seja, ignorável ou não. A decisão de que tipo de mecanismo

têm cada área está baseada na probabilidade a posteriori de δi. Para a estimação dos

parâmetros foi usado o algoritmo de Gibbs com duas cadeias de tamanho 3000, cada

uma com um período de aquecimento de 1000 e tomando os valores a cada 50 iterações.

Análisando-se o grá�co das cadeias dos parâmetros observando-se um comportamento

que indica convergência, ver Figura 5.8.

Nas Figuras 5.6 e 5.7 observam-se os valores do critério de convergência Geweke para os

parâmetros. A maioria destes se encontram entre -2 e 2 o que indica que essas cadeias

convergiram. Na Figura 5.2 também são apresentadas as autocorrelações das cadeias

para veri�car a independência dos valores gerados.

39

● ●

● ●

α1

α2

−2 −1 0 1 2

z

Par

amet

er Chain●

●

1

2


α1

α2

0 10 20 30 40 50 0 10 20 30 40 50

−1.0−0.5

0.00.51.0

−1.0−0.5

0.00.51.0

Lag

Aut

ocor

rela

tion

Chain

1

2

●●θ

−2 −1 0 1 2

z

Par

amet

er Chain●

●

1

2


θ

0 10 20 30 40 50 0 10 20 30 40 50

−1.0

−0.5

0.0

0.5

1.0

Lag

Aut

ocor

rela

tion

Chain

1

2

● ●π

−2 −1 0 1 2

z

Par

amet

er Chain●

●

1

2


π

0 10 20 30 40 50 0 10 20 30 40 50

−1.0

−0.5

0.0

0.5

1.0

Lag

Aut

ocor

rela

tion

Chain

1

2

Figura 5.6: Dados PNS. Modelo não ignorável spike and slab: critério de convergência

de Geweke e autocorrelação para os parâmetros α1, α2, θ e π.

●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

● ●

●●

●●

●

● ●

● ●

● ●

● ●

● ●

●●

● ●

δ1

δ2

δ3

δ4

δ5

δ6

δ7

δ8

δ9

δ10

δ11

δ12

δ13

δ14

δ15

δ16

δ17

δ18

δ19

δ20

δ21

δ22

δ23

δ24

δ25

δ26

δ27

−3 −2 −1 0 1 2

z

Par

amet

er Chain●

●

1

2

Geweke Diagnostics

Figura 5.7: Dados PNS. Modelo não ignorável spike and slab: critério de convergência

de Geweke e autocorrelação para os parâmetros δi.

40

Na Tabela 5.6 apresentam-se as estatísticas resumo para os parâmetros do modelo.

As médias a posteriori dos parâmetros β2, θ e σ2e são similares as médias obtidas ao

se ajustar o modelo ignorável. Analisando-se os resultados do modelo de não-resposta

temos que o parâmetro α2 não parece indicar que a chance de responder aumenta quando

a idade aumenta. Além disso a média a posteriori de π é de 0.1. O que indicaria que não

existe diferença entre o mecanismo de não-resposta dos estados e pode ser considerado

ignorável.

Parâm. Média Desv. I.C.

α1 1.79 0.01 (1.6, 1.9)

α2 0.018 0.001 (0.016, 0.02)

β2 0.04 0.006 (0.02, 0.05)

θ 24.7 0.1 (24.5, 24.8)

σ2e 24.8 0.1 (24.5, 24.9)

Tabela 5.6: Dados PNS. Modelo não ignorável: média, desvio padrão (Desv.) e intervalo

de 95% de credibilidade (I.C) para os parâmetros β2, θ, σ2e α2 e α1.

β2

1000 26000 51000 76000 1010000.034

0.036

0.038

0.040

0.042

0.044

Iteration

valu

e

Chain

1

2

β2

0.034 0.036 0.038 0.040 0.042 0.0440

100

200

300

value

dens

ity

Chain

1

2

θ

1000 26000 51000 76000 101000

24.4

24.6

24.8

25.0

Iteration

valu

e

Chain

1

2

θ

24.4 24.6 24.8 25.00

1

2

3

4

value

dens

ity

Chain

1

2

α1

1000 26000 51000 76000 101000

1.50

1.75

2.00

2.25

Iteration

valu

e

Chain

1

2

α1

1.50 1.75 2.00 2.250

1

2

3

4

value

dens

ity

Chain

1

2

σ2

1000 26000 51000 76000 101000

0.1

0.2

0.3

0.4

0.5

Iteration

valu

e

Chain

1

2

σ2

0.1 0.2 0.3 0.4 0.50.0

2.5

5.0

7.5

10.0

value

dens

ity

Chain

1

2

Figura 5.8: Grá�co da densidade e histórico das cadeias dos parâmetros β2, θ, α1 e σ21

para o Modelo 2 ajustado aos dados da PNS.

41

Capítulo 6

Conclusões e trabalhos futuros

Este trabalho teve como objetivo propor um modelo hierárquico Bayesiano para a

modelagem de conjuntos de dados com observações faltantes nos quais o mecanismo de

não-resposa é não ignorável. Esta abordagem é construída a partir do modelo de mistura

de padrões apresentado por Nandram and Choi (2005) e o uso da distribuição a priori

spike and slab para os coe�cientes dos modelos de pequenas áreas de�nido em Datta and

Mandal (2015). Este modelo é capaz de identi�car que tipo de mecanismo de não-resposta

possui cada área através do cálculo da probabilidade a posteriori em cada área de ter

o efeito aleatório associado ao mecanismo de não-resposta, admitindo assim diferenças

entre as áreas.

Através de estudos simulados foram analisados os modelos apresentados como base

para a de�nição do novo modelo. Foi proposto também uma reparametrização para

acelerar a convergência no MCMC. Também foi validada a recuperação de parâmetros

para todos os modelos. Foi observado que o modelo proposto consegue identi�car se o

mecanismo de não-resposta é não ignorável para cada área.

Na aplicação aos dados reais de NHANES III constatou-se que o modelo proposto

tem melhor desempenho segundo o critério preditivo a posteriori. Portanto conclui-se

que cada área tem um mecanismo de não-resposta diferente e que a chance de participar

do exame de saúde aumenta conforme a idade aumenta.

Como trabalhos futuros propõe-se realizar a previsão das unidades não amostrais,

com o �m de calcular estimativas para pequenas áreas (estados). As estimações obti-

das através dos modelos podem ser comparadas entre elas e com as estimações baseadas

no desenho amostral. Também propõe-se realizar uma análise de sensibilidade da dis-

tribuição a priori de π, assim como da regra de corte da probabilidade a posteriori de

42

δi = 1.

43

Apêndice A

Condicionais completas do modelo não

ignorável

Amostragem de Gibbs com paso de Metrópolis para o modelo não ignora-

ble em Nandram and Choi (2005) reparametrizado

yij = β1i + (β2 + ν2i rij) aij + eij i = 1, ..., l. e j = 1, ..., ni

Com :

eij | σ2e ∼ N(0, σ2

e),

ν2i | σ22 ∼ N(0, σ2

2),

rij|α1, α2, σ2η ∼ Bernoulli

(exp(α1+α2 aij+ηi)

1+exp(α1+α2 aij+ηi)

),

ηi | σ2η ∼ N(0, σ2

η).

Com prioris:

β2 ∼ N(0, w),

β1i | θ ∼ N(θ, σ21),

σ−2e , σ−21 , σ−22 , σ−2η ∼ Gamma(a, b),

θ, α1, α2 ∼ N(0, k).

44

A distribuição a posteriori conjunta dos parâmetros de interesse é dada por:

f(ymis,β,α,σ2,ν|yobs, robs) ∝

l∏i=1

ni∏j=1

[1

σeexp

{−(yij − (β0 + ν1i + (β1 + ν2irij)aij)

2

2σ2e

}]

×l∏

i=1

ni∏j=1

[exp((α1 + α2aij + ηi)rij)

1 + exp(α1 + α2aij + ηi)

]×(

1

σ22

)a2−1

exp

(−b2σ2

2

)

×l∏

i=1

[1

σ1exp

(−ν21i2σ2

1

)× 1

σ2× exp

(−ν22i2σ2

2

)]× 1

σηexp

(−η2i2σ2

η

)

×(

1

σ2η

)a2−1

exp

(−b2σ2

η

)×(

1

σ2e

)a2−1

exp

(−b2σ2

e

)×(

1

σ21

)a2−1

exp

(−b2σ2

1

)Para os ymis(não respondentes) temos:

yij(mis) | ν, β, rij, σe ∼ N(β1i + β2 aij + ν2i rij aij, σ2e)

β1i | ... ∼ N

((∑nij=1(yij − β2 aij − ν2i rij aij)

σ2e

+θ

σ21

)(σ21 σ

2e

σ2e + σ2

1ni

),

σ2e σ

21

(σ2e + σ2

1ni)

)

ν2i | ... ∼ N

ni∑j=1

(yij − β2 aij − β1i) (rij aij)

σ2e

(∑nij=1(rij aij)

2

σ2e

+1

σ22

)−1,

σ2eσ

22∑ni

j=1(rij aij)2σ2

2 + σ2e

β2 | ... ∼ N

(l∑

i=1

ni∑j=1

aij(yij − ν2i rij aij − β1i)

(w

w∑l

i=1

∑nij=1 a

2ij + σ2

e

),

σ2ew

w∑l

i=1

∑nij=1 a

2ij + σ2

e

)

θ | ... ∼ N

(l∑

i=1

β1i

(k

lk + σ21

),

kσ21

lk + σ21

)

p(α1, α2 | ...) ∝l∏

i=1

ni∏j=1

[exp{(α1 + α2 aij + ηi) rij}1 + exp{α1 + α2 aij + ηi}

]× exp

{−α2

1

2k

}× exp

{−α2

2

2k

}

45

p(ηi | ...) ∝ni∏j=1


]× exp

{−η2i2σ2

η

}

σ−22 | ... ∼ Gamma

(l

2+ a,

∑li=1 ν

22i

2+ b

)

σ−2e | ... ∼ Gamma

(n

2+ a,

l∑i=1

ni∑j=1

(yij − β1i − β2 aij − ν2i rij aij)2

2+ b

)

σ−21 | ... ∼ Gamma

(l

2+ a,

l∑i=1

(β1i − θ)2

2+ b

)

σ−2η | ... ∼ Gamma

(l

2+ a,

l∑i=1

η2i2

+ b

)

46

Apêndice B

Condicionais completas do modelo não

ignorável com distribuição spike and

slab

Amostragem de Gibbs com passo de Metrópolis para o modelo não igno-

rável com distribuição spike and slab

yij = β1i + (β2 + ν2i rij δi) aij + eij i = 1, ..., l. e j = 1, ..., ni

Onde :

eij | σ2e ∼ N(0, σ2

e),

δi | π ∼ Bernoulli(π),

ν2i ∼ (1− π)I{0}(ν2i) + π N(0, σ22),

rij|α1, α2, ση ∼ Bernoulli(

exp(α1+α2 aij+ηi)

1+exp(α1+α2 aij+ηi)

),

ηi | σ2η ∼ N(0, σ2

η).

Com prioris

β2 ∼ N(0, w),,

β1i | σ21 ∼ N(θ, σ2

1),

σ−2e , σ−21 , σ−22 , σ−2η ∼ Gamma(a, b),

47

θ, α1, α2 ∼ N(0, k),

π ∼ Beta(c, d), c=3, d=4.

A distribuição a posteriori conjunta dos parâmetros de interesse é dada por:

p(ν,α,β, π,σ, δ, ymis | yobs, r) ∝l∏

i=1

ni∏j=1

[1

σeexp


2σ2e

}]

×l∏

i=1

[1

σ1exp

{−(β1i − θ)2

2σ21

}[1

σ2exp

{−ν22i2σ2

2

}]δi[I(ν2i = 0)]1−δi

]

×l∏

i=1

ni∏j=1


]× exp

{−β2

2

2w

}× exp

{−θ2

2 k

}

×l∏

i=1

[πδi(1− π)1−δi × 1

σ2η

exp

{−η2i2σ2

}]× πc−1(1− π)d−1

× exp{−α2

1

2 k

}× exp

{−α2

2

2 k

}×(

1

σ22

)a−1exp

{−bσ22

}×(

1

σ2η

)a−1exp

{−bσ2η

}×(

1

σ21

)a−1exp

{−bσ21

}×(

1

σ2e

)a−1exp

{−bσ2e

}Para os ymis(não respondentes) temos:

yij(mis) | ν, β, rij, σe, δi ∼ N(β1i + β2 aij + ν2i rij δi aij, σ2e)

p(β1i | ...) ∝ni∏j=1

[exp

{−(yij − β2 aij − ν2i rij δi aij − β1i)2

2σ2e

}]× exp

{−(β1i − θ)2

2σ21

}

∝ exp

{−∑ni

j=1(β21i − 2(yij − β2 aij − ν2i rij δi aij)β1i)

2σ2e

− (β21i − 2 β1i θ )

2σ21

}

∝ exp

−1

2σ2e σ

21

(σ2e+σ

21ni)

[β1i −

(∑nij=1(yij − β2 aij − ν2i rij δi aij)

σ2e

+θ

σ21

)(σ21 σ

2e

σ2e + σ2

1ni

)]2Logo

β1i | ... ∼ N

((∑nij=1(yij − β2 aij − ν2i rij δi aij)

σ2e

+θ

σ21

)(σ21 σ

2e

σ2e + σ2

1ni

),

σ2e σ

21

(σ2e + σ2

1ni)

)

48

Se δi = 0 então a posteriori p(ν2i = 0) = 1

Se δi = 1 então

p(ν2i | ...) ∝ni∏j=1

[exp

{−(yij − β2 aij − ν2i rij δi aij − β1i)2

2σ2e

}]× exp

{−ν22i2σ2

2

}

∝ exp

ni∑j=1

−(ν22i (rij aij δi)2 − 2(yij − β2 aij − β1i)(rij δi aij) ν2i)

2σ2e

× exp{−ν22i2σ2

2

}

∝ exp

ni∑j=1

−(ν22i (rij aij δi)2 − 2(yij − β2 aij − β1i)(rij δi aij) ν2i)

2σ2e

−ν22i

2σ22

∝ exp

−1

2

∑nij=1(rij δi aij)

2

σ2e

+1

σ22

ν22i − ni∑j=1

2 (yij − β2 aij − β1i) (rij δi aij) ν2iσ2e


2

σ2e

+1

σ22

−1

∝ exp

−1

2

(σ2eσ

22∑ni

j=1(rij δi aij)

2σ22+σ2e

)ν2i − ni∑

j=1

(yij − β2 aij − β1i) (rij δi aij)σ2e


2

σ2e

+1

σ22

−12

Logo se δi = 1 temos:

ν2i | ... ∼ N

ni∑j=1

(yij − β2 aij − β1i) (rij δi aij)

σ2e

(∑nij=1(rij δi aij)

2

σ2e

+1

σ22

)−1,

σ2eσ

22∑ni

j=1(rij δi aij)2σ2

2 + σ2e

p(β2 | ...) ∝

l∏i=1

ni∏j=1

[exp

{−(yij − ν2i rij δi aij − β1i − β2 aij)

2

2σ2e

}]exp

{−β22

2w

}

∝l∏i=1

ni∏j=1

[exp

{−(β2

2 a2ij − 2 β2 aij (yij − ν2i rij δi aij − β1i))

2σ2e

}]exp

{−β22

2w

}

∝ exp

−(β22

∑li=1

∑nij=1 a

2ij − 2 β2 (

∑li=1

∑nij=1 aij(yij − ν2i rij δi aij − β1i)))

2σ2e

exp{−β22

2w

}

∝ exp

− (β2

2

∑li=1

∑nij=1 a

2ij − 2 β2 (

∑li=1

∑nij=1 aij(yij − ν2i rij δi aij − β1i)))

2σ2e

+β22

2w

∝ exp

− 1

2

∑li=1

∑nij=1 a

2ij

σ2e

+1

w

β22 −

2 β2∑li=1

∑nij=1 aij(yij − ν2i rij δi aij − β1i)

σ2e

∝ exp

−

1

2

σ2ew

w∑li=1

∑nij=1 a

2ij + σ2

e

β22 −

2 β2∑li=1


σ2e

w∑li=1

∑nij=1 a

2ij + σ2

e

σ2ew

∝ exp

−

1

2

σ2ew

w∑li=1

∑nij=1 a

2ij + σ2

e

β2

2 −2 β2

∑li=1


σ2e

σ2ew

w∑li=1

∑nij=1 a

2ij + σ2

e

∝ exp

−

1

2

σ2ew

w∑li=1

∑nij=1 a

2ij + σ2

e

β2 − l∑

i=1

ni∑j=1


w

w∑li=1

∑nij=1 a

2ij + σ2

e

2

Logo

β2 | ... ∼ N

(l∑

i=1

ni∑j=1


(w

w∑l

i=1

∑nij=1 a

2ij + σ2

e

),

σ2ew

w∑l

i=1

∑nij=1 a

2ij + σ2

e

)

49

p(θ | ...) ∝l∏

i=1

[exp

{−(β1i − θ)2

2σ21

}]× exp

{− θ

2

2k

}

∝l∏

i=1

[exp

{−(β2

1i − 2β1iθ + θ2)

2σ21

}]× exp

{− θ

2

2k

}

∝ exp

{−

(∑li=1 θ

2 − 2θ∑l

i=1 β1i2σ2

1

+θ2

2k

)}

∝ exp

{−1

2

(θ2(l

σ21

+1

k

)− 2

θ

σ21

l∑i=1

β1i

)}

∝ exp

{−1

2

(lk + σ2

1

kσ21

)(θ2 − 2θ

∑li=1 β1iσ21

(σ21k

lk + σ21

))}

∝ exp

− 1

2(

kσ21

lk+σ21

) (θ − l∑i=1

β1i

(k

lk + σ21

))2

Logo

θ | ... ∼ N

(l∑

i=1

β1i

(k

lk + σ21

),

kσ21

lk + σ21

)

p(α1, α2 | ...) ∝l∏

i=1

ni∏j=1


]× exp

{−α2

1

2k

}× exp

{−α2

2

2k

}

p(ηi | ...) ∝ni∏j=1


]× exp

{−η2i2σ2

η

}

p(π | ...) ∝ π∑li=1 δi+c−1(1− π)l−

∑li=1 δi+d−1

Logo

π | ... ∼ Beta

(l∑

i=1

δi + c, l + d−l∑

i=1

δi

)

50

p(σ−22 | ...) ∝l∏

i=1

[(1

σ22

)1/2

exp

{−ν22i2σ2

2

}]δi (1

σ22

)a−1exp

{−bσ22

}

∝l∏

i=1

[(1

σ22

)δi/2exp

{−δi ν22i

2σ22

}](1

σ22

)a−1exp

{−bσ22

}

∝(

1

σ22

)∑li=1

δi2+a−1

exp

{−

(∑li=1 δi ν

22i

2+ b

)1

σ22

}

Logo

σ−22 | ... ∼ Gamma

(l∑

i=1

δi2

+ a,

∑li=1 δi ν

22i

2+ b

)

p(σ−2e | ...) ∝l∏

i=1

ni∏j=1

[1

σeexp


2σ2e

}](1

σ2e

)a−1exp

{−bσ2e

}

∝ exp

{l∑

i=1

ni∑j=1

−(yij − β1i − β2 aij − ν2i rij δi aij)2

2σ2e

}(1

σ2e

)n2(

1

σ2e

)a−1exp

{−bσ2e

}

∝ exp

{−

(l∑

i=1

ni∑j=1

(yij − β1i − β2 aij − ν2i rij δi aij)2

2+ b

)1

σ2e

}(1

σ2e

)n2+a−1

Logo

σ−2e | ... ∼ Gamma

(n

2+ a,

l∑i=1

ni∑j=1

(yij − β1i − β2 aij − ν2i rij δi aij)2

2+ b

)

p(σ−21 | ...) ∝l∏

i=1

[(1

σ21

)1/2

exp

{−(β1i − θ)2

2σ21

}](1

σ21

)a−1exp

{−bσ21

}

∝(

1

σ21

) l2+a−1

exp

{−

(l∑

i=1

(β1i − θ)2

2+ b

)1

σ21

}

Logo

σ−21 | ... ∼ Gamma

(l

2+ a,

l∑i=1

(β1i − θ)2

2+ b

)

51

p(σ−2η | ...) ∝l∏

i=1

[(1

σ2η

)1/2

exp

{−η2i2σ2

η

}](1

σ2η

)a−1exp

{−bσ2η

}

∝(

1

σ2η

) l2+a−1

exp

{−

(l∑

i=1

η2i2

+ b

)1

σ2η

}

Logo

σ−2η | ... ∼ Gamma

(l

2+ a,

l∑i=1

η2i2

+ b

)

p(δi = 1 | β, σ2e , σ22, r, y) =P (δi = 1; β1i, β2, σ

2e , σ

22, r, y)

P (β1i, β2, σ2e , σ22, r, y)

=P (β1i, β2, σ

2e , σ

22, r, y | δi = 1)P (δi = 1)

P (β1i, β2, σ2e , σ22, r, y)

=P (β1i, β2, σ

2e , σ

22, r, y | δi = 1)P (δi = 1)

P (β1i, β2, σ2e , σ22, r, y | δi = 1)P (δi = 1) + P (β1i, β2, σ2e , σ

22, r, y | δi = 0)P (δi = 0)

=π

π + (1− π)P (β1i,β2,σ2e ,σ

22 ,r,y|δi=0)P (δi=0)

P (β1i,β2,σ2e ,σ

22 ,r,y|δi=1)P (δi=1)

=π

π + (1− π)∏nij=1

1√2πσe

exp


2σ2e

}∏nij=1

1√2π(σ2e+σ

22 (aij rij)

2)exp



2)

}

52

Referências Bibliográ�cas

Bethlehem, J. and Bi�gnandi, S. (2012). Handbook of Web Surveys, John Wiley and

Sons.

Celeux, F. and et al. (2006). Deviance information criteria for missing data models,

Bayesian Analysis 1,Number 4.

Chambers, R. L. and Skinner, C. J. (2003). Analysis of Survey Data., John Wiley and

Sons.

Cohen, G. and Du�y, J. (2002). Are non respondents to health surveys less healthy than

respondents?, Journal of O�cial Statistics 18: 13�23.

Datta, G. S. and Mandal, A. (2011). Model selection by testing for the presence of

small-area e�ects in area-level data., Journal of the American Statistical Association

106: 362�374.

Datta, G. S. and Mandal, A. (2015). Small area estimation with uncertain random e�ects,

Journal of the American Statistical Association 110: 1735�1744.

Fay, R. and Herriot, R. (1979). Estimates of income for small places: An application of

james-stein procedures to census data, Journal of the American Statistical Association

74: 269�277.

Fernández-i Marín, X. (2016). ggmcmc: Analysis of mcmc samples and bayesian infe-

rence, Journal of Statistical Software 70,Issue 9.

Gamerman, D. and Lopes, H. F. (2006). Markov chain Monte Carlo: Stochastic Simula-

tion for Bayesian Inference, CRC Press.

Gelfand, A. and Ghosh, S. (1998). Model choice: A minimum posterior predictive loss

approach, Biometrika 85: 1�11.

53

Gelman, A. and Hill, J. (2007). Data Analysis Using Regression and Multile-

vel/Hierarchical Models, Cambridge Universiy Press.

Geweke, J. (1992). Evaluating the accuracy of sampling-based approaches to the calcu-

lation of posterior moments, Bayesian Statistics pp. 169�193.

Gonçalves, F. B. (2006). Análise bayesiana da teoria de resposta ao item: uma abordagem

generalizada, Master's thesis, Universidade Federal do Rio de Janeiro - UFRJ.

Hansen, M. H. and Hurwitz, W. N. (1946). The problem of nonresponse in sample

surveys, Journal of the American Statistical Association 41: 517�529.

IBGE (2014). Pesquisa nacional de saúde 2013 percepção do estado de saúde, estilos de

vida e doenças crônica.

URL: http://biblioteca.ibge.gov.br/visualizacao/livros/liv91110.pdf

Lieu N. Hazelwood, T. L. M. and Wolken, J. D. (2007). Alternative methods of unit

nonresponse weighting adjustments: An application from the 2003 survey of small

business �nances.

URL: http://www.federalreserve.gov/pubs/feds/2007/200710/200710pap.pdf

Little, R. (1982). Models for nonresponse in sample surveys, Journal of the American

Statistical Association 77: 237�250.

Little, R. J. A. and Rubin, D. B. (2002). Statistical Analysis with Missing Data, 2nd.

Ed., John Wiley and Sons, New York, NY.

Liu, N. (2003). Bayesian nonresponse models for the analysis of data from small areas:

An application to bmd and age in nhanes iii, Master's thesis, Worcester Polytechnic

Institute.

Martin, K. (2011). What is the di�erence between mar and mcar missing data?

URL: http://www.theanalysisfactor.com/mar-and-mcar-missing-data/

Mitchell, T. J. and Beauchamp, J. J. (1988). Bayesian variable selection in linear regres-

sion, Journal of the American Statistical Association 83: 1023�1032.

Nandram, B. and Choi, J. (2005). Hierarchical bayesian nonignorable nonresponse re-

gression models for small areas:an application to the nhanes data, Survey Methodology

31: 73�84.

54

Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys, New York: Wiley,

New York, NY.

Spiegelhalter, D. and et al. (2002). Bayesian measures of model complexity and �t., Royal

Statistical Society: Series B 64: 583�639.

Warner, S. L. (1965). Randomized response a survey technique for eliminating evasive

answer bias, Journal of the American Statistical Association 57: 622�627.

55

modelos hierárquicos para não-resposta em pesquisas ...5.2.1 modelo de não-resposta não...

Documents