modelos de regressao com respostas~ limitadas … · an alise de dados reais s~ao apresentadas ......

114
MODELOS DE REGRESS ˜ AO COM RESPOSTAS LIMITADAS E CENSURADAS Heleno Bolfarine Bruno Santos Leandro Correia Guillermo Martinez Hector Gomez Jorge Bazan ABE - Associa¸c˜ ao Brasileira de Estat´ ıstica

Upload: vanngoc

Post on 30-Nov-2018

223 views

Category:

Documents


1 download

TRANSCRIPT

MODELOS DE REGRESSAO COM RESPOSTASLIMITADAS E CENSURADAS

Heleno Bolfarine

Bruno Santos

Leandro Correia

Guillermo Martinez

Hector Gomez

Jorge Bazan

ABE - Associacao Brasileira de Estatıstica

ii

COPYRIGHT c©2013 - Heleno Bolfarine, Bruno Santos, Leandro Correia,Guillermo Martinez, Hector Gomez, Jorge Bazan.

Nenhuma parte deste livro pode ser reproduzida,por qualquer processo, sem a permissao dos autores.

ABE - ASSOCIACAO BRASILEIRA DE ESTATISTICARua do Matao, 1010 - Cidade UniversitariaCEP: 05508-090 - Sao Paulo - SP - BrasilTel:(11) 3091-6261 Fax: (11) 3812-5067e-mail: [email protected]: www.redeabe.org.br

MODELOS DE REGRESSAO COM RESPOSTASLIMITADAS E CENSURADAS

H. Bolfarine, B. Santos, L. Correia

Universidade de Sao PauloInstituto de Matematica e Estatıstica

Departamento de Estatıstica

G. Martinez

Universidade de Cordoba - ColombiaDepartamento de Estatıstica

H. Gomez

Universidad de Antofagasta - ChileDepartamento de Estatıstica

J. Bazan

Universidade de Sao PauloInstituto de Ciencias Matematicas e de ComputacaoDepartamento de Matematica Aplicada e Estatıstica

iv

Prefacio

Neste trabalho, desenvolvemos analises Bayesiana e classica para modelosde regressao com respostas limitadas ou censuradas.Sao consideradas ex-tensoes do modelo tobit usual normalmente distribuıdo em duas direcoes. Aprimeira considera modelos mais gerais que o modelo normal proporcionadapelo modelo potencia-normal, o qual pode ajustar dados com certo grau deassimetria e bimodalidade. Uma outra direcao em que estendemos o modeloesta voltada para situacoes onde temos excesso (inflacao) de zeros. No casoem que as observacoes sao proporcoes (no intervalo (0, 1)), podemos ter da-dos com excesso de zeros e uns. Discute-se especificacacao de prioris poucoinformativas e algoritimos tipo MCMC para estimacao dos parametros domodelo. Procedimentos de estimacao alternativos sao desenvolvidos usandoo metodo de maxima verossimilhanca. Aplicacoes a varios conjunto de da-dos sao apresentadas. Um conjunto de dados, em especial, e o conjuntode dados sobre a resposta sorologica em um programa de vacinacao contrasarampo no Haiti. Alem disso, sao estudadas aplicacoes a outros conjuntosde dados relacionados com os modelos considerados.

Este manuscrito, direcionado a extensoes do modelo tobit, esta organi-zado da seguinte forma: o Capıtulo 1 enfoca resultados basicos de modelospara dados censurados e truncados. No Capıtulo 2 apresentamos uma breverevisao do modelo tobit com sugestoes de extensoes que podem ser consid-eradas substituindo-se a distribuicao normal por modelos mais robustos eflexiveis como os modelos potencia-normal (Pewsey et al., 2012) e t-Student.Aplicacoes a dados reais mostram bom desempenho dos modelos propostos.O Capıtulo 3 esta dedicado ao modelo tobit com excesso de zeros em queduas extensoes sao consideradas. Analise de dados reais sao apresentadasilustrando o bom desempenho dos modelos estudados. O Capıtulo 4 discutemodelos α-potencia para dados duplamente censurados com enfase nos ca-sos (0, 1), com possıveis excessos de zeros e uns. O Capıtulo 5 apresenta oenfoque Bayesiano para o modelo considerado no Capıtulo 4. Comparacoescom o modelo de regressao beta sao apresentadas. O Capıtulo 6 estuda

v

vi

modelos bimodais censurados. Por fim, no Capıtulo 7 discutimos mode-los de regressao quantılica, com extensoes ao modelo tobit quantılico. Estetexto esta direcionado a alunos do ultimo ano do bacharelado e inıcio domestrado em Estatıstica.

Heleno Bolfarine [email protected] Santos [email protected] Correia [email protected] Martinez [email protected] Gomez [email protected] Bazan [email protected]

Maresias, SP, fevereiro de 2013

Sumario

1 Dados limitados 1

1.1 Truncamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.3 Resultados basicos sobre truncamento e censura . . . . . . . . 2

1.3.1 Distribuicao normal truncada . . . . . . . . . . . . . . 2

1.3.2 Distribuicao normal censurada . . . . . . . . . . . . . 3

1.4 Alguns conjuntos de dados . . . . . . . . . . . . . . . . . . . . 3

1.4.1 Vacinacao no Haiti . . . . . . . . . . . . . . . . . . . . 4

1.4.2 Horas trabalhadas por ”donas”de casas . . . . . . . . 4

2 O modelo tobit 7

2.1 O modelo tobit normal . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Extensoes robustas do modelo tobit . . . . . . . . . . . . . . 11

2.3 Aplicacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.1 Aplicacao do modelo tobit-normal . . . . . . . . . . . 13

2.4 Aplicacao do modelo tobit potencia normal . . . . . . . . . . 13

3 O modelo tobit com excesso de zeros 15

3.1 Modelos com excesso de zeros . . . . . . . . . . . . . . . . . . 15

3.2 A distribuicao log-α-potencia . . . . . . . . . . . . . . . . . . 16

3.3 O modelo bernoulli/log-α-potencia . . . . . . . . . . . . . . . 18

3.4 Aplicacao: dados do Haiti . . . . . . . . . . . . . . . . . . . . 22

3.5 Aplicacao: dados de Mroz . . . . . . . . . . . . . . . . . . . . 25

4 Modelo α-potencia inflacionado de zeros e/ou uns 27

4.1 Modelos duplamente censurados . . . . . . . . . . . . . . . . 27

4.2 Distribuicoes PN para dados censurados . . . . . . . . . . . . 29

4.3 Modelo potencia-normal duplamente censurado . . . . . . . . 29

4.4 A transformacao logarıtmica . . . . . . . . . . . . . . . . . . 32

vii

viii SUMARIO

4.5 O modelo Bernoulli duplamente censurado com mistura potencia-normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.6 Estimacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.7 Matriz de informacao observada . . . . . . . . . . . . . . . . . 34

4.8 Modelos censurados para inflacao de zeros e uns . . . . . . . 37

4.9 Mistura Bernoulli/LPN . . . . . . . . . . . . . . . . . . . . . 39

4.10 Ilustracao com dados reais . . . . . . . . . . . . . . . . . . . . 39

4.11 Testando modelos disjuntos . . . . . . . . . . . . . . . . . . . 40

4.12 Conclusoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5 O enfoque Bayesiano para o modelo duplamente censurado 43

5.1 O modelo tobit duplamente censurado . . . . . . . . . . . . . 43

5.2 Modelo beta inflacionado de zeros e uns . . . . . . . . . . . . 46

5.3 O algoritmo Metropolis-Hastings . . . . . . . . . . . . . . . . 48

5.4 Comparacao de modelos . . . . . . . . . . . . . . . . . . . . . 49

5.5 Estudo de simulacao . . . . . . . . . . . . . . . . . . . . . . . 52

5.6 Aplicacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6 Modelos bimodais censurados 65

6.1 Modelos assimetricos bimodais . . . . . . . . . . . . . . . . . 66

6.2 Extensoes bimodais para modelos simetricos . . . . . . . . . . 66

6.2.1 Aplicacao: Dados de poluicao. . . . . . . . . . . . . . 68

6.3 Modelo flexıvel normal censurado . . . . . . . . . . . . . . . . 69

6.3.1 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 70

6.3.2 Extensao para localizacao-escala . . . . . . . . . . . . 70

6.3.3 Estimacao . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.3.4 Matriz de informacao . . . . . . . . . . . . . . . . . . 72

6.4 O modelo bimodal simetrico normal censurado . . . . . . . . 75

6.4.1 Estimacao por maxima verossimilhanca . . . . . . . . 76

6.4.2 Matriz de informacao esperada . . . . . . . . . . . . . 77

6.5 Modelo bimodal normal-assimetrico . . . . . . . . . . . . . . 77

6.5.1 A funcao log-verossimilhanca . . . . . . . . . . . . . . 78

6.6 Analizando um conjunto de dados reais. Concentracao de HIV. 79

6.7 Discussao final . . . . . . . . . . . . . . . . . . . . . . . . . . 81

7 Regressao quantılica 83

7.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

7.2 O enfoque Bayesiano . . . . . . . . . . . . . . . . . . . . . . . 83

7.3 Regressao Quantılica Tobit . . . . . . . . . . . . . . . . . . . 89

7.4 Aplicacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

SUMARIO ix

7.5 Selecao de variaveis . . . . . . . . . . . . . . . . . . . . . . . . 95

Referencias bibliograficas 99

x SUMARIO

Capıtulo 1

Dados limitados

A principal causa da ocorrencia de dados incompletos e devido a (i) trunca-mento e (ii) censura.

1.1 Truncamento

Truncamento ocorre quando algumas observacoes tanto na variavel respostacomo indepedentes (covariaveis, regressores) nao estao disponıveis. Por ex-emplo, a variavel resposta (dependente) pode ser renda e somente pessoascom baixa (propriamente definida) renda sao incluıdadas na pesquisa. Por-tanto, truncamento ocorre quando a amostra e esolhida somente em parteda populacao.

1.2 Censura

Censura ocorre quando dados sobre a variavel dependente nao estao disponıveispara algumas unidades da amostra. Mas para estas unidades, os dadospara a variaveis independentes (regressores) estao disponıveis. por exem-plo, pessoas de todos os nıveis de renda sao incluidas na amostra mas, poralguma razao, pessoas com alto nıvel de renda tem a mesma codificadaem R$100.000. Censura pode ser visto como um defeito na amostra - naohavendo censura, amostra seria representativa. Truncamento em geral pro-duz maior perda de informacao.

1

2 DADOS LIMITADOS 1.3

1.3 Resultados basicos sobre truncamento e cen-sura

E comum considerar que a variavel resposta (Y ) e normalmente distribuıdacom media µ e variancia σ2, que denotamos por N(µ, σ2), de tal forma que

E[Y ] = µ e V ar[Y ] = σ2.

O caso particular em que µ = 0 e σ = 1, ou seja, Z ∼ N(0, 1), temos afuncao de densidade de probabilidade (fdp)

f(z) = φ(z) =1√2π

e−z2/2, z ∈ R.

A fdp de Y ∼ N(µ, σ2) segue da tansformacao Y = µ+ σZ.A funcao de distribuicao acumulada pode ser escrita como

Φ(y) = P [Y ≤ y] = Φ((y − µ)/σ),

de modo que

P [Y ≥ y] = 1− Φ((y − µ)/σ).

1.3.1 Distribuicao normal truncada

Para truncamento pela esquerda (s.p.g.), com ponto de trunamento ”c”,temos

f(y|y > c) =f(y)

1− F (c),

de modo que para Y ∼ N(µ, σ),

f(y|y > c) =1σφ(y−µσ )

1− Φ( c−µσ ).

Assim, a funcao de verossimilhanca para uma amostra de tamanho n dadistribuicao normal truncada pode ser escrita como

L(µ, σ) =n∏i=1

1σφ(yi−µσ )

1− Φ( c−µσ ).

1.4 ALGUNS CONJUNTOS DE DADOS 3

Temos tambem

E[y|y > c] = µ+ σλ(αc)

e

V ar[y|y > c] = σ2[1− δ(αc)],

onde αc = (c− µ)/σ,

δ(αc) = λ(αc)[λ(αc)− αc] e λ(αc) =φ(αc)

1− Φ(αc),

esta ultima sendo conhecida como razao de Mills.

Os resultados para modelos de regressao seguem dos resultados acimasubstituindo µ = x′β.

1.3.2 Distribuicao normal censurada

Quando a distribuicao e censurada a esquerda no ponto ”c”, observacoescom valores menores ou iguais a c sao substituidas por c ou seja,

y =

y∗i , se y∗i > cc, se y∗i ≤ c.

Se uma variavel continua Y com fdp f(.), e c e uma constante, entaopara variaveis censuradas a esquerda

f(y) = [f(yi)]Ii [F (c)]1−Ii ,

onde

Ii =

1, se y∗i > c0, se y∗i ≤ c,

i = 1, . . . , n. O caso particular do modelo normal censurado segue tomandof = φ.

1.4 Alguns conjuntos de dados

Alguns conjuntos de dados muito utilizados na literatura sao descritos aseguir.

4 DADOS LIMITADOS 1.4

1.4.1 Vacinacao no Haiti

Dados contem informacoes sobre concentracao de anticorpos em um grupode 330 criancas de ate um ano no Haiti apos serem vacinadas contra osarampo. As medicoes das concentracoes sao feitas por laboratorios comlimite de detecao mınimo (LDM) de 0.1 mm/l (ou -2.16 na escala logarit-mica). Isto significa que valores de concentracoes iguais ou menores que 0.1sao reportadas como sendo 0.1. Temos informacao sobre a concentracao (Y- variavel resposta) , tipo de vacina (X1: Edmonton-Zagreb (1) e Schwarz(0)), dose (X2: alta (1) e medio (1)) e sexo (X3: masculino (O) e feminino(1)). O total de crianas no (ou abaixo do) limite de detecao e de 86. Umresumo dos dados e apresentado na tabela abaixo. Este conjunto de dadosesta disponibilizado em Moulton and Halsey (1995). Da Tabela 1.1. temosentao que a primeira crianca tem concentracao 0.1, tomou a vacina tipo 0(Schwarz) com dose media e e do sexo masculino.

Tabela 1.1: Dados sobre vacinacao no HaitiCrianca Concentracao (Y ) Tipo (X1) Dose (X2) Sexo (X3)

1 0.1 0 0 02 0.1. 0 0 03 0.1 0 0 0... ... ... ... ...

316 15.475 1 0 0

Moulton and Halsey (1995) consideram uma distribuicao log-normal paraobservacoes acima do LDM, e modelam o excesso de zeros com um modelologito, extendendo a proposta de Cragg (1971). Como se depreende dohistograma, a concentracao de observacoes no LDM e bastante alta.

1.4.2 Horas trabalhadas por ”donas”de casas

Este conjunto de dados (Mroz, 1987) foi tomado do estudo da dinamica derenda de 1975 com 753 observacoes das quais 428 correspondem a mulheres(casadas) com Y horas trabalhadas (nao nulas) e as 325 remanescentes, cor-respondem a mulheres que nao trabalharam (Y=0). O conjunto de dadoscompreende um total de 19 variaveis das quais consideramos

1.4 ALGUNS CONJUNTOS DE DADOS 5

1. LPF: variavel ”dummy”= 1 se esposa trabalhou em 1975; =0, casocontrario;

2. WHRS: horas trabalhadas pela esposa em 1975;3. KL6: Numero de crianca com criancas menores que 6 anos no domicılio;4. K618: Numero de criancas com idade entre 6 e 18 anos no domicılio;5. WA: Idade da esposa;6. WE: Escolaridade da esposa, em anos;7. WW: Salario da esposa em 1975.

Tabela 1.2: Dados sobre horas trabalhadashoras kids5 kids618 age educ nwifeinc exper

1610 -10.5 -9.2 0.8 -1.4 -0.3 3.41656 -12.5 -0.6 -0.2 0.6 -0.3 -5.61980 -7.5 -8.1 0.8 1.6 -0.3 4.4456 -8.5 -13.3 -0.2 1.6 -0.3 -4.61568 -11.5 0.0 0.8 0.6 1.7 -3.62032 11.5 -10.3 -0.2 -1.4 -0.3 22.41440 -5.5 -11.0 -0.2 0.6 3.7 0.41020 11.5 -9.2 -0.2 -1.4 -0.3 24.4

... ... ... ... ... ... ...0 0 3 39 9 28.3 12

6 DADOS LIMITADOS 1.4

Capıtulo 2

O modelo tobit

Neste capıtulo discutimos alguns resultados basicos sobre o modelo tobit.Apresentamos inicialmente o modelo tobit normal, a funcao de verossimi-lhanca e as equacoes de estimacao correspondentes. Mencionamos tambemextensoes robustas com a substituicao da distribuicao normal pelos modelost-Student e potencia-normal.

2.1 O modelo tobit normal

Pesquisadores sao frequentemente confrontados com dados para os quais avariavel resposta tem um limite inferior (que pode ser considerado comozero, sem perda de generalidade) e toma este valor para uma parte con-sideravel das unidades amostrais. Este e o caso, por exemplo, dos dadossobre horas trabalhadas por donas de casa (Mroz, 1987).

Uma outra maneira e tratar os zeros como observacoes latentes (nao ob-servadas) contınuas. Esta ideia e popularizada em Tobin (1956) e o modeloresultante e chamado modelo tobit.

Formalmente, dada a variavel de interesse Y , o modelo tobit pode serformulado como

yi =

0, se wi ≤ 0wi, se wi > 0,

7

8 O MODELO TOBIT 2.1

onde a variavel latente e wi = x′iβ + εi, com εi ∼ N(0, σ2), i = 1, . . . , n.Consequentemente, denotamos as respostas observadas por yi, o valor das kvariaveis explanatorias para a i-esima observacao por xi ∈ Rk, os parametrosde regressao por β = (β0, β1, . . . , βk)

′ e o i-esimo termo residual por εi.

Pode-se escrever o modelo acima como

yoi = Iiyi, yi = x′iβ + εi,

onde Ii = I(yi > 0), com xi = (xi1, . . . , xik)′, i = 1, . . . , n.

Com as suposicoes temos

yiind.∼ N(x′iβ, σ

2),

i = 1, . . . , n. Note que, sendo yi ∼ N(µi, σ2), temos que

P [y0i = 0] = P [yi ≤ 0] = 1− Φ(µi/σ).

Por outro lado, sendo

yoi > 0, temos yoid= yi,

de modo que a funcao de verossimilhanca pode ser escrita como

LN (β, σ2) =n∏i=1

[1− Φ(1

σx′iβ)]1−Ii [(

1

σφ(

1

σ(yi − x′iβ)]Ii ,

com φ e Φ sendo a fdp e a fda da N(0,1).

Derivando a log-verossimilhanca, temos as equacoes de verossimilhanca

σ2 =1

n1y′D(y −Xβ),

X′(In −D)η = X′D(y −Xβ),

onde n1 =∑n

i=1 Ii, D = diag(I1, . . . , In),

η = (σr(−x1β′/σ), . . . , σr(−x′nβ/σ))′, r(z) =

φ(z)

Φ(z).

2.1 O MODELO TOBIT NORMAL 9

Como as equacoes acima sao nao lineares, metodos numericos sao necessariospara a sua solucao. Uma alternativa seria a maximizacao direta da funcaolog-verossimilhanca, o que pode ser implementado no aplicativo R.

A partir da derivada da funcao escore (avaliada no estimador de maximaverossimilhanca (EMV)), podemos obter a matriz de informacao observada(MIO). Invertendo a MIO, temos estimativas consistentes para a matriz decovariancias assintoticas dos parametros do modelo.

Considerando a reparametrizacao

γ = β/σ, τ = 1/σ,

pode-se mostrar que as derivadas segundas podem ser escritas como

∂2 logLN∂γ∂γ′

= −n∑i=1

(1− Ii)r(−ci)(r(−ci)− ci)xix′i −n∑i=1

Iixix′i,

∂2 logLN∂γ∂τ

=n∑i=1

Iixix′i,

∂2 logLN∂γ∂γ′

=n1

τ2−

n∑i=1

Iiy2i ,

onde ci = x′iγ.

A matriz de informacao de Fisher (MIF) pode ser calculada a partir dasderivadas segundas acima usando os seguintes resultados (Arellano-Valle etal., 2012):

E[Ii] = P [Yi > 0] = Φ(ci),

E[IiYi] = E[Ii]E[Yi|Yi > 0] = (1/τ)(ciΦ(ci) + φ(ci)),

E[IiY2i ] =

1

τ2[(1 + ci)Φ(ci) + c2

iφ(ci)].

Para implementar o enfoque Bayesiano para o modelo tobit normal,pode-se usar o programa OpenBugs de duas maneiras diferentes. Uma dasmaneiras e entrar diretamente no OpenBugs usando

dummy[i] ∼ loglik(logLike[i]),

10 O MODELO TOBIT 2.2

onde logLike[i] e o logaritimo da funcao de verossimilhanca.

Uma maneira alternativa e entrar com o modelo de regressao normalcensurado, isto e

yi|β, σ2 ∼ NT (x′iβ, σ2, A),

com A = [0,∞).

Em geral,

Y ∼ TN(x′iβ, σ2, A)

se

fTN (y|µ, σ2, A) = c−1fN (y|µ, σ2)I(y ∈ A),

com

c =

∫AfN (y|µ, σ2)dx.

A funcao de log-verossimilhanca para o modelo tobit (para T=c) para asituacao onde o erro εi segue uma funcao de distribuicao F , pode ser escritacomo

`(θ;Y ) =∑i

(1− Ii) ln[F (c− µσ

)] +∑i

Ii− ln(σ) + ln(f(yi − µσ

)

onde f = F ′, e

Ii =

1, se y∗i > c0, se y∗i ≤ c,

A distribuicao comumente usada com o modelo acima e a distribuicaonormal, isto e, X ∼ N(µ, σ2),

F ′(x) = f(x) =1√

2πσ2e−

(x−µ)2

2σ2 .

2.2 EXTENSOES ROBUSTAS DO MODELO TOBIT 11

2.2 Extensoes robustas do modelo tobit

Uma distribuicao que pode ser empregada no lugar da distribuicao normale a distribuicao t-Student com fdp

F ′(z) = f(z) =Γ(ν+1

2 )√νπσΓ(ν2 )

(1 +(z − µ)2

νσ2)−

ν+12 , z ∈ R,

onde Γ(.) e a funcao gamma. A distribuicao t-Student vem sendo bas-tante utilizada na presenca de observacoes extremas (”outliers”) e uma re-visao bastante completa de sua mais importantes propriedades aparece emArellano-Valle e Bolfarine (1995). Uma versao assimetrica do modelo t-Student e considerada em Gomea et al. (2007). Veja tambem Arellano-Valleet al. (2012).

O modelo de regressao t-Student pode ser escrito atraves da hierarquia

Yi|Vi = viind∼ N(x′iβ, v

−1i σ2),

Viiid∼ Gama(ν/2, ν/2),

i = 1, . . . , n.

Para implementar o enfoque Bayesiano e algoritmo EM, pode-se usar averossimilhanca completa

Lc(θ) =n∏i=1

(1√

2πσ2)e−

12σ2 vi(yi−x′iβ)2

.(ν2 )

ν2

Γ(ν2 )vν2−1

i e−viν2 .

Uma outra distribuicao que pode ser usada e a distribuicao α-potencia(Pewsey et al., 2012). Uma variavel aleatoria Y segue a distribuicao α-potencia com parametros α, µ, σ, que denotamos por Y ∼ AP (µ, σ, α) sesua fdp e dada por

f(y|µ, σ, µ) =1

σf(y − µσ

)F (y − µσ

)α−1,

onde α ∈ R. Para o caso normal, isto e F = Φ, temos o modelo potencianormal. Usamos a notacao Y ∼ PN(µ, σ, α). Este modelo e proposto comouma alternativa ao modelo ”skew-normal”, com fdp

f(y|λ) = 2φ(y)Φ(λy),

12 O MODELO TOBIT 2.3

que apresenta algumas dificuldades como a singularidade da MIF (Azza-lini, 1985). Isto implica, por exemplo, que a distribuicao da estatıstica darazao de verossimilhancas (ERV) nao e assintoticamente distribuıda comdistribuicao χ2.

Para o modelo potencia-normal pode-se mostrar que a matriz de in-formacao de Fisher para θ = (µ, σ, α = 1)′ e dada por

IF (θ) =

1σ2 0 0.9031920 2

σ2 −0.5956360.903197 −0.595636 1

.

Pode-se verificar que

|IF (θ)| = 0.013688/σ4.

Entao, para este modelo a matriz de informacao de Fisher nao e singularno ponto de simetria. Por outro lado, Azzalini (1985) mostra que o modelo”skew normal”apresenta matriz de informacao de Fisher singular. Isso im-plica que as condicoes usuais de regularidade (Bolfarine e Sandoval, 2005)nao estao satisfeitas neste caso.

Para o caso do modelo tobit (com T=c), a log-verossimilhanca para omodelo α-potencia pode ser escrita como

`(θ;Y ) = α∑i

(1− Ii) log

[F

(c− µσ

)]+∑i

Ii

log(α)− log(σ) + log

(f

(yi − µσ

))+ (α− 1) ln

(F

(yi − µσ

)),

onde

Ii =

1, se yi > c0, se yi ≤ c.

2.3 Aplicacoes

Nesta secao consideramos aplicacoes ao conjunto de dados usando o modelotobit e o modelo tobit potencia-normal. Os resultados a seguir aparecemem Martinez et al. (2013).

2.4 APLICACAO DO MODELO TOBIT POTENCIA NORMAL 13

2.3.1 Aplicacao do modelo tobit-normal

Vamos ilustrar uma aplicacao do modelo tobit-normal para parte dos dadosem Fair (1978). Para uma amostra de 601 homens e mulheres casados pelaprimeira vez, temos como variavel resposta (Y), o numero de casos extra-conjugais. Parte das variaveis usadas no estudo foram as seguintes:

Y : numero de casos extraconjugais no ano anterior

X1: anos de casado

X2: idade

X3 : religosidade (escala de 1 (ateu) a 5 (frequenta regularmente)

X4: avaliacao casamento (escala de 1 (muito infeliz) a 5 (muito feliz)

Dos 601 entrevistados, 451 nao tiveram casos. Temos, portanto, dadoscom censura em zero.

Tabela 2.1: Estatısticas descritivas para dados de Fairn Media Variancia Assimetria curtose

601 7.45 17.11 0.1553 3.7

Note que existe indicacao de assimetria e curtose acima do esperadopara a distribuicao normal. Temos tambem as estimativas: β0 = 9.08 (2.66),β1 = −0.16 (0.077), β2 = 0.54 (0.13), β3 = 1.72 (0.41), β4 = −2.26 (0.41),σ = 8.27 (0.55). Alem disso, Log − lik = −706.4. Portanto as variaveisinfluenciam significativamente no numero de casos extraconjugais.

2.4 Aplicacao do modelo tobit potencia normal

Para os dados de Fair (1978), usando o modelo tobit potencia-normal (to-bit/PN) temos α = 10.26 (0.56), com Log − lik = −581.22, indicando forteevidencia de que o modelo tobit/PN apresenta melhor ajuste para os dados

14 O MODELO TOBIT 2.4

de Fair. Nao existem disferencas significativas nas estimativas dos outrosparametros.

Capıtulo 3

O modelo tobit com excessode zeros

Neste capıtulo consideramos modelos para a situacao onde temos ajuste domodelo tobit com excesso de zeros. Basicamente, consideramos os mode-los propostos em Moulton and Halsey (1995) e Cragg (1971). Discutimosestimacao por metodos classicos e Bayesianos.

3.1 Modelos com excesso de zeros

Existem situacoes reais onde a quantidade de zeros e maior que o esper-ado com o modelo tobit-normal. Uma possibilidade e considerar que partedos zeros observados vem de uma massa pontual concentrada no limite dedeteccao mınimo (LDM) nao explicada pela distribuicao correspondente aresposta nao nula.

O modelo tobit com excesso de zeros pode ser implementado considerandoo enfoque em Moulton e Halsey (1995) que especifica para a resposta obser-vada que

g(yi) = [qi + (1− qi)F (T )](1− Ii) + (1− qi)f(yi)Ii,

onde

15

16 O MODELO TOBIT COM EXCESSO DE ZEROS 3.2

Ii =

1, se yi > T0, se yi ≤ T.

A situacao onde o ponto de truncamento e T = 0 e imediata. Covariadaspodem ser associadas com qi atraves de uma funcao de distribuicao (ligacao)H, ou seja,

qi = H(x′iβ).

Para o caso em que qi = q, isto e, a probabilidade de excesso de zeros econstante para as unidades amostrais, a funcao log-verossimilhanca parauma amostra y = (y1, . . . , yn)′ e vetor de parametros θ, pode ser escritacomo

l(θ|y) ∝n∑j=1

(Ij − 1) log(q + (1− q)F (yj)) + Ij log(1− q) + log(f(yj)).

Uma alternativa ao modelo de Moulton and Halsey (1995) e a alternativaproposta por Cragg (1971) onde e especificado que

g(yi) = qi(1− Ii) + (1− qi)f(yi)Ii,

i = 1, . . . , n, ou seja, os zeros observados sao oriundos da massa pontual.Note que o caso particular do modelo tobit padrao segue como um casoparticular dos modelos acima tomando qi = 0, i = 1, . . . , n.

3.2 A distribuicao log-α-potencia

Conforme visto no capıtulo anterior, o modelo tobit (potencia) assimetrico(TPA) pode ser definido considerando F como sendo a fda da distribuicaoα-potencia com fdp dada por

fF (z) = αf(x)F (z)α−1.

No caso particular em que F ′ = f = φ, temos, como visto anteriormente,

fN (z) = αφ(z)Φα−1(z).

A distribuicao do tempo de vida de um equipamento e a concentracao deum elemento quımico em amostras de solo (agua ou sangue) e tipicamentedistribuıda de acordo com a distribuicao log-normal. Em muitas dessas

3.2 A DISTRIBUICAO LOG-α-POTENCIA 17

situacoes, contudo, a assimetria da distribuicao pode estar acima do esper-ado com a distribuicao log-normal.

O modelo log-”skew-normal”e estudado em Gomez et al. (2011) do qual omodelo log-normal e um caso especial. Uma extensao do modelo log-normalpara o modelo log-”skew-normal”e considerado em Chai e Bailey (2008).Contudo uma das dificuldades do modelo log− skew− normal (log-normalassimetrico) e o fato de sua matriz de informacao de Fisher ser singular. Adistribuicao da estatıstica da razao de verossimilhanca para testar normali-dade, por exemplo, nao segue distribuicao χ2.

Como uma alternativa a estas situacoes, consideramos o modelo log-potencia-normal (”log-power-normal”) (LPN), que contem como caso par-ticular a distribuicao log-normal. Uma vantagem deste modelo e que elecontem um parametro de forma adicional, que o faz mais flexıvel em termosde assimetria e curtose para ajustar dados experimentais como os consider-ados nestas notas.

Dizemos que uma variavel y, com suporte em R+, segue uma distribuicaolog-α-potencia univariada com parametro α, que denotamos por Y ∼ LAP (α),se a variavel transformada X = log(Y ) ∼ AP (α).

A fdp de uma variavel Y ∼ LAP (α) pode ser escrita como

g(y;α) =α

yf(log(y)) F (log(y))α−1 , y ∈ R+, (3.1)

onde F e uma funcao de distribuicao absolutamente contınua com funcaode densidade f = F ′. Nos referimos a esta distribuicao como log-α-potenciapadrao.

No caso especial em que f = φ(·) e F = Φ(·), as funcoes de densidade ede distribuicao da normal padrao (N(0, 1)), respectivamente, a distribuicaolog-potencia-normal segue, com fdp dada por

g(y;α) =α

yφ(log(y)) Φ(log(y))α−1 , y ∈ R+, (3.2)

que denotamos por Y ∼ LPN(α). Sua funcao de distribuicao pode serescrita como

FY (y;α) = Φ(log(y))α , y ∈ R+. (3.3)

O metodo de inversao pode ser usado para gerar valores aleatorios davariavel com distribuicao LPN(α). Isto e, se U ∼ U(0, 1), a distribuicao

18 O MODELO TOBIT COM EXCESSO DE ZEROS 3.3

da variavel aleatoria Y = eΦ−1(U1/α) e (log-potencia-normal) LPN comparametro α.

Seja X ∼ PN(µ, σ, α), onde µ ∈ R e um parametro de localizacao eσ ∈ R+ e um parametro de escala. Entao, a transformacao X = log(Y )leva ao modelo localizacao-escala log-potencia-normal. Usamos a notacaoY ∼ LPN(µ, σ, α).

No caso particular em que α = 1, isto e,

Z =log(Y )− µ

σ∼ N(0, 1),

pode-se mostrar que (depois de algumas manipulacoes algebricas que) amatriz de informacao de Fisher para θ = (µ, σ, α)′ e dada por

I(θ) =

1/σ2 0 a01/σ0 2/σ2 a11/σ

a01/σ a11/σ 1

,

onde akj = Ezk(φ(z)/Φ(z))j for k = 0, 1, 2, 3 e j = 1, 2, que coincidecom a matriz de informacao de Fisher para a distribuicao potencia-normal(Pewsey et al., 2012).

Assim, usando procedimentos numericos, pode-se mostrar que

|IF (θ)| = [2− (a211 + 2a2

01)]/σ4 6= 0,

de modo que a matriz de informacao de Fisher e nao singular para α = 1.0. Amatriz de informacao completa tambem foi derivada. Entao, para n grande,

θA−→ N3(θ, IF (θ)−1),

implicando na consistencia e normalidade assintotica do EMV de θ, cujavariancia assintotica dada por IF (θ)−1.

Como consequencia desta propriedade importante, podemos testar (como modelo LPN) log-normalidade (isto e, H0 : LPN = LN), usando pro-priedades para grandes amostras da estatıstica da RV que segue distribuicaoχ2. Este nao e o caso, por exemplo da distribuicao LSN, para a qual a MIFe singular. A escolha de um modelo conveniente pode ser feito atraves dosvalores de assimetria e curtose.

3.3 O modelo bernoulli/log-α-potencia

Uma extensao importante do modelo log-potencia-normal para a situacaode excesso de zeros e a extensao proposta em Cragg (1971), usualmente

3.3 O MODELO BERNOULLI/LOG-α-POTENCIA 19

chamado modelo de duas partes (two-part model), que estabelece uma maneirade relaxar a restricao do truncamento no modelo tobit. Sob o modelo Cragg(1971) a fdp de yi pode ser formalmente escrita como

g(yi) = piIi + (1− pi)f(yi)(1− Ii), (3.4)

onde pi e a probabilidade determinando a contribuicao relativa da massapontual na distribuicao da mixtura, f e uma fdp com suporte positivo e,

Ii =

0, se yi > 01, se yi ≤ 0.

Neste modelo os dois componentes sao determinados por processos es-tocasticos diferentes de modo que os componentes positivos vem da fdp f .Por outro lado um zero vem da massa pontual. Este modelo nao consid-era contudo um limite de detecao mınimo e que parte das observacoes estaabaixo deste limite.

Moulton e Halsey (1995) generalizam o modelo em duas partes per-mitindo que parte das resposta limites resultam de censura intervalar de f .Isto significa que um zero pode vir da massa pontual ou pode ser um valorde f nao definido precisamente em (0, T ), com T constante. Formalmente,

g(yi) = [pi + (1− pi)F (T )]Ii + (1− pi)f(yi)(1− Ii), (3.5)

onde F e a fda de f.

Entao, uma grande quantidade de modelos sao produzidos variando adensidade basica f e a funcao de ligacao correspondente a pi. Diversosmodelos hıbridos podem ser considerados como os modelos probit/potencia-normal, logit/log-normal, logit/log-gamma e probit/log-skew-normal. Estesmodelos foram considerados em aplicacoes praticas em biologia, economia,agricultura e muitas outras areas (Chai and Bailey, 2008). Note que sepi = 0, i = 1, . . . , n, o modelo de Moulton e Halsey (1995) reduz-se ao mod-elo tobit usual (Tobin, 1958).

No caso da medicao de concentracao de anticorpos por diferentes lab-oratorios, e considerando yi a resposta para a unidade i, e tipicamente deinteresse a situacao onde a distribuicao de log(yi) e funcao dos parametrosβ0, ..., βp que estao relacionados atraves do modelo linear

log(yi) = β0 + β1x1i + ...+ βpxpi + εi,

20 O MODELO TOBIT COM EXCESSO DE ZEROS 3.3

onde εi ∼ PN(0, σ, α) e x1, ..., xp sao constantes fixas e conhecidas.

Sob o modelo PN,

E[εi] = ασ

∫ 1

0Φ−1(z)zα−1dz 6= 0,

de modo que o valor esperado do termo do erro nao e nulo como e o casosob normalidade.

Consequentemente, E[yi] 6= x′iβ e teremos que corrigir o parametro inter-cepto, isto e, β∗0 = β0 + µε, onde µε = E[εi]. Entao,

E[yi] = x′iβ∗, onde β∗ = (β∗0 , β1, ..., βp)

′.

Consideramos agora extensoes do modelo Bernoulli/LN para as situacoesdos modelos logito/LPN e probito/LPN, juntamente com covariadas emcada passo do modelo. Este desenvolvimento esta apresentado em Martinezet al. (2012a).

Inicialmente, suponhamos que todas as observacoes vem do modelo LPNcom parametros de localizacao e escala µ e σ, respectivamente, mas semcovariadas. A contribuicao para a verossimilhanca de observacoes nao cen-suradas, isto e, para y > T, pode ser representada como

α

σyφ [(log(y)− µ)/σ] Φ[(log(y)− µ)/σ]α−1 .

Covariadas sao introduzidas para ambas as partes do modelo, ou seja,para as variaveis D e Y , de modo que considerando a ligacao logito para avariavel D temos que

logitP [D = 1|x(1)] = x′(1)β(1),

onde x(1) e o vetor de covariaveis de dimensao p, associados com o vetor deparametros β(1). Entao, temos que

τi = 1− pi =exp(x′(1)iβ(1))

1 + exp(x′(1)iβ(1)), i = 1, . . . , n.

3.3 O MODELO BERNOULLI/LOG-α-POTENCIA 21

Correspondendo a parte LPN temos o vetor de covariaveis x(2) de di-mensao q, possivelmente diferente de x(1), onde temos o vetor de parametrosβ(2), para os quais

log(yi) ∼ PN(x′(2)iβ(2), σ, α), yi > 0.

Chamamos atencao para o fato que diferentes distribuicoes podem levar amodelos de regressao mais informativos (Chai and Bailey, 2008).

O logaritimo da funcao de verossimilhanca para θ = (β′(1)β′(2), σ, α)′

dados X = (x1, x2) e Y = (y1, . . . , yn), desprezando constantes nao infor-mativas, pode ser escrita como

`(θ;X,Y ) =∑i

Iilog[1 + exp(x′(1)iβ(1))Φ(zT i)α]

− log[1 + exp(x′(1)iβ(1))]

+∑i

(1− Ii)log(α)− log(σyi)

+x′(1)iβ(1) − log[1 + exp(x′(1)iβ(1))

]− 1

2z2i + (α− 1) log(Φ(zi)),

onde zT i =log(T )−x′

(2)iβ(2)

σ e zi =log(yi)−x′(2)i

β(2)

σ .

Usando as equacoes acima, estimadores de maxima verossimilhanca paraos parametros do modelo podem ser calculados. Como a MIF para o mod-elo LPN e nao singular, inferencia em grandes amostras para o modeloBernoulli/LPN podem ser implementadas para os EMV sob condicoes deregularidades usuais onde o EMV e assintoticamente normal com mediaθ e matriz de covariancias igual a inversa da MIF, indicando otimalidadeassintotica. Pode-se considerar extensoes do modelo acima como a presencade interacoes.

Considerando agora o modelo probit para a variavel de Bernoulli D,temos que

pi = P [yi = 0] = Φ(−x′(1)iβ(1)) = 1− Φ(x′(1)iβ(1))

e

log(yi) ∼ APN(x′(2)iβ(2), σ, α), yi > 0.

22 O MODELO TOBIT COM EXCESSO DE ZEROS 3.4

O logaritimo da funcao de verossimilhanca (funcao log-verossimilhanca),a menos de constantes, pode ser escrito como

`(θ;X,Y ) =∑i

Ii

log[1 + Φ(x′(1)iβ(1))Φ(zT i)α − 1

],

+∑i

(1−Ii)

log(α)− log(η) + log(

Φ(x′(1)iβ(1)))− 1

2z2i + (α− 1) log(Φ(zi))

,

onde

zT i =log(T )− x′(2)iβ(2)

σe zi =

log(yi)− x′(2)iβ(2)

σ.

A funcao escore e obtida derivando-se a funcao de log-verossimilhanca.

A funcao log-verossimilhanca do modelo tobit (com T=c) considerandoque a distribuicao do erro segue distribuicao α-potencia pode ser escritacomo

`(θ;Y ) = α∑i

(1− Ii) log

[F

(c− µσ

)]+

∑i

Ii

log(α)− log(σ) + log

(f

(yi − µσ

))+ (α− 1) ln

(F

(yi − ξσ

))onde

Ii =

1, se yi > c0, se yi ≤ c.

Casos particulares importantes seguem tomando f = φ e f = tν(µ, σ2).

3.4 Aplicacao: dados do Haiti

Consideramos a ligacao logito e a distribuicao log-normal para parte pos-itiva (incluindo respostas limitadas). Os dados sao descritos em Moultonand Halsey (1995).

Tabela 1 sintetiza resultados de estimacao para os dados de vacinacaono Haiti sob diferentes modelos considerando ou nao mistura e censura.

3.4 APLICACAO: DADOS DO HAITI 23

Variaveis:

EZ (Tipo de vacina, 0: Schwarz, 1: Edmonston-Zagreb);

HI (dose, 0: medio, 1: alto);

FEM (sexo; 0: masculino, 1: feminino);

INT: Termo constante.

A tabela a seguir apresenta analises classica (EMV) e Bayesiana para osdados acima, considerado o modelo Bernoulli/log-normal. As estimativasdas variancias para o enfoque classico sao apresentadas em Moulton andHalsey (1995) de onde se conclui que das variaveis consideradas no estudo,TIPO e SEXO sao significantes.

24 O MODELO TOBIT COM EXCESSO DE ZEROS 3.4

Tabela 3.1: Estimativas classicas e BayesianasModelo Metodo Componente Bernoulli Componente log-normal Component

INT EZ HI FEM INT EZ HI FEMA Clas -0.979

Bay -0.981B Clas -1.287 0.340 0.182 0.115

Bay -0.932 0.203 0.097 0.114C Clas 1.198 -0.273

Bay 1.227 -0.285D Clas 1.178 -0.327 -0.109 -0.037 0.290

Bay 1.226 -0.361 -0.083 -0.025 0.277E Clas 0.732 0.843 0.431 -0.166 -0.274

Bay 0.813 0.950 0.445 -0.244 -0.305F Clas 0.765 0.932 0.433 -0.281 -0.304 -0.192 -0.063 0.329

Bay 0.910 1.112 0.439 -0.425 -0.353 -0.199 -0.055 0.339G Clas 0.648 0.830 0.426 -0.404 0.279

Bay 0.678 0.893 0.440 -0.421 0.266

Tabela 3.2: Ajustes MV e BayesianosModelo −2× loglik DIC pD

A 1115.830 136.600 1.89B 1113.180 120.560 5.17C 1079.320 101.800 2.7D 1075.620 104.500 5.79E 1068.720 95.560 5.08F 1063.360 94.470 9.07G 1065.810 93.840 5.42

Estimadores dos parametros para ajustes da mistura logito/LN com ume dois componentes considerando inferencia classica e Bayesiana para osdados do Haiti.

Comparacoes para dados do Haiti considerando inferencia classica eBayesiana. Note que existe discordancia entre os resultados classicos eBayesianos quanto ao ajuste do modelo. Para o enfoque Bayesiano, o melhormodelo e o modelo G (mais completo), enquanto que para o enfoque classicoo modelo que melhor se ajusta e o modelo F.

A tabela a seguir apresenta resultados do ajuste Bayesiano dos mode-los log-normal e log-potencia-normal incluindo as estimativas dos desviospadroes. Note que o enfoque Bayesiano tanto para os modelos log-normalcomo log-potencia-normal indicam significancia das variaveis TIPO e SEXO.

Para o modelo completo, Moulton e Halsey (1995) obtiveram os seguintesestimativas (Estimativa/DP):

3.5 APLICACAO: DADOS DE MROZ 25

Tabela 3.3: Ajustes log-potencia-normal e log-normalModel Log-Normal Log-Potencia-Normal

parameters mean MC error P5 P95 mean MC error P5 P95α 16.69 0.600 3.55 38.38

β(1)0 0.91 0.009 0.42 1.45 0.72 0.009 0.30 1.18β(1)1 1.15 0.058 0.50 1.92 0.86 0.011 0.39 1.35β(1)2 0.44 0.009 -0.06 0.99 0.38 0.008 -0.07 0.85β(1)3 -0.42 0.009 -1.02 0.13 -0.26 0.009 -0.74 0.20β(2)0 -0.35 0.004 -0.66 -0.07 -3.43 0.047 -4.94 -1.70β(2)1 -0.20 0.005 -0.48 0.08 -0.14 0.005 -0.37 0.10β(2)2 -0.06 0.003 -0.34 0.22 0.01 0.005 -0.21 0.26β(2)3 0.35 0.003 0.07 0.63 0.25 0.006 0.01 0.50σ 1.18 0.003 1.06 1.32 1.87 0.009 1.48 2.21τ 0.73 0.003 0.57 0.89 0.30 0.004 0.21 0.46

Dbar 7687.00 7681DIC 7693.00 7687EAIC 7705.00 7701EBIC 7739.19 7739.0

Componente Bernoulli: β(1)0 = .77(2.77), β(1)1 = .93(2.82), β(1)2 =

.43(1.48), β(1)3 = −.28(2.82)

Componente log-normal: β(2)0 = −.31(−1.89), β(2)1 = −.19(−1.20),

β(2)2 = −.06(−.40), β(2)3 = −.33(2.06).

Temos, portanto que os resultados classicos e Bayesianos concordamquanto a significancia dos parametros, havendo contudo diferenca no melhormodelo ajustado. O enfoque Bayesiano recomenda o modelo G.

3.5 Aplicacao: dados de Mroz

Consideramos os dados de Mroz (1987), que analisa as informacoes de 753mulheres casadas com idade entre 30 e 60 anos, com interesse na relacaoentre a oferta de trabalho e outras covariaveis, no ano de 1975. Para obteros dados, basta entrar no R com

> library(sampleSelection)

> data(Mroz87)

26 O MODELO TOBIT COM EXCESSO DE ZEROS 3.5

As variaveis utilizadas no artigo sao: Horas de trabalho (variavel re-sposta), salario que nao e devido ao trabalho da mulher, anos de educacao,anos de experiencia de trabalho, idade da mulher, numero de criancas menoresque 6 anos, nmero de criancas entre 6 e 18 anos.

Tabela 3.4: Estimadores Bayesianos para parametros do componenteBernoulli

Parametro Media D.P. Q2.5% Q97.5%

β1(1) -0.05 9.761 -19.31 19.27

β1(2) -0.54 9.68 -19.74 18.46

β1(3) 5.10 7.753 -12.41 19.73

β1(4) -3.80 6.283 -9.98 16.94

β1(5) 6.50 5.866 -8.25 14.48

β1(6) 11.90 5.417 0.023 18.94

β1(7) 1.54 11.62 -17.59 22.21

β1(8) 9.3 6.069 -0.61 20.6

Note que H0 : β1(6) 6= 0 e significante, de modo que existe indicacao deque existe excesso de zeros nos dados de Mroz (1976).

Tabela 3.5: Estimadores Bayesianos para parametros do componentecontınuo

Parametro Media D.P. Q2.5% Q97.5%

β2(1) 0.8324 9.921 -19.0 20.02

β2(2) -5.715 9.885 -25.39 13.8

β2(3) 3.111 9.462 -15.05 21.65

β2(4) -8.74 3.444 -15.58 -1.978

β2(5) 23.23 8.355 6.486 39.15

β2(6) -6.308 4.128 -14.13 1.763

β2(7) 38.18 7.592 21.87 52.86

β2(8) 0.7323 0.3108 0.168 1.389

Temos tambem que σ = 1223, 0. Note que variaveis significantes para aparte contınua sao 1, 4, 5 e 6. Para a parte discreta (pontual), temos quea variavel X5 e significativa ao nıvel de 5%, indicando que existe excesso dezeros nos dados de Mroz.

Capıtulo 4

Modelo α-potenciainflacionado de zeros e/ouuns

Neste capıtulo consideramos distribuicoes potencia para modelar proporcoesou taxas com inflacao de zeros e/ou uns como uma alternativa ao mod-elo de regressao beta. Os modelos considerados sao misturas de processosde Bernoulli para explicar o excesso de zeros e/ou uns e uma distribuicaopotencia-normal limitada para explicar a resposta contınua. Consideramosos enfoques de maxima verossimilhanca e Bayesiano para a estimacao dosparametros. Matrizes de informacao observadas (MIO) e esperadas (MIF)sao derivadas, ilustrando aspectos interessantes destes modelos.

Dada a flexibilidade da distribuicao potencia-normal, pode-se mostrarem um cenario pratico que o modelo tobit modificado pode ser mais precisoque o modelo de regressao beta.

4.1 Modelos duplamente censurados

Modelos estatısticos usados para explicar variaveis respostas no intervalo(0, 1) tem recebido consideravel atencao na literatura estatıstica recente.Entre outros, mencionamos, Ferrari e Cribari-Neto (2004), Brascum et al.(2007) e Bayes et al. (2012). Extensoes deste modelos para situacoes comrespostas no intervalos [0, 1], [0, 1) e (0, 1] sao estudadas em Ospina e Ferrari

27

28 MODELO α-POTENCIA INFLACIONADO DE ZEROS E/OU UNS 4.2

(2010). Variaveis deste tipo incluem, por exemplo, a proporcao de mortescausadas pelo cigarro, a proporcao de impostos gastos na educacao, a pro-porcao de renda familiar gasta em alimetacao, etc.

A situacao da variavel resposta com inflacao de zeros e uns e relatado emum conjunto de dados sobre a porcentagem de mortes nao explicadas nosmunicıpios brasileiros durante o ano 2000 entre criancas com menos de umaano de idade. Das 5561 observacoes coletadas, tem-se um total de 3367 zerose 174 uns, que certamente deve ser incorporado no estudo. Para tratar destecenario mais complexo uma extensao do modelo de regressao beta usual foiconsiderado in Ospina (2008) e Ospina e Ferrari (2010), levando a resultadosbastante satisfatorios.

Neste capıtulo, propomos um enfoque alternativo ao descrito acima.Ele e uma extensao do modelo tobit censurado (Tobin, 1956) no inter-valo [0, 1], para incorporar inflacao de zeros e/ou uns. E considerado queparte dos zeros e/ou uns vem de uma variavel Bernoulli ligando possıveisexcessos de zero e/ou uns com um grupo de covariaveis que podem influ-enciar na probabilidade de de ocorrencia de tais valores. Por outro lado,as resposta contınuas podem ser modeladas usando a distribuicao potencia-normal (Gupta e Gupta, 2008, Pewsey et al., 2012), que sao mais flexıveisque a distribuicao normal em termos de assimetria e curtose com EMVs bemcomportados para os quais as condicoes de regularidade estao satisfeitas.

Alem disso, a extensao do modelo tobit que propomos consiste em sub-stituir a fda da distribuicao normal pela fda da distribuicao potencia-normalque e quase tao simples de se trabalhar quanto o modelo normal usual. Umaalternativa e usar a distribuicao normal assimetrica que apresenta as dificul-dades ja mencionadas anteriormente e alem disso tem fda nao tao simplesde ser trabalhada.

Definimos inicialmente o modelo tobit-potencia-normal (TPN) dupla-mente censurado no intervalo (0, 1), extendendo o modelo tobit usual parasituacoes duplamente censuradas. A seguir o modelo e extendido parasituacoes com excesso de zeros e/ou uns. Situacoes com dados reais sao anal-isadas. Introduzimos o modelo Bernoulli/tobit-potencia-normal (Bernoulli/TPN),onde se trata o problema de estimacao do ponto de vista Bayesiano.

4.3 DISTRIBUICOES PN PARA DADOS CENSURADOS 29

4.2 Distribuicoes PN para dados censurados

Em uma situacao duplamente censurada, a variavel resposta e restrita atomar valores em um intervalo, e eventualmente pode tomar os valores lim-ites para parte significante dos dados. Os valores limites sao usualmentechamados de limites de detecao mınimo (LDm) e maximo (LDM), respecti-vamente. Temos entao o modelo tobit duplamente censurado.

O modelo tobit usual pode nao ser adequado em situacoes onde os valoresobservados para a parte contınua dos dados apresentam assimetria e curtosemaior do que e esperado para o modelo normal. Em tais situacoes, o modelopotencia-normal pode ser uma alternativa viavel.

4.3 Modelo potencia-normal duplamente censurado

Suponhamos que y∗ ∼ PN(ξ, η;α). Considere uma amostra de tamanho n,(y∗1, y

∗2, ..., y

∗n) e que somente parte dos valores de y∗ esta entre constantes

c0 e c2. Para valores de y∗ ≤ c0 somente o valor c0 e relatado enquantoque para valores de y∗ ≥ c2, somente o valor c2 e relatado. Podemos entaoescrever os dados observados como

yi =

c0, se y∗i ≤ c0,

y∗i , se c0 < y∗i < c2,

c2, se y∗i ≥ c2,

i = 1, 2, ..., n.

A amostra resultante e dita ser uma amostra PN duplamente censurada.Para observacoes yi = c0, temos que

P [yi = c0] = P [y∗i ≤ c0] = Φ (z0)α ,

onde z0 = (c0 − µ)/σ; com y∗i = c2 temos

P [yi = c2] = P [y∗i ≥ c2] = 1− Φ (z2)α ,

onde z2 = (c2 − µ)/σ. Para respostas contınuas, isto e, c0 < y∗i < c2, temosque yi ∼ PN(µ, σ, α). Denotamos esta variavel por PNDC(µ, σ, α).

Particularmente, para α = 1, o modelo se reduz ao modelo tobit dupla-mente censurado.

30 MODELO α-POTENCIA INFLACIONADO DE ZEROS E/OU UNS 4.3

Denotando por∑

0,∑

1 and∑

2, as somas correspondendo a y∗ ≤ c0,c0 < y∗i < c2 e y∗ ≥ c2 respectivamente, entao, o logaritimo da funcao deverossimilhanca correspondente a uma amostra de tamanho n para estimarθ = (µ, σ, α)′ pode ser escrita como

`(θ; Y) = α∑

0

log [Φ (z0)] +∑

2

log [1− Φ (z2)α]

+∑

1

log(α)− log(σ) + log (φ (z1i)) + (α− 1) log (Φ (z1i)) ,

onde zi = (yi − µ)/σ, i = 1, . . . , n.

Portanto, os elementos da funcao escore sao dados por

U(ξ) = − 1

σ

∑0

r(z0) +1

σ

∑1

z1i − (α− 1)w1i+1

σ

∑2

h(z2),

U(η) = − 1

σ

∑0

r(z0)z0 +1

σ

∑1

−1 + z2

1i − (α− 1)z1iw1i

+

1

σ

∑2

z2h(z2),

U(α) =∑

0

log [Φ (z0)]+∑

1

1

α+ log (Φ (z1i))

−α−1

∑2

log(Φ(z2))w−12 h(z2),

onde

z0 =c0 − µσ

, z2 =c2 − µσ

, z1i =yi − µσ

, w2 =φ(z2)

Φ(z2), w1i =

φ(z1i)

Φ(z1i),

e h e r sao as funcoes de risco, r(t) = φ(t)/Φ(t), e risco inverso h(t) =φ/(1− Φ(t)).

Pode-se mostrar que as elementos da matriz de informacao observadasao dados por

jµµ =1

η2

∑0

r(z0)z0 + α−1r(z0)

+1

σ2

∑1

1 + (α− 1)[z1iw1i + w21i]

+1

σ2

∑2

h(z2)[−z2 + (α− 1)w2 + h(z2)],

4.4 MODELO POTENCIA-NORMAL DUPLAMENTE CENSURADO 31

jσµ =1

η2

∑0

r(z0)−1 + z20 + α−1z0r(z0)

+1

σ2

∑1

2z1i + (α− 1)[−w1i + z21iw1i + z1iw

21i]

+1

σ2

∑2

h(z2)[1− z22 + (α− 1)z2w2 + z2h(z2)],

jσσ =1

σ2

∑0

r(z0)−2z0 + α−1z20r(z0) + z3

0r(z0)

+1

σ2

∑2

z2h(z2)[2− z22 + (α− 1)z2w2 + z2h(z2)]

1

σ2

∑1

−1 + 3z21i + (α− 1)[−2z1iw1i + z2

1iw21i + z3

1iw1i],

jαµ =1

ασ

∑0

r(z0) +1

σ

∑1

w1i −1

σ

∑2

h(z2)[α−1

+ log(Φ(z2))[1 + w2]],

jασ =1

ασ

∑0

z0r(z0)

+1

σ

∑1

z1iw1i −1

σ

∑2

z2h(z2)[α−1 + log(Φ(z2))[1 + w2]],

jαα =1

α2

∑1

1 + α−2∑

2

w−22 log(Φ(z2))h(z2)[αw2 + h(z)].

Baseado na funcao escore, os elementos da matriz de informacao observadados parametros do modelo podem ser estimados usando algoritmos itera-tivos.

A MIF segue tomando-se esperancas dos componentes acima (multiplicadospor n−1), e importantante no sentido de que a distribuicao assintotica doestimador de maxima verossimilanca e normal com variancia assintotica quee o o inverso da MIF. Temos tambem que a MIF e nao singular.

32 MODELO α-POTENCIA INFLACIONADO DE ZEROS E/OU UNS 4.5

4.4 A transformacao logarıtmica

No caso de variaveis respostas tomando somente valores positivos, podemosconsiderar a transformacao Z = log(Y ), onde Z ∼ N(µ, σ2).

Considerando agora que Z ∼ PN(µ, σ, α), nos obtemos o modelo log-potencia-normal com parametros µ, σ e α, denotado por Y ∼ LPN(µ, σ, α).A fdp para este modelo pode ser escrita como: ϕLPN (y;µ, σ, α) = ϕΦ(log(y);µ, σ, α)/y,y > 0. A fda correspondente e dada por FY (y;α) = Φ((log(y) − µ)/σ)α.Se os dados censurados em [0,∞), com alta assimetria positiva podemossubstituir y por y + 1 dado que o logaritmo de c0 = 0 nao existe.

Para dados duplamente censurados usamos a notacao LPNDC(µ, σ, α).A funcao log-verossimilhanca para o modelo LPNDC com c0 = 0 e dado

por

`LPN (θ; Y) = −∑

1

log(y + 1) + `(θ; log(Y + 1)),

onde `(.) e a log-verossimilhanca para o modelo PNDC, com z0 = −µ/σ,z1i = (log(yi + 1) − µ)/σ e z2 = (log(c2 + 1) − µ)/σ. A funcao escore ea matriz de informacao observadas podem ser obtidas das correspondentespara o modelo PNDC, substituindo h(z2) por hLPN (z2) = h(log(c2 +1))/y er(z0) por rLPN (z0) = r(z0)/y onde h(.) e r(.) sao as funcoes de risco e riscoinverso do modelo PN.

4.5 O modelo Bernoulli duplamente censurado commistura potencia-normal

Para as variaveis resposta distribuıdas no intervalo [0, 1] (c0 = 0 e c2 = 1)o modelo tobit duplamente censurado pode nao ser otimo porque o excessode zeros e uns pode requerer modelos assimetricos capazes de captar taiscaracteristicas especiais.

Introduzimos entao o modelo de mistura entre as variaveis resposta dis-creta e contınuas que segue o modelo potencia-normal.

Consideramos que a massa pontual no zero pode ser modelada por umavariavel de Bernoulli com parametro γ, isto e, Ber(y; γ), e que a respostano intervalo (0, 1) pode ser modelada por uma distribuicao α-potencia (oulog-α-potencia) com parametro θ = (µ, σ, α)′. A fdp correspondente paraeste modelo pode ser escrita como

4.6 ESTIMACAO 33

g(yi) =

p(1− γ), se yi = 0,

(1− p) ϕF (yi,µ,σ,α)F (z2)α−F (z0)α , se 0 < yi < 1,

pγ, se yi = 1,

onde 0 < p, γ < 1, σ, α > 0 e µ ∈ R.

Temos tambem que se ϕF (yi, µ, σ, α) denota a fdp da distribuicao potencia-normal. Como consequencia da construcao acima pode-se notar que P [y =0] = p(1− γ) e P [y = 1] = pγ. A fda de yi pode ser escrita como

FY (yi;µ, σ, α) =

p(1− γ), se yi ≤ 0,

p(1− γ) + (1− p) F (zi)α−F (z0)αF (z2)α−F (z0)α , se 0 < yi < 1,

1, se yi ≥ 1.

4.6 Estimacao

Consideramos inicialmente que F = Φ, a fda da distribuicao normal, demodo que temos uma mistura entre a variavel aleatoria de Bernoulli comparametro γ e a distribuicao PN(µ, σ, α)). Denotamos este modelo porMBPN(p, γ, µ, σ, α). Logo, para uma amostra de tamanho n, y = (y1, . . . , yn)T

da distribucao MBPN(p, γ, µ, σ, α), denotamos por n0 =∑n

i=1 I0(y), n1 =∑ni=1 I1(y) e n01 =

∑ni=1 I0,1(y), onde IA(y) e a funcao indicadora do con-

junto A.

Assim, a funcao log-verossimilhanca para θ = (p, γ, µ, σ, α) dado Y podeser escrita como:

`(θ; Y) = n01 log(p) + (n− n01) log(1− p) + n1 log(γ) + n0 log(1− γ)∑1

log(α)− log(σ) + log(φ(zi)) + (α− 1) log(Φ(zi))

− log(Φ(z2)α − Φ(z0)α),

onde, zi = (yi − µ)/σ, i = 1, . . . , n.

Portanto, usando um enfoque similar ao de Pewsey et al. (2012), aprimeira derivada com respeito a p, γ, µ, σ e α pode ser escrita como

34 MODELO α-POTENCIA INFLACIONADO DE ZEROS E/OU UNS 4.7

U(p) =n01

p− n− n01

1− p,

U(γ) =n1

γ− n0

1− γ,

U(ξ) = (n− n01)

z − (α− 1)w

η+ϕΦ(c2, θ)− ϕΦ(c0, θ)

Φ(z2)α − Φ(z0)α

,

U(η) = −(n− n01)

1− z2 + (α− 1)zw

η− z2ϕΦ(c2, θ)− z0ϕΦ(c0, θ)

Φ(z2)α − Φ(z0)α

,

U(α) = (n− n01)

u+

1

α− Φ(z2)α log(Φ(z2))− Φ(z0)α log(Φ(z0))

Φ(z2)α − Φ(z0)α

,

onde wi = φ(zi)/Φ(zi) e ui = logΦ(zi), i = 1, . . . , n.Entao, o EMV para o parametro θ = (µ, σ, α)′, e obtido resolvendo o sistemade equacoes que seguem de igualar os escores acima a zero.

Entao, obtemos as solucoes para p = n01n , γ = n1

n01, correspondendo,

respectiveamente, a proporcoes de zeros e uns na subamostra de zeros e uns.Segue que p e um estimador nao viciado para p. Para θ1 = (µ, σ, α)′, osistema de equacoes nao tem solucao analıtica, sendo portanto resolvida pormetodos numericos.

4.7 Matriz de informacao observada

Calculando a derivada segunda da log-verossimilhanca obtemos os elementosjpp, jγp, jγγ , jξξ, jξη, . . . , jαα, dados em Martinez et al. (2012b).

Pode-se mostrar que a matriz de informacao esperada (MF) para θ =(p, γ, µ, σ, α)′ e dada por

I(θ) = (1− p)

1

p(1−p)2 0 0 0 0

0 pγ(1−γ)(1−p) 0 0 0

0 0 iµµ iµσ iµα0 0 iµσ iσσ iσα0 0 iµα iσα iαα,

4.7 MATRIZ DE INFORMACAO OBSERVADA 35

onde os seus elementos sao dados em Martinez et al. (2012b).

Deste resultado segue que os parametros (p, γ)′ e (µ, σ, α)′ sao ortogo-nais, de modo que a MIF e ortogonal em blocos, e pode ser escrita como

I(θ) = DiagIp,γ , Iµ,σ,α, onde Ip,γ = Diag

1p(1−p) ,

pγ(1−γ)

.

Portanto, para n grande,

θA→ N5(θ,Σθθ),

implicando que θ e consistente e assintoticamenete normal com matriz de co-variancias assintoticas Σθθ = I(θ)−1 = DiagI−1

p,γ , I−1µ,σ,α = DiagΣp,γ ,Σµ,σ,α.

Note que parametros nos blocos podem ser estimados separadamente.

A aproximacao normal N5(θ,Σ(θ)) pode ser usada para construir inter-valos de cofianca para θr, com coeficiente de confianca γ = 1 − α que sao

dados por θr ∓ z1−α/2

√σ(θr), com os EMV e quantis da normal correspon-

dentes.

Considerando a reparametrizacao δ1 = pγ e δ0 = pδ1 podemos escrevero modelo como

g(yi) =

δ0, se yi = 0,

(1− δ0 − δ1) ϕΦ(yi,ξ,η,α)Φ(z2)α−Φ(z0)α , se 0 < yi < 1,

δ1, se yi = 1,

onde 0 < δ0 = P [yi = 0], δ1 = prob[yi = 1] < 1 e 0 < δ0 + δ1 < 1.

A funcao log-verossimilhanca para θ = (δ0, δ1, µ, σ, α)′ dado y e dadapor

`(θ; Y) = n0 log(δ0) + n1 log(δ1) + (n− n01) log(1− δ0 − δ1)

+∑

1

log(α)− log(σ) + log (φ (zi))

+(α− 1) log (Φ (zi))− log(Φ(z2)α − Φ(z0)α),

os elementos do escore sao:

36 MODELO α-POTENCIA INFLACIONADO DE ZEROS E/OU UNS 4.7

U(δ0) =n0

δ0− n− n01

1− δ0 − δ1,

U(δ1) =n1

δ1− n− n01

1− δ0 − δ1,

U(µ) = (n− n01)

z − (α− 1)w

η+ϕΦ(c2, θ)− ϕΦ(c0, θ)

Φ(z2)α − Φ(z0)α

,

U(σ) = −(n− n01)

1− z2 + (α− 1)zw

σ− z2ϕΦ(c2, θ)− z0ϕΦ(c0, θ)

Φ(z2)α − Φ(z0)α

,

U(α) = (n− n01)

u+

1

α− Φ(z2)α log(Φ(z2))− Φ(z0)α log(Φ(z0))

Φ(z2)α − Φ(z0)α

.

Das primeiras duas equacoes, obtem-se δ0 = n0/n, proporcao de zeros eδ1 = n1/n, a proporcoes de uns na amostra. Parametros restantes devemser estimados numericamente.

A MIF pode ser escrita como

I(θ) = DiagIδ0,δ1 , Iµ,σ,α,

onde os elementos de Iδ0,δ1 sao dados por

iδ0δ0 =1− δ1

δ0(1− δ0 − δ1), iδ1δ0 =

1

1− δ0 − δ1

e

iδ1δ1 =1− δ0

δ1(1− δ0 − δ1),

com Iµ,σ,α computado para o modelo MBPN(p, γ, µ, σ, α). Tambem temosortogonalidade.

4.8 MODELOS CENSURADOS PARA INFLACAO DE ZEROS E UNS 37

Para n grande,

θA→ N5(θ,Σθθ),

com θ consistente e assintoticamente normal, com

Σθθ = I(θ)−1 = DiagI−1δ0,δ1

, I−1µ,σ,α = DiagΣδ0,δ1 ,Σµ,σ,α

a varıancia do EMV em grandes amostras.

4.8 Modelos censurados para inflacao de zeros euns

Casos particulares sao inflacao de uns e zeros separadamente. Para o casode inflacao de zeros, temos

g(yi) =

δ0, se yi = 0,

(1− δ0) ϕΦ(yi,µ,σ,α)Φ(z2)α−Φ(z0)α , se 0 < yi ≤ 1.

onde 0 < δ0 = P [yi = 0] e 0 < δ0 < 1.

A funcao log-verossimilhanca para θ = (δ0, µ, σ, α)′ dado y e dada por

`(θ; Y) = n0 log(δ0) + (n− n0) log(1− δ0)

+∑

1

log(α)− log(σ) + log (φ (zi))

+(α− 1) log (Φ (zi))− log(Φ(z2)α − Φ(z0)α),

de modo que os elementos da funcao escore sao dados por

U(δ0) =n0

δ0− n− n0

1− δ0,

U(µ) = (n− n0)

z − (α− 1)w

σ+ϕΦ(c2, θ)− ϕΦ(c0, θ)

Φ(z2)α − Φ(z0)α

,

U(σ) = −(n− n0)

1− z2 + (α− 1)zw

σ− z2ϕΦ(c2, θ)− z0ϕΦ(c0, θ)

Φ(z2)α − Φ(z0)α

,

U(α) = (n− n0)

u+

1

α− Φ(z2)α log(Φ(z2))− Φ(z0)α log(Φ(z0))

Φ(z2)α − Φ(z0)α

.

38 MODELO α-POTENCIA INFLACIONADO DE ZEROS E/OU UNS 4.9

Da primeira equacao, obtemos o estimator δ0 = n0/n, a proporcao de ze-ros na amostra. Os parametros remanecentes requerem metodos numericos.

Para o caso de inflacao de uns, temos

g(yi) =

δ1, se yi = 1,

(1− δ1) ϕΦ(yi,µ,σ,α)Φ(z2)α−Φ(z0)α , se 0 ≤ yi < 1,

onde 0 < δ1 = P [yi = 1] e 0 < δ1 < 1, levando a log-verossimilhanca paraθ = (δ1, µ, σ, α)′ dado y pode ser escrita como:

`(θ; Y) = n1 log(δ1) + (n− n1) log(1− δ1)

+∑

1

log(α)− log(σ) + log(φ(zi))

+(α− 1) log(Φ(zi))− log(Φ(z2)α − Φ(z0)α),

de modo que os elementos da funcao escore sao dados por

U(δ1) =n1

δ1− n− n1

1− δ1,

U(µ) = (n− n1)

z − (α− 1)w

σ+ϕΦ(c2, θ)− ϕΦ(c0, θ)

Φ(z2)α − Φ(z0)α

,

U(σ) = −(n− n1)

1− z2 + (α− 1)zw

σ− z2ϕΦ(c2, θ)− z0ϕΦ(c0, θ)

Φ(z2)α − Φ(z0)α

,

U(α) = (n− n1)

u+

1

α− Φ(z2)α log(Φ(z2))− Φ(z0)α log(Φ(z0))

Φ(z2)α − Φ(z0)α

.

Da primeira equacao, obtemos o estimador δ1 = n1/n, a proporcao deuns na amostra. Os outros parametros sao estimados numericamente.

4.10 MISTURA BERNOULLI/LPN 39

4.9 Mistura Bernoulli/LPN

Considerando agora ϕF (yi, µ, σ, α)′ como a fdp do modelo LPN, o modeloBernoulli/LPN e obtido, que denotamos por MBLPN(p, γ, µ, σ, α). O mod-elo e importante na modelagem de dados com mais assimetria e curtose queos correspondentes da distribuicao normal.

A funcao de log-verossimilhanca do modelo reparametrizado pode serescrita como

`MBLPN (θ; Y) = −∑

1

log(yi) + `(θ; log(Y )),

onde `(.) e a funcao de log-verossimilhanca do modelo MBPN e log(Y ) =(log(y1), ..., log(yn))′. A funcao escore sao como dadas para o modelo MBPNmodel, onde zi = (log(yi)− µ)/σ, i = 1, . . . , n.

4.10 Ilustracao com dados reais

Nesta secao illustramos a utilidade das distribuicoes LPNDC e MBLPN parao ajuste de dados reais. O conjunto de dados que analizamos correspondea proporcao de mortes de criancas de menos de um ano por causa nao es-clarecidas nos 5561 municıpios Brasileiros. Dados estao disponıveis para”download”no site http:www.datasus.gov.br. O conjunto de dados contem3367 zeros (mortes esclarecidas) e 174 uns (mortes nao esclarecidas).

Ospina (2008), desenvolve um modelo baseado na regressao beta paramodelar este tipo de dados com inflacao de zeros e/ou uns. Como em Os-pina (2008) assumimos a mistura de uma variavel de Bernoulli para modelara parte discreta com a regressao beta para a parte contınua (entre zero eum), que e denotada por BIZU(δ0, δ1, ξ, η). Para estimar os parametros domodelo BIZU, a rotina GAMLSS no programa R pode ser usado. Nos de-senvolvemos programas no R para ajustar modelos LPNDC e para o modeloreparameterizado MBLPN.

Dada presenca de ortogonalidade entre os subconjuntos dos parametrospara os modelos mistos, estimadores de maxima verossimilhaca para osparametros δ0 e δ1 para os modelos BIZU e MBLPN coincidem e sao da-dos por δ0 = 0.6055(0.0066) e δ1 = 0.0313(0.0023). Para a parte contınua,

40 MODELO α-POTENCIA INFLACIONADO DE ZEROS E/OU UNS 4.11

os EMV sob o modelo BIZU sao dados por µ = 0.2974(0.0043) e σ =0.4562(0.0050). Por outro lado, para o modelo MBLPN os EMVs sao dadospor µ = −0.6779(0.0419), σ = 0.4289(0.00001) e α = 29.8227(1.1484).

Para o caso do modelo LPNDC, temos os seguintes EMVs µ = −0.8137(0.1065),η = 0.5834(0.0259) e α = 5.8809(1.4062). A porcentagem de zeros e uns naamostra sao 0.6055 e 0.0313, respectivamente, e da funcao de distribuicaoacumulada obtem-se 0.6063 e 0.0284, respectivamente, revelando bom ajustedo modelo.

EMVs para os parametros no modelo NDC sao dados por µ = −0.1556(0.0104)e σ = 0.5420(0.0099), enquanto que para o modelo LNDC as EMVs sao da-dos por µ = −0.1375(0.0068) e σ = 0.3239(0.0057). Por outro lado, parao modelo PNDC sao dados por ξ = −0.9895(0.1447), η = 0.7394(0.0335) eα = 5.2200(1.3687).

4.11 Testando modelos disjuntos

Para comparar os modelos MBLPN e LPNDC contra o modelo BIZU, umenfoque para modelos disjuntos deve ser utilizado. Sendo Fθ e Gγ doismodelos disjuntos, e f(yi|xi, θ) e g(yi|xi, β) as densidades correspondentes,a estatıstica da razao de verossimilhancas pode ser escrita como

LR(θ, β) ≡ `f (θ)− `g(β) =n∑i=1

logf(yi|xi, θ)g(yi|xi, β)

,

que nao segue distribuicao quiquadrado em grandes amostras.

Consideramos a proposta de Vuong (1989) baseada na divergencia deKullback-Leibler (Kullback e Leibler, 1951). Baseando-se na distancia entrecada modelo e o verdadeiro processo gerando os dados, ou seja, h0(yi, Xi),temos a estatıstica

TLR,NN =1√n

LR(θ, β)

ω2,

onde

ω2 =1

n

n∑i=1

(log

f(yi|xi, θ)g(yi|xi, β)

)2

(1

n

n∑i=1

(log

f(yi|xi, θ)g(yi|xi, β)

))2

4.12 CONCLUSOES 41

e um estimator para a variancia de 1√nLR(θ, β).

Mostra-se que, quando n→∞,

TLR,NNd→ N(0, 1)

sob

H0 : E

[log

f(yi|xi, θ)g(yi|xi, β)

]= 0,

isto e, os modelos sao equivalentes. Ao nıvel de 5%, sendo z0.025 o valorcrıtico, rejeitamos a equivalencia se TLR,NN > z0.025, (ou se TLR,NN <−z0.025).

Para os dados em estudo, sendo Fθ a fda do modelo LPNDC e Gβ, domodelo BIZU, o enfoque de Vuong leva ao valor observado TLR,NN = 21.8608que e maior que o valor crıtico z0.025 = 1.96 de modo que BIZU e o melhordos dois modelos.

De maneira similar, comparando os modelos MBLPN e BIZU, temosque TLR,NN = −19.4777, favorecendo o modelo MBLPN levando entao aconclusao de que o modelo MBPLN produz melhor ajuste para os dados emquestao.

4.12 Conclusoes

Discutimos uma alternativa para a regressao beta para a situacao infla-cionada de zeros e uns. O enfoque e baseado em uma extensao do mod-elo tobit com excesso de zeros que esta desenvolvida em Moulton e Halsey(1995). Parametros sao estimados por MV e a matriz de informacao ob-servada (Hessiana) e usada para estimar variancias assintoticas. Aplicacaoa dados reais indica melhor desempenho do modelo proposto MBPLN, su-perando o mo-delo BIZU.

42 MODELO α-POTENCIA INFLACIONADO DE ZEROS E/OU UNS 4.12

Capıtulo 5

O enfoque Bayesiano para omodelo duplamentecensurado

Nesta secao sera apresentado o modelo tobit duplamente censurado com en-foque Bayesiano. Sem perda de generalidade, vamos considerar o modelopara dados censurados no intervalo [0, 1], diretamente ligado a aplicacoesem modelos para dados de taxas ou propocoes. Serao tambem incorporadasinflacoes de zeros e uns, adaptando a proposta de Moulton e Halsey (1995).Tambem utilizaremos o enfoque Bayesiano para o modelo Beta inflacionadode zeros e uns (BIZU) apresentado em Ospina (2008) e sera apresentado umestudo de comparacao entre os dois modelos.

5.1 O modelo tobit duplamente censurado

Vamos considerar a seguinte composicao dos dados para o modelo tobitduplamente censurado e inflacionado de zeros e uns:

yi = 0, com probabilidade δ0i;

yi = 1, com probabilidade δ1i;

43

44 O ENFOQUE BAYESIANO PARA O MODELO DUPLAMENTECENSURADO 5.1

e com probabilidade 1− δ0i − δ1i,

yi =

y∗i , se 0 < y∗i < 1;

0, se y∗i ≤ 0;

1, se y∗i ≥ 1;

(5.1)

onde i = 1, . . . , n e y∗i ∼ N(µi, σ2).

Considere, tambem, as variaveis auxiliares:

I0i =

1, se yi = 0

0, caso contrario

I1i =

1, se yi = 1

0, caso contrario

Portanto, para y = (y1, . . . , yn)′, a funcao de verossimilhanca pode serescrita como:

L(µ, σ2, δ0, δ1;y) =n∏i=1

δ0i + (1− δ0i − δ1i)Φ

(−µiσ

)I0i×δ1i + (1− δ0i − δ1i)

[1− Φ

(1− µiσ

)]I1i×

(1− δ0i − δ1i)

[1

σφ

(yi − µiσ

)]1−I0i−I1i,

onde Φ(.) e φ(.) correspondem a funcao de distribuicao acumulada e funcaode densidade da distribuicao normal padrao.

Considere, tambem, αi como a probabilidade de yi ∈ 0, 1, ou seja:

αi = δ0i + δ1i + (1− δ0i − δ1i)

(−µiσ

)+ 1− Φ

(1− µiσ

)).

E ainda considere γi = P (yi = 1|yi ∈ 0, 1), ou seja

γi =δ1i + (1− δ0i − δ1i)

(1− Φ

(1−µiσ

))αi

.

5.1 O MODELO TOBIT DUPLAMENTE CENSURADO 45

Com isso, temos que P (yi = 1) = αiγi, P (yi = 0) = αi(1 − γi) e para0 < a < b < 1,

P (yi ∈ (a, b)) = (1− αi)∫ b

a

1σφ(yi−µi

σ

)Φ(

1−µiσ

)− Φ

(−µi

σ

)dyi.Ainda para componente contınua do modelo, temos que:

E[yi|yi ∈ (0, 1)] = µci =1

Φ(

1−µiσ

)− Φ

(−µi

σ

) ∫ 1

0yi

1

σφ

(yi − µiσ

)dyi

=σ√2π

e−ai − e−bi

Φ(

1−µiσ

)− Φ

(−µi

σ

) + µi,

onde ai =µ2i

2σ2 e bi = (1−µi)2

2σ2 .

Da mesma forma, temos que:

E[y2i |yi ∈ (0, 1)] =

1

Φ(

1−µiσ

)− Φ

(−µi

σ

) ∫ 1

0y2i

1

σφ

(yi − µiσ

)dyi

=σ2Di

Φ(

1−µiσ

)− Φ

(−µi

σ

) + 2µi(µci − µi) + µ2i ,

onde

γ(h, u) =

∫ u

0th−1e−tdt,

e

Di =1√π

[γ(3/2, bi) + γ(3/2, ai)].

Por fim,

V ar[yi|yi ∈ (0, 1)] = E[y2i |yi ∈ (0, 1)]− E[yi|yi ∈ (0, 1)]

= σ2c .

Seja 10,1(yi) a variavel indicadora se yi ∈ 0, 1, ou seja, se yi pertencea componente discreta, temos a media e variancia condicionais de yi dadas

46 O ENFOQUE BAYESIANO PARA O MODELO DUPLAMENTECENSURADO 5.2

por

E[yi|10,1(yi)] =

γi, com probabilidade αi,

µci, com probabilidade 1− αi,

V ar[yi|10,1(yi)] =

γi(1− γi), com probabilidade αi,

σ2c , com probabilidade 1− αi,

Porantanto, a media e a variancia de yi podem ser descritas da seguinteforma:

E[yi] = αiγi + (1− αi)µci,

V ar[yi] = αiγi(1− γi) + (1− αi)σ2c + αi(1− αi)(γi − µci)2.

5.2 Modelo beta inflacionado de zeros e uns

Suponha que a variavel explicativa y segue a distribuicao BIZU(µi, φ) ap-resentada em Ospina(2008). Considere novamente as variaveis indicado-ras auxiliares I0i e I1i apresentadas anteriormente e δ0i = P (yi = 0),δ1i = P (yi = 1) e 1− δ0i − δ1i = P (yi ∈ (0, 1)).

A funcao de verossimilhanca segue da forma:

L(µ, φ, δ0, δ1;y) = L1(δ0, δ1)L2(µ, φ)

onde temos:

L1(δ0, δ1) =

n∏i=1

δI0i0i δI1i1i (1− δ0i − δ1i)

1−I0i−I1i ,

L2(µ, φ) =∏

i:yi∈(0,1)

fY (yi;µi, φ).

Considere novamente αi como a probabilidade de yi ∈ 0, 1, ou seja:

αi = δ0i + δ1i.

5.2 MODELO BETA INFLACIONADO DE ZEROS E UNS 47

E ainda considere γi = P (yi = 1|yi ∈ 0, 1), ou seja

γi =δ1i

αi.

Com isso, temos que P (yi = 1) = αiγi, P (yi = 0) = αi(1 − γi) e para0 < a < b < 1,

P (yi ∈ (a, b)) = (1− αi)∫ b

af(yi;µi, φ)dyi.

Com isso, os momentos condicionais podem ser escritos da forma

E[yi|10,1(yi)] =

γi, com probabilidade αi,

µi, com probabilidade 1− αi,

V ar[yi|10,1(yi)] =

γi(1− γi), com probabilidade αi,µi(1−µi)φ+1 , com probabilidade 1− αi,

Portanto, a media e a variancia de yi podem ser descritas da seguinteforma:

E[yi] = αiγi + (1− αi)µi,

V ar[yi] = αiγi(1− γi) + (1− αi)µi(1− µi)φ+ 1

+ αi(1− αi)(γi − µi)2.

Para a analise de regressao de ambos os modelos, vamos considerar asfuncoes de ligacao g(µi) e H(δ0i, δ1i) = (h0(δ0i, δ1i), h1(δ0i, δ1i)), tais que:

g(µi) = log

(µi

1− µi

)= xTi β = ηi

h0(δ0i, δ1i) = log

(δ0i

1− δ0i − δ1i

)= vTi ρ = ζ0i

h1(δ0i, δ1i) = log

(δ1i

1− δ0i − δ1i

)= zTi γ = ζ1i.

O conjunto de parametros do modelo tobit duplamente censurado e in-flacionado pode ser representado por θ = (β′,ρ′,γ ′, σ)′ e o conjunto deparametros do modelo BIZU pode ser representado por θ = (β′,ρ′,γ ′, φ)′.

48 O ENFOQUE BAYESIANO PARA O MODELO DUPLAMENTECENSURADO 5.4

Considere π(θ) a distribuicao a priori do conjunto de parametros θ.Estamos interessado na distribuicao a posteriori π(θ|y), onde

π(θ|y) ∝ L(θ;y)× π(θ).

Como em ambos os modelos π(θ|y) nao pode ser expresso de formafechada, uma alternativa e o uso de amostradores via MCMC.

5.3 O algoritmo Metropolis-Hastings

O algoritmo de Metropolis-Hastings (Metropolis et al., 1953; Hastings, 1970)traz uma eficiente metologia de amostragem.

Considere θk como um elemento do conjunto de parametros θ. Para obteruma amostra de tamanho M da distribuicao a posteriori π(θk|y), no passo

1 < j < M , amostra-se θ∗k da densidade de transicao proposta qk(θ(j)k , θ∗k) e

o valor e aceito alocando θ(j+1)k = θ∗k com probabilidade

min

1,

πk(θ∗k)/qk(θ

(j)k , θ∗k)

πk(θ(j)k )/qk(θ

∗k, θ

(j)k )

,

onde πk(θk) = π(θk|θ(−k),y) corresponde a densidade condicional completade θk.

A dificuldade encontra-se em obter uma distribuicao geradora de can-didatos q(., .) eficiente. Uma alternativa e utilizar um passeio aleatorio, onde

qk(θ(j)k , θ∗k) = N(θ

(j)k , vθk),

onde a variancia vθk e determinada de modo a que se obtenha uma taxa de

aceitacao desejada. Uma opcao e utilizar vθk = cI−1

(θ(j)k ), onde I

−1(θ

(j)k ) e

a inversa da informacao de Fisher observada em θ(j)k e c e uma constante de

calibracao. O software OpenBugs tambem possui um algoritmo eficiente deM-H, onde podemos entrar diretamente com a funcao de verossimilhanca eatribuir:

dummy[i] ∼ loglik(logLike[i]),

onde logLike[i] recebe o logaritmo da funcao de verossimilhanca.

5.4 COMPARACAO DE MODELOS 49

5.4 Comparacao de modelos

Para criterio de comparacao entre os modelos, considereD(θ) = −2∑n

i=1 f(yi|θ),

θ(j) como o j-esimo elemento da amostra a posteriori de θ, j ∈ 1, . . . ,M,e D =

∑Mj=1D(θ(j))/M . Com base nessas medidas temos o criterio:

DIC = D + ρD,

onde ρD corresponde ao numero efetivo de parametros,

ρD = Eθ|yD(θ) −D(Eθ|yθ).

E os criterios

EAIC = D + 2ϑ, e EBIC = D + ϑ log(n),

onde ϑ corresponde ao numero de parametros do modelo. Pelos tres criterios,o melhor ajuste e considerado pela menor estatıstica.

Outro criterio e considerado com base no CPOi = p(yi|y(−i)), que podeser estimado por

CPOi =

1

M

M∑j=1

1

f(yi|θ(j))

−1

,

e com ele e calculada a medida a log-pseudo verossimilhanca marginal,LMPL =

∑ni=1 = log(CPOi), em que o melhor ajuste e considerado pela

maior estatıstica.

A analise de resıduos pode ser feita com base nos resıduos Bayesianospadronizados sugeridos por Paulino et. al.(2003),

ri =yi − E(yi|y)√V ar(yi|y)

, i = 1 . . . , n,

onde,

E(yi|y) =

∫E(yi|θ)π(θ|y)dθ

E(y2i |y) =

∫ V ar(yi|θ) + E(yi|θ)2

π(θ|y)dθ

V ar(yi|y) = E(y2i |y)− [E(yi|y)]2.

50 O ENFOQUE BAYESIANO PARA O MODELO DUPLAMENTECENSURADO 5.4

Devido a presenca de componentes discreta e contınua no modelo, osresıduos padronizados nem sempre apresentaram um bom comportamento epor isso foi, tambem, calculado os resıduos Bayesianos padronizados condi-

cionais, rc(1)i , rc

(2)i e rc

(3)i , onde:

rc(1)i =

1− P (yi = 0|yi ∈ 0, 1,y)√V ar(yi|yi ∈ 0, 1,y)

se yi = 0,

rc(2)i =

1− P (yi = 1|yi ∈ 0, 1,y)√V ar(yi|yi ∈ 0, 1,y)

se yi = 1,

rc(3)i =

yi − E(yi|yi ∈ (0, 1),y)√V ar(yi|yi ∈ (0, 1),y)

se yi ∈ (0, 1).

Utilizaremos medidas de influencia para modelos de regressao Bayesianos(ver Weiss e Cook, 1992 e Peng e Dey, 1995).

Para a analise de diagnostico considerando delecao de casos, consid-eremos a funcao de perturbacao introduzida por Weiss (1996). Seja entaoπ[θ|y(−i)] e π[θ|y] as distribuicoes a posteriori de θ sem a i-esima observacaoe com todos os dados, respectivamente, entao a funcao de perturbacao edefinida por

mi(θ) =π[θ|y(−i)]

π[θ|y](5.2)

Alem disso, consideraremos a medida de divergencia-g entre duas densi-dades π1 e π2 avaliada em θ sugerida por Csiszar (1967), que e dada por

dg(π1, π2) = Eθ|y

g

(π1(θ)

π2(θ)

),

onde que g(.) e uma funcao convexa tal que g(1) = 0. E possıvel obter algu-mas medidas de divergencias especıficas, considerando particulares funcoesg(.).

Divergencia de Kullback-Leibler (K(π1, π2)).

Esta medida e obtida quando g(π1, π2) = − log(π1π2

). Para o caso de

interesse de delecao de casos, com a funcao de perturbacao definida em(5.2), devemos considerar π1 = π[θ|y(−i)] e π2 = π[θ|y].

Desta forma, temos a medida de influencia

K(π[θ|y(−i)], π[θ|y]) = Eθ|y

− log

(π[θ|y(−i)]

π[θ|y]

)

5.4 COMPARACAO DE MODELOS 51

Distancia-J (J(π1, π2))

Esta medida e obtida quando

g(π1, π2) =

(π1

π2− 1

)× log

(π1

π2

)e pode ser vista como uma versao simetrica da divergencia de Kullback-Leibler.

Assim, temos

J(π[θ|y(−i)], π[θ|y]) = Eθ|y

(π[θ|y(−i)]

π[θ|y]− 1

)× log

(π[θ|y(−i)]

π[θ|y]

).

Distancia-L (L(π1, π2))

Esta medida e obtida quando

g(π1, π2) =

∣∣∣∣π1

π2− 1

∣∣∣∣Assim, temos

L(π[θ|y(−i)], π[θ|y]) = Eθ|y

∣∣∣∣π[θ|y(−i)]

π[θ|y]− 1

∣∣∣∣ .Distancia-χ2

(χ2(π1, π2)

)Esta medida e obtida quando

g(π1, π2) =

(π1

π2− 1

)2

Assim, temos

χ2(π[θ|y(−i)], π[θ|y]) = Eθ|y

(π[θ|y(−i)]

π[θ|y]− 1

)2.

Garay et al. (2012) discutem a escolha de um ponto de corte para essasmedidas basedo na proposta apresentada por Peng e Dey (1995). O pontode corte e funcao de uma probabilidade p que cresce na medida em que p seafasta de 1/2. Esta funcao e dada por

dg(p) =g(2p) + g(2(1− p))

2.

52 O ENFOQUE BAYESIANO PARA O MODELO DUPLAMENTECENSURADO 5.5

Para p = 0, 8, por exemplo, um ponto e considerado influente pela di-vergencia de Kullback-Leibler quando dK−L ≥ 0, 22.

5.5 Estudo de simulacao

Em um exemplo simulado feito um estudo semelhante ao apresentado emOspina (2008), onde foi gerada uma amostra de tamanho n = 500 de yi ∼BIZU(δ0i, δ1i, µi, φ), para i = 1, . . . , n. Foram consideras as funcoes deligacao

log

(µi

1− µi

)= β0 + β1xi

log

(δ0i

1− δ0i − δ1i

)= ρ0 + ρ1vi

log

(δ1i

1− δ0i − δ1i

)= γ0 + γ1zi,

onde xi, vi e zi foram realizacoes independentes de uma U(0, 1), e os valoresverdadeiros dos parametros foram: ρ0 = −2, 5, ρ1 = −0, 5, γ0 = −2, 5,γ1 = −0, 7, β0 = −1, 5, β1 = 1, 5 e φ = 50. A proporcao de zeros foi cercade 6, 6% e a proporcao de uns foi cerca de 4, 2%.

No procedimento de estimacao via MCMC foi considerado um burn-inde tamanho 10.000 e em seguida gerada uma amostra de tamanho 50.000com saltos de tamanho 20. Foi tambem verificada a convergencia da cadeia ebaixo ındice de autocorrelacao. O procedimento foi realizado via OpenBugs.

Foram atribuıdas as seguintes prioris para os parametros:

β0 ∼ N(0, 103), β1 ∼ N(0, 103),

ρ0 ∼ N(0, 103), ρ1 ∼ N(0, 103),

γ0 ∼ N(0, 103), γ1 ∼ N(0, 103),

σ ∼ U(0, 50), (para o modelo tobit inflacionado),

φ ∼ U(0, 100), (para o modelo BIZU).

5.5 ESTUDO DE SIMULACAO 53

Como era de se esperar, a Tabela 5.1 mostra que o modelo BIZU foi maisadequado pelos quatro criterios utilizados. As Tabelas 5.2 e 5.3 mostram queos dois modelos obtiveram estimativas bem parecidas para os parametros emcomum. Os graficos de resıduos tambem ficaram bastante similares para osdois modelos (vide Figuras 5.1 e 5.2). Pela Figura (5.3), nota-se que nenhumdos modelos detectou pontos influentes nos dados.

Tabela 5.1: Comparacao dos modelos via DIC, EAIC, EBIC e LMPL.

Modelo DIC EAIC EBIC LMPL

BIZU −799.67 −792.69 −763.19 399.76Tobit inf. −784.82 −777.83 −748.33 392.30

Tabela 5.2: Estatısticas das distribuicoes marginais a posteriori dosparametros para o modelo BIZU.

Parametros Media D.P. Q 2, 5% Q 97, 5%

β0 −1.522 0.030 −1.582 −1.462β1 1.545 0.050 1.446 1.645ρ0 −1.876 0.311 −2.504 −1.288ρ1 −1.782 0.688 −3.160 −0.459γ0 −2.267 0.379 −3.047 −1.558γ1 −1.973 0.857 −3.696 −0.347φ 52.76 3.508 46.13 59.84

Tabela 5.3: Estatısticas das distribuicoes marginais a posteriori dosparametros para o modelo Tobit inflacionado.

Parametros Media D.P. Q 2, 5% Q 97, 5%

β0 −1.533 0.033 −1.601 −1.468β1 1.561 0.052 1.458 1.667ρ0 −1.878 0.312 −2.511 −1.289ρ1 −1.788 0.685 −3.170 −0.473γ0 −2.281 0.389 −3.104 −1.567γ1 −1.940 0.875 3.667 −0.177σ 0.063 0.002 0.059 0.067

54 O ENFOQUE BAYESIANO PARA O MODELO DUPLAMENTECENSURADO 5.5

Figura 5.1: Grafico dos resıduos Bayesianos padronizados pelas observacoespara os modelos BIZU (esquerda) e Tobit inflacionado (direita).

Figura 5.2: Grafico dos resıduos Bayesianos condicionais padronizados pelasobservacoes para os modelos BIZU (esquerda) e Tobit inflacionado (direita).

5.5 ESTUDO DE SIMULACAO 55

Figura 5.3: Grafico da divergencia de K-L para o modelo BIZU (esquerda)e tobit inflacionado (direita).

Considerando agora um caso semelhante, mas gerando os dados de ummodelo tobit inflacionado de zeros e uns. Foram consideras as funcoes deligacao

log

(µi

1− µi

)= β0 + β1xi

log

(δ0i

1− δ0i − δ1i

)= ρ0 + ρ1vi

log

(δ1i

1− δ0i − δ1i

)= γ0 + γ1zi,

onde xi, vi e zi foram realizacoes independentes de uma U(0, 1), e os valoresverdadeiros dos parametros foram: ρ0 = −2, 5, ρ1 = −0, 5, γ0 = −2, 5,γ1 = −0, 7, β0 = −1, 5, β1 = 1, 5 e σ = 0, 2. A proporcao de zeros foi cercade 6, 8% de inflacao e 5% de censura, ja a proporcao de uns foi cerca de4, 2% de inflacao e 0% de censura. O mesmo procedimento de MCMC doexemplo anterior foi realizado via OpenBugs.

Note pela Tabela 5.4 que os intervalos de credibilidade obtidos para β0

e β1 nao contemplam seus valores verdadeiros no modelo BIZU. Alem disso,ρ1 e γ1 nao foram significativos neste mesmo modelo.

Pela Tabela 5.5 podemos perceber que no modelo tobit as medias a poste-riori de β0 e β1 estao mais proximas dos valores verdadeiros dos parametros.

56 O ENFOQUE BAYESIANO PARA O MODELO DUPLAMENTECENSURADO 5.5

No entanto, ρ1 e γ1 continuam nao significativos e ρ0 foi subestimado devidoa possibilidade de censura assumida pelo modelo.

Apesar da diferenca nas estimativas dos parametros, praticamente nao seobserva diferenca ente os graficos de resıduos dos dois modelos (vide Figuras5.4 e 5.5).

Pela Figura 5.6 nota-se que o modelo BIZU destacou como ponto in-fluente a observacao y262 = 0.0001 e a observacao y362 = 0.010 tambem sedestacou. Ambas as observacoes correspondem a pontos proximos da bordado intervalo (0, 1), onde a densidade beta apresenta certa sensibilidade. Jao modelo tobit inflacionado nao teve problemas para incorporar estas ob-servacoes no modelo.

Tabela 5.4: Comparacao dos modelos via DIC, EAIC, EBIC e LMPL.

Modelo DIC EAIC EBIC LMPL

BIZU 258.56 265.56 295.06 −130.21Tobit inf. 215.47 229.13 258.63 −112.06

Tabela 5.5: Estatısticas das distribuicoes marginais a posteriori dosparametros para o modelo BIZU.

Parametros Media D.P. Q 2, 5% Q 97, 5%

β0 −1.253 0.083 −1.418 −1.092β1 1.214 0.135 0.950 1.48ρ0 −1.943 0.286 −2.527 −1.400ρ1 −0.067 0.491 −1.027 0.903γ0 −2.680 0.425 −3.557 −1.889γ1 −0.794 0.837 −2.472 0.822φ 5.457 0.353 4.785 6.177

5.5 ESTUDO DE SIMULACAO 57

Tabela 5.6: Estatısticas das distribuicoes marginais a posteriori dosparametros para o modelo Tobit inflacionado.

Parametros Media D.P. Q 2, 5% Q 97, 5%

β0 −1.561 0.119 −1.807 −1.339β1 1.583 0.170 1.257 1.926ρ0 −4.036 4.816 −12.66 −1.978ρ1 0.770 4.094 −1.751 6.466γ0 −2.780 0.436 −3.690 −1.972γ1 −0.807 0.867 −2.550 0.862σ 0.198 0.010 0.180 0.222

Figura 5.4: Grafico dos resıduos Bayesianos padronizados pelas observacoespara os modelos BIZU (esquerda) e Tobit inflacionado (direita).

58 O ENFOQUE BAYESIANO PARA O MODELO DUPLAMENTECENSURADO 5.5

Figura 5.5: Grafico dos resıduos Bayesianos condicionais padronizados pelasobservacoes para os modelos BIZU (esquerda) e Tobit inflacionado (direita).

Figura 5.6: Grafico da divergencia de K-L para o modelo BIZU (esquerda)e tobit inflacionado (direita).

5.6 APLICACAO 59

5.6 Aplicacao

A aplicacao a seguir foi elaborada a partir dos dados da RAIS 2007 - MTE,obtidos em parceria com IPEA-DISET. Foi utilizada uma amostra aleatoriade 700 empresas do setor de industrias e foram utilizadas as seguintes variaveis:

• y = (N. de empregados do sexo feminino)/(N. total de empregados);

• x1= log(Renda mensal media);

• x2= Tempo de estudo medio;

• v1= Numero de contratos;

• v2= Idade da empresa.

O modelo foi construıdo da seguinte forma:

log

(µi

1− µi

)= β0 + β1x1i + β2x2i

log

(δ0i

1− δ0i − δ1i

)= ρ0 + ρ1v1i + ρ2v2i

log

(δ1i

1− δ0i − δ1i

)= γ0 + γ1v1i + γ2v2i.

A proporcao de zeros na amostra foi de 30% e a proporcao de uns foi de8%.

No procedimento de estimacao via MCMC foi considerado um burn-inde tamanho 20.000 e em seguida gerada uma amostra de tamanho 50.000com saltos de tamanho 40. Foi tambem verificada a convergencia da cadeia ebaixo ındice de autocorrelacao. O procedimento foi realizado via OpenBugs.

Foram atribuıdas as seguintes prioris para os parametros:

60 O ENFOQUE BAYESIANO PARA O MODELO DUPLAMENTECENSURADO 5.6

β0 ∼ N(0, 103), β1 ∼ N(0, 103), β2 ∼ N(0, 103),

ρ0 ∼ N(0, 103), ρ1 ∼ N(0, 103), ρ2 ∼ N(0, 103),

γ0 ∼ N(0, 103), γ1 ∼ N(0, 103), γ2 ∼ N(0, 103),

σ ∼ U(0, 50), (para o modelo tobit inflacionado),

φ ∼ U(0, 100), (para o modelo BIZU).

Pela Tabela 5.7 podemos observar que pelos quatro criterios o modeloBIZU foi superior ao modelo Tobit duplamente censurado e inflacionado.

Analisando a Tabela 5.6, o modelo mostra que a proporcao de empre-gados do sexo feminino esta inversamente relacionada com a renda mensalmedia e diretamente relacionada com o tempo de estudo medio. Este re-sultado nos da um indicativo de que a mao de obra feminina no setor deindustria e em media mais qualificada e de remuneracao inferior a mao deobra masculina. A presenca de zeros e uns esta inversamente relacionadaao numero de empregados da empresa. Isto e, empresas com baixo numerode empregados estao mais propensas a ter apenas empregados do mesmosexo. E ainda, observou-se que empresas mais antigas estao mais propen-sas a ausencia de empregados do sexo femino. Pela Tabela 5.7, notamosque utilizando o tobit inflacionado o modelo segue praticamente a mesmainterpretacao, com a diferenca de que o parametro ρ2, referente a idade daempresa, nao foi significativo.

A Figura 5.9 mostra que pela divergencia K-L nenhuma observacao sedestacou como ponto influente em nenhum dos modelos. No entanto, nota-seque no modelo BIZU alguns pontos ficaram mais elevados do que no graficodo modelo tobit.

Pela distancia-χ2, o modelo BIZU destacou como ponto influente a ob-servacao y320 = 0, como podemos observar na Figura 5.10. Esta observacaocorresponde a uma empresa com 22 empregados, proximo do valor da mediaamostral que e de 26 empregados. Alem disso e uma empresa antiga, comaproximadamente 46 anos de idade, e a idade media da amostra e de apenas12, 7 anos.

5.6 APLICACAO 61

Tabela 5.7: Comparacao entre os modelos via DIC, ˆEAIC, ˆEBIC e LMPL.

Modelo DIC EAIC EBIC LMPL

BIZU 774.56 784.63 830.15 −387.66Tobit inf. 808.50 818.68 864.193 −404.96

Tabela 5.8: Estatısticas das distribuicoes marginais a posteriori dosparametros para o modelo BIZU.

Parametros Media D.P. Q 2, 5% Q 97, 5%

β0 4.375 0.766 2.877 5.889β1 −0.929 0.123 −1.1730 −0.687β2 0.140 0.028 0.085 0.195ρ0 0.637 0.222 0.203 1.075ρ1 −0.264 0.027 −0.320 −0.212ρ2 0.036 0.015 0.005 0.066γ0 0.138 0.351 −0.548 0.827γ1 −0.024 0.055 −0.438 −0.222γ2 −0.794 0.027 −0.080 0.028φ 3.323 0.204 2.937 3.739

Tabela 5.9: Estatısticas das distribuicoes marginais a posteriori dosparametros para o modelo Tobit inflacionado.

Parametros Media D.P. Q 2, 5% Q 97, 5%

β0 7.598 1.456 4.910 10.60β1 −1.636 0.239 −2.132 −1.197β2 0.274 0.046 0.185 0.369ρ0 1.477 0.408 0.714 2.319ρ1 −0.638 0.114 −0.894 −0.448ρ2 0.017 0.025 −0.032 0.066γ0 0.750 0.561 −0.317 1.895γ1 −0.614 0.154 −0.963 −0.361γ2 −0.049 0.041 −0.137 0.025σ 0.288 0.012 0.265 0.315

62 O ENFOQUE BAYESIANO PARA O MODELO DUPLAMENTECENSURADO 5.6

Figura 5.7: Grafico dos resıduos Bayesianos padronizados pelas observacoespara os modelos BIZU (esquerda) e Tobit inflacionado (direita).

Figura 5.8: Grafico dos resıduos Bayesianos condicionais padronizados pelasobservacoes para os modelos BIZU (esquerda) e Tobit inflacionado (direita).

5.6 APLICACAO 63

Figura 5.9: Grafico da divergencia de K-L para o modelo BIZU (esquerda)e tobit inflacionado (direita).

Figura 5.10: Grafico da distancia-χ2 para o modelo BIZU (esquerda) e tobitinflacionado (direita).

64 O ENFOQUE BAYESIANO PARA O MODELO DUPLAMENTECENSURADO 5.6

Capıtulo 6

Modelos bimodaiscensurados

Em estudos antiretrovirais de HIV, a concentracao viral tem limite de detecao(mınimo) podendo ser 20 ou de 50 copias por mililıtro. O HIV-1 RNAtem tipicamente dois valores modais correspondendo as concentracoes viraisotimas e subotimas, respectivamente. Os modelos podem ser vistos como ex-tensoes diretas do modelo tobit censurado adequados para o ajuste de dadosunimodais e bimodais simetricos e assimetricos. Assim, os modelos esten-dem o modelo tobit usual para situacoes bimodais simetricas e assimetricas.EMV e implementada e MIF e derivada para tais modelos. Applicacoes a da-dos reais sao implementadas ilustrando a performance bastante satisfatoriados modelos considerados.

O problema da concentracao de HIV RNA em amostras de sangue (escalalog10) de pacientes com HIV apresenta limite de detecao mınimo como noproblema da vacinacao no Haiti; para o teste Roche Amplicor este limite eda 50 copias/ml.

Este capıtulo esta direcionado para uma extensao do modelo tobit paramodelos simetricos e assimetricos bimodais. No estudo de Li et al. (2006),conclui-se que a distribuicao do HIV RNA (log10) e bimodal, a qual con-sideram ser uma mistura de duas distribuicoes normais, refletindo respostasdiferentes para terapias antiretrovirais (HAART). Como trabalhar com mis-turas de distribuicoes apresenta dificuldades (falta de identificabilidade, porexemplo) (Marin et al., 2005), consideramos um caminho alternativo quesegue da extensao dos modelos normais-assimetricos e potencia-normal. Faze-

65

66 MODELOS BIMODAIS CENSURADOS 6.2

mos uso de MV para estimacao dos parametros. Julgamos ser factıvel o usode inferencia Bayesiana.

Secao 6.2 apresenta revisao basica de modelos bimodais simetricos eassimetricos. A Secao 6.3 e direcionada a uma extensao do modelo nor-mal usual para dados censurados (modelos tipo tobit) podendo incorporarsituacoes uni e bimodais. Estimacao e considerada por MV e por metodosBayesianos. Secao 6.6 trata de uma aplicacao a um conjunto de dados deuma clınica na Colombia.

6.1 Modelos assimetricos bimodais

Como visto anteriormente, Azzalini (1985) considera a seguinte representacaogeral para uma distribuicao assimetrica:

ϕ(z;λ) = 2f(z)G(λz), z, λ ∈ R,

onde f e uma fdp simetrica em torno de zero e G e fda simetrica e absolu-tamente continua e λ e o parametro de assimetria. Mais resultados podemser vistos em Azzalini (1986), Henze (1986), Chiogna (1997) e Pewsey (2000).

Em particular, se f = φ e G = Φ, a fdp e fda da N(0,1), obtemos

ϕ(z;λ) = 2φ(z)Φ(λz), z ∈ R,

que denotamos por Z ∼ SN(λ).

6.2 Extensoes bimodais para modelos simetricos

Uma modificacao para tornar o modelo normal assimetrico bimodal, apareceem Kim (2005),

f(z;λ) = cλφ(z)Φ(λ|z|), z ∈ R,

onde cλ e a constante de normalizacao, que nao e simples de ser obtida.Kim (2005) mostra que este modelo produz densidades simetricas. Umaversao assimetrica do modelo de Kim aparece em Gomez et al. (2009), queconsidera

f(z;λ) = cλφ(z)Φ(λ|z|)Φ(βz), z ∈ R,

6.2 EXTENSOES BIMODAIS PARA MODELOS SIMETRICOS 67

onde cλ e a constante de normalizacao. Dada a dificuldade de se trabalharcom o modelo acima devido a dificuldade de ser tarbalhar com a constantede normalizacao, Martinez et al. (2012b) propoe uma modificacao bimodal(simetrica) no modelo potencia-normal (PN) (Pewsey et al., 2012), con-siderando

f(z|α) = αcαφ(z)Φ(|z|)α−1,

α > 0, com

cα =2α−1

2α − 1.

Extensao para o caso locacao-escala segue fazendo X = ψ + ηZ.Note que neste caso a constante de normalizacao e bastante simples.

A matriz de informacao de Fisher para localizacao-escala e dada por

IF =

1/η2 0 a01/η2/η2 a11/η

(1 + 2(log2)2.

Pode-se mostrar que

|IF | = 2.808/η4.

Para tornar o modelo bimodal assimetrico usamos o enfoque em Gomezet al. (2009), que leva a fdp (Martinez et al., 2012b)

f(z|α, β) = 2αcαφ(z)Φ(|z|)α−1Φ(βz),

α > 0, z ∈ R, with

cα =2α−1

2α − 1.

A extensao locacao-escala segue tomando X = ψ+ηZ. Maximizacao daverossimilhanca deve ser feita numericamente.

A matriz de informacao de Fisher para o modelo de locacao-escala e dadapor

IF =

1/η2 0

√2π/η a01/η

2/η2 0 a11/η2/π 00 (1 + 2(log2)2)

Pode-se mostra que

|IF | = −0.2999/η4 6= 0.

68 MODELOS BIMODAIS CENSURADOS 6.2

Pode-se testar normalidade, i.e., H0 : α = 1.0, β = 0, usando a estatisticada razao de verossimilhnaca.

6.2.1 Aplicacao: Dados de poluicao.

Apresentamos a seguir o ajuste dos modelos acima a um conjunto de dadosreais relacionados com (Y :) poluicao nos EUA. O conjunto de dados eapresentado a seguir.

67,54.7,7.0,48.5,14,17.2,20.7,13,43.4,40.2,38.9,54.5,59.8,48.3,

22.9,11.5,34.4,35.1,38.7,30.8,30.6,43.1,56.8,40.8,41.8,42.5,31.0,31.7,

30.2,25.9,49.2,37,35.9,15,30.2,7.2,36.2,45.5,7.8,33.4,36.1,40.2,

42.7,42.5,16.2,39,35,37,31.4,37.6,39.9,36.2,42.8,46.4,24.7,49.1,

46,35.9,7.8,48.2,15.2,32.5,44.7,42.2,38.8,17.4,40.8,29.1,14.6,59.2

Pode-se mostrar que y = 34.9 e s2y = 187.8. Ajustando a normal

N(34.9; 187.80), nota-se que nao e bom o ajuste deste modelos aos dados.Nota-se tambem a partir do histograma que os dados apresentam bimodal-idade, de modo que um modelo assimetrico apresentaria uma juste melhoraos dados acima.

Ajustamos entao no WinBugs o modelo

f(x|µ, σ, α, beta) ∝ 2αcαφ(z)Φ(|z|)α−1Φ(βz),

α > 0, z ∈ R, com z = (x− µ)/sigma).

Temos entao a notacao (µ, σ, α, β) = (mu, sig, lb, beta), com o codigo

z[i] < −(y[i]−mu)/sig

logLike[i] < −(−log(sig)) + log(lb) + (lb− 1) ∗ log(2)

−log(pow(2, lb)− 1)− (pow(z[i], 2)/2) + (lb− 1) ∗ log(phi(abs(y[i])))

+log(phi(beta ∗ z[i]))

que apresenta as estimativas

µ = 22, σ = 14, α = 4.5, β = 1.0.

6.3 MODELO FLEXIVEL NORMAL CENSURADO 69

Figura 6.1: Densidade estimada e histograma dos dados.

Veja os graficos da fda acima para os valores estimados sobre o his-tograma dos dados. Existe indicacao de melhor ajuste do modelo bimodal.

6.3 Modelo flexıvel normal censurado

Nesta secao estendemos o modelo tobit usual para a situacao normal bi-modal. Tomando λ = 0 em Gomez et al. (2009), obtemos a fdp

f(y;λ) = cδφ(|y|+ δ),

onde δ e um numero real e cδ = (2(1 − Φ(δ)))−1 e a constante de normal-izacao. De maneira similar ao modelo acima, este model e bimodal para δmenor que zero. Denominamos este modelo normal flexıvel e denotamos porFN(δ).

Considere agora que y∗ denota a distribuicao FN(δ) e que (y∗1, y∗2, ..., y

∗n) e

uma amostra de uma variavel aleatoria onde somente valores y∗ maiores quea constante c sao observados. Para valores y∗ ≤ c somente o valor c e reg-istrado. Deste modo, os valores observados sao dados por

yi =

y∗i , se y∗i > cc, se y∗i ≤ c,

70 MODELOS BIMODAIS CENSURADOS 6.3

i = 1, 2, ..., n.

A amostra resultante e censurada a esquerda. Neste caso dizemos que avariavel aleatoria Y tem distribuicao censurada normal flexıvel e denotamospor CNF (δ). A distribuicao desta variavel aleatoria e bimodal para valoresde δ menores que zero e unimodal para valores de δ maiores que zero. Paraδ = 0 temos o modelo normal usual.

6.3.1 Momentos

Os momentos de Z ∼ CFN(δ) sao funcoes dos momentos da distribuicaonormal, e sao dados por

µr(a) =

∫ ∞a

zrφ(z)dz.

O r-esimo momento da variavel aleatoria Z ∼ CFN(δ) sao dados por

E(Zr) = µr = cδ

r∑k=0

(r

k

)(−δ)r−kµk(c+ δ).

Para c = 0, segue que a esperanca e variancia da variavel aleatoria Z saodadas por

µ = cδ[φ(δ)− δ(1−Φ(δ))] e σ2 = µ2−µ2 = c2δ [2(1−φ(δ))2−φ2(δ)].

6.3.2 Extensao para localizacao-escala

Para o modelo normal com media µ e variancia σ2, dizemos que a variavel Xsegue a distribuicao flexıvel normal de localizacao-escala se sua fda e dadapor

f(x;λ) =cδσφ

(∣∣∣∣x− µσ∣∣∣∣+ δ

), x ∈ R,

com µ > 0 e σ parametros de localizacao e escala. Assim, definindo

yi =

xi, se xi > cc, se xi ≤ c,

6.3 MODELO FLEXIVEL NORMAL CENSURADO 71

obtemos a distribuicao normal flexıvel, que denotamos por NCF (µ, σ, δ).

Tambem, o r-esimo momento da variavel Y ∼ CNF (µ, σ, δ) e dado por:

E[Y r] = µr = cδ

r∑k=0

(r

k

)δr−k

[µk

(−µ+ σδ

σ,−δ

)+ (−1)r−kµk(δ)

],

onde µr(a, b) =∫ ba z

rφ(z)dz.

6.3.3 Estimacao

Denotamos por∑

0 a soma para as observacoes censuradas e∑

1 a soma paraas observacoes nao censuradas. Assim, para observacoes com yi = 0 temosque

P [yi = 0] = P [xi ≤ 0] = cδ

1− Φ

(µ+ σδ

σ

)e para yi > 0, a distribuicao de yi e igual a distribuicao de xi, isto eyi ∼ NF (µ, σ, δ).

Para uma amostra de n unidades, y1, y2, ..., yn, a funcao de log-verossimilhancapara θ = (µ, σ, δ)′ e dada por

`(θ; X) =∑

0

log

[cδ

(1− Φ

(µ+ σδ

σ

))]+∑

1

[log(cδ)− log(σ) + log(φ(|zi|+ δ))] ,

onde zi = yi−µσ , i = 1, ..., n.

Temos entao o escore

U(µ) = −n0

σ

φ(µ+σδσ

)1− Φ

(µ+σδσ

) +1

σ

∑1

yi − µσ− δ

σ

∑1

sgn(yi − µ),

U(σ) =n0µ

σ

φ(µ+σδσ

)1− Φ

(µ+σδσ

) − n1

σ+

1

σ

∑1

(yi − µσ

)2

σ

∑1

∣∣∣∣yi − µσ

∣∣∣∣,

72 MODELOS BIMODAIS CENSURADOS 6.3

U(δ) = −n0

φ(µ+σδσ

)1− Φ

(µ+σδσ

) +nφ(δ)

1− Φ(δ)−∑

1

∣∣∣∣yi − µσ

∣∣∣∣− n1δ,

onde n0 e n1 como acima denotam o numero de observacoes censuradas enao censuradas, respectivamente. Igualando escore a zero obtem-se sistemade equac oes (com solucao iterativa) que leva aos EMV. A funcao ”optim”doR pode ser empregada.

6.3.4 Matriz de informacao

Nesta subsecao apresentamos as matrizes de informacao esperadas e ob-servadas para o modelo NFC(µ, σ, δ). Iniciamos com a matriz Hessiana,a saber, a segunda derivada da funcao log-verossimilhanca com respeitoaos parametros do modelo (multiplicada por (-1)), para as quais usamos anotacao jµµ, jηµ, jδµ jηη, jδσ e jδδ, levando as seguintes expressoes:

jµµ =n1

σ2+n0

σ2

φ(µ+σδσ

)1− Φ

(µ+σδσ

)−µ+ σδ

σ+

φ(µ+σδσ

)1− Φ

(µ+σδσ

) ,

jηµ =n0

σ2(µ

σ(µ+ σδ

σ)− 1)

φ(µ+σδσ )

1− Φ(µ+σδσ )

− n0

σ2

µ

σ[

φ(µ+σδσ )

1− Φ(µ+σδσ )

]2

+2

σ2

∑1

yi − µσ

− δ+σ2∑

1

sgn(yi − µ),

jηη =n0µ

σ2

(1− µ

σ

(µ+ σδ

σ

)) φ(µ+σδσ

)1− Φ

(µ+σδσ

) +n0

σ2

µ

σ

φ(µ+σδσ

)1− Φ

(µ+σδσ

)2

−n1

σ2+

3

σ2

∑1

(yi − µσ

)2

+2δ

σ2

∑1

∣∣∣∣yi − µσ

∣∣∣∣ ,

6.3 MODELO FLEXIVEL NORMAL CENSURADO 73

jδµ = −n0

σ

µ+ σδ

σ−

φ(µ+σδσ

)1− Φ

(µ+σδσ

) φ

(µ+σδσ

)1− Φ

(µ+σδσ

) +1

σ

∑1

sgn(yi − µ),

jδσ =n0µ

σ

µ+ σδ

σ−

φ(µ+σδσ

)1− Φ

(µ+σδσ

) φ

(µ+σδσ

)1− Φ

(µ+σδσ

) − 1

σ

∑1

∣∣∣∣yi − µσ

∣∣∣∣ ,

jδδ = −n0

µ+ σδ

σ−

φ(µ+σδσ

)1− Φ

(µ+σδσ

) φ

(µ+σδσ

)1− Φ

(µ+σδσ

)+n

(δ − φ(δ)

1− Φ(δ)

)φ(δ)

1− Φ(δ)+ n1.

Para obter a matriz de informacao observada avaliamos os elementos daHessiana acima nos EMVs. Para obter MIF calculamos os valores esperadosdos elementos da Hessiana acima, usando a notacao iµµ, iηµ, iδµ iηη, iδσ eiδδ, conforme pode ser visto em Martinez et al. (2012b).

iθrθp = n−1E

−∂

2`(θ; x)

∂θr∂θp

, r, p = 1, 2, 3,

com θ1 = µ, θ2 = σ e θ3 = δ com:

iµµ =1

σ2

[1− cδ

(1− Φ

(µ+ σδ

σ

))]+cδσ2φ

(µ+ σδ

σ

)−µ+ σδ

σ+

φ(µ+σδσ

)1− Φ

(µ+σδσ

) ,

iηµ =cδσ2φ

(µ+ σδ

σ

)µσ

µ+ σδ

σ−

φ(µ+σδσ

)1− Φ

(µ+σδσ

)− 1

− δcδσ2

(1− Φ

(µ+ σδ

σ

))

+2cδσ2

(µ+ σδ

σ

)+ φ(δ) + δ

(µ+ σδ

σ

)+ Φ(δ)− 3

2

)− 1√

],

74 MODELOS BIMODAIS CENSURADOS 6.4

iηη =µcδσ2

φ

(µ+ σδ

σ

)1 +µ

σ

−µ+ σδ

σ+

φ(µ+σδσ

)1− Φ

(µ+σδσ

)− 1

σ2+

cδσ2

[−2δφ(δ) + (1 + 2δ2)

(1− Φ

(µ+ σδ

σ

))− 4δ2(1− Φ(δ))

]+

cδσ2

[(3

(µ− σδσ

)+ 2δ

(µ+ σδ

σ

)+ 3(1 + δ2)

(1− 2Φ(δ) + Φ

(µ+ σδ

σ

))],

iδµ =cδσφ

(µ+ σδ

σ

)−µ+ σδ

σ+

φ(µ+σδσ

)1− Φ

(µ+σδσ

)+

cδσ

(1− Φ

(µ+ σδ

σ

)),

iδσ =cδµ

σφ

(µ+ σδ

σ

)µ+ σδ

σ−

φ(µ+σδσ

)1− Φ

(µ+σδσ

)− δcδ

σ

(1− Φ

(µ+ σδ

σ

))

+cδσ

[2δ (1− Φ(δ))− 2φ(δ) + φ

(µ+ σδ

σ

)],

iδδ = cδφ

(µ+ σδ

σ

)−µ+ σδ

σ+

φ(µ+σδσ

)1− Φ

(µ+σδσ

)+

φ(δ)

1− Φ(δ)

[δ − φ(δ)

1− Φ(δ)

]

+ 1− cδ(

1− Φ

(µ+ σδ

σ

)).

Mostramos que a MIF acima nao e singular, de modo que o resultadoseguinte segue das condicoes de regularidade usuais.

Teorema 6.1. Se θ e o EMV de θ, entao

θA→ N3(θ, IF (θ)−1),

de modo que a matriz de covariancias assintoticas do EMV θ e a matrizinversa da MIF I(θ) a qual denotamos por Σθ = I(θ)−1.

Segue do teorema que podemos testar normalidade (H0 : δ = 0) usandoa estatıstica da razao de verossimilhancas. Tal resultado nao vale, por ex-emplo, para o modelo em Arnold et al. (2009) para o qual a MIF e singular.

6.4 O MODELO BIMODAL SIMETRICO NORMAL CENSURADO 75

6.4 O modelo bimodal simetrico normal censurado

O modelo proposto por Kim (2005),

f(z;λ) = cλφ(z)Φ(λ|z|),

onde λ e um numero real,

cλ = 2π/(π + 2arctan(λ))

e a constante de normalizacao, e uma alternativa viavel para o ajuste dedados bimodais simetricos, com λ > 0. Usamos a notacao TN(λ).

Pode-se estender o modelo para a situacao onde parte das observacoessao censuradas, considerando Z ∼ TN(λ), onde

yi =

zi, se zi > cc, se zi ≤ c,

que denotamos por CTN(λ). Assim, para λ > 0 temos o modelo bimodalsimetrico.

A fdp para a variavel Y, truncada a direita, e dada por

f(y|y > c) =2cλφ(y)Φ(λ|y|)

1 + cλ[Φ(c)− 0.5 + π−1 arctan(λ)− 2T (c, λ)],

onde T (., λ) e a funcao de Owen (1956).Os momentos da variavel aleatoria Y podem ser obtidos a partir dos

momentos da variavel aleatoria com densidade acima, levando aos seguintesmomentos marginais:

E[Y ] = µ =cλ

2√

[λ√

1 + λ2+ 1

],

E[Y 2] = cλ

[1

4+

1

2πarctanλ+

1

λ√1 + λ2

]e

E[Y 3] =cλ

2√

[2 +

3λ+ 2λ3

(1 + λ2)3/2

].

76 MODELOS BIMODAIS CENSURADOS 6.4

Temos tambem

E[Y 4] = cλ

[3

4+

3

2πarctanλ+

1

λ(2λ2 + 5)

(1 + λ2)2

].

Temos entao que a variancia da variavel Y e dada por

σ2 =cλ

4π(π + 2 arctanλ)((π + 2 arctanλ)2

+4λ√

1 + λ2(π + arctanλ)− π

(2λ2 + 1

1 + λ2

)).

6.4.1 Estimacao por maxima verossimilhanca

A extensao localizacao-escala para Kim (2005) pode ser escrita como

f(x;µ, σ, λ) =cλσφ

(x− µσ

∣∣∣∣x− µσ∣∣∣∣)

onde cλ = 2π/(π+ 2 arctan(λ)) e a constante de normalizacao. Sendo∑

0 e∑1 como nas secoes anteriores, a funcao de log-verosssimilhanca e dada por

`(θ; Y) =∑

0

log

[1

2

(1− cλ

[Φ(µσ

)− 0.5 + π−1 arctan(λ)− 2T

(µσ, λ)])]

+

∑1

[log(cλ)− log(σ) + log(φ(zi)) + log(Φ(λ|zi|))] ,

onde zi = yi−µσ . Assim, os elementos da funcao escore sao dados por

U(µ) = −2n0cλσ∆

φ(µσ

(λµ

σ

)+

1

σ

∑1

yi − µσ

σ

∑1

sgn(yi − µ)φ(yi−µ

σ

)Φ(∣∣yi−µ

σ

∣∣) ,U(σ) =

2n0µcλσ2∆

φ(µσ

(λµ

σ

)− n1

σ

+1

σ

∑1

(yi − µσ

)2

− λ

σ

∑1

yi − µσ

φ(yi−µ

σ

)Φ(∣∣yi−µ

σ

∣∣) ,

6.5 MODELO BIMODAL NORMAL-ASSIMETRICO 77

U(λ) = − ncλπ(1 + λ2)

+2n0cλ

(1 + λ2)∆φ(µσ

(λµ

σ

)

+∑

1

∣∣∣∣yi − µσ

∣∣∣∣ φ(yi−µ

σ

)Φ(∣∣yi−µ

σ

∣∣) ,onde

∆ = 1− cλ[Φ(µσ

)− 0.5 + π−1 arctan(λ)− 2T

(µσ, λ)],

onde n0 e n1 sao como acima. Solucoes para as equacoes obtidas igualandoos escores acima a zero devem ser resolvidas numericamente.

Os elementos da matriz Hessiana sao dados em Martinez et al. (2012b).Esta matriz tambem pode ser obtida diretamente do R quando se usa arotina ”optim”.

6.4.2 Matriz de informacao esperada

A matriz de informacao esperada (MIF) pode ser calculada a partir damatriz de informacao observada tomando esperanca para cada um de seuselementos, a saber

Iθrθp = E

−∂

2`(θ; x)

∂θr∂θp

, r, p = 1, 2, 3,

con θ1 = µ, θ2 = σ e θ3 = λ. Esta matriz e apresentada em Martinez et al.(2012b).

6.5 Modelo bimodal normal-assimetrico

Como mencionado na secao anterior, o modelo bimodal la apresentado ajustamodelos simetricos. Nao e, portanto, adequado para situacoes onde os dadossao assimetricos. Para tais situacoes, propomos usar o modelo propostoem Arnold et al. (2009), que denotamos ETN(λ, β), de modo que para asituacao localizacao-escala, temos que X ∼ ETN(µ, σ, λ, β). Considerandoa situacao censurada, onde

78 MODELOS BIMODAIS CENSURADOS 6.6

yi =

xi, se xi > cc, se xi ≤ c,

Usamos a notacao CETN(µ, σ, λ, β). Entao, para c = 0, a contribuicaopara a verossimilhanca de observacoes menores ou iguais a zero e dada por

Ψ(0) = P [y = 0] = P [x ≤ 0] = 2cλ[1

2

(1− Φ

(βµ

σ

)Φ(µσ

))

−T(µσ, β)

+ T(µσ, λ)

]

+2cλ

[−T

(βµ

σ,

1

β

)+ S

(βµ

σ,

1

β, λ

)− 1

2πarctan

(βλ√

1 + β2 + λ2

)],

onde T e S sao as funcoes de Owen (1956) e Steck (1958), respectivamentes,definidas como:

T (h, a) =

∫ a

0

φ(h)φ(hx)

1 + x2dx e S(h, a, b) =

∫ h

−∞T (ax, b)φ(x)dx,

onde h e um numero real e a, b sao numeros reais positivos.

6.5.1 A funcao log-verossimilhanca

Para uma amostra de tamanho n, X1, X2, ..., Xn a funcao log-verossimil-hanca para o vetor de parametros θ = (µ, σ, λ, β)′ dada a amostra Y1, Y2, ..., Yne dada por:

`(θ; Y) =∑

0

log(Ψ(0))

+∑

1

[log(2) + log(cλ)− log(σ) + log(φ(zi)) + log(Φ(λ|zi|)) + log(Φ(βzi))] ,

onde zi = yi−µσ . A funcao escore e as matrizes de informacao esperadas

e observadas podem ser obtidas por procedimentos similares as dos casosanteriores. Estimadores de maxima verossimilhanca sao obtidos igualandoa zero a funcao escore.

6.6ANALIZANDO UM CONJUNTO DE DADOS REAIS. CONCENTRACAO DE HIV.

79

6.6 Analizando um conjunto de dados reais. Con-centracao de HIV.

Para ilustrar o potencial para aplicacoes dos modelos estudados no artigo,consideramos uma amostra de 263 homens infectados com HIV, tratados comterapia HAART por menos de uma ano no servico hospitalar de Santander-Colombia. Este conjunto de dados de alta confidencialidade contem asvariaveis idade, data de entrada no programa, sexo e carga viral de um totalde 1279 pacientes com AIDS. A carga viral foi medida pelo metodo ELISAna escala log10 com limite de detecao mınimo (LDM) de 40 copias/ml. Aidade media e de 36.19 anos, onde o paciente mais novo tem menos de umano de idade e o paciente mais velho tem mais de 83 anos de idade.

Estatısticas descritivas para os dados acima do LDM sao apresentadosna tabela que segue. Quantidades

√b1 e b2 correspondem aos coeficientes de

assimetria e curtose amostrais para valores acima de log(40). Estatısticasindicam que os dados apresentam alta assimetria positiva e baixa curtose(comparado com modelo normal) indicando que um modelo simetrico podenao ser a melhor escolha para ajustar os dados.

Consideramos entao os modelos normal censurado (NC), normal-assimetricocensurado (NAC), bimodal normal assimetrico censurado (BNAC) e bimodalnormal-assimetrico (BNA).

A proxima tabela apresenta estatısticas resumo para os dados estudados.

Tabela 6.1: Estatısticas descritivasy s2

y

√b1 b2

1.7350 1.7397 0.5258 2.1346

Usando o criterio AIC (Akaike, 1974), ou seja,

AIC = −2 ∗ ˆ(·) + 2p,

onde p e o numero de parametros para o modelo considerado. Melhor modeloapresenta menor AIC.

Assim, para formalmente testar bimodalidade, consideramos as hipoteses

H0 : λ = 0 versus H1 : λ 6= 0,

80 MODELOS BIMODAIS CENSURADOS 6.6

que compara modelos NAC com modeol BNAC.

Para testar as hipoteses acima pode-se usar a ERV, a saber

Λ =`NAC(θ)

`BNAC(θ),

de onde obtemos

−2 log(Λ) = −2(408.3129− 414.7936) = 12.9614,

que e maior que o valor crıtico de 5% da distribuicao χ2 com um grau deliberdade, a saber χ2

1;5% = 3.8414, fornecendo evidencia do melhor ajuste domodelo BNAC.

A tabela apresentada a seguir mostra estimadores de maxima verossim-ilhanca e valores AIC para os modelos NC, NAC, BNC e BNAC, sendo esteultimo o que apresenta menor AIC (melhor modelo).

Embora λ e significantemente nao nulo, o modelo BNAC apresenta mel-hor ajuste que o NAC.

Podemos testar

H0 : (λ, β) = (0, 0) contra H1 : (λ, β) 6= (0, 0),

comparando modelos CN com CETN.

Usando a ERV,

Λ =`NC(θ)

`BNAC(θ),

que leva a

−2 log(Λ) = −2(408.3129− 414.8078) = 12.9898,

maior que o valor crıtico de 5% da distribuicao χ2 com um grau de liberdadea saber, χ2

1;5% = 3.8414, mostrando que BNAC e o melhor modelo.

O total de dados censurados corresponde a 39.92% da amostra sob estudoe a porcentagem sob o BNAC e 39.93%. Por outro lado, pode-se mostrarque sob o modelo CNA model, a porcentagem esperada e de 42.97%,.

6.7 DISCUSSAO FINAL 81

Tabela 6.2: Estimativas e ajustes.Parametro Modelo NC Modelo NAC Modelo BNC Modelo BNAC

AIC 833.615 835.587 835.663 824.6258µ 0.477(0.137) 1.689(1.147) 0.364(0.023) 1.719(0.117)σ 1.978(0.121) 2.362(0.767) 1.961(0.109) 2.108(0.169)λ -0.861 (1.013) 38.658(10.367) 2.571(1.116)δ -2.2079(0.2196) -0.797(0.147)

Para n=106 mulheres infectadas e sob tratamento com terapia HAAR,a idade media e de 30.75 anos, com 33.96% abaixo do LDM. O modeloestimado usando EMV e dado por

CANB(1.6306, 1.8201, 2.8874,−0.5936),

levando a estivativa de 32.95% abaixo do LDM.

6.7 Discussao final

Este capıtulo apresenta uma serie de modelos que podem ser usados sobcensura em situacoes de possıvel bimodalidade. Assim, os modelos propostosestendem o model tobit normal usual, originalmente proposto para situacoessimetricas unimodais. Estimacao por MV foi considerada e requer metodosnumericos, dada a complexidade dos modelos. MIF e informacao observadasao consideradas. Aplicacao a dados reais indica boa performance do modeloproposto.

82 MODELOS BIMODAIS CENSURADOS 6.7

Capıtulo 7

Regressao quantılica

7.1 Introducao

Desde o trabalho seminal de Koenker e Bassett (1978) os modelos de regressaoquantılica tem sido utilizados em diversas areas, com o interesse em obteruma visao mais completa da distribuic ao condicional da variavel respostaem funcao de covariaveis. Yu e Moyeed (2001) apresentaram o primeiro re-sultado para modelos de regressao quantılica Bayesianos considerando a dis-tribuicao Laplace assimetrica para os erros do modelo. Kozumi e Kobayashi(2011) definem um amostrador de Gibbs considerando a distribuicao deLaplace assimetrica como uma mistura entre a distribuicao normal e ex-ponencial. O metodo sugerido pelos autores se mostra bastante interessantequando comparado com o metodo proposto por Yu e Moyeed (2001), con-forme verificaremos com alguns exemplos.

7.2 O enfoque Bayesiano

Os modelos de regressao quantılica foram propostos inicialmente por Koenkere Bassett (1978). Nesse trabalho seminal, os autores propunham que osquantis condicionais de uma variavel de interesse, seja Y , dado um conjuntode variavel explicativas poderia ser estimado atraves da minimizacao de umasoma de erros absolutos ponderados, dada uma amostra de n observacoes,matriz X como segue

83

84 REGRESSAO QUANTILICA 7.2

minβ∈Rp

n∑i=1

ρτ (yi − xi′β) (7.1)

em que ρτ (u) = u(τ − I(u < 0)) e I(a) e a funcao indicadora que assumevalor zero quando a e verdadeiro e 0 caso contrario. Os autores mostraramque a minimizacao em (7.1) poderia ser representada como um problema deprogramacao linear e com isso, o vetor de parametros β poderia ser obtidoatraves de algoritmos de programacao linear como simplex ou ponto interior,por exemplo. Para mais detalhes sobre esses modelos sobre a perspectivafrequentista, ver Santos (2012).

Para considerarmos a abordagem Bayesiana, devemos definir primeira-mente a distribuicao de Laplace assimetrica. Utilizando a parametrizacaode Yu e Zhang (2005), se Y e distribuıda conforme essa distribuicao comparametro de localizacao µ, parametro de escala σ e parametro de assime-tria τ , isto e, Y ∼ LA(µ, σ, τ), entao sua funcao densidade e dada por

fτ (εi) =τ(1− τ)

σexp−ρτ (y − µ)

σ,

em que −∞ < µ < ∞, σ > 0 e 0 < τ < 1. E importante ressaltar queconsiderando o seguinte modelo linear

yi = xi′βτ + εi, (i = 1, . . . , n),

em que os erros εi’s tem funcao densidade acima, entao o estimador demaxima verossimilhanca para βτ coincide com o estimador obtido a partirda minimizacao em (7.1). Considerando essa ligacao entre os modelos deregressao quantılica e a distribuicao de Laplace assimetrica, Yu e Moyeed(2001) introduziram o conceito de regressao quantılica Bayesiana, com aseguinte representacao para a posteriori do vetor de parametros da regressaoquantılica

π(βτ |y) ∝ L(y|βτ )π(βτ ),

em que para a verossimilhanca, L(y|βτ ), e considerada a distribuicao deLaplace assimetrica e π(βτ ) ∝ 1, ou seja, os autores consideram uma prioriimpropria para o vetor de parametros da regressao.

Com essa formulacao entao, os primeiros modelos de regressao quantılicaBayesianos foram apresentados. Yu e Moyeed (2001) provaram que mesmo

7.2 O ENFOQUE BAYESIANO 85

considerando uma priori impropria era possıvel obter uma posteriori propria.Para a atualizacao dos parametros na cadeia de Markov, foi utilizado oalgoritmo de Metropolis-Hastings, com uma densidade normal centrada noestado atual da cadeia.

Atualmente, o interesse pelos modelos de regressao quantılica Bayesianostem crescido, conforme se verifica na literatura recente sobre o assunto. Re-ich et al (2011) apresentam modelos de regressao quantılica espaciais, Leeand Neocleous (2010) utilizam esses modelos para dados de contagem naarea de epideomologia, Alhamzawi and Yu (2012a) sugerem metodos deselecao de variaveis a partir de amostradores de Gibbs, Alhamzawi andYu (2012b) obtem resultados de prioris conjugadas para esses modelos, as-sim como selecao de variaveis, Lum and Gelfand (2012) descrevem modelosde regressao multipla quantılica espacial usando processos de Laplace as-simetricos e Benoit and van den Poel (2010) definem modelos de regressaoquantılica Bayesianos para dados binarios.

Kozumi e Kobayashi (2011) apresentam uma nova possibilidade paramodelos de regressao quantılica, considerando uma representacao de mis-turas para os erros com distribuicao de Laplace assimetrica do modelo emacima. Antes, enunciemos a representacao definida por Kotz et al. (2001)para a distribuicao Laplace assimetrica.

Seja z ∼ Exp(1) e u ∼ N(0, 1). Se uma variavel aleatoria ε segue umadistribuicao de Laplace assimetrica, entao podemos podemos representar εcomo uma mistura de localizacao-escala dada por

ε = θz + ψ√zu,

em que

θ =1− 2τ

τ(1− τ)e ψ2 =

2

τ(1− τ).

Do resultado anterior, a resposta yi pode ser equivalentemente escritacomo

yi = xi′lβτ + θzi + ψ

√ziui, (7.2)

onde zi ∼ Exp(1) e ui ∼ N(0, 1). E possıvel observar que

yi|zi ∼ N(xi′βτ + θzi, ψ

2zi)

86 REGRESSAO QUANTILICA 7.2

Assim, a densidade conjunta de y = (y1, . . . , yn)′ e dada por

f(y|lβτ , z) ∝

(n∏i=1

z−1/2i

)exp

n∑i=1

(yi − xi′βτ − θzi)2

ψ2zi

. (7.3)

Para obter os modelos segundo a abordagem Bayesiana, Kozumi e Kobayashi(2011) assumem a seguinte priori para o vetor βτ

βτ ∼ N(βτ0, Bτ0). (7.4)

Considerando essa priori e o resultado anterior para a verossimilhancade Y , a posteriori de βτ e dada por

βτ |y, z ∼ N(βτ , Bτ )

onde

B−1τ =

n∑i=1

xix′i

ψ2zi+B−1

τ0 e βτ = Bτ

n∑i=1

xi(yi − θzi)ψ2zi

+B−1τ0 βτ0

Combinando a equacao em (7.3) e a densidade de uma distribuicao ex-ponencial padrao, entao e possıvel obter que a distribuicao condicional dezi e proporcional a

z−1/2i exp

−1

2(δ2i z−1i + γ2

i zi)

, (7.5)

onde

δ2i =

(yi − xi′βτ )2

ψ2e γ2

i = 2 +θ2

ψ2.

Como a equacao em (7.5) e o nucleo de uma densidade da distribuicaoGaussiana Invertida Generalizada (GIG), temos que e

zi|y, βτ ∼ GIG

(1

2, δi, γi

),

7.2 O ENFOQUE BAYESIANO 87

em que a funcao densidade de probabilidade de GIG(ν, a, b) e dada por

f(x|ν, a, b) =(b/a)ν

2Kν(ab)xν−1 exp

−1

2(a2x−1 + b2x)

,

com x > 0, −∞ < ν < ∞, a, b ≥ 0 e Kν(.) e uma funcao de Bessel modifi-cada (Barndorff-Nielsen e Shephard, 2001).

Se houver interesse em adicionar um parametro de escala σ > 0 nomodelo, os autores sugerem reescrever a equacao em (7.2) como

yi = xi′βτ + σθzi + σψ

√ziui,

Para evitar que a media condicional de yi dependa do parametro deescala, a expressao acima e reparametrizada como

yi = xi′βτ + θvi + ψ

√σviui,

em que vi = σzi.Para completar a especificacao do modelo, os autores assumem as prioris

βτ ∼ N(βτ0, Bτ0) e σ ∼ GI(n0

2,s0

2

)E possıvel obter entao a distribuicao condicional completa de βτ , que e

dada por

βτ |y, v, σ ∼ N(βτ , Bτ )

onde

B−1τ =

n∑i=1

lxix′iψ

2σvi +B−1τ0

e

βτ = Bτ

n∑i=1

xi(yi − θvi)ψ2σvi

+B−1τ0 βτ0

De forma similar ao que foi feito anteriormente, e possıvel obter tambem

que

vi|y, βτ , σ ∼ GIG

(1

2, δi, γi

),

88 REGRESSAO QUANTILICA 7.2

onde

δ2i =

(yi − xi′βτ )2

ψ2σe γ2

i =2

σ+

θ2

ψ2σ.

Notando que vi ∼ Exp(σ), a densidade condicional completa de σ eproporcional a

(1

σ

)(n0/2)+(3/2)n+1

exp

− 1

σ

[s0

2+

n∑i=1

vi +n∑i=1

(yi − xi′βτ − θvi)2

2ψ2σ.

]

Assim, temos que

σ|y,v, βτ ,∼ GI

(n

2,s

2

),

em que

n = n0 + 3n e s = s0 + 2

n∑i=1

vi +

n∑i=1

(yi − xi′βτ − θvi)2

ψ2σ

Ao inves da priori Normal, os autores consideram uma alternativa quee a exponencial dupla para βτ . A densidade da priori exponencial dupla edada por

π(βτ ) =k∏i=1

π(βτj) ∝k∏i=1

exp(−λ0|βτj − βτj0|),

em que βτj e o j-esimo elemento de βτ , e λ0, βτj0 sao hiperparametros.Yu e Stander (2007) mostraram que, usando essa priori, todos os mo-

mentos da posteriori de βτ estao definidos para os modelos de regressaoquantılica Tobit.

Park e Casella (2008) mostraram que a densidade da exponencial duplapode ser expressa como

π(βτj) =

∫ ∞0

1√2πωj

exp

−(βτj − βτj0)2

2ωj

exp

(−λ

20ωj2

)dωj

em que ωj tem distribuicao exponencial com media 2/λ20. Assim, podemos

construir a seguinte representacao hierarquica da priori:

7.3 REGRESSAO QUANTILICA TOBIT 89

βτ |ω ∼ N(βτ0,Ω),

ωj ∼ Exp(2/λ20),

em que ω = (ω1, . . . , ωk)′ e Ω e uma matriz diagonal com os elementos de

ω.Segue dessa especificacao que a distribuicoes condicionais completas de

βτ , σ e v sao semelhantes a aquelas obtidas com a priori Normal, com Bτ0

substituıdo por Ω.Alem disso, a distribuicao condicional de ωj e proporcional a

ω−1/2j exp

−1

2[(βτj − βτj0)2ω−1

j + λ20ωj ]

,

o que implica que

ωj |y,βτ , σ,v ∼ GIG

(1

2, |βτj − βτj0|, λ0

)

7.3 Regressao Quantılica Tobit

Yu e Stander (2007) propuseram um metodo bayesiano para modelos deregressao quantılica Tobit baseado na distribuicao Laplace assimetrica. Kozumie Kobayashi (2011) mostraram entao que a metodologia proposta por eles,e apresentada na subsecao anterior, pode ser estendida diretamente para aanalise de modelos de regressao quantılica Tobit.

Assuma que a variavel resposta e gerada de acordo com

yi =

y∗i se y∗i > 0,0 se y∗i ≤ 0,

y∗i = xi′βτ + εi, (7.6)

em que y∗i e uma variavel latente.Para desenvolver o modelo de regressao quantılica Tobit, Kozumi e Kobayashi

(2011) assumem que os erros, εi, tem distribuicao Laplace assimetrica e ree-screvem a equacao em (7.6) como

y∗i = xi′βτ + θvi + ψ

√σviui, (7.7)

em que ui ∼ N(0, 1) e vi ∼ Exp(σ).

90 REGRESSAO QUANTILICA 7.4

Como o modelo em (7.7) tem a forma de regressao condicional em vi, ometodo desenvolvido por Chib (2001) pode ser aplicado para a amostragemde y∗i , que e dado da seguinte forma

y∗i |y, βτ , v, σ ∼ yiI(yi > 0) + TN(−∞,0](x′iβτ + θvi, ψ

2σvi)I(yi = 0)

em que TN(a,b](µ, σ2) denota uma distribuicao normal com media e

variancia σ2 truncada no intervalo (a, b].

Considerando as priori’s βτ ∼ N(βτ0,Bτ0) e σ ∼ GI(n02 ,

s02

), entao as

posteriori’s de βτ , v e σ podem ser obtidas das equacoes anteriores simples-mente substituindo yi por y∗i .

Simulacoes

A partir de estudos de simulacoes, e possıvel verificar que: o amostradorde Gibbs proposto por Kozumi e Kobayashi apresentou melhores resulta-dos que o amostrador passeio-aleatorio proposto por Yu e Moyeed (2001);em comparacao com a abordagem frequentista, os estimadores bayesianosapresentam menores erros quadraticos medios que os obtidos a partir dosmetodos frequentistas, mas com maior vies; entre os metodos bayesianos, ocalculo utilizando o parametro de escala obteve melhores resultados.

Com relacao a simulacoes para verificar a proposta para os modelosde regressao quantılica Tobit, Kozumi e Kobayashi (2011) simularam dadoscensurados censurados a esquerda de zero e obtiveram que:

• a adicao do parametro de escala diminuiu consideravelmente o viesdas estimativas quando comparado com o metodo sem o parametro deescala;

• esse metodo tambem apresentou melhores resultados que o metodoproposto por Powell (1986).

7.4 Aplicacoes

Dados de patentes

Consideramos os dados de aplicacoes de patentes de 70 companhias far-maceuticas e biomedicas no ano de 1976.

Para obter os dados, basta fazer no R.

7.4 APLICACOES 91

> library(flexmix)

> data(patent)

> ?patent

As variaveis disponıveis sao:

• Numero de patentes (N)

• Gastos com pesquisa e desenvolvimento (RD)

• Razao entre pesquisa e desenvolvimento e vendas (RD / SALE)

Resultados da analise

O modelo de interesse e

log(1 +N) = β1 + β2 log(RD) + β3 log(RD)2 + β4 log

(RD

SALE

)+ ε

Para utilizar o metodo de Yu e Moyeed (2001), existe um pacote disponıvelno CRAN.

> library(bayesQR)

> QRc(Data, Prior, Mcmc)

O primeiro autor do artigo Kozumi e Kobayashi (2011), Hideo Kozumi,fornece uma rotina em Ox para o ajuste dos modelos de regressao quantılicaBayesiana considerando o amostrador de Gibbs sugerido por eles. Para essetrabalho, foi desenvolvida uma rotina em R, que pode ser disponibilizadaatraves de solicitacao para [email protected].

Considerando a autocorrelacao na Figura 7.1, verifica-se a correlacao ealta entre as observacoes gerada da distribuicao a posteriori dos parametrosdo modelo considerando o metodo de Yu e Moyeed (2001). Por outro lado,conforme se verifica na Figura 7.2, as observacoes da distribuicao a poste-riori dos parametros geradas a partir do amostrador de Gibbs sugerido porKozumi e Kobayashi apresentam decaimento rapido da funcao de autocor-relacao.

Descricao dos dados sobre oferta de trabalho para mulheres

Consideramos os dados de Mroz (1987), que analisa as informacoes de753 mulheres casadas com idade entre 30 e 60 anos, com interesse na relacaoentre a oferta de trabalho e outras covariaveis, no ano de 1975.

92 REGRESSAO QUANTILICA 7.4

0 10 20 30 400.

00.

20.

40.

60.

81.

0Lag

AC

F

Intercepto

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

log(RD)

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

log(RD)^2

0 10 20 30 400.

00.

20.

40.

60.

81.

0Lag

AC

F

log(RD/SALE)

Figura 7.1: Autocorrelacao das amostras da posteriori utilizando metodo deYu e Moyeed.

Para obter os dados, basta fazer no R.

> library(sampleSelection)

> data(Mroz87)

As variaveis utilizadas sao:

• Variavel resposta: Horas de trabalho

• Variaveis explicativas: salario que nao e devido ao trabalho da mulher(nwifeinc), anos de educacao (educ), anos de experiencia de trabalho(exper e exper2), idade da mulher(age), numero de criancas menoresque 6 anos (kids5), numero de criancas entre 6 e 18 anos (kids618).

Resultados da analiseA Figura 7.3 permite analisar as estimativas e respectivos intervalos de

credibilidade para os parametros do modelo ajustado. Esse grafico e inter-essante, pois mostra detalhes que nao poderiam ser alcancados apenas coma analise da media condicional.

Para a variavel educacao, por exemplo, o efeito dessa variavel e semprepositivo, porem diminui ao passo que a aumenta o quantil condicional de

7.4 APLICACOES 93

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

Intercepto

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

log(RD)

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

log(RD)^2

0 10 20 30 40

0.0

0.2

0.4

0.6

0.8

1.0

Lag

AC

F

log(RD/SALE)

Figura 7.2: Autocorrelacao das amostras da posteriori utilizando metodo deKozumi e Kobayashi.

interesse. Alem disso, para a variavel (nwifeinc), nota-se que o efeito dessavariavel e negativo, mas e significativo apenas nos menores quantis condi-cionais. Tambem, a variavel numero de filhos entre 6 e 18 anos parece naoafetar a oferta de trabalho, pois os intervalos de credibilidade construıdoscontem o zero para todos os quantis estudados. E por ultimo, idade e quanti-dade de filhos menores que 6 anos sao negativamente associados com a ofertade trabalho, com maiores coeficientes nos menores quantis condicionais;

Principais resultados

Consideramos o amostrador de Gibbs para modelos de regressao quantılicabaseado na representacao por mistura de localizacao-escala da distribuicaoLaplace assimetrica:

• o algoritmo proposto tem facil implementacao, porque em cada passotemos que simular valores da distribuicao normal e da distribuicaooGaussiana invertida generalizada;

• algumas extensoes foram discutidas, considerando um parametro deescala na inferencia, a utilizacao de priori dupla exponencial e a analisede modelos de regressao quantılica Tobit;

94 REGRESSAO QUANTILICA 7.5

−5

0

5

10

15

20

0.2 0.4 0.6 0.8

Intercept

Tau

estim

ativ

as

−0.20

−0.15

−0.10

−0.05

0.00

0.2 0.4 0.6 0.8

nwifeinc

Tau

estim

ativ

as

0.0

0.5

1.0

1.5

0.2 0.4 0.6 0.8

educ

Tau

estim

ativ

as

0.0

0.5

1.0

1.5

0.2 0.4 0.6 0.8

exper

Tau

estim

ativ

as

−0.025

−0.020

−0.015

−0.010

−0.005

0.000

0.2 0.4 0.6 0.8

exper^2

Tau

estim

ativ

as

−0.6

−0.4

−0.2

0.0

0.2 0.4 0.6 0.8

age

Tau

estim

ativ

as

−12

−10

−8

−6

−4

−2

0

0.2 0.4 0.6 0.8

kids5

Tau

estim

ativ

as

−1.0

−0.5

0.0

0.5

0.2 0.4 0.6 0.8

kids618

Tau

estim

ativ

as

Figura 7.3: Media a posteriori e intervalos de credibilidade para a variavelsalario que nao e devido a mulher.

• o metodo proposto se mostrou superior aos metodos existentes na lit-eratura.

7.5 SELECAO DE VARIAVEIS 95

7.5 Selecao de variaveis

Um importante aspecto na analise de regressao e a selecao de variaveis ase incluir no modelo. Para esse fim, diversos metodos estao disponıveisna literatura e podemos citar entre os mais utilizados os metodos LASSO(Tibshirani, 1996), LARS (Efron et al. ,2004), LASSO Bayesiano (Park eCasella, 2008), entre outros. Outro metodo que tem chamado atencao ea sugestao de George e McCulloch (1993), tecnica que e conhecida comoSSVS, da sigla em ingles Stochastic Search Variable Selection.

Para modelos de regressao quantılica Bayesiana, Li et al. (2010), Meligkot-sidou et al. (2009) e Reed et al. (2009) propuseram metodos de selecao devariaveis para esses modelos. Li et al. (2010) sugeriram utilizar metodos deregularizacao, ou penalizacao, associados ao metodo LASSO considerandoa distribuicao de Laplace assimetrica, enquanto que Meligkotsidou et al.(2009) e Reed et al. (2009) tambem utilizaram essa distribuicao de prob-abilidade, mas estes utilizaram a tecnica SSVS para propor um metodo deselecao de variaveis.

Para os modelos de regressao quantılica Bayesianos Tobit, Ji et al. (2012)apresentam metodos de selecao tambem a partir do metodo SSVS. Essesautores consideram a priori spike-and-slab para a selecao de variaveis, assimcomo George e McCulloch (1993) e Reed et al. (2009).

A partir do modelo em (7.6), com vetor de parametros βτ q-dimensional,entao o numero total de modelos possıveis, considerando inclusoes e ex-clusoes de cada variavel explicativa, e 2q. Seja

γi =

1, se a i-esima variavel explicativa esta no modelo,

0 c.c.

i = 1, . . . , q.

O modelo em (7.6) pode ser reescrito de forma a representar todos ospossıveis modelos, da seguinte maneira

y∗i =

q∑i=1

β1τγixij + εi, (7.8)

em que os erros εi seguem distribuicao de Laplace assimetrica. De maneiraanaloga ao que foi feito na Secao 7.3, Ji et al. (2012) reescrevem o modeloem (7.8) de forma parecida com o que foi feito na expressao em (7.7), massem o parametro de escala σ, ou seja,

96 REGRESSAO QUANTILICA 7.5

y∗i =

q∑i=1

βiτγixij + θzi + ψ√ziui,

em que zi ∼ Exp(1) e ui ∼ N(0, 1). Ji et al. (2012) sugerem o uso da priorispike-and-slab para o vetor βτ . Suponha que a priori marginal de βτ e comoem (7.4), ou seja, βτ ∼ N(βτ0, Bτ0). Entao, βiτ = 0 se γi = 0 e βτγ ∼N(βτ0γ , Bτ0γ ). Aqui o ındice γ representa o subconjunto definido pelosvalores diferentes de zero de γi, i = 1 . . . , n. Para as variaveis indicadoras γi’ssao consideradas distribuicoes de Bernoulli independentes com parametroπj . Quando nao ha conhecimento a priori sobre a inclusao ou a exclusaoda variavel no modelo, utiliza-se πj = 0.5. Se considerarmos a seguintehierarquia,

y∗i |y, βτ , v, σ ∼ yiI(yi > 0) + TN(−∞,0](x′iβτ + θzi, ψ

2zi)I(yi = 0),

βτ | γ ∼ N(βτ0γ , Bτ0γ ),

γ ∼q∏i=1

πγii (1− πi)1−γi ,

z ∼n∏i=1

exp(−zi),

entao, e possıvel construir os amostradores de Gibbs de forma analoga ao quefoi feito para o modelo de regressao quantılica Tobit Bayesiano. A diferencaesta no passo da atualizacao para as variaveis indicadoras γi’s. Inicialmente,defina γ−i = (γ1, . . . , γi−1, γi+1, . . . , γq). Entao, cada termo das variaveisindicadoras pode ser amostrado a partir da distribuicao condicional γi |y∗, βτ , z, γ−i. Essa distribuicao e dada por uma distribuicao de Bernoullicom a probabilidade de sucesso igual a

P (γi = 1 | y∗, βτ , z, γ−i) =ci

ci + di

em que

ci = f(y∗ | βτ , γi = 1, z, γ−i)f(β | γi = 1,γ−i)f(γ1 = 1,γ−i)

e

di = f(y∗ | βτ , γi = 0, z, γ−i)f(β | γi = 0,γ−i)f(γ1 = 0,γ−i).

Ji et al. (2012) definiram esse amostrador de Gibbs para a selecao devariaveis em modelos de regressao quantılica Bayesianos Tobit e, a partir de

7.5 SELECAO DE VARIAVEIS 97

alguns estudos de simulacao e analise da tecnica em dados reais, verificaramque o metodo apresenta bons resultados, selecionando modelos para a me-diana de forma parecida com o metodo BIC e para outros quantis de formaparecida com o metodo AIC, sugerindo um interessante projeto de pesquisanessa area.

98 REGRESSAO QUANTILICA 7.5

Referencias bibliograficas

Akaike, H. (1974). A new look at statistical model identification. IEEETransaction on Automatic Control. AU-19, 716–722.

Alhamzawi, R. e Yu, K. (2012a). Variable selection in quantile regressionvia Gibbs sampling. Journal of Applied Statistics, 39, 799–813.

Alhamzawi, R. e Yu, K. (2012b). Conjugate priors and variable selectionfor Bayesian quantile regression. Computational Statistics and DataAnalysis, DOI:10.1016/j.csda.2012.01.014.

Arellano-Valle, R.B. e Bolfarine, H. (1995). On Some Characterizations OfThe t-Distribution. Statistics and Probability Letters, 25, 79–85.

Arellano-Valle, R. e Azzalini, A.(2008). The centred parameterizatiion andrelated quantities of the skew-t distribution. Journal of MultivariateAnalysis, 99, 1362-1382.

Arellano-Valle, R.B., Castro, L.M., Gonzalez-Farıas, G. e Munoz-Gajardo,K. (2012). Student-t censored regression model: properties and infer-ence. Statistical Methods and Applications, 21, 453-473.

Arnold, B. C. (2004). discussion of Jones, M.C. Families of distributionarising from distributions of order statistics. Test , 13, 23–25.

Azzalini, A. (1985). A class of distributions which includes the normalones. Scandinavian Journal of Statistics, 12, 171–178.

Azzalini, A. (1986). Further results on a class of distributions which in-cludes the normal ones. Statistica, 46, 199–208.

Azzalini, A. and Capitanio, A. (1999). Statistical applications of the mul-tivariate skew-normal distribution . Journal of the Royal StatisticalSociety, 61, 579–602.

99

100 REFERENCIAS BIBLIOGRAFICAS 7.5

Barndorff-Nielsen, O.E. e Shephard, N. (2001). Non-Gaussian Ornstein-Uhlenbeck-Based Models and Some of Their Uses in Financial Eco-nomics. Journal of the Royal Statistical Society. Series B, 63, 167–241.

Bayes, C., Bazan, J. e Garcıa, C. (2012). A New Robust Regression Modelfor Proportions. Bayesian Analysis, 7, 841–866.

Benoit, D.F. e van den Poel, D. (2010). Binary quantile regression: abayesian approach based on the asymmetric laplace distribution. Jour-nal of Applied Econometrics, DOI:10.1002/jae.1216.

Bolfarine, H. and Sandoval, M. (2005). Introducao a inferencia estatıstica. Sociedade Brasileira de Matematica.

Branscum, A. J., Johnson, W. O. and Thurmond, M. C. (2007), Bayesianbeta regression: applications to household expenditure data and ge-netic distance between foot-and-mouth deseases viruses. Australianand New Zealand Journal of Statistics, 49, 287–301.

Buchinsky, M. (1994). Changes in the U.S. Wage Structure 1963-1987:Application of Quantile Regression. Econometrica, 62, 405–458.

Castillo, E. and Hadi, A.S. (1995). A method for estimating parametersand quantiles of distributions of continuous random variables. Com-putational Statistics and Data Analysis, 20, 421–439.

Chai, H. e Bailey, K. (2008). Use of log-normal distribution in analysisof continuous data with a discrete component at zero. Statistics inMedicine, 27, 3643–3655.

Chao, E.C. (1998). Gibbs Sampling for Long-Term Survival Data withCompeting Risks. Biometrics, 54, 350–366.

Chiogna, M. (1997). Notes on estimation problems with scalar skew-normaldistributions. Relatorio Tecnico, 15, University of Padua, Dept. ofStatistical Sciences.

Cragg, J. (1971). Some statistical models for limited dependent variableswith application to the demand for durable goods. Econometrica, 39,829-844.

Csiszar, I. (1967). Information-type measures of difference of probabilitydistributions and indirect observations. Studia Scientiarum Mathe-maticarum Hungarica, 2, 299–318.

7.5 101

Durrans, S. R. (1992). Distributions of fractional order statistics in hydrol-ogy. Water Resources Research, 28, 1649–1655.

Eugene, N., Lee, C. and Famoye, F. (2002). Beta-normal distribution andits applications. Communications in Statistics – Theory and Methods,31, 497–512.

Ferrari, S. and Cribari-Neto (2004). Beta regression for modelling ratesand proportions. Journal of Applied Statistics, 31 (7), 799-815.

Garay, A.M., Lachos, V.H. e Bolfarine, H. (2012). Bayesian zero-inflatednegative binomial regression models: estimation and case influencediagnostics. Submetido para publicacao,

George, E. e McCulloch, R. (1993). Variable Selection via Gibbs Sampling.Journal of the American Statiscal Association, 88: 881–889.

Gomez, H. W., Venegas, O. and Bolfarine, H. (2007). Skew-symmetricdistributions generated by the distribution function of the normal dis-tribution. Environmetrics, 18, 395–407.

Gomez, H.W., Elal-Olivero, D., Salinas, H.S. and Bolfarine, H. (2011).Bimodal extension based on the skew-normal distribution with appli-cation to pollen data. Environmetrics, 22, 50–62.

Gupta, D. and Gupta, R. C. (2008). Analyzing skewed data by powernormal model. Test, 17, 197–210.

Hastings, W. (1970). Monte carlo sampling methods using markov chainsand their applications. Biometrika, 57, 97–109.

Henze, N. (1986). A probabilistic representation of the skew-normal dis-tribution. Scandinavian Journal of Statistics, 13, 271–275.

Ji, Y., Lin, N. e Zhang, B. (2012). Model selection in binary and tobitquantile regression using the Gibbs sampler. Computational Statisticsand Data Analysis, 56, 827–839.

Jones, M. C. (2004). Families of distributions arising from the distributionsof order statistics. Test, 13, 1–43.

Kao, J. H. K. (1958). Computer methods for estimating Weibull parame-ter in reliability studies. Transaction of IRE-Reliability and QualityControl, 13, 15–22.

102 REFERENCIAS BIBLIOGRAFICAS 7.5

Kim, H.J. (2005). Generalized skew-normal models: Properties and infer-ence. Statistics, 40, 495–505.

Koenker, R. e Bassett, G. (1978). Regression quantiles. Econometrica, 46,33–50.

Kotz, S., Kozubowski, T.J. e Podgorski, K. (2001). The Laplace Distribu-tion and Generalizations: A Revisit with Applications to Communica-tions, Economics, Engineering, and Finance, Boston: Birkhauser.

Kozumi, H. e Kobayashi, G. (1978). Gibbs sampling methods for Bayesianquantile regression. Journal of Statistical Computation and Simula-tion, 81, 1565–1578.

Kullback, S. e Leiber, R.A. (1951). On information and sufficiency. Annalsof Mathematical Statistics, 22,

Lee, D. e Neocleous, T. (2010). Bayesian quantile regression for count datawith application to environmental epidemiology. Journal of the RoyalStatistical Society, Series C, 59, 905–920.

Lehmann, E. L. (1953). A graphical estimation of mixed Weibull parameterin life testing electron tubes, Technometrics , 1, 389–407.

Li, X., Chu, H., Gallant, J.E. (2006). Bimodal virologic response to an-tiretroviral therapy for HIV infection: an application using a mixturemodel with left censoring. J. Epidemiol. Commun. Health, 60, 811–818.

Li, Q., Xi, R. e Lin, N. (2010). Bayesian regularized quantile regression.Bayesian Analysis, 5, 533–556.

Lum, K. e Gelfand, A.E. (2012). Spatial Quantile Multiple RegressionUsing the Asymmetric Laplace Process. Bayesian Analysis, 7, 1–24.

Marin, J.M., Mengersen, K. and Robert, C.P. (2005).Bayesian modellingand inference on mixtures of distributions. Handbook of Statistics, 25,Elsevier.

Martinez, G., Bolfarine, H. e Gomez, H. (2012a). Asymmetric regres-sion models with limited responses with an application to antibodyresponse to vaccine. Biometrical Jounal. Aceito para publicacao.

Martinez, G., Gomez, H., Bolfarine, H. (2012b). Modelo α-potencia infla-cionado de zeros e uns. Em preparacao.

7.5 103

Martinez, G., Bolfarine, H. e Gomez, H. (2013). The alpha-power tobitmodel. Communication in Statistics. Aceito para publicacao.

Meligkotsidou, L., Vrontos, I.D. e Vrontos, S.D. (2009). Quantile regressionanalysis of hedge fund strategies. Journal of Empirical Finance, 16,264–279.

Metropolis, N., Rosenbluth, A., Rosenbluth, M., Teller, A. and Teller, E.(1953). Equations of state calculations by fast computing machines.Journal of Chemical Physics, 21, 1087–92.

Moulton, L. e Halsey, N.A. (1995). A mixture model with detection limitsfor regression analyses of antibody response to vaccine. Biometrics,51, 1570–1578.

Mroz, T. (1987). The Sensitivity of an Empirical Model of Married Women’sHours of Work to Economic and Statistical Assumptions. Economet-rica, 55, 765–799.

Mudholkar, G. S. and Hutson, A. D. (2000). The epsilon-skew-normal dis-tribution for analyzing near-normal data. Journal of Statistical Plan-ning and Inference, 83, 291–309.

Ospina R. (2008). Modelos de regressao beta inflacionados, Tese de doutorado,Universidade de Sao Paulo, Brasil.

Ospina, R. and Ferrari, S. L. P. (2010). Inflated beta distributions. Statis-tical Papers, 51, (1), 111-126.

Park, T. e Casella, G. (2008). The Bayesian lasso. Journal of the AmericanStatistical Association, 103, 681–686.

Peng, F. e Dey, D.K. (1995). Bayesian analysis of outlier problems usingdivergence measures. The Canadian Journal of Statistics, 23, 199–213.

Pewsey, A. (2000). Problems of inference for Azzalini’s skew-normal dis-tribution. Journal of Applied Statistics, 27, 859–870.

Pewsey, A., Gomez, H. W. and Bolfarine, H. (2012). Likelihood-basedinference for distributions of fractional order statistics. Test, 21, 775-789.

104 REFERENCIAS BIBLIOGRAFICAS 7.5

Reed, C., Dunson, D. e Yu, K. (2009). Bayesian variable selection inquantile regression, Relat ’orio Tecnico, Department of MathematicalSciences, Brunei University.

Reich, B.J., Fuentes, M. e Dunson, D.B. (2011). Bayesian spatial quantileregression. Journal of the American Statistical Association, 106, 6–20.

Santos, B.R. (2012). Modelos de regressao quantılica, Dissertacao de mestrado,Universidade de Sao Paulo, Brasil.

Sen, P.K. e Singer, J.(1993). Lange Sample Methods in Statistics: anintrodution with applications. ChapMan and Hall/CRC

Tibshirani, R. (1996). Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society, Series B, 58, 267–288.

Tobin, J. (1958). Estimation of relationships for limited dependent vari-ables. Econometrica, 26, 24–36.

Vuong, Q. (1989). Likelihood ratio tests for model selection and nonestedhypotheses. Econometrica, 57, 307–333.

Weiss, R. (1996). An approach to Bayesian sensitivity analysis. Journal ofthe Royal Statistical Society, Series B, 58, 739–750.

Weiss, R. e Cook, R.D. (1992). A graphical case statistic for assessingposterior influence. Biometrika, 79, 51–55.

Yu, K. e Moyeed, J. (2001). Bayesian quantile regression. Statistics &Probability Letters, 54, 434–447.

Yu, K. e Stander, J. (2007). Bayesian analysis of a Tobit quantile regressionmodel. Journal of Econometrics, 137, 260–276.

Yu, K., van Kerm, P. e Zhang, J. (2005). Bayesian Quantile Regression:An Application to the Wage Distribution in 1990s Britain. Sankhia,The Indian Journal of Statistics, 67: 359–377.

Yu, K. and Zhang, J. (2005). A Three-Parameter Asymmetric LaplaceDistribution and Its Extension. Communications in Statistics - Theoryand Methods, 34, 1867–1879.