modelo hier arquico robusto para o risco coletivo com ... · aos amigos que conheci na p os. a...

Universidade Federal do Rio de Janeiro

Modelo Hierarquico Robusto para o Risco

coletivo com sobredispersao

Pamela Massiel Chiroque Solano

10 Marco 2014

Modelo Hierarquico Robusto para o Risco

coletivo com sobredispersao

Pamela Massiel Chiroque Solano

Dissertacao submetida ao Corpo Docente do Instituto de Matematica - Departamento

de Metodos Estatısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte

dos requisitos necessarios a obtencao do grau de Mestre em Estatıstica.

Orientador: Fernando Antonio da Silva Moura

Rio de Janeiro

10 Marco de 2014

ii

Dissertacao submetida ao Corpo Docente do Instituto de Matematica - DME da

Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessarios a

obtencao do grau de Mestre em Estatıstica.

Area de Concentracao: Inferencia Bayesiana.

Em revisao por:

Rio de Janeiro, RJ - Brasil - 10 Marco 2014

iii

FICHA CATALOGRAFICA

iv

A minha famılia. Em especial para o mais valioso em minha vida. Minha mae.

v

”Dai-me Senhor, a perseveranca das ondas do mar, que fazem de cada recuo um ponto

de partida para um novo avanco.”

Gabriela Mistral.

”O sucesso nasce do querer, da determinacao e persistencia em se chegar a um objetivo.

Mesmo nao atingindo o alvo, quem busca e vence obstaculos, no mınimo fara coisas

admiraveis.”

Jose Alencar.

”O que eu ouco, eu esqueco. O que eu vejo, eu lembro. O que eu faco, eu entendo.”

Confucio.

vi

Agradecimentos

Por essa ajuda divina, que me faz sentir vontade, de continuar a pesar das dificulda-

des.

Aos professores do Programa de Pos Graduacao em Estatıstica da UFRJ por todo co-

nhecimento transmitido, a Alexandra pelas suas palavras de motivacao, ao professor

Carlos Abanto pelos conselhos. Ao professor Antonio Bravo pela confianca. Ao professor

Helio Migon pelas muitas sugestoes para o desenvolvimento do trabalho, alem de seus

conselhos. A Eulalia Vares e Gallo pela sugestoes de melhora. Aos professores Dani e

Thais pela paciencia em responder minhas duvidas. E em especial ao meu orientador,

Fernando Antonio da Silva Moura, pela honra de ter me aceitado como sua aluna, pela

muita paciencia, pela ajuda em nossas longas tardes de trabalho, pela dedicacao e incen-

tivo nesta pesquisa, obrigada professor pelo apoio.

Aos amigos que conheci na pos. A Marianita (muchas gracias por todo amiga!.) A Jo-

siane, Renata, Kelly, Felipe, Larissa, Patricia, Pedro, Teresa, Jesse, Claudio, Mariana,

sempre prestativos. A Cristian Cruz pela forca, animos e carinho. A Carlos Espinoza,

Victor Martinez pelo apoio total. A Monica, Heloise, Sheyla... pelas mini aulas de pa-

gode e samba sem duvida elas fizeram minha estadia muito divertida. No final para

os que eu considero meus anjos neste percorrer: Felipe Santos e Miguel Zamora, muito

obrigada meus amigos. Obrigada aos professores da banca por aceitar o convite, a Capes

e Faperj pelo apoio financeiro e a todos que contribuıram direta, ou indiretamente, para

a realizacao deste trabalho.

vii

Resumo

Neste trabalho propoem-se modelos hierarquicos robustos para o risco coletivo com so-

bredispersao e sob o paradigma bayesiano. Deste modo, obtem-se estimadores robustos

do premio de um seguro que nao sao muito influenciados pelas observacoes aberrantes e

nem pela sobredispersao.

Assume-se que os valores agregados dos sinistros tenham uma distribuicao com cauda a

direita mais pesada do que a usualmente empregada. Em particular, consideramos que

a distribuicao do logaritmo dos valores agregados dos sinistros seguem uma distribuicao

T-student. Uma distribuicao a priori de Jeffreys para o grau de liberdade e obtida e

examinada. Alem disso, propoe-se uma modificacao na distribuicao do numero de sinis-

tros para incorporar uma possıvel sobredispersao. Uma distribuicao a priori de referencia

para o parametro de sobredispersao e obtida e analisada.

Com o objetivo de calcular o premio justo, usando a teoria de decisao bayesiana, adota-

se a funcao de utilidade “Desvio absoluto modificada”, sendo esta adequada para dados

com valores aberrantes. Para avaliar a capacidade preditiva do modelo e a estimacao

dos parametros, uma analise com dados simulados e realizada. Finalmente, apresenta-se

uma aplicacao para um conjunto de dados reais. A comparacao de modelos e o calculo

do valor do premio sao feitos considerando-se a distribuicao preditiva a qual incorpora

toda a incerteza envolvida.

Palavras chave: priori de Jeffreys, priori de referencia, teoria de decisao, funcao uti-

lidade, CRPS (Continuous ranked probability score), DIC (Deviance Information Crite-

rion), fator de Bayes.

viii

Abstract

In this work we propose a robust hierarchical model for the collective risk with over-

dispertion based on Bayesian paradigm. Proceding in this way, we are able to obtain

robust estimators of the insurance premium, which is not much influenced by aberrant

observations and overdispertion.

We assume that the claims aggregate values distributions have a right heavier tail than

the usually employed. In particular, we consider that the distribution of the logarithm

of the aggregate claims follows a T-student distribution. A Jeffreys prior distribution for

the degree of freedom is obtained and analyzed. We also proposed a modification in the

number of claims distribution to incorporate a possible overdispersion. A reference prior

distribution for the overdispersion parameter is obtained and analyzed.

In order to calculate the fair premium, Bayesian decision theory is invoke, adopting the

utility function “Modified absolute deviation”, which is suitable for data with outliers. To

evaluate the predictive power of the model, an analysis with simulated data is presented

and conducted. Finally, we show an application to a real data set. The comparison of mo-

dels and the prediction of the premium is done by considering the predictive distribution,

which takes into account all uncertainty on the model parameters .

ix

Sumario

Lista de Tabelas xiii

Lista de Figuras xv

1 Introducao 2

1.1 Breve revisao da literatura em relacao a eventos aberrantes e sobredispersao 3

1.2 Contribuicoes e estrutura do trabalho . . . . . . . . . . . . . . . . . . . . 6

2 Definicoes basicas da Ciencia Atuarial 9

2.1 Definicoes atuariais basicas . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.1 Modelo basico de risco . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.2 Processo de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.1.3 Processo Poisson misto . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.4 Modelo de Risco Coletivo composto . . . . . . . . . . . . . . . . . 15

2.2 Distribuicoes para os valores dos sinistros . . . . . . . . . . . . . . . . . . 17

3 Metodo Bayesiano na Ciencia Atuarial 22

3.1 Metodo bayesiano na Ciencia Atuarial . . . . . . . . . . . . . . . . . . . 22

3.1.1 Estimacao de parametros . . . . . . . . . . . . . . . . . . . . . . . 25

3.1.2 Teoria de decisao no calculo do premio . . . . . . . . . . . . . . . 26

3.1.3 Modelo hierarquico de risco coletivo bayesiano . . . . . . . . . . . 29

3.1.4 Escolha da distribuicao a priori . . . . . . . . . . . . . . . . . . . 30

3.1.5 Inferencia via simulacao estocastica: MCMC . . . . . . . . . . . 38

3.1.6 Validacao e selecao de modelos . . . . . . . . . . . . . . . . . . . 42

x

4 Modelos Propostos 46

4.0.7 Modelo Log Normal para os valores dos sinistros . . . . . . . . . . 47

4.0.8 Modelo hierarquico de risco coletivo Normal Poisson (MHRC-NP) 48

4.0.9 Modelo Log T-student para os valores dos sinistros . . . . . . . . 49

4.0.10 Modelo hierarquico de risco coletivo T-student Poisson (MHRC-TP) 49

4.1 Distribuicoes para o Numero de Sinistros . . . . . . . . . . . . . . . . . . 51

4.1.1 Modelo Binomial Negativo para o numero de sinistros . . . . . . . 52

4.1.2 Modelo hierarquico de risco coletivo Gama Binomial Negativa (MHRC-

GB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.1.3 Modelo hierarquico de risco coletivo Normal Binomial Negativa

(MHRC-NB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.1.4 Modelo hierarquico de risco coletivo T-student Binomial Negativa

(MHRC-TB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.2 Distribuicoes a priori para os parametros e hiperparametros dos modelos

propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.1 A priori de Jefreys para νa . . . . . . . . . . . . . . . . . . . . . . 57

4.2.2 Priori de referencia do parametro de sobredispersao δa . . . . . . 60

4.2.3 Distribuicoes a priori para os Hiperparametros αθa , βθa , αλa , βλa . 61

5 Aplicacao 62

5.1 Descricao do conjunto de dados . . . . . . . . . . . . . . . . . . . . . . . 62

5.2 Estudo com dados simulados . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.3 Aplicacao com dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.3.1 Analise da presenca de dados discordantes . . . . . . . . . . . . . 72

5.3.2 Calculo do premio . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.3.3 Comparacao dos modelos propostos . . . . . . . . . . . . . . . . . 84

6 Conclusoes e trabalhos futuros 87

A SBETA2 89

A.1 A Distribuicao SBeta2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

xi

A.1.1 Momentos SBeta2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

B Processo Polya 91

B.1 Processo Polya - Aeppli . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

C Tabelas 93

C.1 Tabelas das estatısticas dos parametros estimados . . . . . . . . . . . . . 93

Referencias Bibliograficas 102

xii

Lista de Tabelas

2.1 Funcoes de densidade de distribuicoes que nao possuem cauda pesada . . 19

2.2 Funcoes de densidade de distribuicoes que possuem cauda pesada . . . . 19

4.1 Distribuicoes a priori propostas para os parametros dos modelos MHRC . 57

5.1 Valores verdadeiros dos parametros λa, θa, νaδa utilizadas na simulacao . . 64

5.2 Estatisticas da distribuicao preditiva aposteriori dos gasto por indenizacao

por pessoa Ra,t+H , mediana (M), intervalo de credibilidade de 95 % (IC)

e desvio padrao (sd) no cenario 1 . . . . . . . . . . . . . . . . . . . . . . 78

5.3 Estatisticas da distribuicao preditiva aposteriori dos gasto por indenizacao

por pessoa Ra,t+H , mediana (M), intervalo de credibilidade de 95 % (IC)

e desvio padrao (sd) no cenario 2 . . . . . . . . . . . . . . . . . . . . . . 79

5.4 Valor do Premio para todos os modelos propostos . . . . . . . . . . . . . 85

5.5 Valores de DIC, CRPS, EQMp, EAMp para os modelos ajustados . . . . 86

5.6 Resultados da comparacao usando o Fator de Bayes . . . . . . . . . . . . 86

C.1 Estatisticas da distribuicao a posteriori de λa: a mediana (M), o valor

verdadeiro (V) e o intervalo de credibilidade de 95 % e o desvio padrao

nos modelos segundo o cenario 1, referente ao estudo simulado . . . . . . 94

C.2 Estatisticas da distribuicao a posteriori de λa: a mediana (M), o valor

verdadeiro (V) e o intervalo de credibilidade de 95 % e o desvio padrao

nos modelos segundo o cenario 2, referente ao estudo simulado . . . . . . 95

xiii

C.3 Estatisticas da distribuicao a posteriori de λa: mediana (M), intervalo de

credibilidade de 95 % (IC) e desvio padrao (sd) para o servico 1 no cenario

1, referente a aplicacao no plano de saude . . . . . . . . . . . . . . . . . 96

C.4 Estatisticas da distribuicao a posteriori de λa: mediana (M), intervalo

de credibilidade de 95 % (IC) e desvio padrao (sd) para o servico 1 no

cenarios 2, referente a aplicacao no plano de saude . . . . . . . . . . . . 97

C.5 Estatisticas da distribuicao a posteriori de θa: mediana (M), intervalo de



C.6 Estatisticas da distribuicao a posteriori de θa: mediana (M), intervalo de



C.7 Estatisticas da distribuicao a posteriori de δa: mediana (M), intervalo de



C.8 Estatisticas da distribuicao a posteriori de νa: mediana (M), intervalo

de credibilidade de 95 % (IC) e desvio padrao (sd) para o servico 1 nos

diferentes cenarios, referente a aplicacao no plano de saude . . . . . . . . 101

Lista de Figuras

2.1 Influencia da distribuicao Normal, Laplace e Cauchy . . . . . . . . . . . 20

2.2 Comparacao das distribuicoes Beta2-Cauchy, Normal, Double Exponential

e Cauchy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

5.1 Curvas de nıvel para o Logaritmo da verossimilhanca e as distribuicoes

condicionais completas dos parametros θa e νa . . . . . . . . . . . . . . . 63

5.2 Curva de densidade, verdadeiro valor do parametro (linha cheia) e in-

tervalo de 95% de credibilidade (linha pontilhada), a posteriori para os

parametros, para o servico 1 no cenario 1 MHRC-TP . . . . . . . . . . . 66

5.3 Curva de densidade, verdadeiro valor do parametro (linha cheia) e in-

tervalo de 95% de credibilidade (linha pontilhada), a posteriori para os

parametros, para o servico 1 no cenario 2 MHRC-TB . . . . . . . . . . . 67

5.4 Histograma e intervalo de 95% de credibilidade (linha pontilhada) a pos-

teriori para os parametros λa, θa, νa, δa para o servico 1 para a classe de

idade 1 nos MHRC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.5 Boxplot da distribuicoes a posteriori para os parametros λa para o servico

1 por classe de idade nos diferentes cenarios . . . . . . . . . . . . . . . . 70

5.6 Boxplot das distribuicoes a posteriori para os parametros θa para o servico


5.7 Boxplot das distribuicoes a posteriori para os parametros δa para o servico

1 por classe de idade no cenario dois . . . . . . . . . . . . . . . . . . . . 71

5.8 Boxplot das distribuicoes a posteriori para os parametros νa para o servico


xv

5.9 Grafico da distribuicao preditiva a posteriori, Mediana e o Intervalo de

credibilidade (IC) para o parametro δa por servicos . . . . . . . . . . . . 75

5.10 Grafico da distribuicao preditiva a posteriori, Mediana e o Intervalo de

credibilidade (IC) para o parametro ν por servicos . . . . . . . . . . . . . 76

5.11 Boxplot da distribuicao posteriori de φ1a,t, φ

2a,t, φ

3a,t para cada classe a no

tempo t por servico respectivamente: . . . . . . . . . . . . . . . . . . . . . 77

5.12 Grafico de encolimento dos valores do premio para os modelos propostos.

Os valores dos sinistros sao distribuıdos seguindo a distribuicao Gama,

Log Normal e Log T-student, respectivamente segundo o cenario 1 . . . . 80

5.13 Grafico de encolimento dos valores do premio para os modelos propostos.

Os valores dos sinistros sao distribuıdos seguindo a distribuicao Gama,

Log Normal e Log T-student, respectivamente segundo o cenario 2 . . . . 81

5.14 Intervalos de 95% de credibilidade e as estimativas pontuais do premios

por classe de idade segundo os dois cenarios. Os valores dos sinistros

seguindo: Gama, Normal, T-st, respectivamente . . . . . . . . . . . . . . 82

5.15 Histograma e intervalo de 95% de credibilidade (linha pontilhada) e o valor

estimado do premio (linha cheia vertical vermelha) da distribuicao predi-

tiva a posteriori Ra,t+H para cada classe de idade em todos os modelos

ajustados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5.16 Boxplot das distribuicoes preditivas: Ra,T+H nos modelos ajustados se-

gundo classe de idade segundo os dois cenarios . . . . . . . . . . . . . . . 84

Capıtulo 1

Introducao

Um dos objetivos dos atuarios e modelar as distribuicoes de perdas, tais como o valor

ou o numero dos sinistros ocorridos em uma apolise de seguros, com a finalidade de calcu-

lar os premios pagos, avaliar os efeitos dos dedutıveis, conhecer seus limites e determinar

o impacto da inflacao. Porem, e necessario antes dispor de informacoes sobre o processo

de producao dos sinistros.

Na Ciencia Atuarial, a Teoria da Credibilidade pode ser vista como o paradigma basico

subjacente a fixacao de precos de produtos de seguros (premio). Ela baseia-se na com-

binacao de dois conceitos fundamentais “risco individual-apolice”, e “risco coletivo-carteira”.

A partir desta teoria e possıvel obter previsoes de tarifacoes futuras, isto e, conhecer o

custo do total de sinistros para um perıodo futuro.

Embora a literatura nos forneca uma ampla lista de trabalhos com diferentes propostas

e enfoques, nao e facil identificar a distribuicao apropriada para os valores dos sinistros.

Finger e Steeneck (1976), propoem um metodo para a estimacao do premio puro usando

estratos para a cobertura de seguros e consideram a assimetria da distribuicao dos valores

dos sinistros. Alem disso, propoem distribuicoes com caudas pesadas. Eles incorporam

a distribuicao log normal na modelagem dos valores dos sinistros. Para a estimacao de

parametros, fazem suposicoes baseadas em resultados assintoticos para a media e o coe-

ficiente de variacao.

Sob o paradigma bayesiano, Dudley (2006) propoe varios modelos para fazer inferencia

2

sob o valor do sinistro. Vilar et al. (2009) apresentam modelos nao-parametricos para

valores do sinistro. Austin et al. (2011) apresentam um enfoque semi parametrico sob a

abordagem bayesiana, utilizando a distribuicao Coxian.

O numero de publicacoes na ciencia atuarial sob a abordagem bayesiana vem aumen-

tando, destacando-se, os trabalhos de Makov et al. (1996), Makov (2001), DuMouchel

(1983), Pai (1997), Herzod (1994), Klugman (1992), Haberman e Renshaw (1996), entre

outros.

Contudo, surge naturalmente a seguinte questao: Como modelar os valores dos sinistros

na presenca de uma ou mais observacoes aberrantes e tambem incorporar a sobredis-

persao? Isto e, a variancia do numero de sinistros e maior do que o valor esperado,

quando este e modelado segundo a distribuicao de Poisson.

A natureza nos dados sobre seguros tem a caraterıstica de ser assimetrica e, portanto, as

distribuicoes Pareto, Log normal, Gama sao usualmente usadas. Segundo Vallejos e Steel

(2013), para os modelos de sobrevivencia, a inferencia baseada no modelo log-normal e

vulneravel na presenca de dados aberrantes. Do mesmo modo, o modelo assimetrico

Gama possui um parametro cuja estimacao e afetada por dados atıpicos, ver Gilberto

et al. (2012) para mais detalhes. Alem disso, considerando-se a modelagem do numero de

sinistros, a hipotese de que media e igual a variancia pode nao ser sustentada, e portanto

a distribuicao de Poisson nao e adequada.

Nesta introducao apresentamos ao leitor a importancia da modelagem dos valores e

numeros de sinistros sob a presenca de observacoes aberrantes, assim como a importancia

de se considerar a sobredispersao no modelo hierarquico de risco coletivo.

1.1 Breve revisao da literatura em relacao a eventos

aberrantes e sobredispersao

Existem varios trabalhos na literatura atuarial que incorporam valores aberrantes. Sob

o enfoque classico, o uso de distribuicoes que consideram estimadores robustos foi ori-

ginalmente introduzida por Kunsch (1992). Kunsch (1992) analisou casos de sinistros

3

extremos e propoe a utilizacao do estimador M-Robusto, ao inves do estimador linear de

credibilidade. Neste contexto, Gisler e Reinhard (1993) propuseram o uso de estimador

T robusto, fazendo uso de uma funcao de influencia particular, que basicamente atenua

a influencia de observacoes maiores que um determinado ponto pre-especificado de corte.

Kremer (1994) obteve estimadores M-Robusto via filtro de Kalman.

No contexto de sobredispersao, em aplicacoes frequentistas, baseados na proposta ori-

ginal de Hausman et al. (1984), Boucher e Guillen (2009) usam um modelo de efeitos

aleatorios. Neste modelo a sobredispersao e incorporada atraves da distribuicao bino-

mial negativa multivariada (MVNB). Para mais detalhes pode-se consultar o capıtulo 36

Johnson e Balakrishnan (1996).

Os fundamentos sobre a inferencia bayesiana para dados discrepantes sao abordados por

varios autores. Berger (1980) desenvolveu um estimador robusto de Bayes que incorpora

o uso da distribuicao priori Strawderman-Berger, com caudas pesadas, produzindo esti-

madores minimax sob perda quadratica. West (1984) considera um modelo de regressao

para dados aberrantes e sugere atribuir distribuicoes com cauda pesada para modelar o

erro. Estas distribuicoes sao estruturadas como uma mistura no parametro de escala da

distribuicao normal, e fornecem de forma natural uma maneira de detectar e acomodar

dados que sao aberrantes.

Angers e Berger (1991) incluem prioris multivariadas Cauchy. Estas prioris sao uteis

para obter estimativas robustas. Fonseca et al. (2008) desenvolvem uma analise bayesi-

ana objetiva, fornecendo distribuicoes a priori de Jeffreys para o grau de liberdade sob um

modelo de regressao T-student. O’ Hagan e Andrade (2006) comentam que a literatura e

muito concentrada exclusivamente em robustificar a distribuicao a priori dos parametros

de locacao, e observaram que pouca atencao tem sido dada aos parametros de escala.

Eles propoem o uso da classe de distribuicoes de variacao regular, as quais fornecem uma

descricao muito natural da espessura da cauda em distribuicoes com caudas pesadas.

Usando a teoria da variacao regular, estabeleceram condicoes suficientes na estrutura

do parametro de escala, possibilitando resolver os conflitos entre a verossimilhanca e as

distribuicoes a priori.

Perez e Pericchi (2009) obtiveram uma distribuicao a priori robusta para o parametro de

4

locacao. Um caso particular e desenvolvido por Carvalho et al. (2010), chamado “hor-

seshoe ”, que atribue alta densidade na origem e e de cauda pesada.

Neste trabalho propoe-se modelar os valores dos sinistros utilizando a distribuicao Log

T student. No contexto atuarial ela foi originalmente introduzida por Klugman e Hogg

(1983) onde propuseram distribuicoes assimetricas de caudas pesadas como log t, Pareto,

Pareto generalizada e Burr para modelar os valores dos sinistros. Alem disso, realizaram

uma analise empırica dos resıduos para comparar os modelos. Aplicacoes da distribuicao

Log t em outras areas podem ser encontrados em McDonald e Butler (1987), Cassidy

et al. (2010), Mitzenmacher e Tworetzky (2003).

Vallejos e Steel (2013) estudam as propriedades teoricas da mistura do parametro de

escala da Log normal com outras distribuicoes. Alem disso, desenvolvem uma analise

bayesiana objetiva obtendo a distribuicao a priori de Jeffreys; fornecem condicoes para

a existencia de distribuicoes a posteriori, e tambem apresentam metodos de deteccao de

dados aberrantes. Finalmente detalham uma aplicacao na area de sobrevivencia.

Lindsey et al. (2000) fazem uma aplicacao da distribuicao Log Cauchy para dados farma-

cologicos e Zuo Yun et al. (2005) na area florestal. Em modelos da teoria de credibilidade

Schnieper (2004) utilizou a distribuicao de Laplace e a distribuicao T-student na mode-

lagem dos valores dos sinistros.

Na presenca de variabilidade maior do que o esperado, o uso da distribuicao binomial

negativa e de muita utilidade. Alem disso, a analise do parametro que mede a sobre-

dispersao e de interesse. No contexto atuarial, varios autores abordam este problema,

tais como: Shengwang et al. (1999), Boucher et al. (2008), Boucher et al. (2009), Ismail

e Zamani (2013), Carsten (2013), entre outros. Neste contexto Duvall (1999), tambem

inclui a distribuicao binomial negativa para modelar o numero dos sinistros e indica que

se pode atribuir uma distribuicao a priori beta para a probabilidade de ocorrencia de um

sinistro. Por outro lado, Liseo et al. (2010) desenvolveram uma distribuicao a priori de

referencia para estimar o parametro que mede o grau de dispersao baseados na teoria

apresentada em Sun e Berger (1998).

Baseados na proposta original de Cramer-Lundberg em Embrechts et al. (1997), Migon e

Moura (2005) consideram uma generalizacao para o modelo de Risco coletivo composto

5

e propoem o modelo hierarquico de risco coletivo em tres estagios. No primeiro nıvel e

descrito o valor, o numero dos sinistros e a evolucao da populacao segurada, atribuindo

respectivamente, as distribuicoes de probabilidades Gama, Poisson e uma distribuicao

que pertence a famılia exponencial. No segundo nıvel apresenta-se a hierarquia das fai-

xas etarias, onde os parametros associados aos valores e ao numero de sinistros por cada

faixa etaria seguem uma distribuicao Gama e de Poisson, respectivamente. Os parametros

da evolucao da populacao seguem uma distribuicao Normal multivariada. Finalmente,

no terceiro nıvel as distribuicoes a priori seguem uma distribuicao Gama com parametros

conhecidos. As distribuicoes a priori relacionadas com a evolucao da populacao foram

escolhidas de tal forma que a media tenda assintoticamente para uma constante a medida

que o tempo cresce. A distribuicao preditiva dos valores dos sinistros foram obtidas via

MCMC.

1.2 Contribuicoes e estrutura do trabalho

Usualmente uma companhia de seguros possui como informacao disponıvel o valor, o

numero de total de sinistros, e a populacao exposta ao risco para um determinado

perıodo de tempo dado. Com o objetivo de serem obtidas previsoes de tarifacoes fu-

turas robustas que incorporem a sobredispersao no calculo do premio sob o paradigma

de Bayes, propoem-se modelos hierarquicos robustos para o risco coletivo com sobredis-

persao, substituindo a verossimilhanca dos valores agregados por uma distribuicao com

cauda a direita mais pesada do que e usualmente empregada. Em particular, conside-

ramos que a distribuicao dos valores agregados dos sinistros seguem uma distribuicao

Log T-student. Uma distribuicao a priori propria para o grau de liberdade, baseada

no trabalho de Fonseca et al. (2008) e analisada e utilizada. Alem disso, apresenta-se

uma comparacao da priori conjunta e independente de Jeffreys calculadas para o modelo

hierarquico robusto de risco coletivo.

Para incorporar uma possıvel sobredispersao no numero de sinistros, considera-se em par-

ticular a substituicao da distribuicao Poisson pela distribuicao Binomial Negativa. Para

a estimacao do parametro que mede o grau de sobredispersao propoe-se uma distribuicao

6

a priori propria de referencia, cujo calculo foi baseado em Sun e Berger (1998).

Sao considerados tres estagios. No primeiro estagio sao modelados o valor e o numero

dos sinistros, respectivamente pelas distribuicoes de probabilidade Log Normal ou Log

T-student, Poisson ou Binomial Negativa. No segundo estagio considera-se que as faixas

etarias sao hierarquicamente estruturadas. As distribuicoes a priori para os parametros

dos valores dos sinistros por cada faixa etaria sao fornecidas no Capitulo 4. Finalmente,

no terceiro nıvel as distribuicoes a priori seguem uma distribuicao gama com parametros

conhecidos.

A inferencia dos parametros e feita via MCMC, obtendo-se assim a distribuicao preditiva

dos valores dos sinistros a partir de distribuicoes referentes ao primeiro nıvel do modelo,

condicionadas nos outros parametros relacionados aos segundo e terceiro nıveis.

Dado um horizonte futuro e uma populacao segurada conhecida para cada classe de risco

e perıodo de tempo t, uma regra de decisao d para calcular o valor do premio pode ser

obtida, atribuindo-se uma funcao de utilidade assimetrica, denominada “Desvio absoluto

modificada”. O valor do premio utilizando esta funcao de utilidade baseado na teoria da

decisao corresponde ao percentil 95% da distribuicao preditiva a posteriori.

O criterio de selecao de modelos adotado neste trabalho e aquele que prioriza a quali-

dade das predicoes, com esta finalidade escolhe-se o modelo que apresenta o menor CRPS

(Continuous ranked probability score). Este criterio e baseado na distribuicao preditiva

e foi desenvolvido em Gneiting et al. (2007). Alem disso, calcula-se o fator de Bayes

considerando a distribuicao preditiva segundo um algoritmo apresentado em Newton e

Raftery (1994). Utilizou-se tambem o DIC (Deviance Information Criterion) proposto

por Spiegelhalter et al. (2002) e as medidas EQMp (Error quadratico medio preditivo) e

EAMp (Error absoluto medio preditivo).

O presente trabalho e estruturado em seis capıtulos, os quais estao organizados da se-

guente forma:

No capıtulo 2 e 3, sao introduzidos conceitos e definicoes basicas da ciencia atuarial

tais como; risco, premio, sinistros, entre outros. Alem disso, apresentam-se os conceitos

basicos da abordagem bayesiana para se inferir o premio. No capıtulo 4 sao propostos

os modelos hierarquicos de risco coletivo que incorporam a robustez e a dispersao no

7

calculo do premio. Alem de apresentar os calculos envolvidos para obter as distribuicoes

a priori de Jeffreys e de referencia, no capıtulo 5 sao comparados os modelos propostos

no capıtulo 4. Um estudo com dados simulados e uma aplicacao com dados reais sao

tambem apresentados. Finalmente, no capıtulo 6 comentam-se as principais conclusoes

e sao feitas algumas consideracoes finais sobre trabalhos futuros.

8

Capıtulo 2

Definicoes basicas da Ciencia

Atuarial

Neste capıtulo serao fornecidas as definicoes dos termos da ciencia atuarial, mencio-

nados no capıtulo anterior.

2.1 Definicoes atuariais basicas

A sustentabilidade economico-financeira de longo prazo do mercado seguros depende da

adequada relacao entre os riscos e os premios cobrados. Os seguros sao estruturas

financeiras que tem como objetivo indenizar os segurados e seus beneficiarios, no caso

de ocorrencia de determinados eventos imprevisıveis que tenham um impacto negativo

em relacao a seus interesses. Portanto, ha a formalizacao de um contrato de seguro

apolice entre o segurado e a seguradora, no qual sao previamente estabelecidos os riscos

cobertos pelo seguro, assim como os limites de cada cobertura, o premio a ser pago por

cada cobertura e o prazo de vigencia da contratacao. O conjunto de apolices e denomi-

nado como Portfolio ou carteira. Por exemplo, as pessoas podem precisar de alguma

atencao medica a qual gera despesas financeiras provenientes de uma possıvel doenca ou

acidente, assim podem contratar um seguro para se protegerem desse risco. Por meio

da contratacao de seguros, pessoas fısicas ou jurıdicas podem proteger-se do impacto

9

financeiro negativo de eventos imprevisıveis, estes ultimos tambem denominados riscos

cobertos. Desta forma, define-se risco como o evento incerto, ou de data incerta, que

independe da vontade das partes contratantes do seguro e cuja ocorrencia dara direito

a indenizacao prevista no contrato. Quando o risco efetivamente ocorre denomina-se

sinistro. Assim, no exemplo mencionado, do seguro de saude, o segurado contratou a

protecao, dentro do perıodo de vigencia da cobertura, esse evento ocorrido e considerado

um sinistro e o valor da indenizacao devera ser pago pela seguradora ao segurado. Mas,

para ter acesso a cobertura, o segurado precisa cumprir, previamente, sua parte no con-

trato de seguro, que e pagar a seguradora o valor estipulado no contrato. O valor pago

pelo segurado a seguradora por uma determinada cobertura de seguro e denominado

premio de seguro. O pagamento do premio pode ser feito em uma unica ou em diver-

sas parcelas ao longo do perıodo de vigencia da cobertura. Mas, em qualquer caso, os

segurados sempre pagam antecipadamente pela cobertura de riscos durante a vigencia do

seguro, isto e, os segurados devem pagar previamente para ter direito a uma indenizacao

no caso da ocorrencia de sinistros.

Nao obstante, para que um determinado seguro seja viavel do ponto de vista economico

e financeiro, e necessario que o risco por ele coberto seja seguravel. Entende-se por risco

seguravel aquele que atende as exigencias mınimas para a sua viabilidade economica, ver

Brown (1993) para mais detalhe.

O risco deve ser acidental, ou seja, a ocorrencia do sinistro deve-se dar de forma aleatoria;

deve ter uma probabilidade mınima de ocorrer com todos os segurados ao mesmo tempo e

a ocorrencia do risco para um segurado nao deve impactar a probabilidade de ocorrencia

para outros segurados. Alem disso, nao e aplicavel a riscos catastroficos; o segurado e

seus beneficiarios nao podem intencionalmente impactar na probabilidade de ocorrencia

do sinistro ou no valor da indenizacao do risco coberto; o risco representado por cada

um dos segurados deve ser homogeneo. Isso significa que os segurados sao agrupados em

conjuntos especıficos, no qual cada um deles tem a mesma probabilidade de incorrer no

risco que os demais; o custo para segurar o risco deve ser economicamente viavel. Ou

seja, o seguro deve ter um valor de premio que possibilite a sua venda; a perda produzida

pelo sinistro deve ser definitiva; o valor da indenizacao deve ser calculavel, com base na

10

avaliacao estatıstica da experiencia passada; o valor da indenizacao deve ter um limite

maximo previamente definido, pois com base nesse limite a seguradora calculara o premio

adequado a cobertura contratada.

Caso os riscos nao atendam a alguns dos requisitos acima, podem acontecer situacoes

de risco moral e selecao adversa. Risco moral, ou moral hazard , e a situacao em que o

indivıduo, apos comprar o seguro, modifica deliberadamente seu comportamento e passa

a praticar acoes que, se nao houvesse o seguro, nao praticaria. Por exemplo, no caso

dos planos de saude, o risco moral esta associado a superutilizacao dos procedimentos de

saude. Ja a selecao adversa, no caso dos seguros em geral e dos planos de seguros de saude

em particular, consiste na auto-exclusao dos consumidores que tem gastos com saude es-

perados inferiores ao premio cobrado no mercado. A exclusao desses consumidores eleva

o custo medio do atendimento, levando a um aumento do premio e nova exclusao dos

consumidores, (Cechin (2008), p.35). Para evitar os efeitos adversos que seriam gerados

pelo risco moral e selecao adversa, ha instrumentos que podem ser empregados, como

a exigencia de carencias, franquias e co-participacao, a exclusao de alguns eventos da

cobertura ou a imposicao compulsoria da compra do seguro.

Considera-se que neste trabalho o risco e seguravel, e a seguradora calcula o premio de

seguro, o qual devera guardar estreita relacao com o risco a ser coberto para que possa

haver o equilıbrio economico, financeiro e atuarial da operacao de seguro.

2.1.1 Modelo basico de risco

A teoria moderna do risco se remite aos trabalhos de Filip Lundberg e Harald Cramer.

O uso do processo de Poisson composto foi originalmente proposto por Filip Lundberg

em 1903 em sua tese Lundberg (1903) define como um processo simples para resolver o

problema do custo e uma renda determinıstica linear. Em 1930, Harald Cramer estendeu

o trabalho do Lundberg para quase todos os modelos da teoria do risco, para mais detalhes

pode-se consultar Cramer (1930). Embrechts et al. (1997) apresenta em particular a

modelagem da ruına de uma companhia de seguros. Por esta razao o modelo basico de

risco e chamado de modelo de Cramer-Lundberg ou modelo de risco classico.

O processo basico do modelo de risco geral, tambem denominado processo de risco, e

11

dado por:

X(t) = Π(t)− S(t), (2.1)

onde Π(t) e o valor total dos premios para a companhia de seguros ate o tempo t. S(t)

e a quantidade estocastica da soma acumulada dos sinistros ate o tempo t. A equacao

(2.1) pode ser descrita pelos seguintes elementos:

i) Os tempos 0 ≤ t1 ≤ t2 ≤ . . . , de chegadas de sinistros. Suponha que t0 = 0.

As variaveis aleatorias Tn = tn − tn−1, n = 1, 2, . . . , denominadas como o tempo

entre as chegadas, sendo nao negativos.

ii) N(t) = supn : tn ≤ t, t ≥ 0 e o numero de ocorrencias ate o tempo t. As relacoes

entre os tempos t0, t1, . . . e o processo de contagem N(t), t ≥ 0 sao dadas por:

N(t) = n = tn ≤ t < tn+1; n = 0, 1, . . .

iii) A sequencia Zn, n = 1, 2, . . . de variaveis aleatorias independentes identicamente

distribuıdas representam os valores dos sinistros ocorridos na companhia de

seguros. Supoe-se que a sequencia Zn seja independente do processo de con-

tagem N(t).

O valor acumulado dos sinistros ate o tempo t e dado por:

S(t) =N(t)∑i=1

Zi, t ≥ 0.

O processo S = S(t)t≥0 e definido pela soma Sn = Z1 + . . . + Zn, onde n e uma

realizacao da variavel aleatoria N(t) :

S(t) = Z1 + . . .+ ZN(t) = SN(t), t ≥ 0,

ou seja uma soma aleatoria de variaveis aleatorias. Supondo que S(t) = 0, se N(t) = 0.

12

Distribuicoes compostas

Seja Z1, Z2, . . . uma sequencia de variaveis aleatorias independentes e identicamente

distribuıdas com funcao de distribuicao FZ(z), funcao caracterıstica φZ(z), media µ e

variancia σ2. Entao, a soma Sn = Z1 + . . .+Zn, n ≥ 1 tem uma funcao de distribuicao

F ∗nZ (z), com funcao caracterıstica [φZ(z)]n, media e variancia respectivamente nµZ e nσ2Z .

Define-se

SN = Z1 + . . .+ ZN , (2.2)

onde N e uma variavel aleatoria discreta e SN = 0, se N = 0. Entao a funcao de

distribuicao de SN e:

FSN (z) = P (SN ≤ z) =∞∑n=0

P (SN ≤ z | N = n)P (N = n) =∞∑n=0

F ∗nZ (z)P (N = n)

A distribuicao aleatoria da soma (2.2) e chamado de distribuicao composta.

Processo de contagens

O processo estocastico N(t), t ≥ 0 e denominado um processo de contagem , se N(t)

e igual ao numero de eventos que ocorreram ate ao tempo t. O processo de contagem

satisfaz as seguintes condicoes:

1) N(t) ≥ 0;

2) N(t) possui valores inteiros;

3) Se s < t, entao N(s) ≤ N(t)

4) Para s < t, N(t)−N(s) e o numero de eventos no intervalo (s, t).

O processo de contagem e denominado processo com incrementos independentes, se o

numero de eventos em intervalos disjuntos sao variaveis aleatorias independentes. O

processo de contagem tem incrementos estacionarios, se a distribuicao do numero de

eventos que ocorreram durante um determinado intervalo de tempo depende apenas do

comprimento do intervalo. Isto significa que, para t > 0 e h > 0, a distribuicao de

N(t+ h)−N(t) coincide com a distribuicao de N(h).

13

2.1.2 Processo de Poisson

Um dos processos basicos de contagem e dado pelo processo de Poisson, neste processo

o numero de eventos em (0, t] tem uma distribuicao Poisson com parametro λt, isto e,

E[N(t)] = λt.

Definicao 2.1.1 O processo de contagem N(t), t ≥ 0 e chamado processo de Pois-

son com a taxa de intensidade λ > 0, se

1. N(0) = 0;

2. O processo tem incrementos estacionarios independentes;

3. Para s < t; o numero de sinistros no intervalo (s, t] possui distribuicao Poisson com

parametro λ(t− s) :

P (N(t)−N(s) = n) =[λ(t− s)]n

n!e−λ(t−s), n = 1, 2, . . . (2.3)

Pela lei dos grandes numeros segue que N(t)t

q.c.→ λ, quando t→∞. Logo N(t)t

converge

quase certamente para λ. Isto significa que a medida de intensidade mede a frequencia

media ou a densidade das chegadas dos sinistros. Por outro lado, pode-se mostrar que

os tempos entre chegadas Tn, n = 1, 2, . . . sao variaveis aleatorias independentes e

exponencialmente distribuıdas com parametro λ.

Teorema 2.1 Seja N(t), t ≥ 0 um processo estocastico com N(0) = 0. e seja T1 e o

tempo ate o primeiro sinistro, T2, T3, . . . sao os tempos entre sinistros.

Seja Tk, k = 1, 2, . . . variaveis aleatorias independentes e exponencialmente distribuıdas

com parametro λ, e N(t) o numero de sinistros ate tempo t. Entao N(t) e um processo

de Poisson. A prova do teorema segue de: P (Tt ≤ t) = P (N(t) ≥ k), k = 0, 1, . . . , e

a propriedade da falta de memoria da distribuicao exponencial.

14

2.1.3 Processo Poisson misto

Se calculamos o ındice de dispersao de Fisher (FI) para o processo de Poisson homogeneo

obtemos que:

FI(t) =V ar(N(t))

EN(t)= 1.

De modo que a modelagem do processo Poisson homogeneo nao e realista quando o valor

esperado do numero de sinistros nao for igual a variancia. A fim de ter um processo mais

realista vamos supor que o parametro λ e uma realizacao da variavel aleatoria Λ com

funcao de distribuicao FΛ. Entao,

P (N(t) = k) =∫ ∞

0

(λt)k

k!e−λ(t)dFΛ(λ), (2.4)

onde FΛ(λ) = P (Λ ≤ λ) e a funcao de distribuicao da distribuicao mistura Λ. Para o

processo de Poisson misto, o ındice de dispersao de Fisher e

FI(t) = 1 +V ar(N(t))

EN(t)> 1,

isto e, ele mede a sobredispersao relacionada com o processo de Poisson misto.

Em particular quando e considerado Λ ∼ G(α, β) ou seja, Λ tem funcao de densidade

igual a:

fΛ(λ) =βα

Γ(α)λα−1 exp−βλ, λ > 0.

Entao, utilizando (2.4), obtemos:

P (N(t) = k) = Cα+k−1k

(β

β + t

)α (t

β + t

)k, k = 0, 1, 2, . . . (2.5)

Logo, o numero de sinistros segue uma distribuicao Binomial Negativa (B), com parametros

α e ββ+t

. Denotamos N(t) = B(α, ββ+t

). Este processo de contagens e definido na lite-

ratura como o Processo Polya, veja Klugman et al. (1998) para maiores detalhes.

2.1.4 Modelo de Risco Coletivo composto

Em Embrechts et al. (1997), descreve-se o modelo basico de risco coletivo (MRC) que

foi originalmente proposto por Cramer-Lundberg. Posteriormente estendido sob o para-

digma bayesiano por Migon e Moura (2005).

15

Sejam (na,t, xa,t), o numero de sinistros e o valor total de sinistros produzido por uma

carteira de apolices de seguro em um determinado perıodo de tempo t, ∀t = 1, . . . , T para

a classe de risco a,∀a = 1, . . . , A, dados por:

xa,t =

∑na,tj=1 za,t,j, se na,t > 0,

0, se na,t ≤ 0(2.6)

onde za,t,j e o valor observado da variavel aleatoria Za,t,j > 0, o qual e o valor do sinistro

do j−esimo contrato no tempo t para uma classe de risco a.

As principais suposicoes do processo de Cramer-Lundberg sao:

i) O numero de sinistros no intervalo [t− 1, t) e uma variavel aleatoria denotada por

Na,t;

ii) Condicional a Na,t = na,t, os valores dos sinistros Za,t,j, j = 1, . . . , na,t, sao

variaveis aleatorias positivas, independentes e identicamente distribuıdas com media

µa = E[Za,j] e variancia finita σ2a = var(Zj,a) <∞;

iii) Os tempos de ocorrencias dos sinistros sao instantes aleatorios em que t1,a ≤ t2,a ≤

. . .; e os tempos entre as ocorrencias dos mesmos, dados por Tk,a = tk,a− tk−1,a, sao

variaveis aleatorias supostamente independentes e exponencialmente distribuıdas

com media E[Tk,a] = λ−1a .

Assumindo que as sequencias Tk e Zk sao condicionalmente independentes e se as condicoes

acima sao satisfeitas, segue-se que Na,t e um processo de Poisson homogeneo com taxa

λa. Se Za,t,j ∼ G(κa, θa), e usando (2.6) entao, pode-se concluir que:

Xa,t | na,t, θa ∼ G(κa,t, θa), θa > 0, (2.7)

Na,t | λa, πa,t ∼ Po(λaπa,t), λa > 0,

onde, na,t e o numero observado de sinistros no tempo t para a classe de risco a; com

κa,t = na,tκa, e πa,t e a populacao segurada no tempo t para uma classe de risco a.

A distribuicao marginal de Xa,t e dada segundo a seguinte convolucao

P [Xa,t ≤ x] =∑ e−λaλnaF

∗nX (x)

n!,

16

onde F ∗nX (x) e o n-convolucao de F (x).

Se κa = 1 tem-se o modelo exponencial. Este parametro esta relacionado diretamente

com a media e o coeficiente de variacao de Xa,t, os quais dependem diretamente de κa,t,

que por sua vez e uma funcao de κa : κa,t = na,tκa.

Os primeiros momentos da distribuicao marginal Xa,t sao dados por:

E[Xa,t] = ENa,t|λa,πa,t [EXa,t|Na,t=na,t,θa [Xa,t | Na,t = na,t]] (2.8)

=1

θaENa,t|λa,πa,t [Na,tκa]

=κaλaπa,tθa

,

V [Xa,t] = ENa,t|λa,πa,t [VXa,t|Na,t=na,t,θa [Xa,t | Na,t = na,t]] (2.9)

+ VNa,t|λa,πa,t [EXa,t|Na,tna,t,θa [Xa,t | Na,t = na,t]]

=1

θ2a

ENa,t|λa,πa,t [Na,tκa] +1

θ2a

VNa,t|λa,πa,t [Na,tκa]

=λaπa,tκaθ2a

(1 + κa)

onde E[Xa,t] e V [Xa,t] sao respetivamente a esperanca e a variancia calculadas em suas

respetivas distribuicoes. Note que quando κa = 1 temos que

E[Xa,t] =λaπa,tθa

e V [Xa,t] =2λaπa,tθ2a

.

2.2 Distribuicoes para os valores dos sinistros

Em modelos da ciencia atuarial e comum classificar as distribuicoes de probabilidade em

duas famılias: as distribuicoes que possuem e as que nao possuem caudas pesadas. Pois

e conhecido na literatura que modelos de caudas pesadas sao robustos sob a presenca de

dados discrepantes.

Diz-se que a distribuicao F possui cauda nao pesada se para λ > 0,

lim supx→∞

F (x)

ε−λx<∞.

Com F (x) = 1−FX(x) = P (X > x) denominada funcao de influencia paraX e representa

a cauda da distribuicao.

17

Para uma distribuicao que nao possui cauda pesada existem constantes a > 0 e λ > 0,

tais que F (x) ≤ aε−λx e existe z > 0, tais que MX(z) < ∞, onde MX(z) e a funcao

geradora de momentos.

A distribuicao F possui cauda pesada se para cada λ > 0,

lim infx→∞

F (x)

ε−λx> 0.

Para uma distribuicao de cauda pesada, com a > 0 e λ > 0, tem-se F (x) > aε−λx e com

z > 0, temos MX(z) =∞.

Como um exemplo de distribuicao com cauda pesada tem-se a distribuicao de Pareto de

parametros α > 0 λ > 0. Neste caso tem-se:

1− F (x) =

(λ

λ+ x

)α, x > 0

Por outro lado a distribuicao Weibull com parametros (σ β), e de cauda pesada para

β < 1 e de cauda nao pesada para β ≥ 1.

1− F (x) = ε−( xσ )β

, x > 0, σ > 0

Klugman et al. (1998) apresentam uma alternativa diferente para analisar as caudas

de duas distribuicoes, usando tambem a funcao de sobrevivencia: S(x) = 1 − F (x) =∫∞x f(t)dt. Para a funcao a(x) ou b(x) apresenta-se a seguinte notacao: a(x) ∼ b(x), x→

∞ que significa limx→∞a(x)/b(x) = 1. Utiliza-se este conceito para comparar o compor-

tamento das caudas de duas variaveis aleatorias, por exemplo X e Y .

Deste modo, se Sx(x) ∼ cSY (x) entao, equivalentemente usando a regra de l’hospital,

fx(x) ∼ cfY (x). Logo se duas variaveis tem caudas proporcionais, e dito que elas sao

similares. Se a razao tende para zero, entao X tem cauda menos pesada. Se a razao

tende para infinito, entao Y tem cauda menos pesada.

Deste modo Klugman et al. (1998) comparam as caudas das distribuicoes log Normal,

Gama e Pareto e concluem que a distribuicao log Normal possui uma cauda mais pesada

que a distribuicao Gama. Finalmente, concluem que a distribuicao de Pareto e de cauda

mas pesada em relacao a distribuicao log Normal.

As distribuicoes de caudas pesadas mais populares sao as distribuicoes de variacoes re-

gulares e sub-exponenciais, para maiores detalhes veja O’ Hagan e Andrade (2006).

18

As tabelas a seguir apresentam algumas distribuicoes com caudas pesadas e nao pesadas.

Tabela 2.1: Funcoes de densidade de distribuicoes que nao possuem cauda pesada

Nome Parametros densidade

Exponencial λ > 0 fX(x) = λε−λx

Gamma α > 0, β > 0 fX(x) = βα

Γ(α)xα−1ε−βx

Weibull τ ≥ 1, β > 0 fX(x) = βτxτ−1ε−βxT

Hyperexponencial λi > 0,∑ni=1 pi = 1 fX(x) =

∑ni=1 piλiε

−λix

Tabela 2.2: Funcoes de densidade de distribuicoes que possuem cauda pesada

Nome Parametros densidade

Weibull 0 < τ < 1, β > 0 fX(x) = βτxτ−1ε−βxT

LogNormal µ ∈ Rσ > 0 fX(x) = 1σx√

2πε−

(log x−µ)2

2σ2

Loggamma α > 0, β > 0 fX(x) = βα(log x)α−1

xβ+1Γ(α)

Pareto α > 0, λ > 0 fX(x) = αλ+x

(λ

λ+x

)αBurr α > 0, λ > 0, τ > 0 fX(x) = ατλαxτ−1

(λ+xτ )α+1

Outro criterio relacionado a medicao de robustez e a funcao influencia. Tal funcao

e obtida a partir da distribuicao a posteriori utilizada para conhecer a influencia dos

dados atıpicos sob o modelo. West (1984) apresenta uma interessante analise sobre o

tratamento de dados discrepantes. Ele apresenta a funcao de influencia, a qual gera in-

formacao sobre a penalizacao que produz a distribuicao Normal e T-student sob os dados

discrepantes.

A funcao escore da posteriori expressa a influencia de x na posteriori. Esta funcao

escore da posteriori e denotada por U(θ;X) e e dada por:

U(θ;X) =d

dθlog(P (θ | x)) =

d

dθlog(P (θ)) +

d

dθ

T∑t=1

log(P (xt | θ)).

19

Neste sentido Perez e Pericchi (2009) concluem que a influencia da distribuicao Normal e

linear e ilimitada, enquanto a influencia das distribuicoes Laplace e Cauchy e monotona

e limitada. Pode-se ver na Figura 2.1, a influencia das distribuicao Normal (linha cheia),

Laplace (linha tracejada) e Cauchy (linha tracejada com pontos).

Figura 2.1: Influencia da distribuicao Normal, Laplace e Cauchy

θ

Uma alternativa para a construcao de um modelo robusto e estabelecer distribuicoes

a priori de caudas pesadas. Perez e Pericchi (2009) obtiveram uma priori robusta fechada

para o parametro de locacao denominada distribuicao TSBeta2(ν, p, q).

A distribuicao TSBeta2(ν, p, q) e o resultado da conjugacao da distribuicao T-student

T (µ, ψ2, ν) e a distribuicao de escala Beta 2 (SBeta2(p, q, b)). Definida por:

θa | µ, ψ2, ν ∼ T (µ, ψ2, ν), π(θa | µ, ψ, ν) =γ(ν+1

2)

γ(ν2)

1√πνψ

[1 +

1

ν(θa − µψ

)2

]−( ν+12

)

ψ ∼ Beta2(p, q, b), π(ψ) =γ(p+ q)

γ(p)γ(q)

1

b

(ψb)p−1

(ψb

+ 1)p+q

Logo a marginal para θ, segundo Fuquene et al. (2011) e definido como: θa ∼ TSBeta2(ν, p, q)

com funcao de densidade

π(θa) =

γ( ν+12

)ν2

1√πν

Be(q+ 12,p+ ν

2)

Be(p,q)bq[

ν(θa−µ)2

]q+ 12 2F1(p+ q, q + 1

2, (ν+1)

2+ p+ q, 1− bν

(θa−µ)2),

se θa 6= µ;γ( ν+1

2)

ν2

1√πν

Be(q+ 12,p+ ν

2)

b1/2Be(p+q), se θa = µ

20

Para mais detalhe destas distribuicoes ver Apendice A.

Para o caso particular em que ν = 1, obtem-se a distribuicao Cauchy-SBeta2. Por-

tanto a priori robusta para o parametro de locacao e dada pela distribuicao marginal de

θ ∼ Beta2− Cauchy(1, 1, 1), dada por:

π(θ) =π|θ| − 1− θ2 − (1− θ2) log(|θ|)

π(1 + θ2)2.

A Figura 2.2 apresenta o comportamento de distintas distribuicoes que podem ser usadas

como distribuicoes a priori do parametro de locacao: Beta2-Cauchy, Normal, Laplace e

Cauchy. Conclui-se que a cauda da distribuicao Beta2-Cauchy e mais pesada que as

demais.

Figura 2.2: Comparacao das distribuicoes Beta2-Cauchy, Normal, Double Exponential e

Cauchy.

θ θ

21

Capıtulo 3

Metodo Bayesiano na Ciencia

Atuarial

Neste capıtulo apresenta-se a base teorica para o desenvolvimento e analise dos mo-

delos aplicados na ciencia atuarial que serao abordados sob o paradigma de Bayes.

3.1 Metodo bayesiano na Ciencia Atuarial

Klugman et al. (1998) assumiram que a distribuicao que caracteriza os riscos da po-

pulacao e representada por π(θ), e que a experiencia particular de uma apolice que

possui o parametro de risco θ pode ser obtida da distribuicao condicional dos sinistros

dado θ fX|Θ(x | θ), com θ ∈ Θ, onde Θ e o espaco parametrico. Para uma apolice em

particular temos as perdas dadas por x = (x1, . . . , xn)′, onde a perda pode representar

o valor ou o numero dos sinistros. O interesse e estabelecer a tarifacao para cobrir um

futuro valor da apolice Xn+1. Assumimos tambem que o parametro de risco θ associado

com a apolice e desconhecido. Alem disso, a experiencia da apolice correspondente a

diferentes perıodos expostos e supostamente independente; isto e, condicional a θ os si-

nistros X1, . . . , Xn, Xn+1 sao independentes, embora nao necessariamente identicamente

distribuıdos.

Considere as distribuicoes condicionais de Xj dado Θ = θ, j = 1, . . . , n, representadas

22

por fXj |Θ(xj | θ); j = 1, . . . , n, n + 1, respectivamente. Se soubessemos o valor de θ

poderıamos usar fXn+1|Θ(xn+1 | θ), para predizer a experiencia de sinistro Xn+1 para a

mesma apolice j. Infelizmente nos nao conhecemos θ, mas conhecemos x de uma mesma

apolice. Consequentemente, pode ser calculado a distribuicao condicional de Xn+1 dado

X = x, denominada a distribuicao preditiva.

A distribuicao preditiva de Xn+1 dado X = x e relevante para a analise de risco, gestao

e tomada de decisao, a que combina a incerteza sobre as perdas dos sinistros com a in-

certeza dos parametros associados ao processo de risco.

A distribuicao conjunta de X1, . . . , Xn,Θ e obtida pelo condicionamento a Θ, pois os Xjs

sao condicionalmente independentes dado Θ = θ, isto e:

fX,Θ(x, θ) = f(x1, . . . ,xn | θ)π(θ) =

n∏j=1

fXj|Θ(xj | θ)

π(θ).

A distribuicao conjunta de X, e assim obtida pela integracao de θ, da forma:

fX(x) =∫θ

n∏j=1

fXj|Θ(xj | θ)

π(θ)dθ (3.1)

Se π(θ) for discreta, a integral em (3.1) deve ser substituıda pela soma. A distribuicao

conjunta de X1, . . . , Xn+1 e dada pela substituicao de n por n+ 1 em (3.1).

Finalmente a distribuicao de Xn+1 dado X = x e a densidade conjunta X1, . . . , Xn+1

dividida pela densidade conjunta de X, ou seja

fXn+1|X(xn+1 | x) =1

fX(x)

∫θ

n+1∏j=1

fXj|Θ(xj | θ)

π(θ)dθ (3.2)

A densidade a posteriori de Θ condicional a X e dada por:

πΘ|X(θ | x) =1

fX(x)

n∏j=1

fXj|Θ(xj | θ)

π(θ) (3.3)

Em outras palavras[∏n

j=1 fXj |Θ(xj | θ)]π(θ) = πΘ|X(θ | x)fX(x) e substituıdo em (3.2),

resultando em:

fXn+1|X(xn+1 | x) =∫θfXn+1|Θ(xn+1 | θ)πΘ|X(θ | x)dθ. (3.4)

Observe que, a equacao pode ser vista como uma mistura de distribuicoes de fXn+1|Θ(xn+1 |

θ) com a distribuicao a posteriori πΘ|X(θ | x). A distribuicao a posteriori combina e re-

sume a informacao sobre o parametro de risco θ associado com o risco da apolice, que

23

e funcao da distribuicao priori e da verossimilhanca. Consequentemente a equacao (3.4)

reflete esta informacao. Se as distribuicoes das observacoes pertencem a famılia exponen-

cial, e π(θ) e uma distribuicao a priori conjugada natural, esta fornece um metodo facil

para avaliar a distribuicao condicional de Xn+1 dado X = x. Tendo-se observado X = x

para uma apolice em particular e desejando predizer Xn+1, ou seu valor medio, podemos

utilizar a media condicional a θ denominado o premio individual, dado por:

µn+1(θ) = E(Xn+1 | Θ = θ) =∫xn+1

xn+1fXn+1|Θ(xn+1 | θ)dxn+1. (3.5)

Logo para eliminar o efeito de θ se calcula a esperanca na distribuicao a priori, conhecido

por o premio coletivo, dado por:

µn+1 = E(Xn+1) = E[E(Xn+1 | Θ)] = E[µn+1(Θ)] (3.6)

Como θ e desconhecido, podemos calcular o Premio de Bayes, o qual e dado pela media

da distribuicao preditiva:

E(Xn+1 | X = x) =∫xn+1

xn+1fXn+1|X(xn+1 | x)dxn+1 (3.7)

Uma forma computacionalmente mais conveniente e:

E(Xn+1 | X = x) =∫θµn+1(θ)πΘ|X(θ | x)dθ. (3.8)

Isto e,

E(Xn+1 | X = x) =∫xn+1fXn+1|X(xn+1 | x)dxn+1

=∫xn+1

[∫fXn+1|Θ(xn+1 | θ)πΘ|X(θ | x)dθ

]dxn+1

=∫ [∫

xn+1fXn+1|Θ(xn+1 | θ)dxn+1

]πΘ|X(θ | x)dθ

=∫µn+1(θ)πΘ|X(θ | x)dθ.

Em outras palavras, o Premio Bayes e o valor esperado da media hipotetica ou Premio

individual, com a esperanca tomada sobre a distribuicao a posteriori πΘ|X(θ | x). Mais

detalhes podem ser encontrados em Gisler e Buhlmann (2005).

Lembre-se que as integrais sao substituıdas por somas no caso em que a variavel aleatoria

for discreta. Para completar a inferencia e predicao, a distribuicao que quantifica o

conhecimento do parametro de interesse deve ser explorada.

24

3.1.1 Estimacao de parametros

O processo de estimacao dos parametros pode ser realizado a partir de uma estimacao

por ponto ou por intervalo.

Estimacao pontual

A estimacao pontual de um determinado parametro θ pode ser vista como um problema

de decisao. Os elementos que compoem este problema de decisao sao: O espaco de

parametros Θ; o espaco de resultados do experimento Ω; o espaco de acoes possıveis A.

Uma regra de decisao δ e uma funcao definida em Ω que assume valores em A, tal que

δ : Ω→ A. Associamos entao uma funcao perda L a cada regra de decisao δ(x), x ∈ Ω, e

a cada possıvel valor de θ ∈ Θ. Assim, temos uma medida de quanto perdemos quando

tomamos a decisao δ(x) e o valor verdadeiro do parametro e θ. Como e explicado em

Paulino et al. (2003), o risco associado a uma determinada regra de decisao δ(x) e obtido

tomando-se a esperanca da funcao perda L(δ, θ) com relacao a distribuicao a posteriori

de θ, ou seja,

R(δ) = Eθ|x(L(δ, θ)).

Um estimador pontual de θ e dado pela regra de decisao que minimiza o risco a posteriori

ou a perda esperada bayesiana segundo uma funcao perda especificada. Os estimadores

pontuais associados as perdas quadraticas, perdas absolutas e perdas zero-um sao a

media, a mediana e a moda da distribuicao a posteriori de θ, respectivamente.

Estimacao intervalar

A forma mais adequada de avaliar a informacao disponıvel a respeito de uma quantidade

desconhecida θ e atraves da distribuicao a posteriori, mais detalhes podem ser encon-

trados em Bernardo e Smith (1994). Assim, sumarizar a informacao desta distribuicao

em um unico valor nao fornece ao pesquisador uma medida de quao preciso ele e. Uma

alternativa para este problema e calcular intervalos de credibilidade para estes valores.

Um intervalo de credibilidade bayesiano e definido da seguinte maneira: Seja θ uma

quantidade desconhecida em Θ. Uma regiao C ⊂ Θ e um Intervalo de Credibilidade

25

bayesiano 100(1 − α)% para θ se p(θ ∈ C | x) ≥ 1 − α. Desta forma, o Intervalo de

Credibilidade bayesiano, com nıvel de credibilidade (1−α), e denotado por IC100(1−α)%.

Previsao

O interesse esta em prever os premios futuros. Considerando a populacao em risco

constante, resta prever os valores dos sinistros. Seja xpred o valor a prever, com a funcao

de probabilidade ou densidade de probabilidade da forma f(xpred | θ). Seja xobs o vetor

dos valores dos sinistros observados. A distribuicao preditiva de Xpred e dado por :

f(xpred | xobs) =∫

Θf(xpred, θ | xobs)dθ

=∫

Θf(xpred, | xobs, θ)f(θ | xobs)dθ

=∫

Θf(xpred, | θ)f(θ | xobs)dθ

= Eθ|xobs [f(xpred | θ)]

3.1.2 Teoria de decisao no calculo do premio

As companhias seguradoras enfrentam o problema de estabelecer o valor pago de um

seguro. Bernardo e Smith (1994) recomendam que todo problema estatıstico seja visto

como um problema de tomada de decisao. Rıos e French (2000), capıtulo 2, fazem o

desenvolvimento axiomatico racional, baseada na maximizacao da utilidade subjetiva

esperada, conduzindo naturalmente a teoria de decisao bayesiana. Consideremos a estru-

tura basica de um problema de decisao estatıstica, sejam a ∈ A, o conjunto de opcoes,

alternativas. Consideremos que o conjunto das crencas do tomador de decisoes θ ∈ Θ seja

expresso por meio de distribuicoes de probabilidade a priori. Apos observar a informacao

X=x, a informacao a priori e atualizada pela distribuicao de probabilidade a posteriori

pθ(θ | x).

As preferencias sob as consequencias das tomadas de decisao sao modeladas atraves da

funcao utilidade u(a, θ). A estrategia e encontrar a opcao que maximize a utilidade

esperada a posteriori. Neste trabalho adotaremos a funcao perda L(a, θ) = −u(a, θ),

buscando minimizar a perda esperada a posteriori. O tomador da decisao, busca uma

26

alternativa a, que seja solucao de:

argmin

a∈A

∫L(a, θ)pθ(θ | x)dθ.

Esta alternativa otima e chamada opcao Bayes. O problema e escolher uma funcao perda,

que seja uma funcao estritamente convexa tal que a solucao de Bayes a exista e seja unica.

Migon e Moura (2005), propoem um modelo hierarquico para o risco coletivo bayesiano

para a predicao do premio. Eles apresentam uma classe geral de funcoes de utilidade

bastante empregadas na pratica. Definida por U(θ, d) = γ(θ)L(d − θ), onde L e uma

funcao nao-negativa da diferenca θ−d , conhecida como a funcao perda, γ(θ) e uma funcao

nao-positiva que indica a gravidade relativa de um determinado erro para diferentes

valores desconhecidos de θ e δ e a decisao da quantidade aleatoria θ.

Funcoes perda

Tres funcoes de utilidade serao especificadas, as quais sao membros da classe geral ante-

riormente introduzida. A funcao de perda linear-exponencial de Zellner (1986), a funcao

de utilidade de Esscher (Gomez-Deniz et. al, 1999) e o desvio absoluto modificado. Elas

possuem propriedades desejaveis, tais como a assimetrias em torno do seu valor maximo

correspondente.

(i) A funcao de perda linear-exponencial

U1(θ, d) = −b[exp(a(d− θ))− a(d− θ)− 1], a 6= 0, b > 0

os parametros a e b acima podem ser interpretados, respectivamente, como a

“forma”e “escala”da funcao de utilidade. Este e um caso especial da forma geral

apresentada acima, com γ(θ) = −1 e L(d−θ) = b[exp(a(d−θ))−a(d−θ)−1].O valor

de d que maximiza a funcao de utilidade e indicado por d∗ = − log(E[exp(−aΘ)/a]),

desde que o valor esperado em relacao ao θ exista e seja finito.

(ii) A funcao de utilidade de Esscher

U2(θ, d) = −exp(γθ)(d− θ)2

27

com L(θ, d) = (θ − d)2 e γ(θ) = − exp(γθ), γ < 0. O premio de Esscher e dado

por d∗ = E[θ exp(γθ)]/E[exp(γθ)].

(iii) O desvio absoluto modificado

U3(θ, d) = (d− θ)[k1I(−∞,θ)(d)− k2I(θ,+∞)(d)],

onde k1 e k2 sao constantes positivas e IA(x) = 1 se x ∈ A, e IA(x) = 0 caso

contrario. E interessante notar que neste caso γ(θ) = k1I(∞,θ)(d) − k2I(θ,+∞)(d) e

L(θ, d) = |θ − d|. Assumindo que E[Θ] exista, e simples mostrar que a decisao de

Bayes, d∗2 e a solucao de

P [Θ ≤ d] ≥ k1

k1 + k2

e P [Θ ≥ d] ≤ k2

k1 + k2

.

Logo d∗2 e o percentil (100α)% da distribuicao preditiva da quantidade desconhecida

de interesse, com α = 1 − k1(k1+k2)

. Por exemplo, para k1 = k2 = 1 tem-se que a

decisao de Bayes e dada pela mediana, e para k1 = 0.95 e k2 = 0.05 (valores usuais

na ciencia atuarial) a decisao de Bayes d∗2 e o percentil 95%.

Note que a funcao de utilidade Esscher e mais conservadora com respeito aos des-

vios da quantidade de interesse do que a funcao de utilidade desvio absoluto modificada.

Como e indicado por Zellner (1986), a funcao linear exponencial, para a = 1, e bastante

assimetrica, penalizando sobrepredicao mais do que subpredicao. Por outro lado, quando

a < 0, ela pode ser aproximada por uma funcao exponencial para d − θ < 0 e por uma

funcao linear quando d− θ > 0.

A funcao de utilidade e escolhida de forma subjetiva e seus parametros sao avaliados

pelo tomador de decisao que representa o seu comportamento com relacao aos riscos en-

volvidos. A funcao de utilidade “desvio absoluto modificado”sera adotada neste trabalho.

Deste modo, considere Xa,T+H =∑T+Ht=T+1Xa,t e Πa,T+H =

∑T+Ht=T+1 Πa,t, sendo

Xa,T+H o valor dos sinistros para a classe de risco a no tempo T +H com Πa,T conhecido.

A quantidade de interesse e dado por Ra,T+H =Xa,T+H

Πa,T+H, onde Ra,T+H e a variavel aleatoria

28

que mede o gasto por indenizacao de sinistros por pessoa. Contudo, O valor do premio

sera calculado para cada faixa etaria a e, e dado pelo percentil 95% obtido a partir da

distribuicao preditiva a posteriori para um horizonte de tempo futuro H, condicionada

as observacoes obtidas ate o tempo T .

f(Ra,T+H | DT ) =∫

Θf(Ra,T+H | θ)f(θ | DT )dΘ

Isto e, o percentil 95% sera o valor do premio que maximiza a funcao utilidade desvio

absoluto modificada e DT e a informacao disponıvel ate o tempo T .

3.1.3 Modelo hierarquico de risco coletivo bayesiano

Os modelos hierarquicos foram introduzidos por Lindley e Smith (1972). Eles repre-

sentam as crencas de um conjunto de observacoes X1, . . . , Xn. Estas observacoes sao

condicionalmente independentes dado os valores dos parametros θ1 . . . , θn. Deste modo

o tomador de decisao considera que cada θi possui uma distribuicao comum Pθ(. | φ). O

conhecimento relacionado a θ pode ser representado pela distribuicao Pφ(. | η). As etapas

do processo de modelagem pode ser descrita como:

Etapa 1 : Xi ∼ PXi(. | θi), i = 1, . . . , n. (3.9)

Etapa 2 : θi ∼ Pθ(. | φ), i = 1, . . . , n.

Etapa 3 : φ ∼ Pφ(. | η).

Note que a distribuicao de Pθ(. | φ) e comum para todo θi, modelando a similaridade.

Entretanto a distribuicao PXi(. | θi) pode variar para cada observacao i = 1, . . . , n.

O modelo hierarquico de risco coletivo completamente bayesiano, introduzido por

Migon e Moura (2005), e denominado como modelo basico neste trabalho.

Eles consideram a seguinte extensao do modelo (2.7) descrito na secao anterior. Para

cada classe de risco e perıodo de tempo, tem-se.

Xa,t | na,t, θa ∼ G(na,tka, θa), Xa,t > 0, θa > 0, ka > 0, (3.10)

Na,t | λa, πa,t ∼ Po(λaπa,t), λa > 0, Na,t = 0, 1, . . . .

Πat | βa, τπ ∼ LogNormal[µa,t, τ−1π ], τπ > 0,

29

A dinamica populacional dos segurados e modelada atraves de um modelo hierarquico

exponencial de crescimento generalizado (GHEGM), que e uma extensao do modelo de

crescimento generalizado (GPG) apresentado em Migon e Gamerman (1993). Assume-

se que a populacao segurada observada πa,t e modelada atraves de uma distribuicao de

probabilidade na famılia exponencial com funcao de resposta media dada por:

E(πa,t) = [βa,0 + βa,1 exp(βa,2t)]1γ . (3.11)

Alguns casos especiais, sao bem conhecidos na literatura: Para γ = −1, temos uma

curva de crescimento logıstico; para γ = 0, obtemos o modelo Gompertz e para γ = 1

nos leva a obter uma curva exponencial modificado. Eles sugerem que o modelo deve ser

nao explosivo, uma vez que a populacao segurada para cada classe de idade tende a se

estabilizar em um determinado valor quando o tempo aumenta. Consequentemente, o

parametro βa,2, para a = 1, . . . , A, conhecido como o fator de amortecimento, deve ser

negativo.

A funcao de verossimilhanca do modelo (3.10), proposto no modelo basico, e dada por:

l(λ, θ,B, κ, τ | DT ) ∝AT∏a,t=1

θna,tκaa

Γ(na,tκa)xna,tκa−1a,t exp[−(θaxa,t + λaπa,t)](λaπa,t)

na,tf(πa,t | βa, τ−1),

(3.12)

onde: DT = (xt, nt, πt), t = 1, . . . , T e B = β′a = (βa,0, βa,1, βa,2).

Considerando a populacao em risco constante, o modelo hierarquico de risco coletivo

padrao considerado neste trabalho sera denominado em diante o modelo MHRC-GP, e

sua representacao hierarquica e dada por:

p(x1, . . . , xm) =∫

ΘA

∫φ

A∏i=1

T∏j=1

p(xi,j | θi)p(θ1, . . . , θA | φ)p(φ)d(θ1, . . . , θA)d(φ).

3.1.4 Escolha da distribuicao a priori

Sabe-se que a especificacao bayesiana se completa ao associar as distribuicoes a priori

para os parametros de interesse. Optou-se pela escolha de distribuicoes a priori nao

informativas.

30

Priori nao informativas

Nesta subsecao apresentam-se situacoes em que nao existe informacao a priori suficiente,

de natureza subjetiva. O que frequentemente e chamado de “ignorancia a priori”ou

que o conhecimento a priori e pouco significativo relativamente a informacao amostral

(ou estado de conhecimento “vago”). Neste sentido, as distribuicoes nao informativas

sao interpretadas como representacoes formais de ignorancia. Certamente estes foram

os argumentos historicos desenvolvidos por Bayes (1763), divulgados e formalizados por

Jeffreys (1939/1961) quase 200 depois. Atualmente as analises sao feitas utilizando-se

prioris nao informativas em menor proporcao. O problema de escolher a distribuicao a

priori propria nao informativa pode trazer algumas dificuldades na analise, ver Migon e

Gamerman (1999) para mais detalhes.

Considere a distribuicao a priori uniforme, dado por p(θ) ∝ k, (k constante) para θ

variando em R o qual indica que nenhum dos valores em particular os quais podem ser

atribuıdos para θ sao preferıveis, Bayes (1763). A primeira dificuldade que surge e que

p(θ) nao e propria, isto e, se o espaco de variacao de θ for ilimitado, implica que a integral

diverge,∫p(θ)dθ →∞. Tambem se φ = φ(θ) e uma transformacao um a um de θ, como

θ e uniformemente distribuıdo, temos que a densidade de φ e dado por:

p(φ) = p(θ(φ))

∣∣∣∣∣dθdφ∣∣∣∣∣ ∝

∣∣∣∣∣dθdφ∣∣∣∣∣

A distribuicao de φ e constante quando φ e definido por uma transformacao linear. No

entanto, as mesmas suposicoes que conduz a especificacao de p(θ) ∝ k deveriam conduzir

a p(φ) ∝ k. Isto contradiz a afirmacao anterior. Idealmente, se gostaria de estabelecer

uma regra invariavel, a qual nao viole os resultados sobre a variavel transformada.

Uma classe de distribuicoes a priori nao informativa e proposta por Jeffreys (1939/1961).

Esta classe e invariante a transformacoes, contudo ela pode conduzir a distribuicoes a

posteriori nao proprias.

Informacao de Fisher Seja X um vetor aleatorio com densidade f(x | θ). Logo a

medida de informacao de Fisher de θ atraves de X e definida por:

I(θ) = EX|θ

[−δ

2 log f(x | θ)δθ2

].

31

Se θ = (θ1, . . . , θp), for um vetor parametrico entao:

I(θ) = EX|θ

[−δ

2 log f(X | θ)δθδθ′

],

com cada elemento Iij(θ) dado por:

Ii,j(θ) = EX|θ

[−δ

2 log f(X | θ)δθiδθ

′j

], i, j = 1, . . . , p.

Apresenta-se a seguir o metodo de calcular a priori nao informativa de Jeffreys.

Priori de Jeffreys

Definicao 3.1.1 Considere uma observacao X com probabilidade (funcao de densidade)

f(x | θ). A priori de Jeffreys nao informativa tem probabilidade (funcao de densidade)

dada por:

f(θ) ∝ [I(θ)]1/2, θ ∈ Θ

No caso multivariado, os elementos da matriz de informacao de Fisher I(θ) sao dados

por:

Ii,j(θ) = E

[δ log f(X | θ)

δθi

δ log f(X | θ)δθj

| θ].

Note que I(ψ) =(δθδψ′

)′I (θ(ψ)) δθ

δψ′conduz a que a distribuicao de Jeffreys obtida seja

proporcional a raiz quadrada do determinante de I(θ). Logo a densidade a priori de

Jeffreys e dada por:

p(θ) ∝ |I(θ)|1/2.

Priori de Referencia

Com o objetivo de superar as dificuldades associadas a utilizacao da priori de Jeffreys

que pode-nos levar a posteriori nao propria. O uso da regra de Jeffreys multiparametrica

costuma ter implicacoes poucos satisfatorias que sao frequentemente ultrapassadas por

imposicao de independencia a priori e uso separado de regras de Jeffreys para especi-

ficacao das distribuicoes marginais, para mais detalhes ver Paulino et al. (2003). Bernardo

(1979) sugeriu uma nova abordagem para construir distribuicoes que permitam expressar

32

estados de ignorancia a priori sobre um ou mais parametros. A estrategia apresentada

em Bernardo (1979) e construir uma distribuicao a posteriori que possa ser usada como

distribuicao a posteriori de referencia, de tal modo que um investigador com informacao

a priori subjetiva possa comparar a sua distribuicao a posteriori com a distribuicao de

referencia. Esta ultima e a distribuicao que deve ser obtida por alguem em estado de

ignorancia a priori . A teoria de Bernardo, inicialmente proposta em 1979, foi poste-

riormente melhorada e desenvolvida por Berger e Bernardo em uma serie de trabalhos

nos anos subsequentes. Para um desenvolvimento completo da teoria pode-se consultar

Bernardo e Smith (1994). Bernardo (1979) define a distribuicao de referencia para um

determinado modelo como a distribuicao que maximiza a quantidade de informacao so-

bre o parametro desconhecido θ, em um numero infinito de repeticoes do experimento.

A quantidade de informacao sobre θ desconhecida, em n replicacoes do experimento, e

definida como:

I(xn, θ) = E(xn,θ)

[log

p(θ | xn)

p(θ)

]

= Exn

[Eθ|xn

[log

p(θ | xn)

p(θ)

]]onde xn = (x1, . . . ,xn) e a quantidade de informacao sobre θ desconhecida, para um

numero infinito de repeticoes do experimento, obtida como o limite da informacao base-

ado em n replicacoes, quando n→∞. Contribuicoes para o uso pratico da metodologia

podem ser encontrados em Sun e Berger (1998). Eles derivam distribuicoes a priori de

referencia considerando tres casos onde informacao parcial esta disponıvel. Dois metodos

sao propostos para encontrar a priori de referencia marginal. Caso uma priori marginal

subjetiva esteja disponıvel, eles propoem um metodo para definir uma priori de referencia

condicional. Alguns resultados da metodologia usada no calculo das distribuicoes a priori

de referencia sao aplicados neste trabalho.

Seja x = (x1, . . . , xn) uma amostra aleatoria observada da densidade p(x; θ1, θ2), onde

os parametros θ1 e θ2 sao vetores de dimensao d1 e d2, respetivamente. Seja π(θ1, θ2) a

densidade a priori de (θ1, θ2).

As seguintes questoes de interesse foram abordadas em Sun e Berger (1998):

(i) Suponha que temos disponıvel a densidade a priori condicional subjetiva πs(θ2 | θ1)

33

para θ2 dado θ1. Como podemos encontrar a priori marginal nao informativa πr(θ1)

para θ1?

(ii) Suponha que temos disponıvel a densidade a priori marginal subjetiva πs(θ1) para

θ1. Como podemos encontrar a priori nao informativa condicional πr(θ2 | θ1) para

θ2 dado θ1?

Seja π(θ1, θ2 | xn) a densidade conjunta posteriori de θ1 e θ2 e π(θ1 | xn) a posteriori

marginal de θ1.

Quando a densidade condicional de θ2 dado θ1 e disponıvel, existem duas opcoes razoaveis

para achar a priori marginal πr(θ1) :

Opcao 1: Bernardo (1979) define a divergencia esperada de Kullback-Leibler entre a

densidade posteriori marginal de θ1 dado Xn e a priori marginal de θ1, dada por:

JXn; πr(.) = E

[∫π(θa | Xn) log

π(θ1 | Xn)

πr(θ1)

dθ1

], (3.13)

onde a esperanca e com respeito a densidade marginal

m(Xn) =∫p(Xn | θ1)πr(θ1)dθ1.

O objetivo e encontrar πr(θ1) que maximiza assintoticamente (3.13). Uma maneira de

resolver este problema e definir a distribuicao a priori que maximiza a distancia entre

a priori e a posteriori. Como consequencia de Ghosh e Mukerjee (1992), e sob algu-

mas condicoes de regularidade (Para mais detalhe destas condicoes pode-se consultar

Bernardo e Smith (1994), capıtulo 5), tem-se que para n suficientemente grande:

JXn; πr(.) =d1

2log

(n

2πε

)+∫πr(θ1) log

η(θ1)

πr(θ1)

dθ1 + o(1), (3.14)

onde:

η(θ1) = exp

1

2

∫πs(θ2 | θ1)

(|Σ||Σ22|

)dθ2

,

com Σ = Σ(θ1, θ2) sendo a matriz de informacao de Fisher para (θ1, θ2),Σ22 = (θ1, θ2)

sendo a matriz de informacao de Fisher para θ2, dado que θ1 e fixado, e |Σ| e o determi-

nante de Σ.

34

A estrategia para obter a priori de referencia sugere escolher πr que maximize (3.13)

ou (3.14) assintoticamente sob um conjunto compacto. Pode-se demostrar que πr1(θ1) ∝

η(θ1). Esta e essencialmente a solucao dada em Berger e Bernardo (1992). O teorema a

seguir pode ser aplicado ao seguinte caso especial.

Teorema 3.1 (a) Se |Σ||Σ22| nao depende de θ2, entao, para alguma distribuicao condicional

πs(θ2 | θ1), a priori de referencia marginal para opcao 1 tem a forma:

πr(θ1) ∝[|Σ||Σ22|

] 12

.

(b) Se |Σ||Σ22| depende so de θ2 e πs(θ2 | θ1) nao depende de θ1, entao πr1 ∝ 1.

Opcao 2: Encontrando o modelo marginal p(xn | θ1) =∫p(xn | θ1, θ2)πs(θ2 | θ1)dθ2.

Seja Σ∗(θ1) a matriz informacao de Fisher para θ1 baseada no modelo marginal. Logo,

a distribuicao priori de referencia para θ1 e obtida, maximizando-se assintoticamente a

divergencia esperada de Kullback-Leibler (distancia entre a posteriori marginal e a priori

marginal), e ela e dada por:

πr(θ1) ∝ |∗∑

(θ1)|12 .

A opcao 2 esta mais relacionada a motivacao para a construcao de priori de referencia:

sendo π∗(θ2 | θ1) conhecido, a informacao dos dados em relacao a θ1 reside em p(xn | θ1),

assim, a priori de referencia marginal deveria, ser idealmente, calculada sob a mistura

de modelo. Infelizmente, a matriz de informacao de Fisher para tais modelos e difıcil

de ser calculada. Logo, a opcao 2 pode nao ser viavel. Por isso Sun e Berger (1998)

recomendam a opcao 1 ao inves da opcao mais natural (Opcao 2) .

Para o caso em que a densidade a priori πs(θ1) e conhecida, considere a divergencia

esperada de Kullback-Leibler entre a densidade a posteriori p(θ2 | θ1, xn) e a densidade

condicional a priori de p(θ2 | θ1), deste modo tem-se:

JXn; πr(. | θ1) (3.15)

= E

[∫θ1π(θ1 | Xn)

∫θ2π(θ2 | θ1, Xn) log

π(θ2 | θ1, Xn)

πr(θ2 | θ1)

dθ2dθ1

]

= E

[∫θ1

∫θ2π(θ1, θ2 | Xn) log

π(θ1, θ2 | Xn)

π(θ1, θ2)

dθ2dθ1

]

= E

[∫θ1π(θ1 | Xn) log

π(θ1 | Xn)

π(θ1)

dθ1

]

35

e analogamente a opcao 1, e como consequencia dos resultados encontrados por Ghosh e

Mukerjee (1992) podemos concluir de (3.15):

JXn; πr(. | θ1) (3.16)

=d2

2log

(n

2πε

)+∫θ1πr(θ1)

∫θ2πr(θ2 | θ1) log

|Σ22|12

πr(θ2 | θ1)

dθ2

dθ1 + o(1)

Portanto, escolhendo πr(θ2 | θ1) para maximizar assintoticamente (3.16), tem-se que:

πr(θ2 | θ1) ∝ |Σ22(θ2 | θ1)|12 . (3.17)

quando esta a priori de referencia condicional for propria. Se nao for o caso, deve-se

utilizar um argumento tipicamente empregado em analise de referencia, ou seja:

Escolhe-se uma sequencia Λ1 ⊂ Λ2 ⊂ . . . de subconjunto compacto de parametros do

espaco de Λ de (θ1, θ2), de modo que⋃i Λi = Λ e πr(θ2 | θ1) tenha massa definida em

Ωi = θ2 : (θ1, θ2) ∈ Λi. Seja 1A a funcao indicadora sobre A e seja

Ki(θ1) =∫

Ω1

|Σ22(θ1, θ2)|12dθ2.

A priori de referencia condicional para θ2 sob Ωi e

πri (θ2 | θ1) =|Σ22(θ1, θ2)| 12

Ki(θ1)1Ωi(θ2).

Define-se entao a priori de referencia condicional para θ2 por:

πr(θ2 | θ1) = limi−→∞

πri (θ2 | θ1)

πri (θ20 | θ10),

Quando o limite acima existir, tem-se que:

πr(θ2 | θ1) = limi−→∞

Ki(θ10)

Ki(θ1)|Σ22(θ1, θ2)|

12 .

Segue o seguinte teorema que fornece condicoes suficientes, sob as quais o limite e pro-

porcional a |Σ22(θ1, θ2)| 12 .

Teorema 3.2 Suponha que

|Σ22(θ1, θ2)| = g1(θ1)g2(θ2),

36

para alguma funcao g1(θ1) e g2(θ2). Suponha que Λ = Θ1×Θ2 seja o conjunto compacto

escolhido da forma Λi = Θ1i ×Θ2i. Entao a priori de referencia de θ2 satisfaz

πr(θ2 | θ1) ∝ |Σ22(θ1, θ2)|12 ∝ g2(θ2)

12 .

Observe que a priori de referencia condicional nao depende de πs(θ1). Supondo inde-

pendencia a priori de θ1 e θ2, tem-se o algoritmo para os calculos das priori de referencias

marginais, usando a opcao 1:

passo 0. Escolher qualquer priori inicial nao nula como densidade marginal da priori de

θ2, π02(θ2).

passo 1. Definir uma densidade priori provisoria para θ1

π(1)1 (θ1) ∝ exp

1

2

∫π

(0)2 (θ2) log

|Σ|Σ22

dθ2

.

passo 2. Define-se uma densidade provisoria priori para θ2

π(1)2 (θ2) ∝ exp

1

2

∫π

(1)1 (θ1) log

|Σ|Σ11

dθ1

.

Substitua π(0)2 no passo 0 por π

(1)2 e repita o passo 1 e o passo 2, ate obter π

(2)1 e

π(2)2 . Consequentemente, gera-se duas sequencias π(i)

1 i≥1 e π(i)2 i≥1. A priori marginal

e dada por:

πrj = limi−→∞

π(i)j (j = 1, 2)

se o limite existir.

Em aplicacoes de algoritmos iterativos, pode ser necessario trabalhar sob conjuntos com-

pactos.

Teorema 3.3 (a) Se |Σ||Σ22| nao depende de θ2, entao as prioris de referencia marginais

sao dadas por:

π(r)1 (θ1) ∝

[|Σ||Σ22|

] 12

, π(r)2 (θ2) ∝ exp

1

2

∫πr1(θ1) log

|Σ|Σ11

dθ1

.

37

(b) Se |Σ||Σ11| nao depende de θ1, entao as prioris de referencia marginais sao dadas por:

π(r)2 (θ2) ∝

[|Σ||Σ11|

] 12

, π(r)1 (θ1) ∝ exp

1

2

∫πr2(θ2) log

|Σ|Σ22

dθ2

.

Observe que as prioris de referencia sob os supostos de independencia, em geral,

sao diferentes das prioris de referencia ou das prioris de referencia obtidas por Berger e

Bernardo (1992). O seguinte teorema, apresenta condicoes para que elas coincidam.

Teorema 3.4 Se a matriz de informacao de Fisher de (θ1, θ2) e da forma

Σ(θ1, θ2) = diagg1(θ1)h1(θ2), g2(θ1)h2(θ2),

entao as prioris de referencia marginais sao:

π(r)1 (θ1) ∝ g1(θ1)

12 , π

(r)2 (θ2) ∝ h2(θ2)

12 . (3.18)

Sob as condicoes deste teorema, quando o parametro θ1 ou θ2 e o parametro de interesse,

a priori de referencia conjunta e da forma:

π(θ1, θ2) ∝ g1(θ1)h2(θ2)12

Como consequencia, a priori de referencia para θ1 e θ2 sao como em (3.18) As provas

dos teoremas (3.1-3.4) podem ser encontradas em Sun e Berger (1998).

3.1.5 Inferencia via simulacao estocastica: MCMC

No paradigma de Bayes, os metodos de simulacao estao relacionados ao processo de

obtencao de amostras de distribuicao posteriori dos parametros envolvidos. Metodos

como o de Monte Carlo via Cadeias de Markov sao usados para o processo inferencial.

O metodo de Monte Carlo via cadeias de Markov (MCMC) tem muita aplicacao na

inferencia estatıstica, em particular no paradigma bayesiano. Ele oferece tecnicas para

ajustar modelos complexos cujas distribuicoes a posteriori nao tem forma fechada.

A ideia basica do Metodo MCMC e o uso de tecnicas de simulacao estocastica, baseadas

na construcao de cadeias de Markov, cuja distribuicao de equilıbrio e igual a funcao de

interesse (densidade a posteriori). Apos um numero grande e finito de simulacoes desta

38

cadeia, espera-se atingir com alta precisao a distribuicao de equilıbrio. Portanto, a partir

de um perıodo de “aquecimento”, obtemos uma amostra da distribuicao a posteriori de

interesse.

Uma cadeia de Markov e um processo estocastico X0, X1, . . . tal que a distribuicao de

Xt dados os valores anteriores X0, X1, . . . , Xt−1 depende apenas de Xt−1, em outras

palavras,

P (Xt ∈ A | X0, X1, . . . , Xt−1) = P (Xt ∈ A | Xt−1)

para qualquer subconjunto A.

Alem disso, o metodo requer que a cadeia de Markov seja:

a) homogenea: que as probabilidades de transicao sejam invariantes, isto e, que a pro-

babilidade de estando no estado si a cadeia passe a um estado sj nao depende de

t.

P (Xt = x ∈ A | Xt−1 = y) = P (x | y)

b) irredutıvel: cada estado pode ser atingido a partir de qualquer outro em um numero

finito de iteracoes.

c) aperiodica: que nao haja estados absorventes (uma vez que a cadeia atinge este estado

nao vai conseguir sair a outros estados da cadeia)

Esta tecnica apresenta melhores resultados quando e aplicada a problemas de dimensao

grande. Os algoritmos mais comumente usados, sao o algoritmo Metropolis-Hastings

e o Amostrador de Gibbs. Descricao detalhada dos metodos de simulacao baseados em

metodos de Monte Carlo via Cadeias de Markov podem ser vistas em Gamerman e Lopes

(2006).

Algoritmo de Metropolis Hastings

Este algoritmo foi originalmente citado por Metropolis et al. (1953), cujo documento ori-

ginal trata o calculo de propriedades de substancias quımicas. Embora, a aplicacao deste

metodo fosse inicialmente na area de quımica, ele teve grande aplicacao em simulacao e

inferencia estatıstica. O algoritmo Metropolis Hasting tem como objetivo principal obter

39

uma amostra de uma distribuicao a posteriori p(θ | x). Este objetivo e atingido atraves

da construcao de uma cadeia de Markov θt, utilizando-se os seguintes passos:

1. Cria-se o contador j = 1 e atribui-se um valor inicial arbitrario θ(0) = (θ(0)1 , . . . θ

(0)d )

2. Geram-se novos valores φ a partir da densidade q(θ(j−1), .)

3. Avalia-se a probabilidade de aceitacao α(θ(j−1), φ).

4. E gerado u da uniforme no intervalo [0, 1]. Se u ≤ α, a transicao e aceita. Se a

transicao e aceita, θ(j) = φ; caso contrario, θ(j) = θ(j−1).

5. Faca j = j + 1 e repita o item 2 ate que seja obtida a convergencia da cadeia.

Note que se o nucleo q e simetrico, q(φ, θ) = q(θ, φ) , entao a probabilidade de aceitacao

se reduz a α(θ, φ) = min

1, π(φ)π(θ)

.

Embora a distribuicao proposta q possa ser escolhida arbitrariamente, na pratica devem-

se tomar alguns cuidados para garantir a eficiencia do algoritmo. Esta eficiencia depende,

por exemplo, da taxa de aceitacao α. Suponha que os valores simulados no passo anterior

e do presente estao proximos no espaco parametrico, entao π(φ)q(φ,θ)π(θ)q(θ,φ)

−→ 1 e a tendencia

sera aceitar todos os elementos simulados. Por outro lado, se a diferenca entre os valores

simulados na etapa anterior e do presente for grande, π(φ)q(φ,θ)π(θ)q(θ,φ)

sera pequeno e a taxa

de rejeicao sera elevada. Se os saltos entre um valor e outro sao pequenos, o tempo

de convergencia vai aumentar, mas se esses saltos sao muito grandes a taxa de rejeicao

aumenta, e como a cadeia deve cobrir todo o espaco de parametros para que se tenha

convergencia da cadeia para a distribuicao estavel, entao a melhor estrategia e fazer que

a taxa de rejeicao tenha um valor proximo a 50%.

Uma alternativa a amostragem em bloco e amostrar cada componente de θ separada-

mente. Esta alternativa pode requerer um elevado tempo de computacao, contudo tem-se

um maior controle na taxa de aceitacao. Os valores simulados apos a convergencia da

cadeia podem ser consideradas como amostras da densidade de interesse, contudo estes

valores sao dependentes. Para se obter uma amostra aleatoria da distribuicao, pode-se

amostrar da cadeia obtida a cada k-esimo valor. O valor de k pode ser obtido a partir

do valor da autocorrelacao da cadeia.

40

Amostrador de Gibbs

O amostrador de Gibbs foi introduzido por Geman e Geman (1984). O metodo de amos-

tragem Gibbs foi um algoritmo de simulacao de distribuicoes multivariadas complexas e

de dimensao elevada, proposta para evolucionar problemas de reconstrucao de imagens.

Gelfand e Smith (1990), por sua vez, mostraram como o algoritmo pode ser usado para

simular distribuicoes a posteriori e como, por consequencia, pode ser usado para resolver

problemas em estatıstica bayesiana. Este algoritmo constitui um caso particular do algo-

ritmo Metropolis-Hastings em que a probabilidade de aceitacao e igual a 1. O algoritmo

e entao um esquema markoviano dinamico que requer a amostragem destas distribuicoes

condicionais descrito como segue:

Seja o vetor de parametros θ = (θ1, . . . , θd), onde cada componente θi pode ser um es-

calar, um vetor ou uma matriz. Considera-se tambem que as distribuicoes condicionais

completas, πi(θi) = π(θi | θ−i), i = 1, . . . , d, estejam disponıveis, o que significa que elas

sao completamente conhecidas e podem ser amostradas. O processo de simulacao de

cada parametro atraves das distribuicoes condicionais e chamado ciclo de amostragem de

Gibbs e e constituıdo das seguintes etapas. Algoritmo:

1. Cria-se um contador j = 1 e atribui-se um valor inicial arbitrario θ(0) = (θ(0)1 , . . . θ

(0)d ).

2. Calcula-se um novo valor da cadeia θ(j) = (θ(j)1 , . . . , θ

(j)d ), a partir do valor de θ(j−1),

atraves da geracao sucessiva de valores

θ(j)1 ∼ π(θ1 | θ(j−1)

2 , θ(j−1)3 , . . . , θ

(j−1)d )

θ(j)2 ∼ π(θ2 | θ(j)

1 , θ(j−1)3 , . . . , θ

(j−1)d )

...

θ(j)d ∼ π(θd | θ(j)

2 , θ(j)3 , . . . , θ

(j)d−1)

3. Muda-se o contador j = j+ 1 e volta-se ao item 2 ate obter a convergencia da cadeia.

Se a cadeia convergir, o valor de θ(j) e uma amostra de π. Assim, se for preciso obter uma

amostra de tamanho n de π, basta replicar n cadeias depois do perıodo de aquecimento.

41

Diagnostico de Convergencia

Espera-se que as cadeias convirjam para uma distribuicao estacionaria, que e denomi-

nada a distribuicao objetivo (a posteriori). No entanto, nao ha garantia de que uma

cadeia tenha convergido apos L valores. No entanto, neste trabalho, nao se fara consi-

deracoes teoricas sobre convergencia dos metodos. Porem, descrevem-se aqui algumas

das estrategias mais usadas para esse proposito.

Gelfand e Smith (1990) propoem metodos ad-hoc baseados em representacoes graficas

das estimativas das densidades para monitorar a convergencia das medias ergodicas para

os parametros de interesse. Geweke (1992) sugere metodos baseados em series tempo-

rais. Gelman e Rubin (1992a) e Gelman e Rubin (1992a) sugerem metodos baseados em

analise de variancia. Raftery e Lewis (1992) apresentam formulas que relacionam a di-

mensao da cadeia de Markov a ser construıda, o espacamento entre os vetores simulados

e a dimensao da amostra a ser utilizada. Ritter e Tanner (1992) sugerem a monitorizacao

de certas funcoes peso associadas aos vetores simulados. Nao ha, entretanto, um metodo

que se possa dizer ser o melhor ou mais eficiente que todos, ver Cowles e Carlin (1996).

A utilizacao de metodos diferentes para o mesmo problema pode conduzir a respostas

bastante dıspares, ver Green et al. (1994).

3.1.6 Validacao e selecao de modelos

Uma analise cuidadosa de dados, deve considerar o problema de comparacao dos modelos.

Isto e, deve-se avaliar e escolher o modelo que melhor represente a situacao em estudo.

Medidas de diagnostico-adequabilidade de um modelo

A amostra observada e usada para construir a distribuicao a posteriori p(θ | x). Su-

ponha que se tenha uma amostra y = (y1, . . . , yn) de validacao. Esta e uma amostra

independente de x e e usada para validar o modelo. A distribuicao preditiva de y e:

p(y | x) =∫f(y | θ)h(θ | x)dθ.

Esta distribuicao preditiva permite a avaliacao do modelo no sentido em que se os dados

y nao estiverem “de acordo”com p(y | x), a qual foi calculada usando a amostra x, entao

42

nao se espera que o modelo seja adequado. Pode-se calcular o valor medio e a variancia

de cada componente y,

E(Yi | x) =∫yip(y | x)dy e var(Yi | x) =

∫(yi − E(Yi | x))2p(y | x)dy,

que sao uteis para definir os resıduos bayesianos padronizados. A analise destes resıduos

pode ser feita de forma analoga a inferencia classica.

Comparacao de modelos

Uma das medidas bastante empregadas para comparar a capacidade preditiva de modelo

e o “Fator de Bayes”(BF). Contudo o BF e extremadamente sensıvel a escolha da dis-

tribuicao a priori. Alem disso, o BF nao e definido se quando distribuicao a priori for

impropria.

“O criterio de informacao bayesiana”(BIC) e um metodo alternativo util a ser usado

na comparacao de dois ou mais modelos, pois este nao requer a especificacao de prioris

para os parametros. Contudo pode nao ser adequado quando forem usados em modelos

hierarquicos. O “Deviance information criterion”(DIC) pode ser visto como uma alter-

nativa ao BIC.

Os criterios usados neste trabalho foram: DIC, “Probabilistic forecasts, calibration and

sharpness”(CRPS) e o Fator de Bayes apresentada em Kass e Raftery (1995), baseado

na aproximacao da distribuicao preditiva desenvolvida por Newton e Raftery (1994).

O criterio DIC

Spiegelhalter et al. (2002) consideram o problema de comparacao de modelos hierarquicos

complexos, onde o numero de parametros nao esta claramente definido. Usando um

argumento teorico definem a medida Pd para o numero efetivo de parametros num modelo

como a diferenca entre a media a posteriori da deviancia e a deviancia de medias a

posteriori dos parametros. Seja θ∗ = E(θ | z) a media a posteriori para o parametro θ.

Defini-se a funcao de deviancia como:

D(θ) = −2 log(p(z | θ)),

43

onde p(z | θ) representa a funcao de verossimilhanca. Define-se o DIC como :

DIC = D + pd,

onde D = E(D(θ) | z), e pd = D −D(θ∗),

Um menor valor de DIC indica um melhor ajuste do modelo. O DIC e computacional-

mente atrativo pois pode ser facilmente calculado das estatısticas obtidas das amostras

do MCMC.

Sejam θ(1), . . . , θ(M) saıdas de um algoritmo de MCMC. Entao D = E(D(θ) | z), pode

ser aproximado, usando Monte Carlo, por

D ≈ 1

M

M∑k=1

D(θ(k)).

Alem disso, D(θ(∗)) ≈ D(θ), onde θ = 1M

∑Mk=1 θ

(k). Para comparar as capacidades pre-

ditivas de cada modelo, uma opcao usual e usar ferramentas baseadas nas densidades

preditivas. Gelman et al. (1995b) sugerem comparar os modelos usando a densidade

preditiva a posteriori que e definida como p(xrep | θ, xobs), e que sao considerados replicas

independentes do conjunto de valores observados sob o modelo, dado os valores atuais

observados.

O criterio CRPS

Em Gneiting et al. (2007) consideram as “regras de escores”para avaliar as previsoes

probabilısticas. As “regras de escore”sao medidas que abordam a “calibracao e forma”ao

mesmo tempo.

Lopes et al. (2012) calculam o CRPS para cada yi,j,k, deste modo:

CRPS(yi,j,k) = E|Yrep,i,j,k − Yi,j,k| −1

2E|Yrep,i,j,k − Yrep,i,j,k|.

onde, os Yrep,i,j,k e Yrep,i,j,k sao replicas independentes da distribuicao preditiva a pos-

teriori. Alem disso E|Yrep,i,j,k − Yi,j,k| e E|Yrep,i,j,k − Yrep,i,j,k| podem ser aproximados

por:

L−1∑b

l = 1L|Y (l)rep,i,j,k − Yi,j,k| e L−1

L∑l=1

|Y (l)rep,i,j,k − Y

(l)rep,i,j,k|,

44

respetivamente, onde Y(l)rep,i,j,k e Y

(l)rep,i,j,k respectivamente denotam replicas da distri-

buicao de p(Yi,j,k | Θ(l)) baseada na l-esima iteracao MCMC. O CRPS geral e dado por

CRPS =1

n

I∑i=1

ni∑j=1

p∑k=1

CRPS(yi,j,k).

Quanto menor o valor de CRPS melhor e considerado o modelo. Para mas detalhe ver

GschloBl e Czado (2008) e GschloBl (2006).

Erro Quadratico Medio Preditivo (EQMp)

O Erro Quadratico Medio Preditivo (EQMp) e dado por:

EQMp =∑l:L

∑i:n

[yi − y(l)i ]2

nL, (3.19)

onde yi e o valor observado para a i-esima observacao e y(l)i e a estimativa do valor

esperado para a i-esima observacao na l-esima iteracao do algoritmo MCMC. O modelo

que obtiver o menor EQMp,e aquele que deve ser indicado como melhor.

Erro absoluto Medio Preditivo (EAMp)

O Erro Absoluto Medio Preditivo (EAMp) e dado por:

EAMp =∑l:L

∑i:n

|yi − y(l)i |

nL, (3.20)

O modelo que obtiver o menor EAMp,e aquele que deve ser indicado como melhor.

45

Capıtulo 4

Modelos Propostos

No presente capıtulo descrevem-se os modelos hierarquicos para o risco coletivo propostos

neste trabalho. Apresentam-se tambem as distribuicoes a priori usadas para as quanti-

dades desconhecidas.

Com o objetivo de obter previsoes de tarifacoes futuras que sejam robustas na presenca

de sobredispersao, e necessario conhecer as distribuicoes preditivas para o valor Xa,t+H

e para o numero Na,t+H de sinistros, no tempo t + H para a faixa etaria a = 1, . . . , A,

onde H e o horizonte de tempo planejado para previsao.

Contudo, torna-se difıcil conhecer a distribuicao do valor total do sinistro da carteira de

uma companhia de seguros em um determinado tempo t e classe de risco a, quando se

aplica o metodo de convolucao ou metodos baseados na funcao geradora de momentos.

Para contornar este problema podemos empregar metodos de aproximacao para a distri-

buicao do total de sinistros. Porem, sob o paradigma bayesiano nao ha necessidade de

se utilizar qualquer tipo de aproximacao.

No contexto atuarial sabe-se que a variavel aleatoria Za,t,j e o valor do sinistros para

uma classe de risco a em um tempo t para um apolice j. A variavel aleatoria Za,t,j e

nao negativa e necessariamente continua. Alem disso, ela costuma ter a cauda pesada a

direita, isto e, valores altos de: D(a, t, j) = Za,t,j − µ, tem alta probabilidade de ocor-

rerem. Isto implica que esta distribuicao pode ser bastante assimetrica. Por isso, no

modelo hierarquico de risco coletivo completamente bayesiano denominado neste traba-

lho (MHRC,MHRC-GP, ou modelo padrao) e desenvolvido em Migon e Moura (2005), a

46

quantidade Xa,t =∑Na,tj=1 Za,t,j, conhecida como o valor total de sinistros em uma classe

de risco a e tempo t, possui assimetria e tem cauda pesada.

Neste trabalho e usada a transformacao logarıtmica nos valores dos sinistros log(Xa,t),

a qual nos fornece maior flexibilidade para atribuir distribuicoes que possuem cauda

pesada.

4.0.7 Modelo Log Normal para os valores dos sinistros

Como os valores dos sinistros sao estritamente positivos, podemos considerar que a

variavel aleatoria Y e dada por: Y = log(Z) ∼ N(µ, σ2), entao Z = eY , segue uma

distribuicao log normal (LN) com parametros µ ∈ R e σ2 ∈ R+, isto e, Z ∼ LN(µ, σ2).

Neste trabalho define-se Ya,t = log(Xa,t) ∼ N(µ, σ2), logo Xa,t ∼ LN(µXa,t , σ2Xa,t). Nesse

contexto, Vallejos e Steel (2013) apresentam uma analise completa das possıveis misturas

com esta distribuicao, assim como algumas propriedades interessantes:

Cauda: x−1a,t exp

(− 1

2σ2 [log xa,t]2)

;

limxa,t−→0 f(xa,t) = 0;

E(xra,t) = exp(rµxa,t + 12r2σ2

xa,t), r > 0.

Segue-se que para modelar o risco coletivo, e necessario obter a distribuicao de Xa,t =∑Na,tj=1 Za,t,j. Aproximacoes para a soma de variaveis aleatorias que seguem uma distri-

buicao log normal podem ser vistas em Cobb et al. (2012).

Igualamos os primeiros momentos do modelo proposto com o modelo hierarquico de risco

coletivo padrao (MHRC-GP). Com esta parametrizacao obtemos modelos comparaveis.

Do modelo padrao (MHRC-GP), temos: Xa,t | κa, θa, na,t ∼ G(na,tκa, θa), onde G denota

a distribuicao Gama com os seguintes primeiros momentos:

E(Xa,t) =na,tκaθa

e V (Xa,t) =na,tκaθ2a

.

Por outro lado, considere que Xa,t ∼ LN(µa,t, σ2a,t), cujos primeiros momentos sao dados

por:

E(Xa,t,j) = e(µxa,t+0.5σ2

xa,t)

e V (Xa,t,j) = (eσ2xa,t − 1)(e

2µxa,t+σ2xa,t )

Igualando-se respectivamente os primeiros momentos, sao obtidos os parametros que

serao usados na modelagem dos valores de sinistros. Com κa > 0, θa > 0, µxa,t ∈

47

R, σ2xa,t > 0, tem-se que:

µxa,t = log(na,tκaθa

)− 1

2σ2xa,t , (4.1)

σ2xa,t = log(

1

na,tκa+ 1).

4.0.8 Modelo hierarquico de risco coletivo Normal Poisson (MHRC-

NP)

Nesta subsecao introduzimos o primeiro modelo proposto que sera denominado Modelo

hierarquico de risco coletivo Normal Poisson (MHRC-NP). Define-se o primeiro nıvel da

hierarquia do MHRC-NP, para cada classe de risco a e perıodo de tempo t. Utilizando

a transformacao logarıtmica Ya,t = logXa,t atribuı-se a distribuicao Normal para o valor

dos sinistros, sendo que a distribuicao para o numero dos sinistros e a mesma que do

modelo padrao (MHRC-GP).

Ya,t | µXa,t , σ2Xa,t , na,t ∼ N(µXa,t , σ

2Xa,t), µa,t ∈ R σ2

a,t > 0 (4.2)

Na,t | λa, πa,t ∼ P (λaπa,t), λa > 0,

onde µXa,t e σ2Xa,t sao dados em (4.1) e πa,t e a populacao segurada no perıodo de tempo

t e classe de risco a.

Assume-se independencia condicional para todos os perıodos de tempo t e para todas as

classes de risco a. Logo a funcao de verossimilhanca do modelo (MHRC-NP) e dada por:

L(ΘNPa | DT) =

∏A,Ta,t

1√2π log( 1

na,tκa+1)

exp

−12

log xa,t−log(na,tκa

θa)+ 1

2σ2xa,t√

log( 1na,tκa

+1)

2(λaπ

na,ta,t

na,t!

)exp(−λaπa,t)

onde ΘNP

a = θa, κa, λa define o espaco parametrico para cada classe de risco a, com

θa, κa e λa ∈ R+, e DT = xa,t, na,t, πa,t e a informacao disponıvel em cada classe de

risco a ate o tempo t, a = 1, . . . , A e t = 1, . . . , T

Considerando que a populacao em risco πa,t e conhecida para toda classe de risco a e

perıodo de tempo t e κa = 1, para todo a = 1, . . . , A, obtem-se que o logaritmo da

verossimilhanca e dado por:

logL(ΘNP′

a | DT) =A,T∑a,t

[−1

2log(2πσxa,t)−

1

2P′

a,t

2+ log

[(λaπ

na,ta,t

na,t!

)exp(−λaπa,t)

]](4.3)

com: P′a,t =

log xa,t−µxa,tσxa,t

. e ΘNP′a = θa, λa

48

4.0.9 Modelo Log T-student para os valores dos sinistros

A distribuicao Log T-student e o resultado da mistura de uma distribuicao Log Normal:

x | λ, µ, σ2 ∼ LN(µ, λ−1σ2), e a distribuicao Gama quando e associado ao parametro de

incerteza: λ−1 | α, β ∼ G(α, β), com α = β = ν2, ν > 0, 0 ≤ x <∞. Isto e, a seguinte

distribuicao:

p(x) =∫λLN(x | µ, λ−1σ2)G(λ−1 | ν

2,ν

2)δλ

Obtendo-se assim

p(x) =

[n∏i=1

1

xi

] (1

πνσ2

)n2 γ(n+v

2)

γ(ν2)

(∑ni=1 (log xi − µ)2

σ2ν+ 1

)− (n+v)2

Logo cada elemento do vetor ~x tem uma distribuicao log T-student, com parametros de

locacao µ, escala σ2 e grau de liberdade ν. O parametro ν se relaciona diretamente com

o grau de robustez desta distribuicao e caracteriza a forma da distribuicao. Alem disso,

quanto maior for esse parametro, ela se aproxima mais da distribuicao Log Normal.

No contexto atuarial a distribuicao log T-student pode ser mais adequada para acomodar

valores discrepantes do que a distribuicao log normal, para mais detalhes ver Klugman e

Hogg (1983).

Algumas relacoes desta distribuicao com a distribuicao T-student podem ser facilmente

obtidas, entre elas: Se Y ∼ T (µ, σ2, ν) e X = exp(y) entao x ∼ LT (µ, σ2, ν). Vallejos

e Steel (2013) analisam esta distribuicao como um caso particular da mistura da log

Normal e a distribuicao Gama.

4.0.10 Modelo hierarquico de risco coletivo T-student Poisson

(MHRC-TP)

O segundo modelo proposto para acomodar observacoes discrepantes e denominado de

modelo hierarquico de risco coletivo robusto ou modelo hierarquico de risco coletivo T-

student Poisson (MHRC-TP). Define-se o primeiro nıvel de hierarquia atribuindo-se a

distribuicao Log T-student ao valor dos sinistros, enquanto a distribuicao do numero de

sinistros e mantida. Assim para cada classe de risco a e perıodo de tempo t temos:

Ya,t | na,t, µXa,t , σ2Xa,t , νa ∼ T (µXa,t , σ

2Xa,t , νa) µa,t ∈ R σ2

a,t, νa > 0 (4.4)

49

Na,t | λa, πa,t ∼ P (λaπa,t), λa > 0,

Analogamente ao modelo anterior temos que µXa,t e σ2Xa,t sao dados em (4.1), νa e o grau

de liberdade e πa,t e a populacao segurada no perıodo de tempo t e classe de risco a.

Assume-se independencia condicional para todos os perıodos de tempo t, para todas as

classes de risco a. Logo a funcao de verossimilhanca do modelo (MHRC-TP) e dado por:

L(ΘTPa | DT) =

∏A,Ta,t

γ[ (νa+1)2 ]

γ( νa2

)√πνaσ2

xa,t

[1 +

(log xa,t−µxa,t )2

νaσ2xa,t

]−(νa+1)2

×[λaπ

na,ta,t

na,t!

]exp(−λaπa,t)

onde ΘTP

a = θa, κa, νa, λa define o espaco parametrico para cada classe de risco a. Logo

o logaritmo da verossimilhanca e dada por:

logL(ΘTP′a | DT) =

νa2

log νa − log[log(1 + na,t)12 ] + logw(νa)−

(νa + 1)

2log(νa + P 2

a,t) + log [ψa]

(4.5)

com: ΘTP′a = θa, νa, λa, w(νa) =

γ[ (νa+1)2 ]

γ( νa2

)γ( 12

), Pa,t =

log(

xa,tθa(1+na,tκa)12

(na,tκa)32

)√log( 1

na,tκa+1)

e ψa =[λaπ

na,ta,t

na,t!

]exp(−λaπa,t).

50

4.1 Distribuicoes para o Numero de Sinistros

A presenca de variacao nos dados, mais do que esperado nas suposicoes do MHRC,

origina o fenomeno denominado sobredispersao. O uso da distribuicao Binomial Negativa

e adequado para dados de contagem com sobredispersao.

Na pratica atuarial e natural utilizar a distribuicao de Poisson na modelagem do numero

de sinistros. Mas a hipotese de que a media e igual a variancia pode ser questionavel.

Este problema pode surgir pela omissao de covariaveis ou a nao correta determinacao

dos grupos na analise. Autores como Shengwang et al. (1999), Boucher et al. (2008),

Boucher et al. (2009), Ismail e Zamani (2013), Carsten (2013), entre outros, abordam este

problema e sugerem alternativas de solucao. Entre as mais comuns, tem-se a apresentada

em Boucher e Guillen (2009). Eles expressaram o modelo classico de efeitos aleatorios

segundo uma distribuicao Poisson (P) com parametro θiλi,t:

Ni,t | θi, λi,t ∼ P (θiλi,t), i = 1, . . . , N, t = 1, . . . , T ;

onde i representa o i-esimo segurado no perıodo t de cobertura, λi,t e um parametro

positivo que e usualmente relacionado ao conhecimento das caracterısticas individuais.

Supondo que cada λi,t seja distribuıdo como uma Gama de media 1 e variancia α, isto

e, λi,t ∼ G( 1α, 1α

),∀i, t, obtem-se assim a distribuicao conjunta apresentada por Hausman

et al. (1984):

P [Ni,1 = ni,1, . . . , Ni,T = ni,T ]

=

[T∏t=1

(λi,t)ni,t

ni,t!

]γ(∑Tt=1 ni,t + 1/α)

γ(1/α)

(1/α∑T

t=1 λi,t + 1/α

)1/α ( T∑t=1

λi,t + 1/α

)−∑T

t=1ni,t

Esta distribuicao foi aplicada em varios trabalhos, ver capıtulo 36 Johnson e Bala-

krishnan (1996) para mais detalhes. Ela e denominada a Distribuicao Binomial Negativa

Multivariada (MVNB) ou Negativa Multinomial. Note que pode ser vista como a gene-

ralizacao da Binomial Negativa Bivariada (BNB). Para a distribuicao (BNB) temos:

E[Ni,t] = λi,t e V [Ni,t] = λi,t + αλ2i,t. (4.6)

51

Isto e: E[Ni,t] = E[E[Ni,t | θi]] = E[θiλi,t] = λi,tE[θi] = λi,t

V [Ni,t] = E[V [Ni,t | θi]] + V [E[Ni,t | θi]] = E[θiλi,t] + V [θiλi,t] = λi,tE[θi] + λ2i,tV [θi] =

λi,t + αλ2i,t = λi,t(1 + αλi,t)

Observe-se que na formula da variancia a sobredispersao e levada em conta. Alem

disso, a distribuicao a posteriori do termo de heterogeneidade do modelo Poisson-Gama

de efeitos aleatorios e tambem distribuıdo como gama com parametros a, b, dados por:

a =∑Tt=1 λi,t + 1/α e b =

∑Tt=1 ni,t + 1/α.

O calculo do premio futuro para o tempo t + 1 e a classe de risco i, pode ser obtido

facilmente da equacao (4.6):

E[Ni,t+1 | Ni,1, . . . , Ni,t] = E[E[Ni,t+1 | Ni,1, . . . , Ni,t] | θi]

= E[E[Ni,t+1 | θi] | Ni,1, . . . , Ni,t]

= E[λi,tθi | Ni,1, . . . , Ni,t]

= λi,tE[θi | Ni,1, . . . , Ni,t]

= λi,t

∑Tt=1 ni,t + 1/α∑Tt=1 λi,t + 1/α

Este resultado, nos motiva a incorporar a presenca de sobredispersao no numero dos

sinistros, utilizando o modelo misto Poisson Gama.

4.1.1 Modelo Binomial Negativo para o numero de sinistros

A distribuicao Binomial negativa e uma generalizacao do modelo Poisson, no sentido

que ela pode ser obtida pela mistura da distribuicao Poisson com a distribuicao Gama

ou como uma distribuicao Poisson composta com a distribuicao secundaria logarıtmica

(ver Klugman et al. (1998) na secao 3.7). O modelo Binomial negativo fornece maior

flexibilidade com respeito a forma da distribuicao. Ela possui dois parametros desconhe-

cidos. Por outro lado, o processo Poisson considera a taxa de ocorrencia de sinistros como

constante (homogeneo). Deste modo, se a taxa de ocorrencia aumenta linearmente com

relacao ao numero de sinistros passados, entao o numero de sinistros em qualquer perıodo

tera a distribuicao Binomial Negativa. Na literatura atuarial denomine-se ao processo

52

Poisson composto como o processo Polya - Aeppli Minkova (2004). Neste caso, o modelo

de risco coletivo e denominado o modelo de risco de Polya-Aeppli. Veja o Apendice B,

para maiores detalhes.

Incorporar a presenca de sobredispersao no numero dos sinistros em um modelo hierarquico

de risco coletivo, neste trabalho, significa usar o resultado da conjugacao do modelo Pois-

son Na,t = na,t | λa, βa, πa,t ∼ P (λaβaπa,t) e utilizar uma variavel latente βa distribuıdo

como um modelo Gama. Isto e βa ∼ G(δa, δa), para cada classe de idade a e perıodo

de tempo t, com a finalidade de manter comparabilidade dos modelos. Deste modo

assegura-se que:

E(Na,t | λa, πa,t) = λaπa,t = µa,t, para a = 1, . . . A, e, t = 1, . . . T,

que coincide com o valor medio do numero de sinistros no MHRC padrao introduzido

por Migon e Moura (2005).

A distribuicao mistura para o numero de sinistros Na,t dado os parametros δa, λa e dada

por:

p(na,t | δa, λa) =∫βaP (na,t | βa, λa, πa,t)G(βa | δa, δa)dβa; βa, λa, δa > 0

Contudo a distribuicao marginal conjunta de Na,t = na,t dado δa, λa, e

P [Na,1 = na,1, . . . , Na,T = na,T | δa, λa] =

=A,T∏a,t

[∫ ∞0

[(βaµa,t)

na,t

na,t!

]e(βaµa,t) × δδaa

γ(δa)βδa−1a,t e(−βaδa)dβa

](4.7)

Apos alguma algebra obtem-se que:

P [Na,t = na,t | δa, λa] =Γ(na,t + δa)

Γ(na,t)Γ(δa)pδaa,t(1− pa,t)na,t (4.8)

com ra = δa e pa,t =1

1 + µa,tδa

Segue-se que Na,t = na,t | δa, λa segue uma distribuicao Binomial Negativa (BN) com

parametros pa,t e ra, sendo denotada por: Na,t = na,t | δa, λa ∼ BN(pa,t, ra).

Com os primeiros momentos, dados pela a esperanca e variancia, respectivamente iguais

a:

E[Na,t | λa, δ] = µa,t = λaπa,t e V [Na,t | λa, δa] = µa,t(1 +µa,tδa

)

53

A seguir apresenta-se os tres ultimos modelos propostos neste trabalho, que incorporam

uma possıvel dispersao. Suponha sobredispersao nos modelos hierarquicos de risco co-

letivo padrao (MHRC-GP), de risco coletivo Normal-Poisson (MHRC-NP) e de risco cole-

tivo T-student-Poisson (MHRC-TP). Denominados de aqui em diante: modelo hierarquico

de risco coletivo Gama-Binomial Negativa (MHRC-GB), modelo hierarquico de risco co-

letivo Normal-Binomial Negativa (MHRC-NB) e modelo hierarquico de risco coletivo

T-student-Binomial Negativa (MHRC-TB). Isto e, a unica variacao nos modelos ja apre-

sentados sera a substituicao da distribuicao de Poisson pela distribuicao Binomial Nega-

tiva para modelar o numero dos sinistros.

4.1.2 Modelo hierarquico de risco coletivo Gama Binomial Ne-

gativa (MHRC-GB)

O primeiro nıvel da hierarquia para cada perıodo de tempo t e classe de risco a no Modelo

hierarquico de risco coletivo Gama Binomial Negativa (MHRC-GB) e dado por:

Xa,t | na,t, κa, θa ∼ G(na,tκa, θa) θa, κa > 0 (4.9)

Na,t | λa, πa,t, δa ∼ BN(pa,t, ra), pa,t ∈ [0, 1], λa, ra = δa > 0,

Com pa,t dado em (4.8) e πa,t igual a populacao segurada no perıodo de tempo t na classe

de risco a.

Assume-se independencia condicional para todos os perıodos de tempo t e todas as classes

de risco a. Logo a funcao de verossimilhanca do modelo (MHRC-GB) e dado por:

L(ΘGBa | DT) =

A,T∏a,t

[θκaa

Γ(na,tκa)xna,tκa−1a,t e−(θaxa,t) × Γ(na,t + δa)

Γ(na,t)Γ(δa)pδaa,t[(1− pa,t)θa]na,t

]

onde ΘGBa = θa, κa, δa, λa define o espaco parametrico para cada classe de risco a =

1, . . . , A, com θa, κa, δa e λa ∈ R+. O logaritmo da verossimilhanca e dada por:

logL(ΘGB′a | DT)

=A,T∑a,t

[log θa + (na,t − 1) log xa,t − θaxa,t + logψa,t + δa log pa,t + na,t log ξa,t] (4.10)

com: ΘGB′a = θa, δa, λa, ξa,t = [(1− pa,t)θa], ψa,t = Γ(na,t+δa)

Γ(na,tκa)Γ(na,t)Γ(δa).

54

4.1.3 Modelo hierarquico de risco coletivo Normal Binomial

Negativa (MHRC-NB)

Com ja foi dito antes para a distribuicao do tamanho dos sinistros com Ya,t = logXa,t,

atribui-se a distribuicao Normal com parametros µXa,t , σ2Xa,t dados em (4.1) e a distri-

buicao Binomial Negativa para o numero dos sinistros:

Ya,t | µXa,t , σ2Xa,t , na,t ∼ N(µXa,t , σ

2Xa,t), µa,t ∈ R σ2

a,t > 0 (4.11)


Com pa,t dado em (4.8).


de risco a. Logo a funcao de verossimilhanca do modelo (MHRC-NB) e dado por:

L(ΘNBa | DT) =

A,T∏a,t

1√2πσ2

xa,t

exp

−1

2(log xa,t − µxa,t

σxa,t)2

× Γ(na,t + δa)

Γ(na,t)Γ(δa)

(µa,tδ−1a )na,t

(1 + µa,tδ−1a )na,t+δa

onde ΘNB

a = θa, κa, δa, λa = ΘGBa , coincide com o espaco parametrico do modelo

(MHRC-GB), para cada classe de risco a = 1, . . . , A. Deste modo obtemos que o logaritmo

da verossimilhanca e dada por:

logL(ΘNB′

a | DT) =A,T∑a,t

[−1

2log(2πσxa,t)

]− 1

2

A,T∑a,t

P′

a,t

2+

A,T∑a,t

log φa (4.12)

com: ΘNB′a = ΘGB′

a , P′a,t =

log xa,t−µxa,tσxa,t

e φa = Γ(na,t+δa)Γ(na,t)Γ(δa)

( 11+µa,tδ

−1a

)δa( µa,tδ−1a

1+µa,tδ−1a

)na,t

4.1.4 Modelo hierarquico de risco coletivo T-student Binomial

Negativa (MHRC-TB)

Finalmente o sexto e ultimo modelo proposto e o Modelo hierarquico de risco coletivo

T-student Binomial Negativa (MHRC-TB). Analogamente como ja foi descrito para o

modelo anterior, considere que a distribuicao do valor dos sinistros dado por Ya,t =

logXa,t, tem distribuicao T-student com parametros µXa,t , σ2Xa,t dados em (4.1), onde

55

νa e o grau de liberdade, enquanto a distribuicao do numero de sinistros e Binomial

Negativa:

Ya,t | na,t, µXa,t , σ2Xa,t , νa ∼ T (µXa,t , σ

2Xa,t , νa) µa,t ∈ R σ2

a,t, νa > 0 (4.13)


Com pa,t dado em (4.8) e πa,t igual a populacao segurada no perıodo de tempo t na classe

de risco a.


de risco a. Logo a funcao de verossimilhanca do modelos (MHRC-TB) e dado por:

L(ΘTBa | DT) =

A,T∏a,t

γ[

(νa+1)2

]γ(νa

2)√πνaσ2

xa,t

[1 +

(log xa,t − µxa,t)2

νaσ2xa,t

]−(νa+1)2 Γ(na,t + δa)

Γ(na,t)Γ(δa)

(µa,tδ−1a )na,t

(1 + µa,tδ−1a )na,t+δa

onde ΘTB

a = θa, κa, νa, δa, λa, e o espaco parametrico do modelos (MHRC-TB), para

cada classe de risco a = 1, . . . , A. Finalmente o logaritmo da verossimilhanca e dado por:

logL(ΘTB′

a | DT) =A,T∑a,t

logννa2a w(νa)

[log(1 + na,t)12 ]− (νa + 1)

2log(νa + P 2

a,t) + log [φa]

(4.14)

com: ΘTB′a = θa, νa, δa, λa, w(νa) =

γ[ (νa+1)2 ]

γ( νa2

)γ( 12

), Pa,t =

log(

xa,tθa(1+na,t)12

(na,t)32

)

σxa,t

e φa = Γ(na,t+δa)

Γ(na,t)Γ(δa)

(µa,tδa

)na,t

(1+µa,tδa

)δa+na,t, a = 1, . . . , A. e t = 1, . . . , T.

4.2 Distribuicoes a priori para os parametros e hi-

perparametros dos modelos propostos

Sabe-se que os modelos anteriormente descritos ainda nao estao completamente especi-

ficados, pois os parametros de risco associados com cada uma das classes de riscos sao

desconhecidos. Deste modo para completar a especificacao do modelo sob a abordagem

bayesiana e necessario atribuir distribuicao a priori ao vetor parametrico Θ.

Por outro lado, considera-se razoavel assumir a independencia a priori dos parametros.

56

A escolha das distribuicoes a priori usadas neste trabalho estao relacionados com o ob-

jetivo de se fazer inferencia estatıstica com base em um mınimo ou na ausencia de in-

formacao subjetiva previa adicional. Portanto, neste trabalho consideram-se distribuicoes

a priori nao informativas para os parametros de um modelos de risco coletivo. Os calculos

destas distribuicoes a priori (de Jeffreys e de referencia) sao apresentados.

E facilmente verificado que o vetor parametrico ΘTB′ correspondente ao modelo (MHRC-

TB) e o mais geral, deste modo neste trabalho as prioris atribuıdas serao deduzidas

usando o modelo hierarquico de risco coletivo T-student Binomial Negativa, utilizando a

funcao de log verossimilhanca (4.14).

Consideremos o segundo nıvel da hierarquia, e definimos o vetor parametrico para cada

classe de risco a = 1, . . . , A. como sendo:ΘTB′a = θa, νa, δa, λa.

Como anteriormente foi descrito, os parametros associados a cada classe de risco sao

positivos. E natural atribuir-lhes uma distribuicao gama com hiperparametros α e β

respectivamente. Mas neste trabalho propoe-se considerar o uso das distribuicoes para os

parametros desconhecidos, descritas na Tabela 4.2, onde P indica a distribuicao Poisson

e B a distribuicao Binomial Negativa.

Tabela 4.1: Distribuicoes a priori propostas para os parametros dos modelos MHRC

Parametros Distribuicao a priori

θa G(αθa , βθa)

δa a priori de referencia

λPa G(αλa , βλa)

λBa a priori de referencia

νa a priori Jeffreys

4.2.1 A priori de Jefreys para νa

Apresenta-se a deducao da distribuicao a priori de Jeffreys do MHRC, isto e, usando a

funcao de verossimilhanca correspondente aos valores dos sinistros, obtemos as equacoes

57

para o calculo da distribuicao a priori segundo a regra de Jeffreys. O detalhe da regra

pode ser visto no capıtulo 2 na secao (2.2)

Para obter a matriz de informacao de Fisher:

I(θa, νa) =

Iθaνa Iθaνa

Iθaνa Iνaνa

.e necessario calcular:

d2

d2θalogL(Θa | Dt) =

∑A,Ta,t −

(νa+1σxa,tθ

2a

)1

σxa,t [νa+P 2a,t]

+ Pa,t[νa+P 2

a,t]+ 2

σxa,t

P 2a,t

[νa+P 2a,t]

2

d2

d2νalogL(Θa | Dt) =

∑A,Ta,t

1

2νa+ z(νa)− 1

[νa+P 2a,t]

+(νa+1

2

)1

[νa+P 2a,t]

2

,

com z(νa) =d2w(νa)

d2νa=

1

4

[ψ′(νa + 1

2

)− ψ′

(νa2

)]d2

dνadθalogL(Θa | Dt) =

∑A,Ta,t

1

σxa,tθa

Pa,t[νa+P 2

a,t]+(

νa+1σxa,tθ

2a

)Pa,t

[νa+P 2a,t]

2

Calculando os valores esperados EYa,t , onde Ya,t = logXa,t ∼ T (µxa,t , σ

2xa,t , νxa,t), obtemos:

Iθaθa = EYa,t[d2

d2θalogL(Θa | Dt)

]=

=A,T∑a,t

−(νa + 1

σxa,tθ2a

)1

σxa,t

(EYa,t

[(νa + P 2

a,t)−1]

+ 2EYa,t[P 2a,t(νa + P 2

a,t)−2])

+ EYa,t[Pa,t(νa + P 2

a,t)−1]

Iνaνa = EYa,t[d2

d2νalogL(Θa | Dt)

]=

=A,T∑a,t

1

2νa+ z(νa)− EYa,t

[(νa + P 2

a,t)−1]

+(νa + 1

2

)EYa,t

[(νa + P 2

a,t)−2]

Iθaνa = EYa,t[

d2

dνadθalogL(Θa | Dt)

]=

=A,T∑a,t

1

σxa,tθaEYa,t

[Pa,t(νa + P 2

a,t)−1]

+

(νa + 1

σxa,tθ2a

)EYa,t

[Pa,t(νa + P 2

a,t)−2]

onde: EYa,t[(νa + P 2

a,t)−k]

=γ( (νa+1)

2 )γ( νa

2)

γ( (2k+νa)2 )

γ( 2kνa+12

)ν−k, k = 1, 2, . . .

EYa,t[Pa,t(νa + P 2

a,t)−k]

= 0, k = 1, 2, . . .

EYa,t[P 2a,t(νa + P 2

a,t)−k]

=γ( (νa+1)

2 )γ( νa

2)

γ( (2k+νa−2)2 )

γ( 2kνa−12

)

ν−k+1

(2k+νa−1)

Deste modo obtemos:

−EYa,t[d2

d2θalogL(Θa | Dt)

]=∑A,Ta,t

5+νaσ2xa,t

θ2a(3+νa),

−EYa,t[d2

d2νalogL(Θa | Dt)

]=∑Aa

T4

[ψ′(νa2

)− ψ′

(νa+1

2

)− 2(5+νa)

νa(3+νa)(1+νa)

],

58

−EYa,t[

d2

dνadθalogL(Θa | Dt)

]= 0

Finalmente a priori segundo a regra de Jeffreys para a distribuicao a priori conjunta de

θa, νa no modelo hierarquico de risco coletivo T-student Binomial Negativo (MHRC-TB)

e denotada por πJcj(θa, νa) e e dada por:

πJcj(θa, νa) (4.15)

∝(

5 + νaθ2a(3 + νa)

) p2

×[ψ′(νa2

)− ψ′

(νa + 1

2

)− 2(5 + νa)

νa(3 + νa)(1 + νa)

] p2

onde p e numero de variaveis de regressao neste caso p = 1.

A priori de Jeffreys independente para νa, θa em um (MHRC-TB) e dado por:

πJind(νa) ∝[ψ′(νa2

)− ψ′

(νa + 1

2

)− 2(5 + νa)

νa(3 + νa)(1 + νa)

] p2

(4.16)

Para avaliar o uso adequado da distribuicao a priori obtida, deve-se verificar se a priori

de Jeffreys aqui obtida e propria ou nao, isto e:

∫νaπJ(νa)dνa = 1, ∀a = 1, . . . , A.

Portanto como e conhecido na literatura, basta provar a propriedade:

limθa→∞

p(θa) = O(θ−ka ), para k > 1 (4.17)

Usando a aproximacao apresentado em Abramowitz e Stegun (1964) para a funcao tri-

gama.

ψ(2)

(ϑa2

)≈ 2

ϑa+

2

ϑ2a

+4

3ϑ3a

obtemos limνa→∞ πJ(νa) = O(ν−1

a ), o qual confere que a priori nao e propria. Deste modo

o nucleo da distribuicao a posteriori e dado pela a condicional completa:

πJ(νa | xa,t, na,t, µa,t, σ2a,t) ∝

∝ γ[ (νa+1)2 ]

T

γ( νa2

)T√νaT

∏Tt

[1 + (log xa,t−µa,t)2

νaσ2a,t

]−(νa+1)2 (

5+νa3+νa

[ψ′(νa2

)− ψ′

(νa+1

2

)− 2(5+νa)

νa(3+νa)(1+νa)

]) 12 ,

0 ≤ xa,t <∞, νa > 0, σ2a > 0

Fonseca et al. (2008) encontraram a distribuicao a priori de Jeffreys para um modelo de

59

regressao, mostrando que ela e propria. Esta distribuicao e usada neste trabalho como

distribuicao a priori do parametro νa. Denotaremos por πJrg(νa):

πJrg(νa) ∝(

ϑa3 + ϑa

) p2

×([ψ′(ϑa2

)− ψ′

(ϑa + 1

2

)− 2(3 + ϑa)

ϑa(1 + ϑa)2

]) p2

, (4.18)

4.2.2 Priori de referencia do parametro de sobredispersao δa

O problema de dispersao sugere incorporar um fator de medicao da subdispersao Fs ou

sobredispersao F s, no modelo hierarquico de risco coletivo.

Dizemos que o modelo e sobredisperso se: V [Na,t] > E[Na,t], outro caso o modelo e

subdisperso. Logo definimos o fator de sobredispersao como:

Fs =V [Na,t]

E[Na,t]= (1 + µa,tδ

−1a ). (4.19)

O fator de sobredispersao F s quantifica o quanto a variancia da Binomial negativa excede

a sua media. A seguir descreve-se o calculo da priori de referencia, usando a metodologia

definida em Liseo et al. (2010) e baseada em um modelo de regressao binomial negativa.

Partimos de Na,t = na,t | βa, λaµa e βa ∼ G(δa, δa). Em particular µa = πTa,tλa, e como ja

foi deduzido anteriormente Na,t = na,t | δa, λa, πa,t ∼ BN(pa,t, δa), com pa,t = 1

(1+(πa,tλa)

δa).

Considerando-se o modelo T-student Binomial Negativo o logaritmo da funcao de veros-

similhanca incluindo a variavel latente βa e dada por:

logL(µa,t, λa, δa;Na,t)=

= −λaT∑t

(µa,t + δa) +

(T∑t

na,t + δa − 1

)log(λa) +

T∑t

[na,t log(λaµa,t)− log(na,t!)] +

Tδa log(δa)− T [log γ(δa) + (δa − 1) log λa].

As derivadas de segunda ordem sao dados por:

d2

dδ2alogL(µa,t, λa, δa;Na,t) = T [δ−1

a −Ψ′(δa)]

d2

dδadλalogL(µa,t, λa, δa;Na,t) = T [1− λ−1

a ]

d2

dλ2alogL(µa,t, λa, δa;Na,t) = −∑T

t (na,t + δa − 1)λ−2,

com E(λ−sa ) = δδaaγ(δa)

γ(δa−s)δ(δa−s)a

, s = 1, . . . e Ψ′

sendo a funcao trigrama

Calculando o valor esperado obtemos,

−E[− d2

dδ2alogL(µa,t, λa, δa;Na,t)

]= T [Ψ

′(δa)− δ−1

a ],

60

−E[− d2

dδadλalogL(µa,t, λa, δa;Na,t)

]= −T [δa − 1]−1

−E[− d2

dλ2alogL(µa,t, λa, δa;Na,t)

]= −∑T

t [µa,tδaδa−1

+ δ2aδa−2

], a = 1, . . . , A.

Usando o Teorema 2.2 de Liseo et al. (2010) obtem-se a priori condicional de δa | µa,t,

ver Sun e Berger (1998), para mais detalhe.

π(R)(δa | µa,t) ∝TΨ

′(δa)−

T

δa− δa − 2

δa(δa − 1)

T∑t

[µa,t(δa − 2) + δa(δa − 1)]−1

12

. (4.20)

Para derivar a priori para µa,t ou λa, considerando que µa,t = µ = eλ. Utiliza-se dire-

tamente a abordagem de Sun e Berger (1998). Para o modelo Binomial Negativa, com

parametros (δa, µ), isto e usando a equacao do logaritmo da verosimilhanca em (4.14),

temos:

logL(µa,t, δa;Na,t) = const.+∑Tt

[na,t log µa,t

µa,t+δa+ δa log δa

µa,tδa+ log Γ(na,t + δa)− log Γ(δa)

].

Do fato que a matriz de informacao de Fisher em (δa, µa,t), e diagonal tem-se:

|I|Iδa,δa

= Iµ,µ = Tδa

µa(µa,t + δa),

o qual depende de δa. Logo a priori marginal para µa,t ou λa e:

π(R)(µa,t) = exp

(1

2

∫π(δa | µa,t) log

δa

µa(µa,t + δa)

).

Pode-se observar que e preciso avaliar numericamente cada valor de µa,t. Alem disso,

observe que o uso de este metodo evita o calculo da esperanca sob Na,t de Ψ′(na,t + δa),

que e o procedimento usual para obter a priori de referencia deste modelo.

4.2.3 Distribuicoes a priori para os Hiperparametros αθa, βθa, αλa, βλa

No caso em que foram atribuıdos a priori gama para os parametros desconhecidos do se-

gundo nıvel da hierarquia, e necessario definir as distribuicoes associadas ao terceiro nıvel

do modelo hierarquico propostos neste trabalho. Considerando que os hiperparametros

αθa , βθa , αλa , βλa sao todos positivos, atribuı-se a distribuicao a priori gama vaga, isto e,

com parametros conhecidos G(0.01, 0.01),mas com media 1 e variancia 100.

61

Capıtulo 5

Aplicacao

Neste capıtulo apresentam-se os resultados de uma aplicacao dos modelos propostos

no capıtulo 4. Apresenta-se um estudo para dados simulados e reais. Estes modelos foram

aplicados em dados simulados com a finalidade de confirmar a eficiencia do procedimento

de inferencia utilizado. Isto e, estimar a precisao e a capacidade dos modelos propostos

para estimar os parametros do modelo. Alem disso, comparam-se os modelos propostos

com o encontrado na literatura utilizando dados referentes a um plano de saude. Os

resultados das Tabelas correspondentes as estatısticas dos parametros, encontram-se no

Apendice C.

5.1 Descricao do conjunto de dados

Foi feita uma aplicacao para dados reais utilizando os dados correspondentes de um plano

de seguro de saude com o objetivo de calcular os premios pagos utilizando os modelos

propostos no capıtulo anterior.

Os dados foram extraıdos de um plano de saude implementado no Nordeste do Brasil

e os premios pagos foram calculados para 7 classes de risco. Estas classes sao as faixas

etarias a = 1, ..., 7 e representam os grupos de idade nos intervalos [0, 17), [17, 30), [30, 40),

[40, 50), [50, 60), [60, 70), [70,+). As observacoes sao compiladas mensalmente (12 meses,

t = 1, ..., 12) do numero de segurados. A informacao esta dividida respetivamente em:

62

valores de consultas, diagnosticos e internacoes, os quais serao denominados servicos 1,2

e 3, respetivamente. Tem-se para cada servico, classe de idade a e perıodo de tempo t:

πa,t, o numero de segurados para cada tempo t e faixa etaria a assumido conhecido. na,t,

e o numero dos sinistros e xa,t, e o valor dos sinistros em uma classe de idade a e perıodo

de tempo t, respectivamente.

5.2 Estudo com dados simulados

Para fins ilustrativos foram gerados dados artificias do modelo MHRC-TP desenvolvido

no capıtulo 3, considerando T = 12, a = 1, πa,t = 1 e t = 1, . . . , 12 , λ = 5, θ = 8, ν = 5.

A Figura (5.1) mostra as dccp (distribuicoes condicionais completas a posteriori) para os

parametros νa, θa quando sao usadas as distribuicoes prioris obtidas no capıtulo anterior

πJcj(νa, θa), πInd(νa), π

Jrg(νa), cujas equacoes podem ser vistas em (4.15),(4.16),(4.18),

respectivamente. Repare que os parametros estao na escala logarıtmica. Do exemplo

Figura 5.1: Curvas de nıvel para o Logaritmo da verossimilhanca e as distribuicoes con-

dicionais completas dos parametros θa e νa

l(ν, θ | xa,t, na,t) V ero× πJf,G(νa, θa) V ero× πJcj(νa, θa) V ero× πJind,G(νa, θa)

anterior, e possıvel observar o comportamento das distribuicoes condicionais completas

nas diferentes distribuicoes a priori. Isto e, as curvas de nıvel possuem pontos maximos.

Neste trabalho no processo de estimacao foi utilizada a distribuicao a priori dada por

πJrg(νa), pois ela e propria.

63

Deste modo, foram feitas simulacoes, considerando amostras geradas e classificadas se-

gundo a descricao dos dados que serao utilizados na aplicacao em dados reais. Definem-se

dois cenarios: o primeiro cenario envolve os modelos cuja distribuicao do numero dos sinis-

tros e dada pela a distribuicao Poisson, isto e os modelos: MHRC: GP,NP,TP. O segundo

cenario se refere aos modelos cuja distribuicao do numero dos sinistros e a distribuicao

Binomial Negativa, isto e: MHRC: GB,NB,TB. Deste modo os parametros envolvidos em

cada um dos cenarios sao dados por: Θa = θa, λPa , νa e Θa = δa, λBa , θa, νa, respecti-

vamente. Observe que o parametro δa e um parametro proprio do cenario 2. Entretanto o

parametro λPa , denota o parametro λ proveniente da distribuicao Poisson. Neste sentido,

o parametro λBa , denota o parametro λ proveniente da distribuicao Binomial negativa. Os

demais parametros sao os mesmos nos dois diferentes cenarios. Lembre-se que se denota

por B, a variavel com distribuicao Binomial Negativa e denota-se por P , a variavel com

distribuicao Poisson, ou simplesmente cenario 2 e cenario 1, respectivamente.

Foram simuladas 20 amostras para ambos cenarios. Os valores verdadeiros dos parametros

utilizados para gerar as amostras sao dados na Tabela (5.1). Todos estes valores foram

Tabela 5.1: Valores verdadeiros dos parametros λa, θa, νaδa utilizadas na simulacao

P 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+

λpa 0.8712 0.9675 1.2430 0.8679 1.0276 1.0122 0.7813

θa 0.1594 0.3684 0.2145 1.3091 0.1665 0.2534 0.3864

νbga 6.4415 6.9303 6.1052 6.6040 6.9399 8.9514 8.5398

λbga 0.122 0.112 0.0912 0.0812 0.142 0.102 0.1322

δa 0.9362425 .8554903 .8249079 .933707 .8457212 .81688 .972395

gerados segundo a Gama com parametros 0.01 (G(0.01, 0.01), onde G denota a distri-

buicao Gama). Isto e, para cada classe de idade atribui-se a distribuicao Gama com

media 1 e variancia 100. No caso do grau de liberdade, os valores dos parametros foram

escolhidos aleatoriamente de uma uniforme entre 6 e 9. O procedimento de inferencia,

consiste em obter amostras da distribuicao a posteriori. Infelizmente estas nao podem ser

obtidas analiticamente e portanto e necessario utilizar metodos de simulacao estocastica

64

MCMC para simular amostras destas distribuicoes.

Implementou-se o algoritmo Metropolis Hasting, empregando-se uma escolha adequada

das distribuicoes propostas (q) para cada parametro. Neste trabalho foi escolhida a dis-

tribuicao normal truncada para quase todos os parametros. Vale mencionar que para o

parametro λa nos dois cenarios foram utilizadas a distribuicao Gama. Por outro lado,

na pratica devem-se tomar alguns cuidados para garantir a eficiencia do algoritmo. Esta

eficiencia foi atingida controlando-se a taxa de aceitacao α. A taxa de aceitacao para os

parametros apresentados neste trabalho estao em torno de 34%. Os resultados apresenta-

dos foram baseados em 75000 iteracoes do algoritmo MCMC, as quais foram descartadas

as primeiras 10000, consideradas como o aquecimento da cadeia. Tomou-se uma a cada

15 iteracoes, reduzindo uma possıvel autocorrelacao das cadeias.

Utilizou-se cadeias com 4334 iteracoes, isto e, a amostra da distribuicao a posteriori de

Θ(l)is , dada por π(Θ

(l)is ) contem L = 4334 valores; l = 1, . . . 4334, i = 1, . . . , 7 e s = 1.

para cada parametro e servico em cada uma das 7 classes de idade.

Nas Figuras (5.2), (5.3) apresentam-se os resultados dos diferentes parametros para to-

dos os modelos λa, δa, θa, νa. Dos graficos de histogramas pode-se observar um comporta-

mento (normal) esperado. Tambem foram utilizadas as estrategias mais empregadas para

diagnosticar a convergencia dos parametros. Estes metodos estao disponıveis no pacote

R: diagnostico de Raftery em Raftery e Lewis (1992); diagnostico de Geweke Geweke

(1992), Gelfand e Smith (1990) e os metodos observacionais, assim como os graficos das

cadeias das medias ergoticas. Os criterios formais e informais empregados indicam que

as cadeias convergem. Assim nao ha suspeita de nao convergencia dos parametros nos

diferentes modelos.

As Figuras (5.2), (5.3) apresentam os histogramas e intervalo de 95% de credibilidade

a posteriori para os parametros λa, δa, θa, νa, assim como os verdadeiros valores dos

parametros. Podemos concluir que os verdadeiros valores se encontram entre as linhas

pontilhadas que correspondentes aos quantis 2.5% e 97.5%. Para alguns parametros,

por exemplo (λ4), em todos os modelos, o verdadeiro valor do parametro encontra-se

um pouco afastado do ponto onde acontece a maxima densidade, mas ainda encontra-se

65

Figura 5.2: Curva de densidade, verdadeiro valor do parametro (linha cheia) e intervalo

de 95% de credibilidade (linha pontilhada), a posteriori para os parametros, para o servico

1 no cenario 1 MHRC-TP

θa λa νa

dentro do intervalo de credibilidade (2.5%,97.5%). Pode-se concluir que em todos os

casos se consegue recuperar a estrutura original dos parametros, isto e os verdadeiros va-

lores pertencem ao intervalo de credibilidade. Nas Tabelas (C.1), (C.2) sao apresentados

sumarios das distribuicoes a posteriori para o parametro λa nos dois cenarios.

Concluımos deste estudo de simulacao que a estimacao dos modelos propostos e efici-

ente, pois, segundo os resultados mencionados e possıvel verificar que os valores dos

parametros sao recuperados no processo de inferencia. Isto e, a simulacao de dados

mostrou que os verdadeiros valores dos parametros encontram-se dentro dos respectivos

intervalos de credibilidade. Isto acontece com todos os modelos. Alem disso, em todos os

casos houve convergencia das cadeias. Vale mencionar que todos os algoritmos utilizados

neste trabalho foram desenvolvidos no software R.

5.3 Aplicacao com dados reais

Aqui sao reportados os resultados encontrados com respeito a estimacao dos parametros

do servico 1. Este servico foi escolhido por apresentar menor variabilidade observada.

66

Figura 5.3: Curva de densidade, verdadeiro valor do parametro (linha cheia) e intervalo

de 95% de credibilidade (linha pontilhada), a posteriori para os parametros, para o servico

1 no cenario 2 MHRC-TB

θa λa

δa νa

Porem dado o objetivo deste trabalho, os valores dos premios de cada faixa etaria sao ob-

tidos de forma global, isto e, eles incorporam toda a incerteza associada aos tres servicos.

Os resultados dos modelos hierarquicos de risco coletivo propostos foram analisados se-

67

paradamente por servico. Isto e, no processo de estimacao a obtencao das amostras dos

parametros foram obtidas separadamente.

Com base na analise dos resultados da simulacao optou-se por apresentar os resultados

sumarizados em tabelas, graficos comparativos das estatısticas para as amostras a pos-

teriori dos parametros, analisando o comportamento nos servicos e classe de idade para

cada um dos modelos. Analisa-se tambem os parametros correspondentes de sobredis-

persao e robustez. Finalmente as distribuicoes preditiva a posteriori do premio serao

apresentados por cada classe de idade.

Espera-se encontrar um modelo adequado para esta aplicacao onde os resultados nao se-

jam muito afetados por observacoes aberrantes. Alem disso, pretende-se incorporar uma

possıvel dispersao. Os resultados apresentados neste capıtulo tem como objetivo obter

um modelo que permita estimar adequadamente os valores do premio predito. Deste

modo se compara o ajuste e a capacidade preditiva dos modelos. Para isso foram usadas

os criterios DIC,CRPS descritos em Spiegelhalter et al. (2002) e Gneiting et al. (2007)

respectivamente. Alem do fator de Bayes apresentado em Kass e Raftery (1995), base-

ado na aproximacao da distribuicao preditiva desenvolvida por Newton e Raftery (1994).

Finalmente as medidas EQMp, EAMp tambem, foram utilizadas. O criterio em todos os

casos (com excepcao do fator de Bayes) aponta como melhor modelo aquele que apresenta

o menor valor com respeito a medida que esta sendo considerada.

Lembrando a composicao dos dados, dispomos um total 84 observacoes por cada servico,

isto e, para as 7 classes de idades e 12 meses observados.

Os modelos propostos e as distribuicoes a priori utilizadas na obtencao das amostras a

posteriori sao as mesmas descritas no capıtulo 3. As quais, tambem foram usadas no

estudo de simulacao.

Implementou-se o algoritmo Metropolis Hastings para a obtencao das distribuicoes a

posteriori de todos os parametros. Posteriormente foram obtidas as amostras a posteri-

ori dos parametros de interesse. As taxas de aceitacao para a maioria dos parametros

encontram-se em torno de 40%.

Os valores resultantes apresentados foram baseados em 75000 iteracoes do algoritmo

MCMC, as quais foram descartadas as primeiras 10000, consideradas como o aqueci-

68

mento da cadeia. Tomou-se uma a cada 15 iteracoes. Deste modo, reduz-se a possıvel

autocorrelacao das cadeias.

Utilizou-se nesta analise de resultados, as cadeias com 4334 iteracoes, isto e a distribuicao

a posteriori de Θ(l)is , dada por π(Θ

(l)is ) contem L = 4334 valores.

Nas Tabelas (C.3), (C.4), (C.5), (C.6), (C.7), (C.8) apresentam-se as estatısticas das amos-

tras a posteriori dos diferentes parametros λa, δa, θa, νa para todos os modelos ajustados.

Na Figura (5.4) apresentam-se os histogramas das amostras a posteriori para todos os

parametros λ1, δ1, θ1, ν1 referentes a primeira classe de idade para todos os modelos nos

dois cenarios, correspondentes no servico 1. Observe que os histogramas tem um com-

portamento (normal) esperado. Tambem foram utilizadas as mesmas estrategias para a

analise de dados simulados. Finalmente os criterios formais e informais empregados indi-

cam que as cadeias convergem. Para analisar a estimacao do parametro λa nos diferentes

Figura 5.4: Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori

para os parametros λa, θa, νa, δa para o servico 1 para a classe de idade 1 nos MHRC

GP NP TP

GB NB TB

cenarios, isto e λPa , λBa , utiliza-se a Figura 5.5 onde e possıvel observar o aumento do

valor do parametro λPa para as classes de idade maiores. Isto acontece quando o numero

de sinistro e modelado por uma distribuicao Poisson (cenario 1). No entanto, no (cenario

2) os parametros λBa para a = 1, . . . , 7 variam quase em torno de um mesmo valor. Vale

69

mencionar tambem a alta variabilidade das ultimas classes de idade. Por outro lado,

Figura 5.5: Boxplot da distribuicoes a posteriori para os parametros λa para o servico 1

por classe de idade nos diferentes cenarios

o comportamento do parametro θ nos diferentes cenarios e as diferentes classes etarias

segundo a Figura 5.6, indica que este parametro nao apresenta mudancas. Isto e, os

parametros θa nao apresentam diferencas significativas. Mas o comportamento destes

parametros em relacao as faixas de idade indica que nas classes de idade maiores ha

maior variabilidade em relacao as demais classes de idade. Com relacao ao parametro

que mede a sobredispersao, δa, a = 1, . . . , 7 ver Figura 5.7, parece nao depender da dis-

tribuicao dos valores dos sinistros assumidas. Se analisamos os parametros νa que mede

a robustez do modelo em cada classe de idade, e possıvel verificar que nao apresentam

mudancas significativas em seu comportamento para os diferentes cenarios. Analisamos

os parametros relacionados com as medidas de sobredispersao e robustez δa e νa, res-

pectivamente, para cada classe de risco a, nos tres servicos s = 1, 2, 3 para os diferentes

70

Figura 5.6: Boxplot das distribuicoes a posteriori para os parametros θa para o servico 1


Figura 5.7: Boxplot das distribuicoes a posteriori para os parametros δa para o servico 1

por classe de idade no cenario dois

71

Figura 5.8: Boxplot das distribuicoes a posteriori para os parametros νa para o servico 1


modelos. Observamos nas Figuras 5.9 e 5.10 que os valores de δ em todos os modelos

sao maiores do que 10 e menores do que 40, sendo que nos servicos 1 apresentam os

maiores valores e nos servicos 2 e 3. Isto reflete a dispersao nos dados em particular

nesses servicos. No entanto, com relacao ao parametro que esta relacionado a robustez,

observamos que os menores valores correspondem ao servico 3. Alem disso, os valores

das estimativas dos parametros δ e ν sugerem que o modelo com subdispersao e caudas

pesadas devem ser considerados.

5.3.1 Analise da presenca de dados discordantes

Observe que Xa,t e o resultado da mistura Log Normal Gamma, onde φa,t pode ser visto

como a precisao na observacao (a, t), isto e:

Lt(xa,t | θa, κa, νa) =∫ ∞+

0Ln(xa,t | na,t, φa,t, θa, κa)G(φa,t |

ν

2,ν

2)dφa,t

Assim, e possıvel observar que a distribuicao a posteriori de φ e facilmente obtida. Alem

disso, amostras para o parametro φa,t podem ser obtidas incorporando um passo no

algoritmo. Isto e, usando o amostrador de Gibbs, amostras da distribuicao a posteriori

para o parametro φa,t foram obtidas e analisadas. A distribuicao posteriori para φa,t, e

72

dada por:

φa,t | xa,t, θ(l)a , ν

(l)a ∼ G(

νa + 1

2,( log(Xa,t)−µa,t

σa,t)2 + νa

2).

Lembrando que na analise κa = 1, e incorporando a priori φa,t ∼ G(νa2, νa

2), com media

E(φa,t) = 1, deste modo espera-se que a posteriori o valor um esteja contido no intervalo

de credibilidade. Em particular esperamos que os valores das medias a posteriori para

cada observacao encontram-se em torno de 1. Para uma melhor compreensao, a Figura

5.11 mostra o comportamento da distribuicao a posteriori do parametro φsa,t, isto e, φa,t

para cada observacao por cada servico s. Pode-se concluir que a presenca de dados

discrepantes no servico 3 e maior comparado com a quantidade apresentada no servico

2.

5.3.2 Calculo do premio

Para a avaliacao do Premio nos modelos propostos devemos considerar alguns resultados

do Capıtulo 2 e 3. O total dos valores dos sinistros e a populacao segurada para faixa

etaria a para um horizonte de tempo futuro H, sao dado respectivamente por:

Xa,T+H =T+H∑t=T+1

Xa,t Πa,T+H =T+H∑t=T+1

Πa,t

Denotando-se Ra,T+H = Xa,T+H/Πa,T+H , entao o premio para cada faixa etaria a e o

percentil 95th da distribuicao:

f(Ra,T+H | DT ) =∫

Θf(Ra,T+H | θ)f(θ | DT )dΘ

Lembrando que o valor 95% da preditiva e resultado do uso da teoria de decisao bayesi-

ana. A decisao d corresponde ao percentil 95% que maximiza a funcao utilidade desvio

absoluto modificado quando k1 = 0.05 e k2 = 0.95. Deste modo os valores resultantes

como premio sao calculados baseados na distribuicao preditiva a posteriori. Resta com-

parar os premios resultantes para todos os modelos aqui apresentados e decidir qual e o

modelo adequado segundo os criterios considerados. Alem disso, desejamos obter premios

que sejam pouco afetados por dados discordantes que considerem a sobredispersao.

73

Nas Tabelas (5.2) e (5.3) apresenta-se os valores do premio para todos os modelos ajus-

tados nos diferentes cenarios. Pode-se observar que segundo os dois cenarios o com-

portamento das estimativas dos premios nao apresentam diferencas significativas. Mas

pode-se observar uma pequena mudanca para as primeiras classes de idade, onde o premio

aumenta dependendo do cenario. No entanto para classe de idades maiores o premio di-

minui. Para uma melhor compressao as Figuras (5.12) e (5.13) mostram o encolhimento

dos valores estimados dos premios por faixa etaria para os diferentes modelos considera-

dos. Esta variacao do valor do premio se apresenta nas faixas etarias maiores, isto e, se a

distribuicao que modela os valores de sinistros e Log T-student o valor do premio resul-

tante e menor comparado com o valor do premio obtido ao se considerar a distribuicao

Gama ou Log Normal nos valores dos sinistros; este comportamento nao difere quando

se muda de cenario.

74

Figura 5.9: Grafico da distribuicao preditiva a posteriori, Mediana e o Intervalo de cre-

dibilidade (IC) para o parametro δa por servicos

GB

NB

TB

75

Figura 5.10: Grafico da distribuicao preditiva a posteriori, Mediana e o Intervalo de

credibilidade (IC) para o parametro ν por servicos

TP

TB

76

Figura 5.11: Boxplot da distribuicao posteriori de φ1a,t, φ

2a,t, φ

3a,t para cada classe a no

tempo t por servico respectivamente:

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat11

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat21

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat31

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat41

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat51

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat61

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat71

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat12

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat22

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat32

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat42

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat52

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat62

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat72

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat13

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat23

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat33

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat43

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat53

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat63

E[p

(φats|x

atn a

tπat)]

1 2 3 4 5 6 7 8 9 11

0.0

1.5

3.0

φat73

E[p

(φats|x

atn a

tπat)]

77

Tabela 5.2: Estatisticas da distribuicao preditiva aposteriori dos gasto por indenizacao por pessoa Ra,t+H , mediana (M), intervalo

de credibilidade de 95 % (IC) e desvio padrao (sd) no cenario 1

M St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+

GP

M 15.130 23.040 26.750 39.020 29.200 55.790 79.170

IC (14.520-15.8) (21.960-24.180) (25.590-28.000) (37.510-40.600) (28.060-30.420) (52.860-58.947) (73.293-85.727)

95% 15.674 23.980 27.800 40.300 30.220 58.400 84.5435

sd 0.319 0.5610 0.621 0.781 0.599 1.540 3.176

NP

M 14.980 22.290 25.950 33.320 28.330 49.650 67.440

IC (14.360-15.620) (21.260-23.360) (24.823-27.130) (32.150-34.500) (27.240-29.490) (47.190-52.236) (62.786-72.286)

95% 15.510 23.180 26.950 34.300 29.310 51.830 71.483

sd 0.319 0.532 0.597 0.599 0.573 1.290 2.413

TP

M 15.510 21.280 26.370 30.320 30.020 43.980 56.410

IC (14.690-16.380) (19.940-22.830) (24.390-28.620) (28.410-31.990) (28.390-31.710) (40.690-48.396) (50.486-63.733)

95% 16.250 22.563 28.230 31.730 31.440 47.563 62.360

sd 0.430 0.739 1.091 0.923 0.851 2.0104 3.845

78

Tabela 5.3: Estatisticas da distribuicao preditiva aposteriori dos gasto por indenizacao por pessoa Ra,t+H , mediana (M), intervalo

de credibilidade de 95 % (IC) e desvio padrao (sd) no cenario 2

M St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+

GB

M 15.130 23.050 26.770 39.030 29.210 55.820 79.230

IC (14.510-15.770) (22.003-24.166) (25.520-28.030) (37.513-40.580) (28.050-30.413) (52.853-58.933) (73.336-85.796)

95% 15.670 23.970 27.810 40.320 30.210 58.460 84.353

sd 0.316 0.550 0.627 0.780 0.598 1.572 3.086

NB

M 14.980 22.310 25.970 33.330 28.360 49.680 67.230

IC (14.380-15.600) (21.300-23.350) (24.800-27.190) (32.21-34.530) (27.280-29.466) (47.250-52.356) (62.770-72.416)

95% 15.490 23.200 26.990 34.330 29.300 51.903 71.523

sd 0.313 0.532 0.609 0.591 0.566 1.304 2.456

TB

M 15.510 21.280 26.430 30.320 30.0350 43.960 56.405

IC (14.690-16.390) (19.930-22.820) (24.350-28.706) (28.480-32.100) (28.416-31.730) (40.410-48.643) (50.616-63.697)

95% 16.250 22.570 28.320 31.790 31.483 47.683 62.300

sd 0.434 0.743 1.097 0.924 0.856 2.258 3.346

79

Figura 5.12: Grafico de encolimento dos valores do premio para os modelos propostos. Os valores dos sinistros sao distribuıdos

seguindo a distribuicao Gama, Log Normal e Log T-student, respectivamente segundo o cenario 1

80

Figura 5.13: Grafico de encolimento dos valores do premio para os modelos propostos. Os valores dos sinistros sao distribuıdos

seguindo a distribuicao Gama, Log Normal e Log T-student, respectivamente segundo o cenario 2

81

A Figura (5.14) apresenta os intervalos de credibilidade (linha tracejada) e o valor

do premio estimado (ponto cheio) para todos os modelos propostos. Pode-se observar a

influencia dos valores extremos na modelagem, pois como ja foi mencionado nas classe

de risco maiores a presenca de dados discrepantes e maior.

Figura 5.14: Intervalos de 95% de credibilidade e as estimativas pontuais do premios

por classe de idade segundo os dois cenarios. Os valores dos sinistros seguindo: Gama,

Normal, T-st, respectivamente

Premio, Cenario 1 Premio, Cenario 2

A Figura (5.15) apresenta os histogramas e intervalo de 95% de credibilidade da pre-

ditiva a posteriori para cada um dos valores estimados dos premios por cada faixa etaria

para os cinco modelos propostos. Percebe-se que os histogramas sao bem comportados.

82

Figura 5.15: Histograma e intervalo de 95% de credibilidade (linha pontilhada) e o valor estimado do premio (linha cheia vertical

vermelha) da distribuicao preditiva a posteriori Ra,t+H para cada classe de idade em todos os modelos ajustados

PGP PNP PTPP1

14.0 15.0 16.0

0.0

0.8

P2

21 22 23 24 25

0.0

0.4

P3

25 26 27 28 29

0.0

0.3

0.6

P4

36 38 40 42

0.0

0.3

P5

27 28 29 30 31

0.0

0.4

P6

50 54 58 62

0.00

0.15

P7

70 80 90

0.00

0.08

P1

28.0 29.0

0.0

1.0

P2

14.0 15.0 16.0

0.0

0.6

1.2

P3

20 21 22 23 24

0.0

0.4

P4

24 25 26 27 28

0.0

0.3

0.6

P5

31 32 33 34 35

0.0

0.4

P6

27 28 29 30

0.0

0.4

P7

46 48 50 52 540.

000.

20

P1

14.0 15.0 16.0 17.0

0.0

0.6

P2

19 21 23 25

0.0

0.3

P3

24 26 28 30 32

0.0

0.2

P4

26 28 30 32

0.0

0.3

P5

28 30 32 34

0.0

0.3

P6

40 45 50 55 60

0.00

0.15

P7

50 70 90 110

0.00

0.08

PGB PNB PTB

P1

14.0 15.0 16.0

0.0

0.6

1.2

P2

21 22 23 24 25

0.0

0.4

P3

25 26 27 28 29

0.0

0.3

0.6

P4

36 38 40 42

0.0

0.3

P5

27 28 29 30 31

0.0

0.4

P6

50 54 58 62

0.00

0.15

P7

70 75 80 85 90

0.00

0.08

P1

14.0 15.0 16.0

0.0

0.6

1.2

P2

21 22 23 24

0.0

0.4

P3

24 25 26 27 28

0.0

0.3

0.6

P4

31 32 33 34 35 36

0.0

0.4

P5

26 27 28 29 30 31

0.0

0.4

P6

44 48 52

0.00

0.20

P7

60 65 70 75

0.00

0.15

P1

14.0 15.0 16.0 17.0

0.0

0.6

P2

19 20 21 22 23 24 25

0.0

0.3

P3

24 26 28 30

0.0

0.2

P4

26 28 30 32 34 36 38

0.0

0.3

P5

28 30 32 34

0.0

0.3

P6

35 40 45 50 55 60 65

0.00

0.15

P7

50 60 70 800.

000.

08

83

Na Figura (5.16) podemos observar o incremento dos valores obtidos dos premios

segundo as classes de idade. Pode-se observar que os valores do sinistros considerando

a distribuicao Log T-student nos dois cenarios, e a unica que apresenta consistencia no

crescimento da distribuicao Ra,T+H segundo as faixas etarias.

Figura 5.16: Boxplot das distribuicoes preditivas: Ra,T+H nos modelos ajustados segundo

classe de idade segundo os dois cenarios

Na seguinte secao serao analisados criterios que auxiliam a escolha do modelo.

5.3.3 Comparacao dos modelos propostos

Nesta secao utiliza-se alguns criterios de comparacao para verificar a adequabilidade dos

modelos propostos. Dado que o objetivo principal do trabalho e fazer a predicao do

premio, escolhe-se um modelo que tenha maior capacidade preditiva. Entre os criterios

de comparacao utilizados na pratica e como ja foi descrito, consideramos o CRPS, cujos

resultados estao de acordo com os obtidos segundo o criterio DIC. Alem disso, calcularam-

se as medidas Erro Absoluto Medio predito (EAMp), o Erro Quadratico Medio predito

84

(EQMp) e o Fator de Bayes.

Tabela 5.4: Valor do Premio para todos os modelos propostos

M 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+

GP 15.6735 23.9800 27.8000 40.3000 30.2200 58.4000 84.5435

NP 15.5100 23.1800 26.9500 34.3000 29.3100 51.8300 71.4835

TP 16.2500 22.5635 28.2300 31.7300 31.4400 47.5635 62.3600

GB 15.6700 23.9700 27.8100 40.3200 30.2100 58.4600 84.3535

NB 15.4900 23.2000 26.9900 34.3300 29.3000 51.9035 71.5235

TB 16.2500 22.5700 28.3200 31.7900 31.4835 47.6835 62.3000

Na Tabela (5.5) apresenta-se um sumario das medidas de comparacao dos modelos

hierarquico de risco coletivo propostos neste trabalho. Pode ser visto, que os criterios

DIC, CRPS, indicam que a distribuicao Log T-student parece a mais apropriada para

modelar os valores dos sinistros. Para o numero de sinistros deve-se utilizar a distribuicao

Binomial Negativa. Isto e, o cenario 2 deve ser considerado. Por outro lado, o criterio

EAMp indica a escolha do cenario 1, mas a distribuicao para a modelagem dos valores de

sinistros deve ser Log T-student. No entanto, o criterio EQMp nao e influenciado pelos

cenarios, isto e, nao ha diferenca significativa para os diferentes cenarios. Alem disso,

este tambem sugere o uso da distribuicao Log T-student para a modelagem dos valores

dos sinistros. Contudo, conforme pode ser observado na Tabela 5.6, o fator de Bayes

fornece um resultado diferente, isto e, ele indica que o modelo MHRC Normal Binomial

Negativa deve ser preferıvel quando comparado com o modelo MHRC T-student Binomial

Negativa.

Finalmente pode-se concluir que a maioria dos criterios considerados dao preferencia ao

cenario 2 e a modelagem dos valores dos sinistros adotado deve ser a distribuicao Log

T-student: MHRC-TB.

85

Tabela 5.5: Valores de DIC, CRPS, EQMp, EAMp para os modelos ajustados

MHRC D.bar D.est DIC CRPS EQMp EAMp

GP 10420.14 10378.410 10461.860 0.491 0.871 0.573

GB 8761.463 8582.174 8940.752 0.581 1.330 0.755

NP 8172.317 8130.900 8213.733 0.465 0.758 0.546

NB 7349.903 6125.228 8574.577 0.646 0.934 0.798

TP 6077.799 6036.067 6119.53 0.454 0.701 0.540

TB 4005.113 3957.580 4052.646 0.399 0.704 0.611

Tabela 5.6: Resultados da comparacao usando o Fator de Bayes

M0 M1 FB Resultados

GP GB 13045.439 Evidencia muito forte contra M0

GP NP 2248.202 Evidencia muito forte contra M0

NP TP 2115.248 Evidencia muito forte contra M0

NP NB 1225482.686 Evidencia muito forte contra M0

NB TP -1223367.438 M0 mostra maior evidencia que M1

GB NB 1214685.450 Evidencia muito forte contra M0

TP TB 2089.184 Evidencia muito forte contra M0

GB TB -6592.803 M0 mostra maior evidencia que M1

NB TB -1221278.253 M0 mostra maior evidencia que M1

86

Capıtulo 6

Conclusoes e trabalhos futuros

Neste trabalho foram propostos modelos hierarquicos de risco coletivo que incorporam

a robustez e sobredispersao com a finalidade de obter um modelo capaz de fornecer

estimacoes e previsoes do premio que nao sejam muito influenciados pelas observacoes

aberrantes. Deste modo e possıvel fazer uma adequada precificacao do premio.

O procedimento de inferencia foi feito sob o enfoque bayesiano e foi desenvolvida uma

metodologia de estimacao atraves dos metodos MCMC.

Os modelos propostos foram estruturados de forma hierarquica. Cinco modelos foram

propostos e analisados. Para o modelo hierarquico de risco coletivo que incorpora a

robustez e sobredispersao, foram calculadas distribuicoes a priori nao informativas (de

Jeffreys e de referencia) para os parametros associados ao grau de robustez e de sobre-

dispersao, respectivamente.

Para validacao do algoritmo programado no software R, dados artificiais foram gerados

a partir dos modelos propostos, utilizando distribuicoes a priori proprias: de Jeffreys

e de referencia. Conclui-se do estudo de simulacao que os valores dos parametros sao

recuperados no processo de inferencia. Isto acontece com todos os modelos.

A convergencia das cadeias dos parametros foi verificada atraves dos metodos formais

(diagnosticos de Geweke e de Raftery), assim como metodos informais. Foi possıvel en-

contrar uma metodologia para deteccao de observacoes atıpicas. Assim como conhecer

as classes e os servicos mais dispersos.

Em relacao aos dados, foi verificado que o servico 3 apresenta a maior quantidade de

87

valores discrepantes e alem disso e mais disperso. O encolhimento do valor de premio em

cada cenario e devido a distribuicao associada aos valores dos sinistros. Alem disso, nao

existe diferenca significativa entre os cenarios considerados. A modelagem dos valores

do sinistros considerando a distribuicao Log T-student nos dois cenarios, e a unica que

apresenta consistencia no crescimento da distribuicao Ra,T+H segundo as faixas etarias.

Pode-se observar que as estimativas dos parametros δ e ν sugerem modelos com sub-

dispersao e caudas pesadas. Assim, na comparacao de modelos a maioria dos criterios

considerados conferem a preferencia pelo cenario 2 e para modelar os valores dos sinis-

tros deve ser empregado a distribuicao Log T-student. Contudo, os criterios CRPS, DIC

sugerem que o modelo hierarquico de risco coletivo Log T- student, Binomial Negativa

deve ser considerado.

Como trabalhos futuros, poderia ser considerado um modelo que relacione as despesas e

a idade do beneficiario. Distribuicoes Birnbaum Saunder-t e Gaussiana inversa, tambem

deveriam ser avaliadas e possivelmente empregadas para modelar os valores dos sinistros,

ver Gilberto et al. (2012), Leiva et al. (2008).

88

Apendice A

SBETA2

A.1 A Distribuicao SBeta2

A funcao de densidade Distribuicao SBeta2 e dada por:

ψ ∼ Beta2(p, q, b), π(ψ) =γ(p+ q)

γ(p)γ(q)

1

b

(ψb)p−1

(ψb

+ 1)p+q, ψ > 0

com b, p, q > 0, Johnson e Balakrishnan (1996) apresenta o caso b = 1. Pode ser definida

como uma mistura da distribuicao Gamma para o parametro de escala. Esta distribuicao

assume valores em R+. Suponha que:

ψ ∼ Gamma(p, b/ρ)

ρ ∼ Gamma(q, 1)

onde Gamma (a,b) denota a distribuicao Gamma com funcao de densidade dada por:

p(x | αβ) =1

Γ(α)βaxα−1 exp−x/β, α > 0, β > 0;

Sendo β o parametro de escala.

f(ψ, ρ) = Ga(ψ | ρ)Ga(ρ)

f(ψ, ρ) =

ρp

Γ(p)bpψp−1 exp−ψ

bρ

1

Γ(q)ρq−1 exp−ρ

Logo temos que :

89

f(ψ, ρ) ∝ ψp−1ρp+q−1 exp

[−(ψ

b+ 1)ρ

]Assim a densidade marginal para ψ e dada por:

f(ψ) ∝ ψp−1∫ ∞

0ρp+q−1 exp

[−(ψ

b+ 1

)ρ

]dρ ∝ ψp−1

(ψb

+ 1)p+q

f(ψ) =γ(p+ q)

γ(p)γ(q)

1

b

(ψb)p−1

(ψb

+ 1)p+q

Nao e difıcil mostrar que a densidade de 1ψ

e:

f(1

ψ) =

γ(p+ q)

γ(p)γ(q)b

(ψb)q−1

(ψb+ 1)p+q

Para a simulacao dos valores desta distribucao pode ser usado os (Odds) ψ = $1−$ ,

onde $ ∼ Beta($ | p, q).

A.1.1 Momentos SBeta2

E[ψ] = bE[V ] =p

q − 1quando q > 1

V ar[ψ] = b2V ar[V ] =p(p+ q − 1)

(q − 1)2(q − 2)b2 quando q > 2

e V = ψb

90

Apendice B

Processo Polya

B.1 Processo Polya - Aeppli

O processo de Polya-Aeppli e definido como uma generalizacao do processo de Poisson

homogeneo, definido em Minkova (2004). Baseia-se na variavel aleatoria X que segue

uma distribuicao geometrica com parametro 1− ρ, isto e,

P (X = i) = ρi−1(1− ρ), i = 1, 2, . . . .

Deste modo, o processo de Poisson composto e chamado de Polya - processo Aeppli. Um

processo de contagem N(t), t ≥ 0 e dito ser um Processo Polya-Aeppli se

a) N(0) = 0;

b) N(t) tem incrementos estacionarios, independentes;

c) para cada t > 0, N(t) e Polya - Aeppli distribuıdo.

Um modelo de risco em que o processo de contagem e o processo Polya-Aeppli e deno-

minado de modelo de risco de Polya-Aeppli.

Na pratica utiliza-se a distribuicao binomial negativa, incorporando-se efeitos aleatorios,

como e mostrado em Hausman et al. (1984). Eles mostram que condicionado ao efeito

1/δi, a distribuicao de Ni,t tem os seguintes momentos:

E[Ni,t | δi] = λi,t/δi e V [Ni,t | δi] = E[Ni,t | δi](1 + δi)/δi

91

Assim, esta distribuicao condicional implica sobredispersao. Eles desenvolveram o modelo

misto Binomial Beta, onde atribuem p = δi/(1 + δi) a distribuicao beta (veja tambem

Duvall (1999)) com parametros (a, b), com media a/(a+b) e variancia ab/((a+b+1)(a+

b)2). Hausman et al. (1984) obtem a distribuicao conjunta da Binomial Negativa-Beta

dada por:

P [Ni,1 = ni,1, . . . , Ni,T = ni,T ] =

[T∏t=1

Γ(λi,t + ni,t)

Γ(λi,t)Γ(ni,t + 1)

]Γ(∑Tt=1 ni,t + b)Γ(

∑Tt=1 λi,t + a)Γ(a+ b)

Γ(a)Γ(b)Γ(∑Tt=1 ni,t +

∑Tt=1 λi,t + a+ b)

Os momentos da Binomial Negativa-Beta sao dados por:

E[Na,t] = λi,tb

a− 1

e

V [Na,t] = λi,t(a+ b− 1)b

(a− 1)(a− 2)+ λ2

i,t

[(b+ 1)b

(a− 1)(a− 2)− b2

(a− 1)2

], a > 2, b > 0

isto e E[Na,t] = E[E[Na,t | α, β]] = E[απa,tβ

] = E[α 1−pp

] = α(E[1p]− 1) = α[ b

a−1], com p =

1

1+πa,tβ

V [Na,t] = E[V [Na,t | α, β]] + V [E[Na,t | α, β]] = E[α 1−pp2

] + V [α 1−pp

] = α2V [1−pp

] +

αE[1−pp2

] = α2(E[(1−pp

)2] − E[1−pp

]2) + αE[1−pp2

] = α2[ (b+1)b(a−1)(a−2)

− b2

(a−1)2] + α[ b(a+b−1)

(a−1)(a−2)] =

αb(a+b−1)(α+a−1)(a−1)2(b−1)

,

O modelo Binomial-Beta e um casso particular da distribuicao Multinomial-Dirichlet,

para mais detalhes ver Paulino et al. (2003) cap. 6.

92

Apendice C

Tabelas

C.1 Tabelas das estatısticas dos parametros estima-

dos

93

Tabela C.1: Estatisticas da distribuicao a posteriori de λa: a mediana (M), o valor verdadeiro (V) e o intervalo de credibilidade

de 95 % e o desvio padrao nos modelos segundo o cenario 1, referente ao estudo simulado

MHRC S 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+

λGPa

V 0.8712 0.9675 1.2430 0.8679 1.0276 1.01 0.7813

M 0.8706 0.9482 1.2430 0.8518 1.0330 0.9882 0.7715

IC (0.8466-0.8948) (0.9144-0.9830) (1.1993-1.2850) (0.8250-0.8778) (0.9996-1.0670) (0.9450-1.0330) (0.7226-0.8199)

sd 0.0124 0.0176 0.0215 0.0136 0.0171 0.0227 0.0249

λNPa

M 0.8703 0.9484 1.2430 0.8513 1.0340 0.9872 0.7718

IC (0.8464-0.8942) (0.9147-0.9835) (1.2013-1.2850) (0.8258-0.8783) (0.9994-1.0670) (0.9422-1.0340) (0.7240-0.8213)

q950 0.8906 0.9782 1.2780 0.8731 1.0620 1.0270 0.8132

sd 0.0122 0.0176 0.0212 0.0133 0.0172 0.0231 0.0250

λTPa

M 0.8705 0.9488 1.2420 0.8515 1.0340 0.9882 0.7723

IC (0.8470-0.8945) (0.9154-0.9828) (1.2030-1.2830) (0.8252-0.87874) (1.0000-1.0670) (0.9437-1.0320) (0.7254-0.8220)

q950 0.8910 0.9773 1.2770 0.8744 1.0620 1.0250 0.8145

sd 0.0122 0.0175 0.0209 0.0137 0.0168 0.0229 0.0248

94

Tabela C.2: Estatisticas da distribuicao a posteriori de λa: a mediana (M), o valor verdadeiro (V) e o intervalo de credibilidade

de 95 % e o desvio padrao nos modelos segundo o cenario 2, referente ao estudo simulado

MHRC S 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+

λGBa

V 0.1220 0.1120 0.0912 0.0812 0.1420 0.1020 0.1322

M 0.1179 0.1196 0.1251 0.1251 0.1246 0.1280 0.1189

IC (0.0241-0.3152) (0.0284-0.3181) (0.0284-0.3500) (0.0297-0.3601) (0.0268-0.3445) (0.0308-0.3524) (0.0257-0.3103)

q950 0.2716 0.2721 0.2965 0.2996 0.2924 0.3005 0.2701

sd 0.0769 0.0763 0.0836 0.0856 0.0943 0.0843 0.0747

λNBa

M 0.1279 0.1229 0.1314 0.1323 0.1346 0.1319 0.1183

IC (0.0366-0.3321) (0.0342-0.3164) (0.0341-0.3520) (0.0363-0.3530) (0.0350-0.3514) (0.0331-0.3580) (0.0272-0.3015)

q950 0.2831 0.2725 0.2995 0.3058 0.3060 0.3027 0.2621

sd 0.0774 0.0743 0.0841 0.0846 0.0850 0.0838 0.0704

λTBa

M 0.1234 0.1223 0.1252 0.1282 0.1308 0.1283 0.1178

IC (0.0323-0.3314) (0.0264-0.3105) (0.0300-0.3548) (0.0309-0.3501) (0.0327-0.3555) (0.0336-0.3566) (0.0228-0.3112)

q950 0.2823 0.2715 0.2941 0.2986 0.3041 0.3034 0.2680

sd 0.0785 0.0742 0.0829 0.0834 0.0868 0.0886 0.0752

95

Tabela C.3: Estatisticas da distribuicao a posteriori de λa: mediana (M), intervalo de credibilidade de 95 % (IC) e desvio padrao

(sd) para o servico 1 no cenario 1, referente a aplicacao no plano de saude

P St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+

λGPa

M 0.291 0.325 0.347 0.345 0.314 0.424 0.390

IC (0.277-0.304) (0.305-0.346) (0.326-0.370) (0.3280-0.362) (0.296-0.333) (0.396-0.453) (0.356-0.424)

sd 0.007 0.010 0.011 0.009 0.009 0.014 0.0174

λNPa

M 0.291 0.325 0.347 0.345 0.314 0.423 0.3890

IC (0.277-0.305) (0.306-0.346) (0.326-0.369) (0.328-0.362) (0.296-0.333) (0.395-0.452) (0.355-0.424)

95% 0.303 0.342 0.366 0.359 0.323 0.448 0.419

sd 0.007 0.009 0.011 0.008 0.009 0.014 0.017

λTPa

M 0.2908 0.3249 0.3470 0.3445 0.3138 0.4234 0.3888

IC (0.2770-0.3049) (0.3058-0.3450) (0.3259-0.3695) (0.3285-0.3610) (0.2959-0.3326) (0.3957-0.4526) (0.3561-0.4238)

95% 0.3025 0.3415 0.3659 0.3587 0.3297 0.4482 0.4171

sd 0.0071 0.0102 0.0110 0.0085 0.0094 0.0146 0.0172

96

Tabela C.4: Estatisticas da distribuicao a posteriori de λa: mediana (M), intervalo de credibilidade de 95 % (IC) e desvio padrao

(sd) para o servico 1 no cenarios 2, referente a aplicacao no plano de saude

P St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+

λGBa

M 0.0380 0.0398 0.0399 0.0403 0.0378 0.0427 0.0416

IC (0.0081-0.1062) (0.0089-0.1176) (0.0098-0.1136) (0.0082-0.1110) (0.0069-0.1046) (0.0082-0.1219) (0.0085-0.1262)

sd 0.0266 0.0288 0.0282 0.02747 0.0262 0.0298 0.0301

λNBa

M 0.037 0.040 0.039 0.038 0.039 0.040 0.042

IC (0.007-0.103) (0.008-0.114) (0.007-0.111) (0.008-0.114) (0.008-0.111) (0.008-0.120) (0.008-0.119)

95% 0.089 0.099 0.095 0.096 0.0939 0.104 0.105

sd 0.025 0.028 0.027 0.0280 0.026 0.031 0.029

λTBa

M 0.0379 0.0388 0.0388 0.0387 0.0382 0.0407 0.0401

IC (0.0069-0.1040) (0.0085-0.1105) (0.0069-0.1100) (0.0077-0.1122) (0.0072-0.1037) (0.0078-0.1244) (0.0073-0.1118)

95% 0.0896 0.0958 0.0932 0.0946 0.0895 0.1047 0.0956

sd 0.0255 0.0271 0.0274 0.0266 0.0250 0.0297 0.0275

97

Tabela C.5: Estatisticas da distribuicao a posteriori de θa: mediana (M), intervalo de credibilidade de 95 % (IC) e desvio padrao


P St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+

θGPa

M 0.041 0.041 0.041 0.041 0.041 0.042 0.041

IC (0.039-0.043) (0.038-0.043) (0.038-0.044) (0.039-0.043) (0.039-0.043) (0.039-0.045) (0.038-0.045)

sd 0.001 0.001 0.001 0.001 0.001 0.001 0.001

θNPa

M 0.040 0.041 0.041 0.040 0.041 0.042 0.041

IC (0.039-0.043) (0.038-0.043) (0.038-0.044) (0.039-0.043) (0.039-0.043) (0.039-0.044) (0.037-0.044)

95% 0.042 0.043 0.043 0.042 0.043 0.044 0.044

sd 0.0010 0.0013 0.0013 0.0010 0.0011 0.0014 0.0018

θTPa

M 0.0403 0.0406 0.0408 0.0408 0.0407 0.0416 0.0407

IC (0.038-0.042) (0.0381-0.0432) (0.0383-0.0436) (0.0388-0.0429) (0.0384-0.0432) (0.0387-0.0448) (0.0373-0.0444)

95% 0.0421 0.0428 0.0432 0.0425 0.0427 0.0442 0.0438

sd 0.0010 0.0013 0.0014 0.0010 0.0012 0.0015 0.0018

98

Tabela C.6: Estatisticas da distribuicao a posteriori de θa: mediana (M), intervalo de credibilidade de 95 % (IC) e desvio padrao


P St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+

θGBa

M 0.0406 0.0408 0.0410 0.0410 0.0409 0.0418 0.0411

IC (0.0387-0.0426) (0.0384-0.0434) (0.0384-0.0437) (0.0390-0.0430) (0.0386-0.0433) (0.0391-0.0447) (0.0376-0.0449)

sd 0.0009 0.0012 0.0013 0.00105 0.0012 0.0014 0.0019

θNBa

M 0.0406 0.0407 0.0410 0.0410 0.0408 0.0418 0.0408

IC (0.0388-0.0427) (0.0383-0.0433) (0.0385-0.0436) (0.0390-0.0430) (0.0384-0.0433) (0.0391-0.0448) (0.0374-0.0447)

95% 0.0424 0.0429 0.0432 0.0427 0.0428 0.0443 0.0440

sd 0.0010 0.0013 0.0013 0.0010 0.0012 0.0015 0.0018

θTBa

M 0.0403 0.0405 0.0408 0.0407 0.0406 0.0415 0.0407

IC (0.038-0.042) (0.038-0.043) (0.038-0.043) (0.038-0.042) (0.038-0.043) (0.038-0.044) (0.037-0.044)

95% 0.042 0.0428 0.0430 0.0424 0.0426 0.0441 0.0440

sd 0.0010 0.0013 0.0013 0.0010 0.0012 0.0014 0.0018

99

Tabela C.7: Estatisticas da distribuicao a posteriori de δa: mediana (M), intervalo de credibilidade de 95 % (IC) e desvio padrao


P St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+

δGBa

M 28.830 27.530 27.050 27.130 28.330 24.040 25.150

q975 (20.650-38.270) (19.616-35.346) (19.419-33.524) (19.606-33.716) (20.493-36.167) (17.933-29.110) (18.213-30.87)

sd 4.549 4.060 3.565 3.629 4.033 2.833 3.195

δNBa

M 29.120 27.740 27.230 27.280 28.570 23.940 25.160

q975 (20.580-38.390) (19.580-35.610) (19.700-33.910) (19.590-34.100) (20.560-36.380) (17.850-29.070) (18.310-30.950)

sd 4.592 4.121 3.603 3.731 4.050 2.826 3.196

δTBa

M 29.010 27.715 27.250 27.310 28.530 24.020 25.210

q975 (20.599-38.190) (19.690-35.550) (19.840-33.850) (19.820-34.060) (20.719-36.190) (17.990-29.040) (18.300-30.920)

sd 4.516 4.073 3.569 3.649 3.963 2.800 3.198

100

Tabela C.8: Estatisticas da distribuicao a posteriori de νa: mediana (M), intervalo de credibilidade de 95 % (IC) e desvio padrao

(sd) para o servico 1 nos diferentes cenarios, referente a aplicacao no plano de saude

P St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+

νTPa

M 10.720 11.125 11.170 10.905 11.135 11.010 11.120

IC (5.488-21.510) (5.525-21.713) (5.522-21.467) (5.578-21.607) (5.648-22.2005) (5.543-21.814) (5.5783-22.1135)

95% 19.977 20.237 20.071 19.953 20.493 20.254 20.254

sd 4.281 4.276 4.247 4.233 4.364 4.372 4.306

νTBa

M 10.82 11.35 11.12 11.04 11.17 11.18 11.14

IC (5.484-21.823) (5.659-22.026) (5.515-22.403) (5.552-22.196) (5.583-22.100) (5.637-21.963) (5.638-22.220)

95% 20.007 20.393 20.630 20.173 20.310 20.253 20.190

sd 4.304 4.306 4.412 4.317 4.367 4.326 4.300

101

Referencias Bibliograficas

Abramowitz, M. e Stegun, I, A. (1964) Handbook of Mathematical Functions. New York:

Dover. 59

Angers, J. e Berger, J. (1991) Robust hierarchical bayes estimation of exchangeable

means. Canadian Journal of Statistics, 19, 39–56. 4

Austin, M., Vilar, J., Cao, R. e Gonzales Fragueiro, C. (2011) Bayesian analysis of

aggregate loss models. Mathematical Finance, 21, 257–279. 3

Bayes, T. (1763) An eassy towards solving in the doctrine of chances. Philosophy Tran-

saction Royal Society London, 53, 370–418. 31

Berger, J. (1980) A robust generalized bayes estimator and confidence region for a mul-

tivariate normal mean. The Annals of Statistics, 716–761. 4

Berger, J. e Bernardo, J. (1992) On the development of reference prior method. Bayesian

Statistics, 4, 35–60. 35, 38

Bernardo, J. (1979) Reference posterior distributions for bayesian inference (with discus-

sion). Journal of the Royal Statistical Society: Series B (Statistical Methodology), 41,

113–47. 32, 33, 34

Bernardo, J. e Smith, A. (1994) Bayesian Theory. John Wiley and Sons, Chichester. 25,

26, 33, 34

Boucher, J., Denuit, M. e Guillen, M. (2008) Risk classification for claim counts: A

comparative analysis of various zero inflated mixed poisson and hurdle models. North

American Actuarial Journal, 11, 110–131. 5, 51

102

— (2009) Number of accidents or number of claims? an approach with zero inflated

poisson models for panel data. Journal of Risk and Insurance, 76.4, 821–846. 5, 51

Boucher, J. e Guillen, M. (2009) A survey on models for panel count data with applica-

tions to insurance. Racsam, 103, 277–294. 4, 51

Brown, R. (1993) Introduction to ratemarking and loss reserving for property and casualty

insurance. EUA: Actex Publications. 10

Carsten, F. (2013) Overdispersed Models for Claim Count Distribution. Dissertacao de

Mestrado, Tartu University, Rio de Janeiro. 5, 51

Carvalho, C., Polson, N. e Scott, J. (2010) The horseshoe estimator for sparse signals.

Biometrika, 97, 465–480. 5

Cassidy, D., Hamp, M. e Ouyed, R. (2010) Pricing european options with a log student’s-

distribution: A gosset formula. Physica A: Statistical Mechanics and its Applications,

389, 5736–5748. 5

Cechin, J. (2008) A historia e os desafios da saude suplementar: 10 anos de regulacao.

Sao Paulo: Saraiva: Letras e Lucros. 11

Cobb, B., Rumi, R. e A., S. (2012) Approximating the distribution of a sum of log normal

random variables. Sixth European Workshop on Probabilistic Graphical Models. 47

Cowles, M. e Carlin, B. (1996) Markov chain monte carlo convergence diagnostics: a

comparative review. J. Amer. Statist. Assoc., 91, 883–904. 42

Cramer, H. (1930) On the mathematical theory of risk. Skandia Jubile Volume,

Stockholm. 11

Dudley, C. (2006) Bayesian analysis of an aggregate claim model usiing various loss

distributions. Dissertacao de Mestrado, Doctoral dissertation, Dissertation thesis for

Master of Science in Actuarial Management, Heriot-Watt University Edinburgh. 2

DuMouchel, W. (1983) The 1982 massachusetts automobile insurance classification

scheme. Statistician, 32, 69–81. 3

103

Duvall, R. (1999) A bayesian approach to negative binomial parameter estimation.

Sedgwick Financial and Actuarial Consulting, 377–385. 5, 92

Embrechts, P., Kluppelberg, C. e Mikosch, T. (1997) Loss Models. Modelling Extremal

Events for Insurance and Finance. 5, 11, 15

Finger, R. e Steeneck, D. (1976) Estimating pure premiums by layer-an approach. PCAS

LXIII. 2

Fonseca, T., Ferreira, M. e Migon, H. (2008) Objective bayesian analysis for the student-t

regression model. Biometrika, 95, 325–333. 4, 6, 59

Fuquene, J., Perez, M. e Pericchi, L. (2011) Modelling outliers and structural breaks in

dynamic linear models with a novel use of a heavy tailed prior for the variances: An

alternative to the inverted gamma(submitted). Department of Applied Mathematics

and Statistics, California, Department of Mathematics, Puerto Rico. 20

Gamerman, D. e Lopes, H. (2006) Markov Chain Monte Carlo: Stochastic Simulation

for Bayesian Inference. New York: Chapman & Hall / CRC. 39

Gelfand, A. e Smith, A. (1990) Sampling-based approaches to calculating marginal den-

sities. J. Amer. Statist. Assoc., 85, 398–409. 41, 42, 65

Gelman, A., Meng, X. e Stern, H. (1995b) Posterior predictive assessment of model fitness

via realized discrepancies (with discussion). Statistica Sinica, 6, 733–807. 44

Gelman, A. e Rubin, D. (1992a) Inference from iterative simulation using multiple se-

quences (with discussion ). Statistical Science, 7, 457–511. 42

Geman, S. e Geman, D. (1984) Stochastic relaxation, gibbs distribution and the bayesian

restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelli-

gence, 6, 721–741. 41

Geweke, J. (1992) Evaluating the accuracy of sampling- based approaches to the calcu-

lation of posterior moments (with discussion). Bayesian Statistics (J. Bernardo, J.

Berger, A. Dawid and A. Smith,eds.), 169–193. University Press, Oxford. 42, 65

104

Ghosh, J. e Mukerjee, R. (1992) Noninformative priors (with discussion). Bayesian

Statistics, 4. 34, 36

Gilberto, P., Leiva, V., Barros, M. e Liu, S. (2012) Robust statistical modeling using

the birnbaum saunders-t distribution applied to insured. Applied Stochastic Models in

Business and Industry, 28, 16–34. 3, 88

Gisler, A. e Buhlmann, H. (2005) A Course in Credibility Theory and its Applications.

New York: Springer-Verlag. 24

Gisler, A. e Reinhard, P. (1993) Robust credibility. Astin Bulletin, 23, 117–143. 4

Gneiting, T., Balabdaoui, F. e Raftery, A. (2007) Probabilistic forecasts, calibration and

sharpness. Journal of the Royal Statistical Society: Series B (Statistical Methodology),

69, 243–268. 7, 44, 68

Green, E., Roesch Jr, F., Smith, A. e Strawderman, W. (1994) Bayesian estimation

for the three-parameter weibull distribution with tree diameter data. Biometrics, 50,

254–269. 42

GschloBl, S. (2006) Hierarchical bayesian spatial regression models with applications to

non-life insurance. Unpublished PhD thesis, Munich University of Technology. 45

GschloBl, S. e Czado, C. (2008) Modelling count data with overdispersion and spatial

effects. Statistical Papers, 49, 531–552. 45

Haberman, S. e Renshaw, A. (1996) Generalized linear models and actuarial science.

Statistician, 45, 407–436. 3

Hausman, J., Hall, B. e Griliches, Z. (1984) Econometric models for count data with

application to the patents r and d relationship. Econometrica, 52, 909–938. 4, 51, 91,

92

Herzod, T. (1994) Introduction to Credibility Theory. 3

105

Ismail, N. e Zamani, H. (2013) Estimation of claim count data using negative binomial,

generalized poisson, zero-inflated negative binomial and zero-inflated generalized pois-

son regression models. Casualty Actuarial Society: Astin Bulletin, 1–28. 5, 51

Jeffreys, H. (1939/1961) Theory of Probability. Oxford:Clarendon Press. 3rd ed. 31

Johnson, N. e Balakrishnan, N. (1996) Discrete Multivariate distributions. New York-

Wiley, 2a edn. 4, 51, 89

Kass, R. e Raftery, A. (1995) Bayes factors. Journal of the American Statistical Associ-

ation, 90, 773–795. 43, 68

Klugman, H., Panjer, E. e Willmot (1998) Loss Models. New York: Springer-Verlag. 15,

18, 22, 52

Klugman, S. (1992) Bayesian Credibility Models. 3

Klugman, S. e Hogg, R. (1983) On the estimation of long tailed skewed distributions

with actuarial applications. Journal of Econometrics, 23, 91–102. 5, 49

Kremer, E. (1994) Robust credibility via robust kalman filtering. Astin Bulletin, 24,

221–232. 4

Kunsch, H. (1992) Robust methods for credibility. Astin Bulletin, 22, 33–49. 3

Leiva, V., Barros, M. e Gilberto, P. (2008) Generalized Birnbaum Saunders models using

R. 88

Lindley, D. e Smith, A. (1972) Bayes estimates forr the linear model. Journal of the

Royal Statistical Society B, 34, 1–41. 29

Lindsey, J., Byrom, W., Wang, J. e Jones, B. (2000) Generalized nonlinear models for

pharmacokinetic data. Biometrics, 56, 81–88. 5

Liseo, B., Tancredi, A. e Barbieri, M. (2010) Approximated reference priors in the pre-

sence of latent structure. Em Frontiers of statistical decision making and bayesian

analysis, in honor of James O. Berger, 23–42. Springer, New York. 5, 60, 61

106

Lopes, H., Schmidt, A., Salazar, E., Gomez, M. e Achkar, M. (2012) Measuring the vulne-

rability of the uruguayan population to vector-borne diseases via spatially hierarchical

factor models. Annals of Applied Statistics, 6, 284–303. 44

Lundberg, F. (1903) Approximerad framstallning av sannolikhetsfunktionen aterforsa-

kring av kollektivrisker. Akad. Afhandling, 8–22. 11

Makov, U. (2001) Principal applications of bayesian methods in actuarial science a pers-

pective. North Am. Actuarial J., 4, 96–124. 3

Makov, U., A., S. e Liu, Y. (1996) Bayesian methods in actuarial science. Statistician,

45, 503–515. 3

McDonald, J. e Butler, R. (1987) Some generalized mixture distributions with an appli-

cation to unemployment duration. The review of economics and statistics, 232–240.

5

Metropolis, N., Rosenbluth, A. Rosenbluth, M., Teller, A. e Teller, E. (1953) Equation

of state calculations by fast computating machines. The journal of chemical physics,

21, 1087–1092. 39

Migon, H. S. e Gamerman, D. (1993) Generalized exponential growth model - a bayesian

approach. Journal of Forecasting, 12, 573–584. 30

— (1999) Statistical Inference: an Integrated Approach. Arnold. 31

Migon, H. S. e Moura, F. (2005) Hierarchical bayesian collective risk model: An applica-

tion to health insurance. Insurance: Mathematics & Economics, 36, 119–135. 5, 15,

27, 29, 46, 53

Minkova, L. (2004) The polya - aeppli process and ruin problems. J.Appl. Math. Stoch.

Analysis, 3, 221–234. 53, 91

Mitzenmacher, M. e Tworetzky, B. (2003) New models and methods for file size distribu-

tions. Proceedings of the Annual Allerton Conference on Communication Control and

Computing, 41, 603–612. 5

107

Newton, M. e Raftery, A. (1994) Approximate bayesian inference with the weighted

likelihood bootstrap. Journal of the Royal Statistical Society: Series B (Statistical

Methodology), 56, 3–48. 7, 43, 68

O’ Hagan, A. e Andrade, J. (2006) Bayesian robustness modelling using regularly varying

distribution. Bayesian Analysis, 1, 169–188. 4, 18

Pai, S. (1997) Bayesian analysis of compound loss distributions. J. Econometrics, 79,

129–146. 3

Paulino, D., Turkman, A. e Murteira, B. (2003) Estatıstica Bayesiana. Fundacao Calouste

Gulbenkian, Lisboa. 25, 32, 92

Perez, M. e Pericchi, L. (2009) The case for a fully robust hierarchical bayesian analysis

of clinical trials in the 2009 international workshop on objective bayesian methodology

wharton school of business. Wharton School of Business. 4, 20

Raftery, A. e Lewis, S. (1992) How many iterations in the gibbs sampler? Bayesian

Statistics (J. Bernardo, J. Berger, A. Dawid and A. Smith,eds.), 763–773. University

Press, Oxford. 42, 65

Rıos, D. e French, S. (2000) Statistical Decision Theory. Kendall’s library of statistics 9,

Great Britain. 26

Ritter, C. e Tanner, M. (1992) Facilitating the gibbs sampler: The gibbs stopper and the

griddy-gibbs sampler. J. Amer. Statist. Assoc., 87, 861–868. 42

Schnieper, R. (2004) Bayesian robusta experiencia in rating. ASTIN Bulletin, 34, 125–

150. 5

Shengwang, M., Wei, Y. e Whitmore, G. (1999) Accounting for individual over-dispersion

in a bonus-malus automobile insurance system. Casualty Actuarial Society: Astin

Bulletin, 29, 327–337. 5, 51

108

Spiegelhalter, D., Best, N., Carlin, B. e Van del Linde, A. (2002) Bayesian measures of

model complexity and fit. Journal of the Royal Statistical Society: Series B (Statistical

Methodology), 64, 583–639. 7, 43, 68

Sun, D. e Berger, J. (1998) Reference priors with partial information. Biometrika, 85,

55–71. 5, 7, 33, 35, 38, 61

Vallejos, C. e Steel, M. (2013) Objective bayesian survival analysis using shape mixtures

of log-normal distributions. Departament of Statistics, University of Warwick, 1, 1–28.

3, 5, 47, 49

Vilar, J., Cao, R., Austin, M. e Gonzales Fragueiro, C. (2009) Nonparametric analysis of

aggregate loss models. Journal of Applied Statistics, 36, 149–166. 3

West, M. (1984) Outlier models and priori distributions in bayesian linear regression.

Journal of the Royal Statistical Society: Series B (Statistical Methodology), 46, 431–

439. 4, 19

Zellner, A. (1986) Bayesian estimation and prediction using asymmetric loss functions.

J. Amer. Stat. Assoc., 81, 451–466. 28

Zuo Yun, Y., Shao Lin, P., Hai, R., Qinfeng, G. e Zhang He, C. (2005) Logcauchy, log-sech

and lognormal distributions of species abundances in forest communities. Ecological

Modelling, 184, 329–340. 5

109

modelo hier arquico robusto para o risco coletivo com ... · aos amigos que conheci na p os. a...

Documents