modelo hier arquico robusto para o risco coletivo com ... · aos amigos que conheci na p os. a...
TRANSCRIPT
Universidade Federal do Rio de Janeiro
Modelo Hierarquico Robusto para o Risco
coletivo com sobredispersao
Pamela Massiel Chiroque Solano
10 Marco 2014
Modelo Hierarquico Robusto para o Risco
coletivo com sobredispersao
Pamela Massiel Chiroque Solano
Dissertacao submetida ao Corpo Docente do Instituto de Matematica - Departamento
de Metodos Estatısticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte
dos requisitos necessarios a obtencao do grau de Mestre em Estatıstica.
Orientador: Fernando Antonio da Silva Moura
Rio de Janeiro
10 Marco de 2014
ii
Dissertacao submetida ao Corpo Docente do Instituto de Matematica - DME da
Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessarios a
obtencao do grau de Mestre em Estatıstica.
Area de Concentracao: Inferencia Bayesiana.
Em revisao por:
Rio de Janeiro, RJ - Brasil - 10 Marco 2014
iii
FICHA CATALOGRAFICA
iv
A minha famılia. Em especial para o mais valioso em minha vida. Minha mae.
v
”Dai-me Senhor, a perseveranca das ondas do mar, que fazem de cada recuo um ponto
de partida para um novo avanco.”
Gabriela Mistral.
”O sucesso nasce do querer, da determinacao e persistencia em se chegar a um objetivo.
Mesmo nao atingindo o alvo, quem busca e vence obstaculos, no mınimo fara coisas
admiraveis.”
Jose Alencar.
”O que eu ouco, eu esqueco. O que eu vejo, eu lembro. O que eu faco, eu entendo.”
Confucio.
vi
Agradecimentos
Por essa ajuda divina, que me faz sentir vontade, de continuar a pesar das dificulda-
des.
Aos professores do Programa de Pos Graduacao em Estatıstica da UFRJ por todo co-
nhecimento transmitido, a Alexandra pelas suas palavras de motivacao, ao professor
Carlos Abanto pelos conselhos. Ao professor Antonio Bravo pela confianca. Ao professor
Helio Migon pelas muitas sugestoes para o desenvolvimento do trabalho, alem de seus
conselhos. A Eulalia Vares e Gallo pela sugestoes de melhora. Aos professores Dani e
Thais pela paciencia em responder minhas duvidas. E em especial ao meu orientador,
Fernando Antonio da Silva Moura, pela honra de ter me aceitado como sua aluna, pela
muita paciencia, pela ajuda em nossas longas tardes de trabalho, pela dedicacao e incen-
tivo nesta pesquisa, obrigada professor pelo apoio.
Aos amigos que conheci na pos. A Marianita (muchas gracias por todo amiga!.) A Jo-
siane, Renata, Kelly, Felipe, Larissa, Patricia, Pedro, Teresa, Jesse, Claudio, Mariana,
sempre prestativos. A Cristian Cruz pela forca, animos e carinho. A Carlos Espinoza,
Victor Martinez pelo apoio total. A Monica, Heloise, Sheyla... pelas mini aulas de pa-
gode e samba sem duvida elas fizeram minha estadia muito divertida. No final para
os que eu considero meus anjos neste percorrer: Felipe Santos e Miguel Zamora, muito
obrigada meus amigos. Obrigada aos professores da banca por aceitar o convite, a Capes
e Faperj pelo apoio financeiro e a todos que contribuıram direta, ou indiretamente, para
a realizacao deste trabalho.
vii
Resumo
Neste trabalho propoem-se modelos hierarquicos robustos para o risco coletivo com so-
bredispersao e sob o paradigma bayesiano. Deste modo, obtem-se estimadores robustos
do premio de um seguro que nao sao muito influenciados pelas observacoes aberrantes e
nem pela sobredispersao.
Assume-se que os valores agregados dos sinistros tenham uma distribuicao com cauda a
direita mais pesada do que a usualmente empregada. Em particular, consideramos que
a distribuicao do logaritmo dos valores agregados dos sinistros seguem uma distribuicao
T-student. Uma distribuicao a priori de Jeffreys para o grau de liberdade e obtida e
examinada. Alem disso, propoe-se uma modificacao na distribuicao do numero de sinis-
tros para incorporar uma possıvel sobredispersao. Uma distribuicao a priori de referencia
para o parametro de sobredispersao e obtida e analisada.
Com o objetivo de calcular o premio justo, usando a teoria de decisao bayesiana, adota-
se a funcao de utilidade “Desvio absoluto modificada”, sendo esta adequada para dados
com valores aberrantes. Para avaliar a capacidade preditiva do modelo e a estimacao
dos parametros, uma analise com dados simulados e realizada. Finalmente, apresenta-se
uma aplicacao para um conjunto de dados reais. A comparacao de modelos e o calculo
do valor do premio sao feitos considerando-se a distribuicao preditiva a qual incorpora
toda a incerteza envolvida.
Palavras chave: priori de Jeffreys, priori de referencia, teoria de decisao, funcao uti-
lidade, CRPS (Continuous ranked probability score), DIC (Deviance Information Crite-
rion), fator de Bayes.
viii
Abstract
In this work we propose a robust hierarchical model for the collective risk with over-
dispertion based on Bayesian paradigm. Proceding in this way, we are able to obtain
robust estimators of the insurance premium, which is not much influenced by aberrant
observations and overdispertion.
We assume that the claims aggregate values distributions have a right heavier tail than
the usually employed. In particular, we consider that the distribution of the logarithm
of the aggregate claims follows a T-student distribution. A Jeffreys prior distribution for
the degree of freedom is obtained and analyzed. We also proposed a modification in the
number of claims distribution to incorporate a possible overdispersion. A reference prior
distribution for the overdispersion parameter is obtained and analyzed.
In order to calculate the fair premium, Bayesian decision theory is invoke, adopting the
utility function “Modified absolute deviation”, which is suitable for data with outliers. To
evaluate the predictive power of the model, an analysis with simulated data is presented
and conducted. Finally, we show an application to a real data set. The comparison of mo-
dels and the prediction of the premium is done by considering the predictive distribution,
which takes into account all uncertainty on the model parameters .
ix
Sumario
Lista de Tabelas xiii
Lista de Figuras xv
1 Introducao 2
1.1 Breve revisao da literatura em relacao a eventos aberrantes e sobredispersao 3
1.2 Contribuicoes e estrutura do trabalho . . . . . . . . . . . . . . . . . . . . 6
2 Definicoes basicas da Ciencia Atuarial 9
2.1 Definicoes atuariais basicas . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Modelo basico de risco . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 Processo de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.3 Processo Poisson misto . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.4 Modelo de Risco Coletivo composto . . . . . . . . . . . . . . . . . 15
2.2 Distribuicoes para os valores dos sinistros . . . . . . . . . . . . . . . . . . 17
3 Metodo Bayesiano na Ciencia Atuarial 22
3.1 Metodo bayesiano na Ciencia Atuarial . . . . . . . . . . . . . . . . . . . 22
3.1.1 Estimacao de parametros . . . . . . . . . . . . . . . . . . . . . . . 25
3.1.2 Teoria de decisao no calculo do premio . . . . . . . . . . . . . . . 26
3.1.3 Modelo hierarquico de risco coletivo bayesiano . . . . . . . . . . . 29
3.1.4 Escolha da distribuicao a priori . . . . . . . . . . . . . . . . . . . 30
3.1.5 Inferencia via simulacao estocastica: MCMC . . . . . . . . . . . 38
3.1.6 Validacao e selecao de modelos . . . . . . . . . . . . . . . . . . . 42
x
4 Modelos Propostos 46
4.0.7 Modelo Log Normal para os valores dos sinistros . . . . . . . . . . 47
4.0.8 Modelo hierarquico de risco coletivo Normal Poisson (MHRC-NP) 48
4.0.9 Modelo Log T-student para os valores dos sinistros . . . . . . . . 49
4.0.10 Modelo hierarquico de risco coletivo T-student Poisson (MHRC-TP) 49
4.1 Distribuicoes para o Numero de Sinistros . . . . . . . . . . . . . . . . . . 51
4.1.1 Modelo Binomial Negativo para o numero de sinistros . . . . . . . 52
4.1.2 Modelo hierarquico de risco coletivo Gama Binomial Negativa (MHRC-
GB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.1.3 Modelo hierarquico de risco coletivo Normal Binomial Negativa
(MHRC-NB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.1.4 Modelo hierarquico de risco coletivo T-student Binomial Negativa
(MHRC-TB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2 Distribuicoes a priori para os parametros e hiperparametros dos modelos
propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2.1 A priori de Jefreys para νa . . . . . . . . . . . . . . . . . . . . . . 57
4.2.2 Priori de referencia do parametro de sobredispersao δa . . . . . . 60
4.2.3 Distribuicoes a priori para os Hiperparametros αθa , βθa , αλa , βλa . 61
5 Aplicacao 62
5.1 Descricao do conjunto de dados . . . . . . . . . . . . . . . . . . . . . . . 62
5.2 Estudo com dados simulados . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3 Aplicacao com dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.3.1 Analise da presenca de dados discordantes . . . . . . . . . . . . . 72
5.3.2 Calculo do premio . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3.3 Comparacao dos modelos propostos . . . . . . . . . . . . . . . . . 84
6 Conclusoes e trabalhos futuros 87
A SBETA2 89
A.1 A Distribuicao SBeta2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
xi
A.1.1 Momentos SBeta2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
B Processo Polya 91
B.1 Processo Polya - Aeppli . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
C Tabelas 93
C.1 Tabelas das estatısticas dos parametros estimados . . . . . . . . . . . . . 93
Referencias Bibliograficas 102
xii
Lista de Tabelas
2.1 Funcoes de densidade de distribuicoes que nao possuem cauda pesada . . 19
2.2 Funcoes de densidade de distribuicoes que possuem cauda pesada . . . . 19
4.1 Distribuicoes a priori propostas para os parametros dos modelos MHRC . 57
5.1 Valores verdadeiros dos parametros λa, θa, νaδa utilizadas na simulacao . . 64
5.2 Estatisticas da distribuicao preditiva aposteriori dos gasto por indenizacao
por pessoa Ra,t+H , mediana (M), intervalo de credibilidade de 95 % (IC)
e desvio padrao (sd) no cenario 1 . . . . . . . . . . . . . . . . . . . . . . 78
5.3 Estatisticas da distribuicao preditiva aposteriori dos gasto por indenizacao
por pessoa Ra,t+H , mediana (M), intervalo de credibilidade de 95 % (IC)
e desvio padrao (sd) no cenario 2 . . . . . . . . . . . . . . . . . . . . . . 79
5.4 Valor do Premio para todos os modelos propostos . . . . . . . . . . . . . 85
5.5 Valores de DIC, CRPS, EQMp, EAMp para os modelos ajustados . . . . 86
5.6 Resultados da comparacao usando o Fator de Bayes . . . . . . . . . . . . 86
C.1 Estatisticas da distribuicao a posteriori de λa: a mediana (M), o valor
verdadeiro (V) e o intervalo de credibilidade de 95 % e o desvio padrao
nos modelos segundo o cenario 1, referente ao estudo simulado . . . . . . 94
C.2 Estatisticas da distribuicao a posteriori de λa: a mediana (M), o valor
verdadeiro (V) e o intervalo de credibilidade de 95 % e o desvio padrao
nos modelos segundo o cenario 2, referente ao estudo simulado . . . . . . 95
xiii
C.3 Estatisticas da distribuicao a posteriori de λa: mediana (M), intervalo de
credibilidade de 95 % (IC) e desvio padrao (sd) para o servico 1 no cenario
1, referente a aplicacao no plano de saude . . . . . . . . . . . . . . . . . 96
C.4 Estatisticas da distribuicao a posteriori de λa: mediana (M), intervalo
de credibilidade de 95 % (IC) e desvio padrao (sd) para o servico 1 no
cenarios 2, referente a aplicacao no plano de saude . . . . . . . . . . . . 97
C.5 Estatisticas da distribuicao a posteriori de θa: mediana (M), intervalo de
credibilidade de 95 % (IC) e desvio padrao (sd) para o servico 1 no cenario
1, referente a aplicacao no plano de saude . . . . . . . . . . . . . . . . . 98
C.6 Estatisticas da distribuicao a posteriori de θa: mediana (M), intervalo de
credibilidade de 95 % (IC) e desvio padrao (sd) para o servico 1 no cenario
2, referente a aplicacao no plano de saude . . . . . . . . . . . . . . . . . 99
C.7 Estatisticas da distribuicao a posteriori de δa: mediana (M), intervalo de
credibilidade de 95 % (IC) e desvio padrao (sd) para o servico 1 no cenario
2, referente a aplicacao no plano de saude . . . . . . . . . . . . . . . . . 100
C.8 Estatisticas da distribuicao a posteriori de νa: mediana (M), intervalo
de credibilidade de 95 % (IC) e desvio padrao (sd) para o servico 1 nos
diferentes cenarios, referente a aplicacao no plano de saude . . . . . . . . 101
Lista de Figuras
2.1 Influencia da distribuicao Normal, Laplace e Cauchy . . . . . . . . . . . 20
2.2 Comparacao das distribuicoes Beta2-Cauchy, Normal, Double Exponential
e Cauchy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.1 Curvas de nıvel para o Logaritmo da verossimilhanca e as distribuicoes
condicionais completas dos parametros θa e νa . . . . . . . . . . . . . . . 63
5.2 Curva de densidade, verdadeiro valor do parametro (linha cheia) e in-
tervalo de 95% de credibilidade (linha pontilhada), a posteriori para os
parametros, para o servico 1 no cenario 1 MHRC-TP . . . . . . . . . . . 66
5.3 Curva de densidade, verdadeiro valor do parametro (linha cheia) e in-
tervalo de 95% de credibilidade (linha pontilhada), a posteriori para os
parametros, para o servico 1 no cenario 2 MHRC-TB . . . . . . . . . . . 67
5.4 Histograma e intervalo de 95% de credibilidade (linha pontilhada) a pos-
teriori para os parametros λa, θa, νa, δa para o servico 1 para a classe de
idade 1 nos MHRC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.5 Boxplot da distribuicoes a posteriori para os parametros λa para o servico
1 por classe de idade nos diferentes cenarios . . . . . . . . . . . . . . . . 70
5.6 Boxplot das distribuicoes a posteriori para os parametros θa para o servico
1 por classe de idade nos diferentes cenarios . . . . . . . . . . . . . . . . 71
5.7 Boxplot das distribuicoes a posteriori para os parametros δa para o servico
1 por classe de idade no cenario dois . . . . . . . . . . . . . . . . . . . . 71
5.8 Boxplot das distribuicoes a posteriori para os parametros νa para o servico
1 por classe de idade nos diferentes cenarios . . . . . . . . . . . . . . . . 72
xv
5.9 Grafico da distribuicao preditiva a posteriori, Mediana e o Intervalo de
credibilidade (IC) para o parametro δa por servicos . . . . . . . . . . . . 75
5.10 Grafico da distribuicao preditiva a posteriori, Mediana e o Intervalo de
credibilidade (IC) para o parametro ν por servicos . . . . . . . . . . . . . 76
5.11 Boxplot da distribuicao posteriori de φ1a,t, φ
2a,t, φ
3a,t para cada classe a no
tempo t por servico respectivamente: . . . . . . . . . . . . . . . . . . . . . 77
5.12 Grafico de encolimento dos valores do premio para os modelos propostos.
Os valores dos sinistros sao distribuıdos seguindo a distribuicao Gama,
Log Normal e Log T-student, respectivamente segundo o cenario 1 . . . . 80
5.13 Grafico de encolimento dos valores do premio para os modelos propostos.
Os valores dos sinistros sao distribuıdos seguindo a distribuicao Gama,
Log Normal e Log T-student, respectivamente segundo o cenario 2 . . . . 81
5.14 Intervalos de 95% de credibilidade e as estimativas pontuais do premios
por classe de idade segundo os dois cenarios. Os valores dos sinistros
seguindo: Gama, Normal, T-st, respectivamente . . . . . . . . . . . . . . 82
5.15 Histograma e intervalo de 95% de credibilidade (linha pontilhada) e o valor
estimado do premio (linha cheia vertical vermelha) da distribuicao predi-
tiva a posteriori Ra,t+H para cada classe de idade em todos os modelos
ajustados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.16 Boxplot das distribuicoes preditivas: Ra,T+H nos modelos ajustados se-
gundo classe de idade segundo os dois cenarios . . . . . . . . . . . . . . . 84
Capıtulo 1
Introducao
Um dos objetivos dos atuarios e modelar as distribuicoes de perdas, tais como o valor
ou o numero dos sinistros ocorridos em uma apolise de seguros, com a finalidade de calcu-
lar os premios pagos, avaliar os efeitos dos dedutıveis, conhecer seus limites e determinar
o impacto da inflacao. Porem, e necessario antes dispor de informacoes sobre o processo
de producao dos sinistros.
Na Ciencia Atuarial, a Teoria da Credibilidade pode ser vista como o paradigma basico
subjacente a fixacao de precos de produtos de seguros (premio). Ela baseia-se na com-
binacao de dois conceitos fundamentais “risco individual-apolice”, e “risco coletivo-carteira”.
A partir desta teoria e possıvel obter previsoes de tarifacoes futuras, isto e, conhecer o
custo do total de sinistros para um perıodo futuro.
Embora a literatura nos forneca uma ampla lista de trabalhos com diferentes propostas
e enfoques, nao e facil identificar a distribuicao apropriada para os valores dos sinistros.
Finger e Steeneck (1976), propoem um metodo para a estimacao do premio puro usando
estratos para a cobertura de seguros e consideram a assimetria da distribuicao dos valores
dos sinistros. Alem disso, propoem distribuicoes com caudas pesadas. Eles incorporam
a distribuicao log normal na modelagem dos valores dos sinistros. Para a estimacao de
parametros, fazem suposicoes baseadas em resultados assintoticos para a media e o coe-
ficiente de variacao.
Sob o paradigma bayesiano, Dudley (2006) propoe varios modelos para fazer inferencia
2
sob o valor do sinistro. Vilar et al. (2009) apresentam modelos nao-parametricos para
valores do sinistro. Austin et al. (2011) apresentam um enfoque semi parametrico sob a
abordagem bayesiana, utilizando a distribuicao Coxian.
O numero de publicacoes na ciencia atuarial sob a abordagem bayesiana vem aumen-
tando, destacando-se, os trabalhos de Makov et al. (1996), Makov (2001), DuMouchel
(1983), Pai (1997), Herzod (1994), Klugman (1992), Haberman e Renshaw (1996), entre
outros.
Contudo, surge naturalmente a seguinte questao: Como modelar os valores dos sinistros
na presenca de uma ou mais observacoes aberrantes e tambem incorporar a sobredis-
persao? Isto e, a variancia do numero de sinistros e maior do que o valor esperado,
quando este e modelado segundo a distribuicao de Poisson.
A natureza nos dados sobre seguros tem a caraterıstica de ser assimetrica e, portanto, as
distribuicoes Pareto, Log normal, Gama sao usualmente usadas. Segundo Vallejos e Steel
(2013), para os modelos de sobrevivencia, a inferencia baseada no modelo log-normal e
vulneravel na presenca de dados aberrantes. Do mesmo modo, o modelo assimetrico
Gama possui um parametro cuja estimacao e afetada por dados atıpicos, ver Gilberto
et al. (2012) para mais detalhes. Alem disso, considerando-se a modelagem do numero de
sinistros, a hipotese de que media e igual a variancia pode nao ser sustentada, e portanto
a distribuicao de Poisson nao e adequada.
Nesta introducao apresentamos ao leitor a importancia da modelagem dos valores e
numeros de sinistros sob a presenca de observacoes aberrantes, assim como a importancia
de se considerar a sobredispersao no modelo hierarquico de risco coletivo.
1.1 Breve revisao da literatura em relacao a eventos
aberrantes e sobredispersao
Existem varios trabalhos na literatura atuarial que incorporam valores aberrantes. Sob
o enfoque classico, o uso de distribuicoes que consideram estimadores robustos foi ori-
ginalmente introduzida por Kunsch (1992). Kunsch (1992) analisou casos de sinistros
3
extremos e propoe a utilizacao do estimador M-Robusto, ao inves do estimador linear de
credibilidade. Neste contexto, Gisler e Reinhard (1993) propuseram o uso de estimador
T robusto, fazendo uso de uma funcao de influencia particular, que basicamente atenua
a influencia de observacoes maiores que um determinado ponto pre-especificado de corte.
Kremer (1994) obteve estimadores M-Robusto via filtro de Kalman.
No contexto de sobredispersao, em aplicacoes frequentistas, baseados na proposta ori-
ginal de Hausman et al. (1984), Boucher e Guillen (2009) usam um modelo de efeitos
aleatorios. Neste modelo a sobredispersao e incorporada atraves da distribuicao bino-
mial negativa multivariada (MVNB). Para mais detalhes pode-se consultar o capıtulo 36
Johnson e Balakrishnan (1996).
Os fundamentos sobre a inferencia bayesiana para dados discrepantes sao abordados por
varios autores. Berger (1980) desenvolveu um estimador robusto de Bayes que incorpora
o uso da distribuicao priori Strawderman-Berger, com caudas pesadas, produzindo esti-
madores minimax sob perda quadratica. West (1984) considera um modelo de regressao
para dados aberrantes e sugere atribuir distribuicoes com cauda pesada para modelar o
erro. Estas distribuicoes sao estruturadas como uma mistura no parametro de escala da
distribuicao normal, e fornecem de forma natural uma maneira de detectar e acomodar
dados que sao aberrantes.
Angers e Berger (1991) incluem prioris multivariadas Cauchy. Estas prioris sao uteis
para obter estimativas robustas. Fonseca et al. (2008) desenvolvem uma analise bayesi-
ana objetiva, fornecendo distribuicoes a priori de Jeffreys para o grau de liberdade sob um
modelo de regressao T-student. O’ Hagan e Andrade (2006) comentam que a literatura e
muito concentrada exclusivamente em robustificar a distribuicao a priori dos parametros
de locacao, e observaram que pouca atencao tem sido dada aos parametros de escala.
Eles propoem o uso da classe de distribuicoes de variacao regular, as quais fornecem uma
descricao muito natural da espessura da cauda em distribuicoes com caudas pesadas.
Usando a teoria da variacao regular, estabeleceram condicoes suficientes na estrutura
do parametro de escala, possibilitando resolver os conflitos entre a verossimilhanca e as
distribuicoes a priori.
Perez e Pericchi (2009) obtiveram uma distribuicao a priori robusta para o parametro de
4
locacao. Um caso particular e desenvolvido por Carvalho et al. (2010), chamado “hor-
seshoe ”, que atribue alta densidade na origem e e de cauda pesada.
Neste trabalho propoe-se modelar os valores dos sinistros utilizando a distribuicao Log
T student. No contexto atuarial ela foi originalmente introduzida por Klugman e Hogg
(1983) onde propuseram distribuicoes assimetricas de caudas pesadas como log t, Pareto,
Pareto generalizada e Burr para modelar os valores dos sinistros. Alem disso, realizaram
uma analise empırica dos resıduos para comparar os modelos. Aplicacoes da distribuicao
Log t em outras areas podem ser encontrados em McDonald e Butler (1987), Cassidy
et al. (2010), Mitzenmacher e Tworetzky (2003).
Vallejos e Steel (2013) estudam as propriedades teoricas da mistura do parametro de
escala da Log normal com outras distribuicoes. Alem disso, desenvolvem uma analise
bayesiana objetiva obtendo a distribuicao a priori de Jeffreys; fornecem condicoes para
a existencia de distribuicoes a posteriori, e tambem apresentam metodos de deteccao de
dados aberrantes. Finalmente detalham uma aplicacao na area de sobrevivencia.
Lindsey et al. (2000) fazem uma aplicacao da distribuicao Log Cauchy para dados farma-
cologicos e Zuo Yun et al. (2005) na area florestal. Em modelos da teoria de credibilidade
Schnieper (2004) utilizou a distribuicao de Laplace e a distribuicao T-student na mode-
lagem dos valores dos sinistros.
Na presenca de variabilidade maior do que o esperado, o uso da distribuicao binomial
negativa e de muita utilidade. Alem disso, a analise do parametro que mede a sobre-
dispersao e de interesse. No contexto atuarial, varios autores abordam este problema,
tais como: Shengwang et al. (1999), Boucher et al. (2008), Boucher et al. (2009), Ismail
e Zamani (2013), Carsten (2013), entre outros. Neste contexto Duvall (1999), tambem
inclui a distribuicao binomial negativa para modelar o numero dos sinistros e indica que
se pode atribuir uma distribuicao a priori beta para a probabilidade de ocorrencia de um
sinistro. Por outro lado, Liseo et al. (2010) desenvolveram uma distribuicao a priori de
referencia para estimar o parametro que mede o grau de dispersao baseados na teoria
apresentada em Sun e Berger (1998).
Baseados na proposta original de Cramer-Lundberg em Embrechts et al. (1997), Migon e
Moura (2005) consideram uma generalizacao para o modelo de Risco coletivo composto
5
e propoem o modelo hierarquico de risco coletivo em tres estagios. No primeiro nıvel e
descrito o valor, o numero dos sinistros e a evolucao da populacao segurada, atribuindo
respectivamente, as distribuicoes de probabilidades Gama, Poisson e uma distribuicao
que pertence a famılia exponencial. No segundo nıvel apresenta-se a hierarquia das fai-
xas etarias, onde os parametros associados aos valores e ao numero de sinistros por cada
faixa etaria seguem uma distribuicao Gama e de Poisson, respectivamente. Os parametros
da evolucao da populacao seguem uma distribuicao Normal multivariada. Finalmente,
no terceiro nıvel as distribuicoes a priori seguem uma distribuicao Gama com parametros
conhecidos. As distribuicoes a priori relacionadas com a evolucao da populacao foram
escolhidas de tal forma que a media tenda assintoticamente para uma constante a medida
que o tempo cresce. A distribuicao preditiva dos valores dos sinistros foram obtidas via
MCMC.
1.2 Contribuicoes e estrutura do trabalho
Usualmente uma companhia de seguros possui como informacao disponıvel o valor, o
numero de total de sinistros, e a populacao exposta ao risco para um determinado
perıodo de tempo dado. Com o objetivo de serem obtidas previsoes de tarifacoes fu-
turas robustas que incorporem a sobredispersao no calculo do premio sob o paradigma
de Bayes, propoem-se modelos hierarquicos robustos para o risco coletivo com sobredis-
persao, substituindo a verossimilhanca dos valores agregados por uma distribuicao com
cauda a direita mais pesada do que e usualmente empregada. Em particular, conside-
ramos que a distribuicao dos valores agregados dos sinistros seguem uma distribuicao
Log T-student. Uma distribuicao a priori propria para o grau de liberdade, baseada
no trabalho de Fonseca et al. (2008) e analisada e utilizada. Alem disso, apresenta-se
uma comparacao da priori conjunta e independente de Jeffreys calculadas para o modelo
hierarquico robusto de risco coletivo.
Para incorporar uma possıvel sobredispersao no numero de sinistros, considera-se em par-
ticular a substituicao da distribuicao Poisson pela distribuicao Binomial Negativa. Para
a estimacao do parametro que mede o grau de sobredispersao propoe-se uma distribuicao
6
a priori propria de referencia, cujo calculo foi baseado em Sun e Berger (1998).
Sao considerados tres estagios. No primeiro estagio sao modelados o valor e o numero
dos sinistros, respectivamente pelas distribuicoes de probabilidade Log Normal ou Log
T-student, Poisson ou Binomial Negativa. No segundo estagio considera-se que as faixas
etarias sao hierarquicamente estruturadas. As distribuicoes a priori para os parametros
dos valores dos sinistros por cada faixa etaria sao fornecidas no Capitulo 4. Finalmente,
no terceiro nıvel as distribuicoes a priori seguem uma distribuicao gama com parametros
conhecidos.
A inferencia dos parametros e feita via MCMC, obtendo-se assim a distribuicao preditiva
dos valores dos sinistros a partir de distribuicoes referentes ao primeiro nıvel do modelo,
condicionadas nos outros parametros relacionados aos segundo e terceiro nıveis.
Dado um horizonte futuro e uma populacao segurada conhecida para cada classe de risco
e perıodo de tempo t, uma regra de decisao d para calcular o valor do premio pode ser
obtida, atribuindo-se uma funcao de utilidade assimetrica, denominada “Desvio absoluto
modificada”. O valor do premio utilizando esta funcao de utilidade baseado na teoria da
decisao corresponde ao percentil 95% da distribuicao preditiva a posteriori.
O criterio de selecao de modelos adotado neste trabalho e aquele que prioriza a quali-
dade das predicoes, com esta finalidade escolhe-se o modelo que apresenta o menor CRPS
(Continuous ranked probability score). Este criterio e baseado na distribuicao preditiva
e foi desenvolvido em Gneiting et al. (2007). Alem disso, calcula-se o fator de Bayes
considerando a distribuicao preditiva segundo um algoritmo apresentado em Newton e
Raftery (1994). Utilizou-se tambem o DIC (Deviance Information Criterion) proposto
por Spiegelhalter et al. (2002) e as medidas EQMp (Error quadratico medio preditivo) e
EAMp (Error absoluto medio preditivo).
O presente trabalho e estruturado em seis capıtulos, os quais estao organizados da se-
guente forma:
No capıtulo 2 e 3, sao introduzidos conceitos e definicoes basicas da ciencia atuarial
tais como; risco, premio, sinistros, entre outros. Alem disso, apresentam-se os conceitos
basicos da abordagem bayesiana para se inferir o premio. No capıtulo 4 sao propostos
os modelos hierarquicos de risco coletivo que incorporam a robustez e a dispersao no
7
calculo do premio. Alem de apresentar os calculos envolvidos para obter as distribuicoes
a priori de Jeffreys e de referencia, no capıtulo 5 sao comparados os modelos propostos
no capıtulo 4. Um estudo com dados simulados e uma aplicacao com dados reais sao
tambem apresentados. Finalmente, no capıtulo 6 comentam-se as principais conclusoes
e sao feitas algumas consideracoes finais sobre trabalhos futuros.
8
Capıtulo 2
Definicoes basicas da Ciencia
Atuarial
Neste capıtulo serao fornecidas as definicoes dos termos da ciencia atuarial, mencio-
nados no capıtulo anterior.
2.1 Definicoes atuariais basicas
A sustentabilidade economico-financeira de longo prazo do mercado seguros depende da
adequada relacao entre os riscos e os premios cobrados. Os seguros sao estruturas
financeiras que tem como objetivo indenizar os segurados e seus beneficiarios, no caso
de ocorrencia de determinados eventos imprevisıveis que tenham um impacto negativo
em relacao a seus interesses. Portanto, ha a formalizacao de um contrato de seguro
apolice entre o segurado e a seguradora, no qual sao previamente estabelecidos os riscos
cobertos pelo seguro, assim como os limites de cada cobertura, o premio a ser pago por
cada cobertura e o prazo de vigencia da contratacao. O conjunto de apolices e denomi-
nado como Portfolio ou carteira. Por exemplo, as pessoas podem precisar de alguma
atencao medica a qual gera despesas financeiras provenientes de uma possıvel doenca ou
acidente, assim podem contratar um seguro para se protegerem desse risco. Por meio
da contratacao de seguros, pessoas fısicas ou jurıdicas podem proteger-se do impacto
9
financeiro negativo de eventos imprevisıveis, estes ultimos tambem denominados riscos
cobertos. Desta forma, define-se risco como o evento incerto, ou de data incerta, que
independe da vontade das partes contratantes do seguro e cuja ocorrencia dara direito
a indenizacao prevista no contrato. Quando o risco efetivamente ocorre denomina-se
sinistro. Assim, no exemplo mencionado, do seguro de saude, o segurado contratou a
protecao, dentro do perıodo de vigencia da cobertura, esse evento ocorrido e considerado
um sinistro e o valor da indenizacao devera ser pago pela seguradora ao segurado. Mas,
para ter acesso a cobertura, o segurado precisa cumprir, previamente, sua parte no con-
trato de seguro, que e pagar a seguradora o valor estipulado no contrato. O valor pago
pelo segurado a seguradora por uma determinada cobertura de seguro e denominado
premio de seguro. O pagamento do premio pode ser feito em uma unica ou em diver-
sas parcelas ao longo do perıodo de vigencia da cobertura. Mas, em qualquer caso, os
segurados sempre pagam antecipadamente pela cobertura de riscos durante a vigencia do
seguro, isto e, os segurados devem pagar previamente para ter direito a uma indenizacao
no caso da ocorrencia de sinistros.
Nao obstante, para que um determinado seguro seja viavel do ponto de vista economico
e financeiro, e necessario que o risco por ele coberto seja seguravel. Entende-se por risco
seguravel aquele que atende as exigencias mınimas para a sua viabilidade economica, ver
Brown (1993) para mais detalhe.
O risco deve ser acidental, ou seja, a ocorrencia do sinistro deve-se dar de forma aleatoria;
deve ter uma probabilidade mınima de ocorrer com todos os segurados ao mesmo tempo e
a ocorrencia do risco para um segurado nao deve impactar a probabilidade de ocorrencia
para outros segurados. Alem disso, nao e aplicavel a riscos catastroficos; o segurado e
seus beneficiarios nao podem intencionalmente impactar na probabilidade de ocorrencia
do sinistro ou no valor da indenizacao do risco coberto; o risco representado por cada
um dos segurados deve ser homogeneo. Isso significa que os segurados sao agrupados em
conjuntos especıficos, no qual cada um deles tem a mesma probabilidade de incorrer no
risco que os demais; o custo para segurar o risco deve ser economicamente viavel. Ou
seja, o seguro deve ter um valor de premio que possibilite a sua venda; a perda produzida
pelo sinistro deve ser definitiva; o valor da indenizacao deve ser calculavel, com base na
10
avaliacao estatıstica da experiencia passada; o valor da indenizacao deve ter um limite
maximo previamente definido, pois com base nesse limite a seguradora calculara o premio
adequado a cobertura contratada.
Caso os riscos nao atendam a alguns dos requisitos acima, podem acontecer situacoes
de risco moral e selecao adversa. Risco moral, ou moral hazard , e a situacao em que o
indivıduo, apos comprar o seguro, modifica deliberadamente seu comportamento e passa
a praticar acoes que, se nao houvesse o seguro, nao praticaria. Por exemplo, no caso
dos planos de saude, o risco moral esta associado a superutilizacao dos procedimentos de
saude. Ja a selecao adversa, no caso dos seguros em geral e dos planos de seguros de saude
em particular, consiste na auto-exclusao dos consumidores que tem gastos com saude es-
perados inferiores ao premio cobrado no mercado. A exclusao desses consumidores eleva
o custo medio do atendimento, levando a um aumento do premio e nova exclusao dos
consumidores, (Cechin (2008), p.35). Para evitar os efeitos adversos que seriam gerados
pelo risco moral e selecao adversa, ha instrumentos que podem ser empregados, como
a exigencia de carencias, franquias e co-participacao, a exclusao de alguns eventos da
cobertura ou a imposicao compulsoria da compra do seguro.
Considera-se que neste trabalho o risco e seguravel, e a seguradora calcula o premio de
seguro, o qual devera guardar estreita relacao com o risco a ser coberto para que possa
haver o equilıbrio economico, financeiro e atuarial da operacao de seguro.
2.1.1 Modelo basico de risco
A teoria moderna do risco se remite aos trabalhos de Filip Lundberg e Harald Cramer.
O uso do processo de Poisson composto foi originalmente proposto por Filip Lundberg
em 1903 em sua tese Lundberg (1903) define como um processo simples para resolver o
problema do custo e uma renda determinıstica linear. Em 1930, Harald Cramer estendeu
o trabalho do Lundberg para quase todos os modelos da teoria do risco, para mais detalhes
pode-se consultar Cramer (1930). Embrechts et al. (1997) apresenta em particular a
modelagem da ruına de uma companhia de seguros. Por esta razao o modelo basico de
risco e chamado de modelo de Cramer-Lundberg ou modelo de risco classico.
O processo basico do modelo de risco geral, tambem denominado processo de risco, e
11
dado por:
X(t) = Π(t)− S(t), (2.1)
onde Π(t) e o valor total dos premios para a companhia de seguros ate o tempo t. S(t)
e a quantidade estocastica da soma acumulada dos sinistros ate o tempo t. A equacao
(2.1) pode ser descrita pelos seguintes elementos:
i) Os tempos 0 ≤ t1 ≤ t2 ≤ . . . , de chegadas de sinistros. Suponha que t0 = 0.
As variaveis aleatorias Tn = tn − tn−1, n = 1, 2, . . . , denominadas como o tempo
entre as chegadas, sendo nao negativos.
ii) N(t) = supn : tn ≤ t, t ≥ 0 e o numero de ocorrencias ate o tempo t. As relacoes
entre os tempos t0, t1, . . . e o processo de contagem N(t), t ≥ 0 sao dadas por:
N(t) = n = tn ≤ t < tn+1; n = 0, 1, . . .
iii) A sequencia Zn, n = 1, 2, . . . de variaveis aleatorias independentes identicamente
distribuıdas representam os valores dos sinistros ocorridos na companhia de
seguros. Supoe-se que a sequencia Zn seja independente do processo de con-
tagem N(t).
O valor acumulado dos sinistros ate o tempo t e dado por:
S(t) =N(t)∑i=1
Zi, t ≥ 0.
O processo S = S(t)t≥0 e definido pela soma Sn = Z1 + . . . + Zn, onde n e uma
realizacao da variavel aleatoria N(t) :
S(t) = Z1 + . . .+ ZN(t) = SN(t), t ≥ 0,
ou seja uma soma aleatoria de variaveis aleatorias. Supondo que S(t) = 0, se N(t) = 0.
12
Distribuicoes compostas
Seja Z1, Z2, . . . uma sequencia de variaveis aleatorias independentes e identicamente
distribuıdas com funcao de distribuicao FZ(z), funcao caracterıstica φZ(z), media µ e
variancia σ2. Entao, a soma Sn = Z1 + . . .+Zn, n ≥ 1 tem uma funcao de distribuicao
F ∗nZ (z), com funcao caracterıstica [φZ(z)]n, media e variancia respectivamente nµZ e nσ2Z .
Define-se
SN = Z1 + . . .+ ZN , (2.2)
onde N e uma variavel aleatoria discreta e SN = 0, se N = 0. Entao a funcao de
distribuicao de SN e:
FSN (z) = P (SN ≤ z) =∞∑n=0
P (SN ≤ z | N = n)P (N = n) =∞∑n=0
F ∗nZ (z)P (N = n)
A distribuicao aleatoria da soma (2.2) e chamado de distribuicao composta.
Processo de contagens
O processo estocastico N(t), t ≥ 0 e denominado um processo de contagem , se N(t)
e igual ao numero de eventos que ocorreram ate ao tempo t. O processo de contagem
satisfaz as seguintes condicoes:
1) N(t) ≥ 0;
2) N(t) possui valores inteiros;
3) Se s < t, entao N(s) ≤ N(t)
4) Para s < t, N(t)−N(s) e o numero de eventos no intervalo (s, t).
O processo de contagem e denominado processo com incrementos independentes, se o
numero de eventos em intervalos disjuntos sao variaveis aleatorias independentes. O
processo de contagem tem incrementos estacionarios, se a distribuicao do numero de
eventos que ocorreram durante um determinado intervalo de tempo depende apenas do
comprimento do intervalo. Isto significa que, para t > 0 e h > 0, a distribuicao de
N(t+ h)−N(t) coincide com a distribuicao de N(h).
13
2.1.2 Processo de Poisson
Um dos processos basicos de contagem e dado pelo processo de Poisson, neste processo
o numero de eventos em (0, t] tem uma distribuicao Poisson com parametro λt, isto e,
E[N(t)] = λt.
Definicao 2.1.1 O processo de contagem N(t), t ≥ 0 e chamado processo de Pois-
son com a taxa de intensidade λ > 0, se
1. N(0) = 0;
2. O processo tem incrementos estacionarios independentes;
3. Para s < t; o numero de sinistros no intervalo (s, t] possui distribuicao Poisson com
parametro λ(t− s) :
P (N(t)−N(s) = n) =[λ(t− s)]n
n!e−λ(t−s), n = 1, 2, . . . (2.3)
Pela lei dos grandes numeros segue que N(t)t
q.c.→ λ, quando t→∞. Logo N(t)t
converge
quase certamente para λ. Isto significa que a medida de intensidade mede a frequencia
media ou a densidade das chegadas dos sinistros. Por outro lado, pode-se mostrar que
os tempos entre chegadas Tn, n = 1, 2, . . . sao variaveis aleatorias independentes e
exponencialmente distribuıdas com parametro λ.
Teorema 2.1 Seja N(t), t ≥ 0 um processo estocastico com N(0) = 0. e seja T1 e o
tempo ate o primeiro sinistro, T2, T3, . . . sao os tempos entre sinistros.
Seja Tk, k = 1, 2, . . . variaveis aleatorias independentes e exponencialmente distribuıdas
com parametro λ, e N(t) o numero de sinistros ate tempo t. Entao N(t) e um processo
de Poisson. A prova do teorema segue de: P (Tt ≤ t) = P (N(t) ≥ k), k = 0, 1, . . . , e
a propriedade da falta de memoria da distribuicao exponencial.
14
2.1.3 Processo Poisson misto
Se calculamos o ındice de dispersao de Fisher (FI) para o processo de Poisson homogeneo
obtemos que:
FI(t) =V ar(N(t))
EN(t)= 1.
De modo que a modelagem do processo Poisson homogeneo nao e realista quando o valor
esperado do numero de sinistros nao for igual a variancia. A fim de ter um processo mais
realista vamos supor que o parametro λ e uma realizacao da variavel aleatoria Λ com
funcao de distribuicao FΛ. Entao,
P (N(t) = k) =∫ ∞
0
(λt)k
k!e−λ(t)dFΛ(λ), (2.4)
onde FΛ(λ) = P (Λ ≤ λ) e a funcao de distribuicao da distribuicao mistura Λ. Para o
processo de Poisson misto, o ındice de dispersao de Fisher e
FI(t) = 1 +V ar(N(t))
EN(t)> 1,
isto e, ele mede a sobredispersao relacionada com o processo de Poisson misto.
Em particular quando e considerado Λ ∼ G(α, β) ou seja, Λ tem funcao de densidade
igual a:
fΛ(λ) =βα
Γ(α)λα−1 exp−βλ, λ > 0.
Entao, utilizando (2.4), obtemos:
P (N(t) = k) = Cα+k−1k
(β
β + t
)α (t
β + t
)k, k = 0, 1, 2, . . . (2.5)
Logo, o numero de sinistros segue uma distribuicao Binomial Negativa (B), com parametros
α e ββ+t
. Denotamos N(t) = B(α, ββ+t
). Este processo de contagens e definido na lite-
ratura como o Processo Polya, veja Klugman et al. (1998) para maiores detalhes.
2.1.4 Modelo de Risco Coletivo composto
Em Embrechts et al. (1997), descreve-se o modelo basico de risco coletivo (MRC) que
foi originalmente proposto por Cramer-Lundberg. Posteriormente estendido sob o para-
digma bayesiano por Migon e Moura (2005).
15
Sejam (na,t, xa,t), o numero de sinistros e o valor total de sinistros produzido por uma
carteira de apolices de seguro em um determinado perıodo de tempo t, ∀t = 1, . . . , T para
a classe de risco a,∀a = 1, . . . , A, dados por:
xa,t =
∑na,tj=1 za,t,j, se na,t > 0,
0, se na,t ≤ 0(2.6)
onde za,t,j e o valor observado da variavel aleatoria Za,t,j > 0, o qual e o valor do sinistro
do j−esimo contrato no tempo t para uma classe de risco a.
As principais suposicoes do processo de Cramer-Lundberg sao:
i) O numero de sinistros no intervalo [t− 1, t) e uma variavel aleatoria denotada por
Na,t;
ii) Condicional a Na,t = na,t, os valores dos sinistros Za,t,j, j = 1, . . . , na,t, sao
variaveis aleatorias positivas, independentes e identicamente distribuıdas com media
µa = E[Za,j] e variancia finita σ2a = var(Zj,a) <∞;
iii) Os tempos de ocorrencias dos sinistros sao instantes aleatorios em que t1,a ≤ t2,a ≤
. . .; e os tempos entre as ocorrencias dos mesmos, dados por Tk,a = tk,a− tk−1,a, sao
variaveis aleatorias supostamente independentes e exponencialmente distribuıdas
com media E[Tk,a] = λ−1a .
Assumindo que as sequencias Tk e Zk sao condicionalmente independentes e se as condicoes
acima sao satisfeitas, segue-se que Na,t e um processo de Poisson homogeneo com taxa
λa. Se Za,t,j ∼ G(κa, θa), e usando (2.6) entao, pode-se concluir que:
Xa,t | na,t, θa ∼ G(κa,t, θa), θa > 0, (2.7)
Na,t | λa, πa,t ∼ Po(λaπa,t), λa > 0,
onde, na,t e o numero observado de sinistros no tempo t para a classe de risco a; com
κa,t = na,tκa, e πa,t e a populacao segurada no tempo t para uma classe de risco a.
A distribuicao marginal de Xa,t e dada segundo a seguinte convolucao
P [Xa,t ≤ x] =∑ e−λaλnaF
∗nX (x)
n!,
16
onde F ∗nX (x) e o n-convolucao de F (x).
Se κa = 1 tem-se o modelo exponencial. Este parametro esta relacionado diretamente
com a media e o coeficiente de variacao de Xa,t, os quais dependem diretamente de κa,t,
que por sua vez e uma funcao de κa : κa,t = na,tκa.
Os primeiros momentos da distribuicao marginal Xa,t sao dados por:
E[Xa,t] = ENa,t|λa,πa,t [EXa,t|Na,t=na,t,θa [Xa,t | Na,t = na,t]] (2.8)
=1
θaENa,t|λa,πa,t [Na,tκa]
=κaλaπa,tθa
,
V [Xa,t] = ENa,t|λa,πa,t [VXa,t|Na,t=na,t,θa [Xa,t | Na,t = na,t]] (2.9)
+ VNa,t|λa,πa,t [EXa,t|Na,tna,t,θa [Xa,t | Na,t = na,t]]
=1
θ2a
ENa,t|λa,πa,t [Na,tκa] +1
θ2a
VNa,t|λa,πa,t [Na,tκa]
=λaπa,tκaθ2a
(1 + κa)
onde E[Xa,t] e V [Xa,t] sao respetivamente a esperanca e a variancia calculadas em suas
respetivas distribuicoes. Note que quando κa = 1 temos que
E[Xa,t] =λaπa,tθa
e V [Xa,t] =2λaπa,tθ2a
.
2.2 Distribuicoes para os valores dos sinistros
Em modelos da ciencia atuarial e comum classificar as distribuicoes de probabilidade em
duas famılias: as distribuicoes que possuem e as que nao possuem caudas pesadas. Pois
e conhecido na literatura que modelos de caudas pesadas sao robustos sob a presenca de
dados discrepantes.
Diz-se que a distribuicao F possui cauda nao pesada se para λ > 0,
lim supx→∞
F (x)
ε−λx<∞.
Com F (x) = 1−FX(x) = P (X > x) denominada funcao de influencia paraX e representa
a cauda da distribuicao.
17
Para uma distribuicao que nao possui cauda pesada existem constantes a > 0 e λ > 0,
tais que F (x) ≤ aε−λx e existe z > 0, tais que MX(z) < ∞, onde MX(z) e a funcao
geradora de momentos.
A distribuicao F possui cauda pesada se para cada λ > 0,
lim infx→∞
F (x)
ε−λx> 0.
Para uma distribuicao de cauda pesada, com a > 0 e λ > 0, tem-se F (x) > aε−λx e com
z > 0, temos MX(z) =∞.
Como um exemplo de distribuicao com cauda pesada tem-se a distribuicao de Pareto de
parametros α > 0 λ > 0. Neste caso tem-se:
1− F (x) =
(λ
λ+ x
)α, x > 0
Por outro lado a distribuicao Weibull com parametros (σ β), e de cauda pesada para
β < 1 e de cauda nao pesada para β ≥ 1.
1− F (x) = ε−( xσ )β
, x > 0, σ > 0
Klugman et al. (1998) apresentam uma alternativa diferente para analisar as caudas
de duas distribuicoes, usando tambem a funcao de sobrevivencia: S(x) = 1 − F (x) =∫∞x f(t)dt. Para a funcao a(x) ou b(x) apresenta-se a seguinte notacao: a(x) ∼ b(x), x→
∞ que significa limx→∞a(x)/b(x) = 1. Utiliza-se este conceito para comparar o compor-
tamento das caudas de duas variaveis aleatorias, por exemplo X e Y .
Deste modo, se Sx(x) ∼ cSY (x) entao, equivalentemente usando a regra de l’hospital,
fx(x) ∼ cfY (x). Logo se duas variaveis tem caudas proporcionais, e dito que elas sao
similares. Se a razao tende para zero, entao X tem cauda menos pesada. Se a razao
tende para infinito, entao Y tem cauda menos pesada.
Deste modo Klugman et al. (1998) comparam as caudas das distribuicoes log Normal,
Gama e Pareto e concluem que a distribuicao log Normal possui uma cauda mais pesada
que a distribuicao Gama. Finalmente, concluem que a distribuicao de Pareto e de cauda
mas pesada em relacao a distribuicao log Normal.
As distribuicoes de caudas pesadas mais populares sao as distribuicoes de variacoes re-
gulares e sub-exponenciais, para maiores detalhes veja O’ Hagan e Andrade (2006).
18
As tabelas a seguir apresentam algumas distribuicoes com caudas pesadas e nao pesadas.
Tabela 2.1: Funcoes de densidade de distribuicoes que nao possuem cauda pesada
Nome Parametros densidade
Exponencial λ > 0 fX(x) = λε−λx
Gamma α > 0, β > 0 fX(x) = βα
Γ(α)xα−1ε−βx
Weibull τ ≥ 1, β > 0 fX(x) = βτxτ−1ε−βxT
Hyperexponencial λi > 0,∑ni=1 pi = 1 fX(x) =
∑ni=1 piλiε
−λix
Tabela 2.2: Funcoes de densidade de distribuicoes que possuem cauda pesada
Nome Parametros densidade
Weibull 0 < τ < 1, β > 0 fX(x) = βτxτ−1ε−βxT
LogNormal µ ∈ Rσ > 0 fX(x) = 1σx√
2πε−
(log x−µ)2
2σ2
Loggamma α > 0, β > 0 fX(x) = βα(log x)α−1
xβ+1Γ(α)
Pareto α > 0, λ > 0 fX(x) = αλ+x
(λ
λ+x
)αBurr α > 0, λ > 0, τ > 0 fX(x) = ατλαxτ−1
(λ+xτ )α+1
Outro criterio relacionado a medicao de robustez e a funcao influencia. Tal funcao
e obtida a partir da distribuicao a posteriori utilizada para conhecer a influencia dos
dados atıpicos sob o modelo. West (1984) apresenta uma interessante analise sobre o
tratamento de dados discrepantes. Ele apresenta a funcao de influencia, a qual gera in-
formacao sobre a penalizacao que produz a distribuicao Normal e T-student sob os dados
discrepantes.
A funcao escore da posteriori expressa a influencia de x na posteriori. Esta funcao
escore da posteriori e denotada por U(θ;X) e e dada por:
U(θ;X) =d
dθlog(P (θ | x)) =
d
dθlog(P (θ)) +
d
dθ
T∑t=1
log(P (xt | θ)).
19
Neste sentido Perez e Pericchi (2009) concluem que a influencia da distribuicao Normal e
linear e ilimitada, enquanto a influencia das distribuicoes Laplace e Cauchy e monotona
e limitada. Pode-se ver na Figura 2.1, a influencia das distribuicao Normal (linha cheia),
Laplace (linha tracejada) e Cauchy (linha tracejada com pontos).
Figura 2.1: Influencia da distribuicao Normal, Laplace e Cauchy
θ
Uma alternativa para a construcao de um modelo robusto e estabelecer distribuicoes
a priori de caudas pesadas. Perez e Pericchi (2009) obtiveram uma priori robusta fechada
para o parametro de locacao denominada distribuicao TSBeta2(ν, p, q).
A distribuicao TSBeta2(ν, p, q) e o resultado da conjugacao da distribuicao T-student
T (µ, ψ2, ν) e a distribuicao de escala Beta 2 (SBeta2(p, q, b)). Definida por:
θa | µ, ψ2, ν ∼ T (µ, ψ2, ν), π(θa | µ, ψ, ν) =γ(ν+1
2)
γ(ν2)
1√πνψ
[1 +
1
ν(θa − µψ
)2
]−( ν+12
)
ψ ∼ Beta2(p, q, b), π(ψ) =γ(p+ q)
γ(p)γ(q)
1
b
(ψb)p−1
(ψb
+ 1)p+q
Logo a marginal para θ, segundo Fuquene et al. (2011) e definido como: θa ∼ TSBeta2(ν, p, q)
com funcao de densidade
π(θa) =
γ( ν+12
)ν2
1√πν
Be(q+ 12,p+ ν
2)
Be(p,q)bq[
ν(θa−µ)2
]q+ 12 2F1(p+ q, q + 1
2, (ν+1)
2+ p+ q, 1− bν
(θa−µ)2),
se θa 6= µ;γ( ν+1
2)
ν2
1√πν
Be(q+ 12,p+ ν
2)
b1/2Be(p+q), se θa = µ
20
Para mais detalhe destas distribuicoes ver Apendice A.
Para o caso particular em que ν = 1, obtem-se a distribuicao Cauchy-SBeta2. Por-
tanto a priori robusta para o parametro de locacao e dada pela distribuicao marginal de
θ ∼ Beta2− Cauchy(1, 1, 1), dada por:
π(θ) =π|θ| − 1− θ2 − (1− θ2) log(|θ|)
π(1 + θ2)2.
A Figura 2.2 apresenta o comportamento de distintas distribuicoes que podem ser usadas
como distribuicoes a priori do parametro de locacao: Beta2-Cauchy, Normal, Laplace e
Cauchy. Conclui-se que a cauda da distribuicao Beta2-Cauchy e mais pesada que as
demais.
Figura 2.2: Comparacao das distribuicoes Beta2-Cauchy, Normal, Double Exponential e
Cauchy.
θ θ
21
Capıtulo 3
Metodo Bayesiano na Ciencia
Atuarial
Neste capıtulo apresenta-se a base teorica para o desenvolvimento e analise dos mo-
delos aplicados na ciencia atuarial que serao abordados sob o paradigma de Bayes.
3.1 Metodo bayesiano na Ciencia Atuarial
Klugman et al. (1998) assumiram que a distribuicao que caracteriza os riscos da po-
pulacao e representada por π(θ), e que a experiencia particular de uma apolice que
possui o parametro de risco θ pode ser obtida da distribuicao condicional dos sinistros
dado θ fX|Θ(x | θ), com θ ∈ Θ, onde Θ e o espaco parametrico. Para uma apolice em
particular temos as perdas dadas por x = (x1, . . . , xn)′, onde a perda pode representar
o valor ou o numero dos sinistros. O interesse e estabelecer a tarifacao para cobrir um
futuro valor da apolice Xn+1. Assumimos tambem que o parametro de risco θ associado
com a apolice e desconhecido. Alem disso, a experiencia da apolice correspondente a
diferentes perıodos expostos e supostamente independente; isto e, condicional a θ os si-
nistros X1, . . . , Xn, Xn+1 sao independentes, embora nao necessariamente identicamente
distribuıdos.
Considere as distribuicoes condicionais de Xj dado Θ = θ, j = 1, . . . , n, representadas
22
por fXj |Θ(xj | θ); j = 1, . . . , n, n + 1, respectivamente. Se soubessemos o valor de θ
poderıamos usar fXn+1|Θ(xn+1 | θ), para predizer a experiencia de sinistro Xn+1 para a
mesma apolice j. Infelizmente nos nao conhecemos θ, mas conhecemos x de uma mesma
apolice. Consequentemente, pode ser calculado a distribuicao condicional de Xn+1 dado
X = x, denominada a distribuicao preditiva.
A distribuicao preditiva de Xn+1 dado X = x e relevante para a analise de risco, gestao
e tomada de decisao, a que combina a incerteza sobre as perdas dos sinistros com a in-
certeza dos parametros associados ao processo de risco.
A distribuicao conjunta de X1, . . . , Xn,Θ e obtida pelo condicionamento a Θ, pois os Xjs
sao condicionalmente independentes dado Θ = θ, isto e:
fX,Θ(x, θ) = f(x1, . . . ,xn | θ)π(θ) =
n∏j=1
fXj|Θ(xj | θ)
π(θ).
A distribuicao conjunta de X, e assim obtida pela integracao de θ, da forma:
fX(x) =∫θ
n∏j=1
fXj|Θ(xj | θ)
π(θ)dθ (3.1)
Se π(θ) for discreta, a integral em (3.1) deve ser substituıda pela soma. A distribuicao
conjunta de X1, . . . , Xn+1 e dada pela substituicao de n por n+ 1 em (3.1).
Finalmente a distribuicao de Xn+1 dado X = x e a densidade conjunta X1, . . . , Xn+1
dividida pela densidade conjunta de X, ou seja
fXn+1|X(xn+1 | x) =1
fX(x)
∫θ
n+1∏j=1
fXj|Θ(xj | θ)
π(θ)dθ (3.2)
A densidade a posteriori de Θ condicional a X e dada por:
πΘ|X(θ | x) =1
fX(x)
n∏j=1
fXj|Θ(xj | θ)
π(θ) (3.3)
Em outras palavras[∏n
j=1 fXj |Θ(xj | θ)]π(θ) = πΘ|X(θ | x)fX(x) e substituıdo em (3.2),
resultando em:
fXn+1|X(xn+1 | x) =∫θfXn+1|Θ(xn+1 | θ)πΘ|X(θ | x)dθ. (3.4)
Observe que, a equacao pode ser vista como uma mistura de distribuicoes de fXn+1|Θ(xn+1 |
θ) com a distribuicao a posteriori πΘ|X(θ | x). A distribuicao a posteriori combina e re-
sume a informacao sobre o parametro de risco θ associado com o risco da apolice, que
23
e funcao da distribuicao priori e da verossimilhanca. Consequentemente a equacao (3.4)
reflete esta informacao. Se as distribuicoes das observacoes pertencem a famılia exponen-
cial, e π(θ) e uma distribuicao a priori conjugada natural, esta fornece um metodo facil
para avaliar a distribuicao condicional de Xn+1 dado X = x. Tendo-se observado X = x
para uma apolice em particular e desejando predizer Xn+1, ou seu valor medio, podemos
utilizar a media condicional a θ denominado o premio individual, dado por:
µn+1(θ) = E(Xn+1 | Θ = θ) =∫xn+1
xn+1fXn+1|Θ(xn+1 | θ)dxn+1. (3.5)
Logo para eliminar o efeito de θ se calcula a esperanca na distribuicao a priori, conhecido
por o premio coletivo, dado por:
µn+1 = E(Xn+1) = E[E(Xn+1 | Θ)] = E[µn+1(Θ)] (3.6)
Como θ e desconhecido, podemos calcular o Premio de Bayes, o qual e dado pela media
da distribuicao preditiva:
E(Xn+1 | X = x) =∫xn+1
xn+1fXn+1|X(xn+1 | x)dxn+1 (3.7)
Uma forma computacionalmente mais conveniente e:
E(Xn+1 | X = x) =∫θµn+1(θ)πΘ|X(θ | x)dθ. (3.8)
Isto e,
E(Xn+1 | X = x) =∫xn+1fXn+1|X(xn+1 | x)dxn+1
=∫xn+1
[∫fXn+1|Θ(xn+1 | θ)πΘ|X(θ | x)dθ
]dxn+1
=∫ [∫
xn+1fXn+1|Θ(xn+1 | θ)dxn+1
]πΘ|X(θ | x)dθ
=∫µn+1(θ)πΘ|X(θ | x)dθ.
Em outras palavras, o Premio Bayes e o valor esperado da media hipotetica ou Premio
individual, com a esperanca tomada sobre a distribuicao a posteriori πΘ|X(θ | x). Mais
detalhes podem ser encontrados em Gisler e Buhlmann (2005).
Lembre-se que as integrais sao substituıdas por somas no caso em que a variavel aleatoria
for discreta. Para completar a inferencia e predicao, a distribuicao que quantifica o
conhecimento do parametro de interesse deve ser explorada.
24
3.1.1 Estimacao de parametros
O processo de estimacao dos parametros pode ser realizado a partir de uma estimacao
por ponto ou por intervalo.
Estimacao pontual
A estimacao pontual de um determinado parametro θ pode ser vista como um problema
de decisao. Os elementos que compoem este problema de decisao sao: O espaco de
parametros Θ; o espaco de resultados do experimento Ω; o espaco de acoes possıveis A.
Uma regra de decisao δ e uma funcao definida em Ω que assume valores em A, tal que
δ : Ω→ A. Associamos entao uma funcao perda L a cada regra de decisao δ(x), x ∈ Ω, e
a cada possıvel valor de θ ∈ Θ. Assim, temos uma medida de quanto perdemos quando
tomamos a decisao δ(x) e o valor verdadeiro do parametro e θ. Como e explicado em
Paulino et al. (2003), o risco associado a uma determinada regra de decisao δ(x) e obtido
tomando-se a esperanca da funcao perda L(δ, θ) com relacao a distribuicao a posteriori
de θ, ou seja,
R(δ) = Eθ|x(L(δ, θ)).
Um estimador pontual de θ e dado pela regra de decisao que minimiza o risco a posteriori
ou a perda esperada bayesiana segundo uma funcao perda especificada. Os estimadores
pontuais associados as perdas quadraticas, perdas absolutas e perdas zero-um sao a
media, a mediana e a moda da distribuicao a posteriori de θ, respectivamente.
Estimacao intervalar
A forma mais adequada de avaliar a informacao disponıvel a respeito de uma quantidade
desconhecida θ e atraves da distribuicao a posteriori, mais detalhes podem ser encon-
trados em Bernardo e Smith (1994). Assim, sumarizar a informacao desta distribuicao
em um unico valor nao fornece ao pesquisador uma medida de quao preciso ele e. Uma
alternativa para este problema e calcular intervalos de credibilidade para estes valores.
Um intervalo de credibilidade bayesiano e definido da seguinte maneira: Seja θ uma
quantidade desconhecida em Θ. Uma regiao C ⊂ Θ e um Intervalo de Credibilidade
25
bayesiano 100(1 − α)% para θ se p(θ ∈ C | x) ≥ 1 − α. Desta forma, o Intervalo de
Credibilidade bayesiano, com nıvel de credibilidade (1−α), e denotado por IC100(1−α)%.
Previsao
O interesse esta em prever os premios futuros. Considerando a populacao em risco
constante, resta prever os valores dos sinistros. Seja xpred o valor a prever, com a funcao
de probabilidade ou densidade de probabilidade da forma f(xpred | θ). Seja xobs o vetor
dos valores dos sinistros observados. A distribuicao preditiva de Xpred e dado por :
f(xpred | xobs) =∫
Θf(xpred, θ | xobs)dθ
=∫
Θf(xpred, | xobs, θ)f(θ | xobs)dθ
=∫
Θf(xpred, | θ)f(θ | xobs)dθ
= Eθ|xobs [f(xpred | θ)]
3.1.2 Teoria de decisao no calculo do premio
As companhias seguradoras enfrentam o problema de estabelecer o valor pago de um
seguro. Bernardo e Smith (1994) recomendam que todo problema estatıstico seja visto
como um problema de tomada de decisao. Rıos e French (2000), capıtulo 2, fazem o
desenvolvimento axiomatico racional, baseada na maximizacao da utilidade subjetiva
esperada, conduzindo naturalmente a teoria de decisao bayesiana. Consideremos a estru-
tura basica de um problema de decisao estatıstica, sejam a ∈ A, o conjunto de opcoes,
alternativas. Consideremos que o conjunto das crencas do tomador de decisoes θ ∈ Θ seja
expresso por meio de distribuicoes de probabilidade a priori. Apos observar a informacao
X=x, a informacao a priori e atualizada pela distribuicao de probabilidade a posteriori
pθ(θ | x).
As preferencias sob as consequencias das tomadas de decisao sao modeladas atraves da
funcao utilidade u(a, θ). A estrategia e encontrar a opcao que maximize a utilidade
esperada a posteriori. Neste trabalho adotaremos a funcao perda L(a, θ) = −u(a, θ),
buscando minimizar a perda esperada a posteriori. O tomador da decisao, busca uma
26
alternativa a, que seja solucao de:
argmin
a∈A
∫L(a, θ)pθ(θ | x)dθ.
Esta alternativa otima e chamada opcao Bayes. O problema e escolher uma funcao perda,
que seja uma funcao estritamente convexa tal que a solucao de Bayes a exista e seja unica.
Migon e Moura (2005), propoem um modelo hierarquico para o risco coletivo bayesiano
para a predicao do premio. Eles apresentam uma classe geral de funcoes de utilidade
bastante empregadas na pratica. Definida por U(θ, d) = γ(θ)L(d − θ), onde L e uma
funcao nao-negativa da diferenca θ−d , conhecida como a funcao perda, γ(θ) e uma funcao
nao-positiva que indica a gravidade relativa de um determinado erro para diferentes
valores desconhecidos de θ e δ e a decisao da quantidade aleatoria θ.
Funcoes perda
Tres funcoes de utilidade serao especificadas, as quais sao membros da classe geral ante-
riormente introduzida. A funcao de perda linear-exponencial de Zellner (1986), a funcao
de utilidade de Esscher (Gomez-Deniz et. al, 1999) e o desvio absoluto modificado. Elas
possuem propriedades desejaveis, tais como a assimetrias em torno do seu valor maximo
correspondente.
(i) A funcao de perda linear-exponencial
U1(θ, d) = −b[exp(a(d− θ))− a(d− θ)− 1], a 6= 0, b > 0
os parametros a e b acima podem ser interpretados, respectivamente, como a
“forma”e “escala”da funcao de utilidade. Este e um caso especial da forma geral
apresentada acima, com γ(θ) = −1 e L(d−θ) = b[exp(a(d−θ))−a(d−θ)−1].O valor
de d que maximiza a funcao de utilidade e indicado por d∗ = − log(E[exp(−aΘ)/a]),
desde que o valor esperado em relacao ao θ exista e seja finito.
(ii) A funcao de utilidade de Esscher
U2(θ, d) = −exp(γθ)(d− θ)2
27
com L(θ, d) = (θ − d)2 e γ(θ) = − exp(γθ), γ < 0. O premio de Esscher e dado
por d∗ = E[θ exp(γθ)]/E[exp(γθ)].
(iii) O desvio absoluto modificado
U3(θ, d) = (d− θ)[k1I(−∞,θ)(d)− k2I(θ,+∞)(d)],
onde k1 e k2 sao constantes positivas e IA(x) = 1 se x ∈ A, e IA(x) = 0 caso
contrario. E interessante notar que neste caso γ(θ) = k1I(∞,θ)(d) − k2I(θ,+∞)(d) e
L(θ, d) = |θ − d|. Assumindo que E[Θ] exista, e simples mostrar que a decisao de
Bayes, d∗2 e a solucao de
P [Θ ≤ d] ≥ k1
k1 + k2
e P [Θ ≥ d] ≤ k2
k1 + k2
.
Logo d∗2 e o percentil (100α)% da distribuicao preditiva da quantidade desconhecida
de interesse, com α = 1 − k1(k1+k2)
. Por exemplo, para k1 = k2 = 1 tem-se que a
decisao de Bayes e dada pela mediana, e para k1 = 0.95 e k2 = 0.05 (valores usuais
na ciencia atuarial) a decisao de Bayes d∗2 e o percentil 95%.
Note que a funcao de utilidade Esscher e mais conservadora com respeito aos des-
vios da quantidade de interesse do que a funcao de utilidade desvio absoluto modificada.
Como e indicado por Zellner (1986), a funcao linear exponencial, para a = 1, e bastante
assimetrica, penalizando sobrepredicao mais do que subpredicao. Por outro lado, quando
a < 0, ela pode ser aproximada por uma funcao exponencial para d − θ < 0 e por uma
funcao linear quando d− θ > 0.
A funcao de utilidade e escolhida de forma subjetiva e seus parametros sao avaliados
pelo tomador de decisao que representa o seu comportamento com relacao aos riscos en-
volvidos. A funcao de utilidade “desvio absoluto modificado”sera adotada neste trabalho.
Deste modo, considere Xa,T+H =∑T+Ht=T+1Xa,t e Πa,T+H =
∑T+Ht=T+1 Πa,t, sendo
Xa,T+H o valor dos sinistros para a classe de risco a no tempo T +H com Πa,T conhecido.
A quantidade de interesse e dado por Ra,T+H =Xa,T+H
Πa,T+H, onde Ra,T+H e a variavel aleatoria
28
que mede o gasto por indenizacao de sinistros por pessoa. Contudo, O valor do premio
sera calculado para cada faixa etaria a e, e dado pelo percentil 95% obtido a partir da
distribuicao preditiva a posteriori para um horizonte de tempo futuro H, condicionada
as observacoes obtidas ate o tempo T .
f(Ra,T+H | DT ) =∫
Θf(Ra,T+H | θ)f(θ | DT )dΘ
Isto e, o percentil 95% sera o valor do premio que maximiza a funcao utilidade desvio
absoluto modificada e DT e a informacao disponıvel ate o tempo T .
3.1.3 Modelo hierarquico de risco coletivo bayesiano
Os modelos hierarquicos foram introduzidos por Lindley e Smith (1972). Eles repre-
sentam as crencas de um conjunto de observacoes X1, . . . , Xn. Estas observacoes sao
condicionalmente independentes dado os valores dos parametros θ1 . . . , θn. Deste modo
o tomador de decisao considera que cada θi possui uma distribuicao comum Pθ(. | φ). O
conhecimento relacionado a θ pode ser representado pela distribuicao Pφ(. | η). As etapas
do processo de modelagem pode ser descrita como:
Etapa 1 : Xi ∼ PXi(. | θi), i = 1, . . . , n. (3.9)
Etapa 2 : θi ∼ Pθ(. | φ), i = 1, . . . , n.
Etapa 3 : φ ∼ Pφ(. | η).
Note que a distribuicao de Pθ(. | φ) e comum para todo θi, modelando a similaridade.
Entretanto a distribuicao PXi(. | θi) pode variar para cada observacao i = 1, . . . , n.
O modelo hierarquico de risco coletivo completamente bayesiano, introduzido por
Migon e Moura (2005), e denominado como modelo basico neste trabalho.
Eles consideram a seguinte extensao do modelo (2.7) descrito na secao anterior. Para
cada classe de risco e perıodo de tempo, tem-se.
Xa,t | na,t, θa ∼ G(na,tka, θa), Xa,t > 0, θa > 0, ka > 0, (3.10)
Na,t | λa, πa,t ∼ Po(λaπa,t), λa > 0, Na,t = 0, 1, . . . .
Πat | βa, τπ ∼ LogNormal[µa,t, τ−1π ], τπ > 0,
29
A dinamica populacional dos segurados e modelada atraves de um modelo hierarquico
exponencial de crescimento generalizado (GHEGM), que e uma extensao do modelo de
crescimento generalizado (GPG) apresentado em Migon e Gamerman (1993). Assume-
se que a populacao segurada observada πa,t e modelada atraves de uma distribuicao de
probabilidade na famılia exponencial com funcao de resposta media dada por:
E(πa,t) = [βa,0 + βa,1 exp(βa,2t)]1γ . (3.11)
Alguns casos especiais, sao bem conhecidos na literatura: Para γ = −1, temos uma
curva de crescimento logıstico; para γ = 0, obtemos o modelo Gompertz e para γ = 1
nos leva a obter uma curva exponencial modificado. Eles sugerem que o modelo deve ser
nao explosivo, uma vez que a populacao segurada para cada classe de idade tende a se
estabilizar em um determinado valor quando o tempo aumenta. Consequentemente, o
parametro βa,2, para a = 1, . . . , A, conhecido como o fator de amortecimento, deve ser
negativo.
A funcao de verossimilhanca do modelo (3.10), proposto no modelo basico, e dada por:
l(λ, θ,B, κ, τ | DT ) ∝AT∏a,t=1
θna,tκaa
Γ(na,tκa)xna,tκa−1a,t exp[−(θaxa,t + λaπa,t)](λaπa,t)
na,tf(πa,t | βa, τ−1),
(3.12)
onde: DT = (xt, nt, πt), t = 1, . . . , T e B = β′a = (βa,0, βa,1, βa,2).
Considerando a populacao em risco constante, o modelo hierarquico de risco coletivo
padrao considerado neste trabalho sera denominado em diante o modelo MHRC-GP, e
sua representacao hierarquica e dada por:
p(x1, . . . , xm) =∫
ΘA
∫φ
A∏i=1
T∏j=1
p(xi,j | θi)p(θ1, . . . , θA | φ)p(φ)d(θ1, . . . , θA)d(φ).
3.1.4 Escolha da distribuicao a priori
Sabe-se que a especificacao bayesiana se completa ao associar as distribuicoes a priori
para os parametros de interesse. Optou-se pela escolha de distribuicoes a priori nao
informativas.
30
Priori nao informativas
Nesta subsecao apresentam-se situacoes em que nao existe informacao a priori suficiente,
de natureza subjetiva. O que frequentemente e chamado de “ignorancia a priori”ou
que o conhecimento a priori e pouco significativo relativamente a informacao amostral
(ou estado de conhecimento “vago”). Neste sentido, as distribuicoes nao informativas
sao interpretadas como representacoes formais de ignorancia. Certamente estes foram
os argumentos historicos desenvolvidos por Bayes (1763), divulgados e formalizados por
Jeffreys (1939/1961) quase 200 depois. Atualmente as analises sao feitas utilizando-se
prioris nao informativas em menor proporcao. O problema de escolher a distribuicao a
priori propria nao informativa pode trazer algumas dificuldades na analise, ver Migon e
Gamerman (1999) para mais detalhes.
Considere a distribuicao a priori uniforme, dado por p(θ) ∝ k, (k constante) para θ
variando em R o qual indica que nenhum dos valores em particular os quais podem ser
atribuıdos para θ sao preferıveis, Bayes (1763). A primeira dificuldade que surge e que
p(θ) nao e propria, isto e, se o espaco de variacao de θ for ilimitado, implica que a integral
diverge,∫p(θ)dθ →∞. Tambem se φ = φ(θ) e uma transformacao um a um de θ, como
θ e uniformemente distribuıdo, temos que a densidade de φ e dado por:
p(φ) = p(θ(φ))
∣∣∣∣∣dθdφ∣∣∣∣∣ ∝
∣∣∣∣∣dθdφ∣∣∣∣∣
A distribuicao de φ e constante quando φ e definido por uma transformacao linear. No
entanto, as mesmas suposicoes que conduz a especificacao de p(θ) ∝ k deveriam conduzir
a p(φ) ∝ k. Isto contradiz a afirmacao anterior. Idealmente, se gostaria de estabelecer
uma regra invariavel, a qual nao viole os resultados sobre a variavel transformada.
Uma classe de distribuicoes a priori nao informativa e proposta por Jeffreys (1939/1961).
Esta classe e invariante a transformacoes, contudo ela pode conduzir a distribuicoes a
posteriori nao proprias.
Informacao de Fisher Seja X um vetor aleatorio com densidade f(x | θ). Logo a
medida de informacao de Fisher de θ atraves de X e definida por:
I(θ) = EX|θ
[−δ
2 log f(x | θ)δθ2
].
31
Se θ = (θ1, . . . , θp), for um vetor parametrico entao:
I(θ) = EX|θ
[−δ
2 log f(X | θ)δθδθ′
],
com cada elemento Iij(θ) dado por:
Ii,j(θ) = EX|θ
[−δ
2 log f(X | θ)δθiδθ
′j
], i, j = 1, . . . , p.
Apresenta-se a seguir o metodo de calcular a priori nao informativa de Jeffreys.
Priori de Jeffreys
Definicao 3.1.1 Considere uma observacao X com probabilidade (funcao de densidade)
f(x | θ). A priori de Jeffreys nao informativa tem probabilidade (funcao de densidade)
dada por:
f(θ) ∝ [I(θ)]1/2, θ ∈ Θ
No caso multivariado, os elementos da matriz de informacao de Fisher I(θ) sao dados
por:
Ii,j(θ) = E
[δ log f(X | θ)
δθi
δ log f(X | θ)δθj
| θ].
Note que I(ψ) =(δθδψ′
)′I (θ(ψ)) δθ
δψ′conduz a que a distribuicao de Jeffreys obtida seja
proporcional a raiz quadrada do determinante de I(θ). Logo a densidade a priori de
Jeffreys e dada por:
p(θ) ∝ |I(θ)|1/2.
Priori de Referencia
Com o objetivo de superar as dificuldades associadas a utilizacao da priori de Jeffreys
que pode-nos levar a posteriori nao propria. O uso da regra de Jeffreys multiparametrica
costuma ter implicacoes poucos satisfatorias que sao frequentemente ultrapassadas por
imposicao de independencia a priori e uso separado de regras de Jeffreys para especi-
ficacao das distribuicoes marginais, para mais detalhes ver Paulino et al. (2003). Bernardo
(1979) sugeriu uma nova abordagem para construir distribuicoes que permitam expressar
32
estados de ignorancia a priori sobre um ou mais parametros. A estrategia apresentada
em Bernardo (1979) e construir uma distribuicao a posteriori que possa ser usada como
distribuicao a posteriori de referencia, de tal modo que um investigador com informacao
a priori subjetiva possa comparar a sua distribuicao a posteriori com a distribuicao de
referencia. Esta ultima e a distribuicao que deve ser obtida por alguem em estado de
ignorancia a priori . A teoria de Bernardo, inicialmente proposta em 1979, foi poste-
riormente melhorada e desenvolvida por Berger e Bernardo em uma serie de trabalhos
nos anos subsequentes. Para um desenvolvimento completo da teoria pode-se consultar
Bernardo e Smith (1994). Bernardo (1979) define a distribuicao de referencia para um
determinado modelo como a distribuicao que maximiza a quantidade de informacao so-
bre o parametro desconhecido θ, em um numero infinito de repeticoes do experimento.
A quantidade de informacao sobre θ desconhecida, em n replicacoes do experimento, e
definida como:
I(xn, θ) = E(xn,θ)
[log
p(θ | xn)
p(θ)
]
= Exn
[Eθ|xn
[log
p(θ | xn)
p(θ)
]]onde xn = (x1, . . . ,xn) e a quantidade de informacao sobre θ desconhecida, para um
numero infinito de repeticoes do experimento, obtida como o limite da informacao base-
ado em n replicacoes, quando n→∞. Contribuicoes para o uso pratico da metodologia
podem ser encontrados em Sun e Berger (1998). Eles derivam distribuicoes a priori de
referencia considerando tres casos onde informacao parcial esta disponıvel. Dois metodos
sao propostos para encontrar a priori de referencia marginal. Caso uma priori marginal
subjetiva esteja disponıvel, eles propoem um metodo para definir uma priori de referencia
condicional. Alguns resultados da metodologia usada no calculo das distribuicoes a priori
de referencia sao aplicados neste trabalho.
Seja x = (x1, . . . , xn) uma amostra aleatoria observada da densidade p(x; θ1, θ2), onde
os parametros θ1 e θ2 sao vetores de dimensao d1 e d2, respetivamente. Seja π(θ1, θ2) a
densidade a priori de (θ1, θ2).
As seguintes questoes de interesse foram abordadas em Sun e Berger (1998):
(i) Suponha que temos disponıvel a densidade a priori condicional subjetiva πs(θ2 | θ1)
33
para θ2 dado θ1. Como podemos encontrar a priori marginal nao informativa πr(θ1)
para θ1?
(ii) Suponha que temos disponıvel a densidade a priori marginal subjetiva πs(θ1) para
θ1. Como podemos encontrar a priori nao informativa condicional πr(θ2 | θ1) para
θ2 dado θ1?
Seja π(θ1, θ2 | xn) a densidade conjunta posteriori de θ1 e θ2 e π(θ1 | xn) a posteriori
marginal de θ1.
Quando a densidade condicional de θ2 dado θ1 e disponıvel, existem duas opcoes razoaveis
para achar a priori marginal πr(θ1) :
Opcao 1: Bernardo (1979) define a divergencia esperada de Kullback-Leibler entre a
densidade posteriori marginal de θ1 dado Xn e a priori marginal de θ1, dada por:
JXn; πr(.) = E
[∫π(θa | Xn) log
π(θ1 | Xn)
πr(θ1)
dθ1
], (3.13)
onde a esperanca e com respeito a densidade marginal
m(Xn) =∫p(Xn | θ1)πr(θ1)dθ1.
O objetivo e encontrar πr(θ1) que maximiza assintoticamente (3.13). Uma maneira de
resolver este problema e definir a distribuicao a priori que maximiza a distancia entre
a priori e a posteriori. Como consequencia de Ghosh e Mukerjee (1992), e sob algu-
mas condicoes de regularidade (Para mais detalhe destas condicoes pode-se consultar
Bernardo e Smith (1994), capıtulo 5), tem-se que para n suficientemente grande:
JXn; πr(.) =d1
2log
(n
2πε
)+∫πr(θ1) log
η(θ1)
πr(θ1)
dθ1 + o(1), (3.14)
onde:
η(θ1) = exp
1
2
∫πs(θ2 | θ1)
(|Σ||Σ22|
)dθ2
,
com Σ = Σ(θ1, θ2) sendo a matriz de informacao de Fisher para (θ1, θ2),Σ22 = (θ1, θ2)
sendo a matriz de informacao de Fisher para θ2, dado que θ1 e fixado, e |Σ| e o determi-
nante de Σ.
34
A estrategia para obter a priori de referencia sugere escolher πr que maximize (3.13)
ou (3.14) assintoticamente sob um conjunto compacto. Pode-se demostrar que πr1(θ1) ∝
η(θ1). Esta e essencialmente a solucao dada em Berger e Bernardo (1992). O teorema a
seguir pode ser aplicado ao seguinte caso especial.
Teorema 3.1 (a) Se |Σ||Σ22| nao depende de θ2, entao, para alguma distribuicao condicional
πs(θ2 | θ1), a priori de referencia marginal para opcao 1 tem a forma:
πr(θ1) ∝[|Σ||Σ22|
] 12
.
(b) Se |Σ||Σ22| depende so de θ2 e πs(θ2 | θ1) nao depende de θ1, entao πr1 ∝ 1.
Opcao 2: Encontrando o modelo marginal p(xn | θ1) =∫p(xn | θ1, θ2)πs(θ2 | θ1)dθ2.
Seja Σ∗(θ1) a matriz informacao de Fisher para θ1 baseada no modelo marginal. Logo,
a distribuicao priori de referencia para θ1 e obtida, maximizando-se assintoticamente a
divergencia esperada de Kullback-Leibler (distancia entre a posteriori marginal e a priori
marginal), e ela e dada por:
πr(θ1) ∝ |∗∑
(θ1)|12 .
A opcao 2 esta mais relacionada a motivacao para a construcao de priori de referencia:
sendo π∗(θ2 | θ1) conhecido, a informacao dos dados em relacao a θ1 reside em p(xn | θ1),
assim, a priori de referencia marginal deveria, ser idealmente, calculada sob a mistura
de modelo. Infelizmente, a matriz de informacao de Fisher para tais modelos e difıcil
de ser calculada. Logo, a opcao 2 pode nao ser viavel. Por isso Sun e Berger (1998)
recomendam a opcao 1 ao inves da opcao mais natural (Opcao 2) .
Para o caso em que a densidade a priori πs(θ1) e conhecida, considere a divergencia
esperada de Kullback-Leibler entre a densidade a posteriori p(θ2 | θ1, xn) e a densidade
condicional a priori de p(θ2 | θ1), deste modo tem-se:
JXn; πr(. | θ1) (3.15)
= E
[∫θ1π(θ1 | Xn)
∫θ2π(θ2 | θ1, Xn) log
π(θ2 | θ1, Xn)
πr(θ2 | θ1)
dθ2dθ1
]
= E
[∫θ1
∫θ2π(θ1, θ2 | Xn) log
π(θ1, θ2 | Xn)
π(θ1, θ2)
dθ2dθ1
]
= E
[∫θ1π(θ1 | Xn) log
π(θ1 | Xn)
π(θ1)
dθ1
]
35
e analogamente a opcao 1, e como consequencia dos resultados encontrados por Ghosh e
Mukerjee (1992) podemos concluir de (3.15):
JXn; πr(. | θ1) (3.16)
=d2
2log
(n
2πε
)+∫θ1πr(θ1)
∫θ2πr(θ2 | θ1) log
|Σ22|12
πr(θ2 | θ1)
dθ2
dθ1 + o(1)
Portanto, escolhendo πr(θ2 | θ1) para maximizar assintoticamente (3.16), tem-se que:
πr(θ2 | θ1) ∝ |Σ22(θ2 | θ1)|12 . (3.17)
quando esta a priori de referencia condicional for propria. Se nao for o caso, deve-se
utilizar um argumento tipicamente empregado em analise de referencia, ou seja:
Escolhe-se uma sequencia Λ1 ⊂ Λ2 ⊂ . . . de subconjunto compacto de parametros do
espaco de Λ de (θ1, θ2), de modo que⋃i Λi = Λ e πr(θ2 | θ1) tenha massa definida em
Ωi = θ2 : (θ1, θ2) ∈ Λi. Seja 1A a funcao indicadora sobre A e seja
Ki(θ1) =∫
Ω1
|Σ22(θ1, θ2)|12dθ2.
A priori de referencia condicional para θ2 sob Ωi e
πri (θ2 | θ1) =|Σ22(θ1, θ2)| 12
Ki(θ1)1Ωi(θ2).
Define-se entao a priori de referencia condicional para θ2 por:
πr(θ2 | θ1) = limi−→∞
πri (θ2 | θ1)
πri (θ20 | θ10),
Quando o limite acima existir, tem-se que:
πr(θ2 | θ1) = limi−→∞
Ki(θ10)
Ki(θ1)|Σ22(θ1, θ2)|
12 .
Segue o seguinte teorema que fornece condicoes suficientes, sob as quais o limite e pro-
porcional a |Σ22(θ1, θ2)| 12 .
Teorema 3.2 Suponha que
|Σ22(θ1, θ2)| = g1(θ1)g2(θ2),
36
para alguma funcao g1(θ1) e g2(θ2). Suponha que Λ = Θ1×Θ2 seja o conjunto compacto
escolhido da forma Λi = Θ1i ×Θ2i. Entao a priori de referencia de θ2 satisfaz
πr(θ2 | θ1) ∝ |Σ22(θ1, θ2)|12 ∝ g2(θ2)
12 .
Observe que a priori de referencia condicional nao depende de πs(θ1). Supondo inde-
pendencia a priori de θ1 e θ2, tem-se o algoritmo para os calculos das priori de referencias
marginais, usando a opcao 1:
passo 0. Escolher qualquer priori inicial nao nula como densidade marginal da priori de
θ2, π02(θ2).
passo 1. Definir uma densidade priori provisoria para θ1
π(1)1 (θ1) ∝ exp
1
2
∫π
(0)2 (θ2) log
|Σ|Σ22
dθ2
.
passo 2. Define-se uma densidade provisoria priori para θ2
π(1)2 (θ2) ∝ exp
1
2
∫π
(1)1 (θ1) log
|Σ|Σ11
dθ1
.
Substitua π(0)2 no passo 0 por π
(1)2 e repita o passo 1 e o passo 2, ate obter π
(2)1 e
π(2)2 . Consequentemente, gera-se duas sequencias π(i)
1 i≥1 e π(i)2 i≥1. A priori marginal
e dada por:
πrj = limi−→∞
π(i)j (j = 1, 2)
se o limite existir.
Em aplicacoes de algoritmos iterativos, pode ser necessario trabalhar sob conjuntos com-
pactos.
Teorema 3.3 (a) Se |Σ||Σ22| nao depende de θ2, entao as prioris de referencia marginais
sao dadas por:
π(r)1 (θ1) ∝
[|Σ||Σ22|
] 12
, π(r)2 (θ2) ∝ exp
1
2
∫πr1(θ1) log
|Σ|Σ11
dθ1
.
37
(b) Se |Σ||Σ11| nao depende de θ1, entao as prioris de referencia marginais sao dadas por:
π(r)2 (θ2) ∝
[|Σ||Σ11|
] 12
, π(r)1 (θ1) ∝ exp
1
2
∫πr2(θ2) log
|Σ|Σ22
dθ2
.
Observe que as prioris de referencia sob os supostos de independencia, em geral,
sao diferentes das prioris de referencia ou das prioris de referencia obtidas por Berger e
Bernardo (1992). O seguinte teorema, apresenta condicoes para que elas coincidam.
Teorema 3.4 Se a matriz de informacao de Fisher de (θ1, θ2) e da forma
Σ(θ1, θ2) = diagg1(θ1)h1(θ2), g2(θ1)h2(θ2),
entao as prioris de referencia marginais sao:
π(r)1 (θ1) ∝ g1(θ1)
12 , π
(r)2 (θ2) ∝ h2(θ2)
12 . (3.18)
Sob as condicoes deste teorema, quando o parametro θ1 ou θ2 e o parametro de interesse,
a priori de referencia conjunta e da forma:
π(θ1, θ2) ∝ g1(θ1)h2(θ2)12
Como consequencia, a priori de referencia para θ1 e θ2 sao como em (3.18) As provas
dos teoremas (3.1-3.4) podem ser encontradas em Sun e Berger (1998).
3.1.5 Inferencia via simulacao estocastica: MCMC
No paradigma de Bayes, os metodos de simulacao estao relacionados ao processo de
obtencao de amostras de distribuicao posteriori dos parametros envolvidos. Metodos
como o de Monte Carlo via Cadeias de Markov sao usados para o processo inferencial.
O metodo de Monte Carlo via cadeias de Markov (MCMC) tem muita aplicacao na
inferencia estatıstica, em particular no paradigma bayesiano. Ele oferece tecnicas para
ajustar modelos complexos cujas distribuicoes a posteriori nao tem forma fechada.
A ideia basica do Metodo MCMC e o uso de tecnicas de simulacao estocastica, baseadas
na construcao de cadeias de Markov, cuja distribuicao de equilıbrio e igual a funcao de
interesse (densidade a posteriori). Apos um numero grande e finito de simulacoes desta
38
cadeia, espera-se atingir com alta precisao a distribuicao de equilıbrio. Portanto, a partir
de um perıodo de “aquecimento”, obtemos uma amostra da distribuicao a posteriori de
interesse.
Uma cadeia de Markov e um processo estocastico X0, X1, . . . tal que a distribuicao de
Xt dados os valores anteriores X0, X1, . . . , Xt−1 depende apenas de Xt−1, em outras
palavras,
P (Xt ∈ A | X0, X1, . . . , Xt−1) = P (Xt ∈ A | Xt−1)
para qualquer subconjunto A.
Alem disso, o metodo requer que a cadeia de Markov seja:
a) homogenea: que as probabilidades de transicao sejam invariantes, isto e, que a pro-
babilidade de estando no estado si a cadeia passe a um estado sj nao depende de
t.
P (Xt = x ∈ A | Xt−1 = y) = P (x | y)
b) irredutıvel: cada estado pode ser atingido a partir de qualquer outro em um numero
finito de iteracoes.
c) aperiodica: que nao haja estados absorventes (uma vez que a cadeia atinge este estado
nao vai conseguir sair a outros estados da cadeia)
Esta tecnica apresenta melhores resultados quando e aplicada a problemas de dimensao
grande. Os algoritmos mais comumente usados, sao o algoritmo Metropolis-Hastings
e o Amostrador de Gibbs. Descricao detalhada dos metodos de simulacao baseados em
metodos de Monte Carlo via Cadeias de Markov podem ser vistas em Gamerman e Lopes
(2006).
Algoritmo de Metropolis Hastings
Este algoritmo foi originalmente citado por Metropolis et al. (1953), cujo documento ori-
ginal trata o calculo de propriedades de substancias quımicas. Embora, a aplicacao deste
metodo fosse inicialmente na area de quımica, ele teve grande aplicacao em simulacao e
inferencia estatıstica. O algoritmo Metropolis Hasting tem como objetivo principal obter
39
uma amostra de uma distribuicao a posteriori p(θ | x). Este objetivo e atingido atraves
da construcao de uma cadeia de Markov θt, utilizando-se os seguintes passos:
1. Cria-se o contador j = 1 e atribui-se um valor inicial arbitrario θ(0) = (θ(0)1 , . . . θ
(0)d )
2. Geram-se novos valores φ a partir da densidade q(θ(j−1), .)
3. Avalia-se a probabilidade de aceitacao α(θ(j−1), φ).
4. E gerado u da uniforme no intervalo [0, 1]. Se u ≤ α, a transicao e aceita. Se a
transicao e aceita, θ(j) = φ; caso contrario, θ(j) = θ(j−1).
5. Faca j = j + 1 e repita o item 2 ate que seja obtida a convergencia da cadeia.
Note que se o nucleo q e simetrico, q(φ, θ) = q(θ, φ) , entao a probabilidade de aceitacao
se reduz a α(θ, φ) = min
1, π(φ)π(θ)
.
Embora a distribuicao proposta q possa ser escolhida arbitrariamente, na pratica devem-
se tomar alguns cuidados para garantir a eficiencia do algoritmo. Esta eficiencia depende,
por exemplo, da taxa de aceitacao α. Suponha que os valores simulados no passo anterior
e do presente estao proximos no espaco parametrico, entao π(φ)q(φ,θ)π(θ)q(θ,φ)
−→ 1 e a tendencia
sera aceitar todos os elementos simulados. Por outro lado, se a diferenca entre os valores
simulados na etapa anterior e do presente for grande, π(φ)q(φ,θ)π(θ)q(θ,φ)
sera pequeno e a taxa
de rejeicao sera elevada. Se os saltos entre um valor e outro sao pequenos, o tempo
de convergencia vai aumentar, mas se esses saltos sao muito grandes a taxa de rejeicao
aumenta, e como a cadeia deve cobrir todo o espaco de parametros para que se tenha
convergencia da cadeia para a distribuicao estavel, entao a melhor estrategia e fazer que
a taxa de rejeicao tenha um valor proximo a 50%.
Uma alternativa a amostragem em bloco e amostrar cada componente de θ separada-
mente. Esta alternativa pode requerer um elevado tempo de computacao, contudo tem-se
um maior controle na taxa de aceitacao. Os valores simulados apos a convergencia da
cadeia podem ser consideradas como amostras da densidade de interesse, contudo estes
valores sao dependentes. Para se obter uma amostra aleatoria da distribuicao, pode-se
amostrar da cadeia obtida a cada k-esimo valor. O valor de k pode ser obtido a partir
do valor da autocorrelacao da cadeia.
40
Amostrador de Gibbs
O amostrador de Gibbs foi introduzido por Geman e Geman (1984). O metodo de amos-
tragem Gibbs foi um algoritmo de simulacao de distribuicoes multivariadas complexas e
de dimensao elevada, proposta para evolucionar problemas de reconstrucao de imagens.
Gelfand e Smith (1990), por sua vez, mostraram como o algoritmo pode ser usado para
simular distribuicoes a posteriori e como, por consequencia, pode ser usado para resolver
problemas em estatıstica bayesiana. Este algoritmo constitui um caso particular do algo-
ritmo Metropolis-Hastings em que a probabilidade de aceitacao e igual a 1. O algoritmo
e entao um esquema markoviano dinamico que requer a amostragem destas distribuicoes
condicionais descrito como segue:
Seja o vetor de parametros θ = (θ1, . . . , θd), onde cada componente θi pode ser um es-
calar, um vetor ou uma matriz. Considera-se tambem que as distribuicoes condicionais
completas, πi(θi) = π(θi | θ−i), i = 1, . . . , d, estejam disponıveis, o que significa que elas
sao completamente conhecidas e podem ser amostradas. O processo de simulacao de
cada parametro atraves das distribuicoes condicionais e chamado ciclo de amostragem de
Gibbs e e constituıdo das seguintes etapas. Algoritmo:
1. Cria-se um contador j = 1 e atribui-se um valor inicial arbitrario θ(0) = (θ(0)1 , . . . θ
(0)d ).
2. Calcula-se um novo valor da cadeia θ(j) = (θ(j)1 , . . . , θ
(j)d ), a partir do valor de θ(j−1),
atraves da geracao sucessiva de valores
θ(j)1 ∼ π(θ1 | θ(j−1)
2 , θ(j−1)3 , . . . , θ
(j−1)d )
θ(j)2 ∼ π(θ2 | θ(j)
1 , θ(j−1)3 , . . . , θ
(j−1)d )
...
θ(j)d ∼ π(θd | θ(j)
2 , θ(j)3 , . . . , θ
(j)d−1)
3. Muda-se o contador j = j+ 1 e volta-se ao item 2 ate obter a convergencia da cadeia.
Se a cadeia convergir, o valor de θ(j) e uma amostra de π. Assim, se for preciso obter uma
amostra de tamanho n de π, basta replicar n cadeias depois do perıodo de aquecimento.
41
Diagnostico de Convergencia
Espera-se que as cadeias convirjam para uma distribuicao estacionaria, que e denomi-
nada a distribuicao objetivo (a posteriori). No entanto, nao ha garantia de que uma
cadeia tenha convergido apos L valores. No entanto, neste trabalho, nao se fara consi-
deracoes teoricas sobre convergencia dos metodos. Porem, descrevem-se aqui algumas
das estrategias mais usadas para esse proposito.
Gelfand e Smith (1990) propoem metodos ad-hoc baseados em representacoes graficas
das estimativas das densidades para monitorar a convergencia das medias ergodicas para
os parametros de interesse. Geweke (1992) sugere metodos baseados em series tempo-
rais. Gelman e Rubin (1992a) e Gelman e Rubin (1992a) sugerem metodos baseados em
analise de variancia. Raftery e Lewis (1992) apresentam formulas que relacionam a di-
mensao da cadeia de Markov a ser construıda, o espacamento entre os vetores simulados
e a dimensao da amostra a ser utilizada. Ritter e Tanner (1992) sugerem a monitorizacao
de certas funcoes peso associadas aos vetores simulados. Nao ha, entretanto, um metodo
que se possa dizer ser o melhor ou mais eficiente que todos, ver Cowles e Carlin (1996).
A utilizacao de metodos diferentes para o mesmo problema pode conduzir a respostas
bastante dıspares, ver Green et al. (1994).
3.1.6 Validacao e selecao de modelos
Uma analise cuidadosa de dados, deve considerar o problema de comparacao dos modelos.
Isto e, deve-se avaliar e escolher o modelo que melhor represente a situacao em estudo.
Medidas de diagnostico-adequabilidade de um modelo
A amostra observada e usada para construir a distribuicao a posteriori p(θ | x). Su-
ponha que se tenha uma amostra y = (y1, . . . , yn) de validacao. Esta e uma amostra
independente de x e e usada para validar o modelo. A distribuicao preditiva de y e:
p(y | x) =∫f(y | θ)h(θ | x)dθ.
Esta distribuicao preditiva permite a avaliacao do modelo no sentido em que se os dados
y nao estiverem “de acordo”com p(y | x), a qual foi calculada usando a amostra x, entao
42
nao se espera que o modelo seja adequado. Pode-se calcular o valor medio e a variancia
de cada componente y,
E(Yi | x) =∫yip(y | x)dy e var(Yi | x) =
∫(yi − E(Yi | x))2p(y | x)dy,
que sao uteis para definir os resıduos bayesianos padronizados. A analise destes resıduos
pode ser feita de forma analoga a inferencia classica.
Comparacao de modelos
Uma das medidas bastante empregadas para comparar a capacidade preditiva de modelo
e o “Fator de Bayes”(BF). Contudo o BF e extremadamente sensıvel a escolha da dis-
tribuicao a priori. Alem disso, o BF nao e definido se quando distribuicao a priori for
impropria.
“O criterio de informacao bayesiana”(BIC) e um metodo alternativo util a ser usado
na comparacao de dois ou mais modelos, pois este nao requer a especificacao de prioris
para os parametros. Contudo pode nao ser adequado quando forem usados em modelos
hierarquicos. O “Deviance information criterion”(DIC) pode ser visto como uma alter-
nativa ao BIC.
Os criterios usados neste trabalho foram: DIC, “Probabilistic forecasts, calibration and
sharpness”(CRPS) e o Fator de Bayes apresentada em Kass e Raftery (1995), baseado
na aproximacao da distribuicao preditiva desenvolvida por Newton e Raftery (1994).
O criterio DIC
Spiegelhalter et al. (2002) consideram o problema de comparacao de modelos hierarquicos
complexos, onde o numero de parametros nao esta claramente definido. Usando um
argumento teorico definem a medida Pd para o numero efetivo de parametros num modelo
como a diferenca entre a media a posteriori da deviancia e a deviancia de medias a
posteriori dos parametros. Seja θ∗ = E(θ | z) a media a posteriori para o parametro θ.
Defini-se a funcao de deviancia como:
D(θ) = −2 log(p(z | θ)),
43
onde p(z | θ) representa a funcao de verossimilhanca. Define-se o DIC como :
DIC = D + pd,
onde D = E(D(θ) | z), e pd = D −D(θ∗),
Um menor valor de DIC indica um melhor ajuste do modelo. O DIC e computacional-
mente atrativo pois pode ser facilmente calculado das estatısticas obtidas das amostras
do MCMC.
Sejam θ(1), . . . , θ(M) saıdas de um algoritmo de MCMC. Entao D = E(D(θ) | z), pode
ser aproximado, usando Monte Carlo, por
D ≈ 1
M
M∑k=1
D(θ(k)).
Alem disso, D(θ(∗)) ≈ D(θ), onde θ = 1M
∑Mk=1 θ
(k). Para comparar as capacidades pre-
ditivas de cada modelo, uma opcao usual e usar ferramentas baseadas nas densidades
preditivas. Gelman et al. (1995b) sugerem comparar os modelos usando a densidade
preditiva a posteriori que e definida como p(xrep | θ, xobs), e que sao considerados replicas
independentes do conjunto de valores observados sob o modelo, dado os valores atuais
observados.
O criterio CRPS
Em Gneiting et al. (2007) consideram as “regras de escores”para avaliar as previsoes
probabilısticas. As “regras de escore”sao medidas que abordam a “calibracao e forma”ao
mesmo tempo.
Lopes et al. (2012) calculam o CRPS para cada yi,j,k, deste modo:
CRPS(yi,j,k) = E|Yrep,i,j,k − Yi,j,k| −1
2E|Yrep,i,j,k − Yrep,i,j,k|.
onde, os Yrep,i,j,k e Yrep,i,j,k sao replicas independentes da distribuicao preditiva a pos-
teriori. Alem disso E|Yrep,i,j,k − Yi,j,k| e E|Yrep,i,j,k − Yrep,i,j,k| podem ser aproximados
por:
L−1∑b
l = 1L|Y (l)rep,i,j,k − Yi,j,k| e L−1
L∑l=1
|Y (l)rep,i,j,k − Y
(l)rep,i,j,k|,
44
respetivamente, onde Y(l)rep,i,j,k e Y
(l)rep,i,j,k respectivamente denotam replicas da distri-
buicao de p(Yi,j,k | Θ(l)) baseada na l-esima iteracao MCMC. O CRPS geral e dado por
CRPS =1
n
I∑i=1
ni∑j=1
p∑k=1
CRPS(yi,j,k).
Quanto menor o valor de CRPS melhor e considerado o modelo. Para mas detalhe ver
GschloBl e Czado (2008) e GschloBl (2006).
Erro Quadratico Medio Preditivo (EQMp)
O Erro Quadratico Medio Preditivo (EQMp) e dado por:
EQMp =∑l:L
∑i:n
[yi − y(l)i ]2
nL, (3.19)
onde yi e o valor observado para a i-esima observacao e y(l)i e a estimativa do valor
esperado para a i-esima observacao na l-esima iteracao do algoritmo MCMC. O modelo
que obtiver o menor EQMp,e aquele que deve ser indicado como melhor.
Erro absoluto Medio Preditivo (EAMp)
O Erro Absoluto Medio Preditivo (EAMp) e dado por:
EAMp =∑l:L
∑i:n
|yi − y(l)i |
nL, (3.20)
O modelo que obtiver o menor EAMp,e aquele que deve ser indicado como melhor.
45
Capıtulo 4
Modelos Propostos
No presente capıtulo descrevem-se os modelos hierarquicos para o risco coletivo propostos
neste trabalho. Apresentam-se tambem as distribuicoes a priori usadas para as quanti-
dades desconhecidas.
Com o objetivo de obter previsoes de tarifacoes futuras que sejam robustas na presenca
de sobredispersao, e necessario conhecer as distribuicoes preditivas para o valor Xa,t+H
e para o numero Na,t+H de sinistros, no tempo t + H para a faixa etaria a = 1, . . . , A,
onde H e o horizonte de tempo planejado para previsao.
Contudo, torna-se difıcil conhecer a distribuicao do valor total do sinistro da carteira de
uma companhia de seguros em um determinado tempo t e classe de risco a, quando se
aplica o metodo de convolucao ou metodos baseados na funcao geradora de momentos.
Para contornar este problema podemos empregar metodos de aproximacao para a distri-
buicao do total de sinistros. Porem, sob o paradigma bayesiano nao ha necessidade de
se utilizar qualquer tipo de aproximacao.
No contexto atuarial sabe-se que a variavel aleatoria Za,t,j e o valor do sinistros para
uma classe de risco a em um tempo t para um apolice j. A variavel aleatoria Za,t,j e
nao negativa e necessariamente continua. Alem disso, ela costuma ter a cauda pesada a
direita, isto e, valores altos de: D(a, t, j) = Za,t,j − µ, tem alta probabilidade de ocor-
rerem. Isto implica que esta distribuicao pode ser bastante assimetrica. Por isso, no
modelo hierarquico de risco coletivo completamente bayesiano denominado neste traba-
lho (MHRC,MHRC-GP, ou modelo padrao) e desenvolvido em Migon e Moura (2005), a
46
quantidade Xa,t =∑Na,tj=1 Za,t,j, conhecida como o valor total de sinistros em uma classe
de risco a e tempo t, possui assimetria e tem cauda pesada.
Neste trabalho e usada a transformacao logarıtmica nos valores dos sinistros log(Xa,t),
a qual nos fornece maior flexibilidade para atribuir distribuicoes que possuem cauda
pesada.
4.0.7 Modelo Log Normal para os valores dos sinistros
Como os valores dos sinistros sao estritamente positivos, podemos considerar que a
variavel aleatoria Y e dada por: Y = log(Z) ∼ N(µ, σ2), entao Z = eY , segue uma
distribuicao log normal (LN) com parametros µ ∈ R e σ2 ∈ R+, isto e, Z ∼ LN(µ, σ2).
Neste trabalho define-se Ya,t = log(Xa,t) ∼ N(µ, σ2), logo Xa,t ∼ LN(µXa,t , σ2Xa,t). Nesse
contexto, Vallejos e Steel (2013) apresentam uma analise completa das possıveis misturas
com esta distribuicao, assim como algumas propriedades interessantes:
Cauda: x−1a,t exp
(− 1
2σ2 [log xa,t]2)
;
limxa,t−→0 f(xa,t) = 0;
E(xra,t) = exp(rµxa,t + 12r2σ2
xa,t), r > 0.
Segue-se que para modelar o risco coletivo, e necessario obter a distribuicao de Xa,t =∑Na,tj=1 Za,t,j. Aproximacoes para a soma de variaveis aleatorias que seguem uma distri-
buicao log normal podem ser vistas em Cobb et al. (2012).
Igualamos os primeiros momentos do modelo proposto com o modelo hierarquico de risco
coletivo padrao (MHRC-GP). Com esta parametrizacao obtemos modelos comparaveis.
Do modelo padrao (MHRC-GP), temos: Xa,t | κa, θa, na,t ∼ G(na,tκa, θa), onde G denota
a distribuicao Gama com os seguintes primeiros momentos:
E(Xa,t) =na,tκaθa
e V (Xa,t) =na,tκaθ2a
.
Por outro lado, considere que Xa,t ∼ LN(µa,t, σ2a,t), cujos primeiros momentos sao dados
por:
E(Xa,t,j) = e(µxa,t+0.5σ2
xa,t)
e V (Xa,t,j) = (eσ2xa,t − 1)(e
2µxa,t+σ2xa,t )
Igualando-se respectivamente os primeiros momentos, sao obtidos os parametros que
serao usados na modelagem dos valores de sinistros. Com κa > 0, θa > 0, µxa,t ∈
47
R, σ2xa,t > 0, tem-se que:
µxa,t = log(na,tκaθa
)− 1
2σ2xa,t , (4.1)
σ2xa,t = log(
1
na,tκa+ 1).
4.0.8 Modelo hierarquico de risco coletivo Normal Poisson (MHRC-
NP)
Nesta subsecao introduzimos o primeiro modelo proposto que sera denominado Modelo
hierarquico de risco coletivo Normal Poisson (MHRC-NP). Define-se o primeiro nıvel da
hierarquia do MHRC-NP, para cada classe de risco a e perıodo de tempo t. Utilizando
a transformacao logarıtmica Ya,t = logXa,t atribuı-se a distribuicao Normal para o valor
dos sinistros, sendo que a distribuicao para o numero dos sinistros e a mesma que do
modelo padrao (MHRC-GP).
Ya,t | µXa,t , σ2Xa,t , na,t ∼ N(µXa,t , σ
2Xa,t), µa,t ∈ R σ2
a,t > 0 (4.2)
Na,t | λa, πa,t ∼ P (λaπa,t), λa > 0,
onde µXa,t e σ2Xa,t sao dados em (4.1) e πa,t e a populacao segurada no perıodo de tempo
t e classe de risco a.
Assume-se independencia condicional para todos os perıodos de tempo t e para todas as
classes de risco a. Logo a funcao de verossimilhanca do modelo (MHRC-NP) e dada por:
L(ΘNPa | DT) =
∏A,Ta,t
1√2π log( 1
na,tκa+1)
exp
−12
log xa,t−log(na,tκa
θa)+ 1
2σ2xa,t√
log( 1na,tκa
+1)
2(λaπ
na,ta,t
na,t!
)exp(−λaπa,t)
onde ΘNP
a = θa, κa, λa define o espaco parametrico para cada classe de risco a, com
θa, κa e λa ∈ R+, e DT = xa,t, na,t, πa,t e a informacao disponıvel em cada classe de
risco a ate o tempo t, a = 1, . . . , A e t = 1, . . . , T
Considerando que a populacao em risco πa,t e conhecida para toda classe de risco a e
perıodo de tempo t e κa = 1, para todo a = 1, . . . , A, obtem-se que o logaritmo da
verossimilhanca e dado por:
logL(ΘNP′
a | DT) =A,T∑a,t
[−1
2log(2πσxa,t)−
1
2P′
a,t
2+ log
[(λaπ
na,ta,t
na,t!
)exp(−λaπa,t)
]](4.3)
com: P′a,t =
log xa,t−µxa,tσxa,t
. e ΘNP′a = θa, λa
48
4.0.9 Modelo Log T-student para os valores dos sinistros
A distribuicao Log T-student e o resultado da mistura de uma distribuicao Log Normal:
x | λ, µ, σ2 ∼ LN(µ, λ−1σ2), e a distribuicao Gama quando e associado ao parametro de
incerteza: λ−1 | α, β ∼ G(α, β), com α = β = ν2, ν > 0, 0 ≤ x <∞. Isto e, a seguinte
distribuicao:
p(x) =∫λLN(x | µ, λ−1σ2)G(λ−1 | ν
2,ν
2)δλ
Obtendo-se assim
p(x) =
[n∏i=1
1
xi
] (1
πνσ2
)n2 γ(n+v
2)
γ(ν2)
(∑ni=1 (log xi − µ)2
σ2ν+ 1
)− (n+v)2
Logo cada elemento do vetor ~x tem uma distribuicao log T-student, com parametros de
locacao µ, escala σ2 e grau de liberdade ν. O parametro ν se relaciona diretamente com
o grau de robustez desta distribuicao e caracteriza a forma da distribuicao. Alem disso,
quanto maior for esse parametro, ela se aproxima mais da distribuicao Log Normal.
No contexto atuarial a distribuicao log T-student pode ser mais adequada para acomodar
valores discrepantes do que a distribuicao log normal, para mais detalhes ver Klugman e
Hogg (1983).
Algumas relacoes desta distribuicao com a distribuicao T-student podem ser facilmente
obtidas, entre elas: Se Y ∼ T (µ, σ2, ν) e X = exp(y) entao x ∼ LT (µ, σ2, ν). Vallejos
e Steel (2013) analisam esta distribuicao como um caso particular da mistura da log
Normal e a distribuicao Gama.
4.0.10 Modelo hierarquico de risco coletivo T-student Poisson
(MHRC-TP)
O segundo modelo proposto para acomodar observacoes discrepantes e denominado de
modelo hierarquico de risco coletivo robusto ou modelo hierarquico de risco coletivo T-
student Poisson (MHRC-TP). Define-se o primeiro nıvel de hierarquia atribuindo-se a
distribuicao Log T-student ao valor dos sinistros, enquanto a distribuicao do numero de
sinistros e mantida. Assim para cada classe de risco a e perıodo de tempo t temos:
Ya,t | na,t, µXa,t , σ2Xa,t , νa ∼ T (µXa,t , σ
2Xa,t , νa) µa,t ∈ R σ2
a,t, νa > 0 (4.4)
49
Na,t | λa, πa,t ∼ P (λaπa,t), λa > 0,
Analogamente ao modelo anterior temos que µXa,t e σ2Xa,t sao dados em (4.1), νa e o grau
de liberdade e πa,t e a populacao segurada no perıodo de tempo t e classe de risco a.
Assume-se independencia condicional para todos os perıodos de tempo t, para todas as
classes de risco a. Logo a funcao de verossimilhanca do modelo (MHRC-TP) e dado por:
L(ΘTPa | DT) =
∏A,Ta,t
γ[ (νa+1)2 ]
γ( νa2
)√πνaσ2
xa,t
[1 +
(log xa,t−µxa,t )2
νaσ2xa,t
]−(νa+1)2
×[λaπ
na,ta,t
na,t!
]exp(−λaπa,t)
onde ΘTP
a = θa, κa, νa, λa define o espaco parametrico para cada classe de risco a. Logo
o logaritmo da verossimilhanca e dada por:
logL(ΘTP′a | DT) =
νa2
log νa − log[log(1 + na,t)12 ] + logw(νa)−
(νa + 1)
2log(νa + P 2
a,t) + log [ψa]
(4.5)
com: ΘTP′a = θa, νa, λa, w(νa) =
γ[ (νa+1)2 ]
γ( νa2
)γ( 12
), Pa,t =
log(
xa,tθa(1+na,tκa)12
(na,tκa)32
)√log( 1
na,tκa+1)
e ψa =[λaπ
na,ta,t
na,t!
]exp(−λaπa,t).
50
4.1 Distribuicoes para o Numero de Sinistros
A presenca de variacao nos dados, mais do que esperado nas suposicoes do MHRC,
origina o fenomeno denominado sobredispersao. O uso da distribuicao Binomial Negativa
e adequado para dados de contagem com sobredispersao.
Na pratica atuarial e natural utilizar a distribuicao de Poisson na modelagem do numero
de sinistros. Mas a hipotese de que a media e igual a variancia pode ser questionavel.
Este problema pode surgir pela omissao de covariaveis ou a nao correta determinacao
dos grupos na analise. Autores como Shengwang et al. (1999), Boucher et al. (2008),
Boucher et al. (2009), Ismail e Zamani (2013), Carsten (2013), entre outros, abordam este
problema e sugerem alternativas de solucao. Entre as mais comuns, tem-se a apresentada
em Boucher e Guillen (2009). Eles expressaram o modelo classico de efeitos aleatorios
segundo uma distribuicao Poisson (P) com parametro θiλi,t:
Ni,t | θi, λi,t ∼ P (θiλi,t), i = 1, . . . , N, t = 1, . . . , T ;
onde i representa o i-esimo segurado no perıodo t de cobertura, λi,t e um parametro
positivo que e usualmente relacionado ao conhecimento das caracterısticas individuais.
Supondo que cada λi,t seja distribuıdo como uma Gama de media 1 e variancia α, isto
e, λi,t ∼ G( 1α, 1α
),∀i, t, obtem-se assim a distribuicao conjunta apresentada por Hausman
et al. (1984):
P [Ni,1 = ni,1, . . . , Ni,T = ni,T ]
=
[T∏t=1
(λi,t)ni,t
ni,t!
]γ(∑Tt=1 ni,t + 1/α)
γ(1/α)
(1/α∑T
t=1 λi,t + 1/α
)1/α ( T∑t=1
λi,t + 1/α
)−∑T
t=1ni,t
Esta distribuicao foi aplicada em varios trabalhos, ver capıtulo 36 Johnson e Bala-
krishnan (1996) para mais detalhes. Ela e denominada a Distribuicao Binomial Negativa
Multivariada (MVNB) ou Negativa Multinomial. Note que pode ser vista como a gene-
ralizacao da Binomial Negativa Bivariada (BNB). Para a distribuicao (BNB) temos:
E[Ni,t] = λi,t e V [Ni,t] = λi,t + αλ2i,t. (4.6)
51
Isto e: E[Ni,t] = E[E[Ni,t | θi]] = E[θiλi,t] = λi,tE[θi] = λi,t
V [Ni,t] = E[V [Ni,t | θi]] + V [E[Ni,t | θi]] = E[θiλi,t] + V [θiλi,t] = λi,tE[θi] + λ2i,tV [θi] =
λi,t + αλ2i,t = λi,t(1 + αλi,t)
Observe-se que na formula da variancia a sobredispersao e levada em conta. Alem
disso, a distribuicao a posteriori do termo de heterogeneidade do modelo Poisson-Gama
de efeitos aleatorios e tambem distribuıdo como gama com parametros a, b, dados por:
a =∑Tt=1 λi,t + 1/α e b =
∑Tt=1 ni,t + 1/α.
O calculo do premio futuro para o tempo t + 1 e a classe de risco i, pode ser obtido
facilmente da equacao (4.6):
E[Ni,t+1 | Ni,1, . . . , Ni,t] = E[E[Ni,t+1 | Ni,1, . . . , Ni,t] | θi]
= E[E[Ni,t+1 | θi] | Ni,1, . . . , Ni,t]
= E[λi,tθi | Ni,1, . . . , Ni,t]
= λi,tE[θi | Ni,1, . . . , Ni,t]
= λi,t
∑Tt=1 ni,t + 1/α∑Tt=1 λi,t + 1/α
Este resultado, nos motiva a incorporar a presenca de sobredispersao no numero dos
sinistros, utilizando o modelo misto Poisson Gama.
4.1.1 Modelo Binomial Negativo para o numero de sinistros
A distribuicao Binomial negativa e uma generalizacao do modelo Poisson, no sentido
que ela pode ser obtida pela mistura da distribuicao Poisson com a distribuicao Gama
ou como uma distribuicao Poisson composta com a distribuicao secundaria logarıtmica
(ver Klugman et al. (1998) na secao 3.7). O modelo Binomial negativo fornece maior
flexibilidade com respeito a forma da distribuicao. Ela possui dois parametros desconhe-
cidos. Por outro lado, o processo Poisson considera a taxa de ocorrencia de sinistros como
constante (homogeneo). Deste modo, se a taxa de ocorrencia aumenta linearmente com
relacao ao numero de sinistros passados, entao o numero de sinistros em qualquer perıodo
tera a distribuicao Binomial Negativa. Na literatura atuarial denomine-se ao processo
52
Poisson composto como o processo Polya - Aeppli Minkova (2004). Neste caso, o modelo
de risco coletivo e denominado o modelo de risco de Polya-Aeppli. Veja o Apendice B,
para maiores detalhes.
Incorporar a presenca de sobredispersao no numero dos sinistros em um modelo hierarquico
de risco coletivo, neste trabalho, significa usar o resultado da conjugacao do modelo Pois-
son Na,t = na,t | λa, βa, πa,t ∼ P (λaβaπa,t) e utilizar uma variavel latente βa distribuıdo
como um modelo Gama. Isto e βa ∼ G(δa, δa), para cada classe de idade a e perıodo
de tempo t, com a finalidade de manter comparabilidade dos modelos. Deste modo
assegura-se que:
E(Na,t | λa, πa,t) = λaπa,t = µa,t, para a = 1, . . . A, e, t = 1, . . . T,
que coincide com o valor medio do numero de sinistros no MHRC padrao introduzido
por Migon e Moura (2005).
A distribuicao mistura para o numero de sinistros Na,t dado os parametros δa, λa e dada
por:
p(na,t | δa, λa) =∫βaP (na,t | βa, λa, πa,t)G(βa | δa, δa)dβa; βa, λa, δa > 0
Contudo a distribuicao marginal conjunta de Na,t = na,t dado δa, λa, e
P [Na,1 = na,1, . . . , Na,T = na,T | δa, λa] =
=A,T∏a,t
[∫ ∞0
[(βaµa,t)
na,t
na,t!
]e(βaµa,t) × δδaa
γ(δa)βδa−1a,t e(−βaδa)dβa
](4.7)
Apos alguma algebra obtem-se que:
P [Na,t = na,t | δa, λa] =Γ(na,t + δa)
Γ(na,t)Γ(δa)pδaa,t(1− pa,t)na,t (4.8)
com ra = δa e pa,t =1
1 + µa,tδa
Segue-se que Na,t = na,t | δa, λa segue uma distribuicao Binomial Negativa (BN) com
parametros pa,t e ra, sendo denotada por: Na,t = na,t | δa, λa ∼ BN(pa,t, ra).
Com os primeiros momentos, dados pela a esperanca e variancia, respectivamente iguais
a:
E[Na,t | λa, δ] = µa,t = λaπa,t e V [Na,t | λa, δa] = µa,t(1 +µa,tδa
)
53
A seguir apresenta-se os tres ultimos modelos propostos neste trabalho, que incorporam
uma possıvel dispersao. Suponha sobredispersao nos modelos hierarquicos de risco co-
letivo padrao (MHRC-GP), de risco coletivo Normal-Poisson (MHRC-NP) e de risco cole-
tivo T-student-Poisson (MHRC-TP). Denominados de aqui em diante: modelo hierarquico
de risco coletivo Gama-Binomial Negativa (MHRC-GB), modelo hierarquico de risco co-
letivo Normal-Binomial Negativa (MHRC-NB) e modelo hierarquico de risco coletivo
T-student-Binomial Negativa (MHRC-TB). Isto e, a unica variacao nos modelos ja apre-
sentados sera a substituicao da distribuicao de Poisson pela distribuicao Binomial Nega-
tiva para modelar o numero dos sinistros.
4.1.2 Modelo hierarquico de risco coletivo Gama Binomial Ne-
gativa (MHRC-GB)
O primeiro nıvel da hierarquia para cada perıodo de tempo t e classe de risco a no Modelo
hierarquico de risco coletivo Gama Binomial Negativa (MHRC-GB) e dado por:
Xa,t | na,t, κa, θa ∼ G(na,tκa, θa) θa, κa > 0 (4.9)
Na,t | λa, πa,t, δa ∼ BN(pa,t, ra), pa,t ∈ [0, 1], λa, ra = δa > 0,
Com pa,t dado em (4.8) e πa,t igual a populacao segurada no perıodo de tempo t na classe
de risco a.
Assume-se independencia condicional para todos os perıodos de tempo t e todas as classes
de risco a. Logo a funcao de verossimilhanca do modelo (MHRC-GB) e dado por:
L(ΘGBa | DT) =
A,T∏a,t
[θκaa
Γ(na,tκa)xna,tκa−1a,t e−(θaxa,t) × Γ(na,t + δa)
Γ(na,t)Γ(δa)pδaa,t[(1− pa,t)θa]na,t
]
onde ΘGBa = θa, κa, δa, λa define o espaco parametrico para cada classe de risco a =
1, . . . , A, com θa, κa, δa e λa ∈ R+. O logaritmo da verossimilhanca e dada por:
logL(ΘGB′a | DT)
=A,T∑a,t
[log θa + (na,t − 1) log xa,t − θaxa,t + logψa,t + δa log pa,t + na,t log ξa,t] (4.10)
com: ΘGB′a = θa, δa, λa, ξa,t = [(1− pa,t)θa], ψa,t = Γ(na,t+δa)
Γ(na,tκa)Γ(na,t)Γ(δa).
54
4.1.3 Modelo hierarquico de risco coletivo Normal Binomial
Negativa (MHRC-NB)
Com ja foi dito antes para a distribuicao do tamanho dos sinistros com Ya,t = logXa,t,
atribui-se a distribuicao Normal com parametros µXa,t , σ2Xa,t dados em (4.1) e a distri-
buicao Binomial Negativa para o numero dos sinistros:
Ya,t | µXa,t , σ2Xa,t , na,t ∼ N(µXa,t , σ
2Xa,t), µa,t ∈ R σ2
a,t > 0 (4.11)
Na,t | λa, πa,t, δa ∼ BN(pa,t, ra), pa,t ∈ [0, 1], λa, ra = δa > 0,
Com pa,t dado em (4.8).
Assume-se independencia condicional para todos os perıodos de tempo t e todas as classes
de risco a. Logo a funcao de verossimilhanca do modelo (MHRC-NB) e dado por:
L(ΘNBa | DT) =
A,T∏a,t
1√2πσ2
xa,t
exp
−1
2(log xa,t − µxa,t
σxa,t)2
× Γ(na,t + δa)
Γ(na,t)Γ(δa)
(µa,tδ−1a )na,t
(1 + µa,tδ−1a )na,t+δa
onde ΘNB
a = θa, κa, δa, λa = ΘGBa , coincide com o espaco parametrico do modelo
(MHRC-GB), para cada classe de risco a = 1, . . . , A. Deste modo obtemos que o logaritmo
da verossimilhanca e dada por:
logL(ΘNB′
a | DT) =A,T∑a,t
[−1
2log(2πσxa,t)
]− 1
2
A,T∑a,t
P′
a,t
2+
A,T∑a,t
log φa (4.12)
com: ΘNB′a = ΘGB′
a , P′a,t =
log xa,t−µxa,tσxa,t
e φa = Γ(na,t+δa)Γ(na,t)Γ(δa)
( 11+µa,tδ
−1a
)δa( µa,tδ−1a
1+µa,tδ−1a
)na,t
4.1.4 Modelo hierarquico de risco coletivo T-student Binomial
Negativa (MHRC-TB)
Finalmente o sexto e ultimo modelo proposto e o Modelo hierarquico de risco coletivo
T-student Binomial Negativa (MHRC-TB). Analogamente como ja foi descrito para o
modelo anterior, considere que a distribuicao do valor dos sinistros dado por Ya,t =
logXa,t, tem distribuicao T-student com parametros µXa,t , σ2Xa,t dados em (4.1), onde
55
νa e o grau de liberdade, enquanto a distribuicao do numero de sinistros e Binomial
Negativa:
Ya,t | na,t, µXa,t , σ2Xa,t , νa ∼ T (µXa,t , σ
2Xa,t , νa) µa,t ∈ R σ2
a,t, νa > 0 (4.13)
Na,t | λa, πa,t, δa ∼ BN(pa,t, ra), pa,t ∈ [0, 1], λa, ra = δa > 0,
Com pa,t dado em (4.8) e πa,t igual a populacao segurada no perıodo de tempo t na classe
de risco a.
Assume-se independencia condicional para todos os perıodos de tempo t e todas as classes
de risco a. Logo a funcao de verossimilhanca do modelos (MHRC-TB) e dado por:
L(ΘTBa | DT) =
A,T∏a,t
γ[
(νa+1)2
]γ(νa
2)√πνaσ2
xa,t
[1 +
(log xa,t − µxa,t)2
νaσ2xa,t
]−(νa+1)2 Γ(na,t + δa)
Γ(na,t)Γ(δa)
(µa,tδ−1a )na,t
(1 + µa,tδ−1a )na,t+δa
onde ΘTB
a = θa, κa, νa, δa, λa, e o espaco parametrico do modelos (MHRC-TB), para
cada classe de risco a = 1, . . . , A. Finalmente o logaritmo da verossimilhanca e dado por:
logL(ΘTB′
a | DT) =A,T∑a,t
logννa2a w(νa)
[log(1 + na,t)12 ]− (νa + 1)
2log(νa + P 2
a,t) + log [φa]
(4.14)
com: ΘTB′a = θa, νa, δa, λa, w(νa) =
γ[ (νa+1)2 ]
γ( νa2
)γ( 12
), Pa,t =
log(
xa,tθa(1+na,t)12
(na,t)32
)
σxa,t
e φa = Γ(na,t+δa)
Γ(na,t)Γ(δa)
(µa,tδa
)na,t
(1+µa,tδa
)δa+na,t, a = 1, . . . , A. e t = 1, . . . , T.
4.2 Distribuicoes a priori para os parametros e hi-
perparametros dos modelos propostos
Sabe-se que os modelos anteriormente descritos ainda nao estao completamente especi-
ficados, pois os parametros de risco associados com cada uma das classes de riscos sao
desconhecidos. Deste modo para completar a especificacao do modelo sob a abordagem
bayesiana e necessario atribuir distribuicao a priori ao vetor parametrico Θ.
Por outro lado, considera-se razoavel assumir a independencia a priori dos parametros.
56
A escolha das distribuicoes a priori usadas neste trabalho estao relacionados com o ob-
jetivo de se fazer inferencia estatıstica com base em um mınimo ou na ausencia de in-
formacao subjetiva previa adicional. Portanto, neste trabalho consideram-se distribuicoes
a priori nao informativas para os parametros de um modelos de risco coletivo. Os calculos
destas distribuicoes a priori (de Jeffreys e de referencia) sao apresentados.
E facilmente verificado que o vetor parametrico ΘTB′ correspondente ao modelo (MHRC-
TB) e o mais geral, deste modo neste trabalho as prioris atribuıdas serao deduzidas
usando o modelo hierarquico de risco coletivo T-student Binomial Negativa, utilizando a
funcao de log verossimilhanca (4.14).
Consideremos o segundo nıvel da hierarquia, e definimos o vetor parametrico para cada
classe de risco a = 1, . . . , A. como sendo:ΘTB′a = θa, νa, δa, λa.
Como anteriormente foi descrito, os parametros associados a cada classe de risco sao
positivos. E natural atribuir-lhes uma distribuicao gama com hiperparametros α e β
respectivamente. Mas neste trabalho propoe-se considerar o uso das distribuicoes para os
parametros desconhecidos, descritas na Tabela 4.2, onde P indica a distribuicao Poisson
e B a distribuicao Binomial Negativa.
Tabela 4.1: Distribuicoes a priori propostas para os parametros dos modelos MHRC
Parametros Distribuicao a priori
θa G(αθa , βθa)
δa a priori de referencia
λPa G(αλa , βλa)
λBa a priori de referencia
νa a priori Jeffreys
4.2.1 A priori de Jefreys para νa
Apresenta-se a deducao da distribuicao a priori de Jeffreys do MHRC, isto e, usando a
funcao de verossimilhanca correspondente aos valores dos sinistros, obtemos as equacoes
57
para o calculo da distribuicao a priori segundo a regra de Jeffreys. O detalhe da regra
pode ser visto no capıtulo 2 na secao (2.2)
Para obter a matriz de informacao de Fisher:
I(θa, νa) =
Iθaνa Iθaνa
Iθaνa Iνaνa
.e necessario calcular:
d2
d2θalogL(Θa | Dt) =
∑A,Ta,t −
(νa+1σxa,tθ
2a
)1
σxa,t [νa+P 2a,t]
+ Pa,t[νa+P 2
a,t]+ 2
σxa,t
P 2a,t
[νa+P 2a,t]
2
d2
d2νalogL(Θa | Dt) =
∑A,Ta,t
1
2νa+ z(νa)− 1
[νa+P 2a,t]
+(νa+1
2
)1
[νa+P 2a,t]
2
,
com z(νa) =d2w(νa)
d2νa=
1
4
[ψ′(νa + 1
2
)− ψ′
(νa2
)]d2
dνadθalogL(Θa | Dt) =
∑A,Ta,t
1
σxa,tθa
Pa,t[νa+P 2
a,t]+(
νa+1σxa,tθ
2a
)Pa,t
[νa+P 2a,t]
2
Calculando os valores esperados EYa,t , onde Ya,t = logXa,t ∼ T (µxa,t , σ
2xa,t , νxa,t), obtemos:
Iθaθa = EYa,t[d2
d2θalogL(Θa | Dt)
]=
=A,T∑a,t
−(νa + 1
σxa,tθ2a
)1
σxa,t
(EYa,t
[(νa + P 2
a,t)−1]
+ 2EYa,t[P 2a,t(νa + P 2
a,t)−2])
+ EYa,t[Pa,t(νa + P 2
a,t)−1]
Iνaνa = EYa,t[d2
d2νalogL(Θa | Dt)
]=
=A,T∑a,t
1
2νa+ z(νa)− EYa,t
[(νa + P 2
a,t)−1]
+(νa + 1
2
)EYa,t
[(νa + P 2
a,t)−2]
Iθaνa = EYa,t[
d2
dνadθalogL(Θa | Dt)
]=
=A,T∑a,t
1
σxa,tθaEYa,t
[Pa,t(νa + P 2
a,t)−1]
+
(νa + 1
σxa,tθ2a
)EYa,t
[Pa,t(νa + P 2
a,t)−2]
onde: EYa,t[(νa + P 2
a,t)−k]
=γ( (νa+1)
2 )γ( νa
2)
γ( (2k+νa)2 )
γ( 2kνa+12
)ν−k, k = 1, 2, . . .
EYa,t[Pa,t(νa + P 2
a,t)−k]
= 0, k = 1, 2, . . .
EYa,t[P 2a,t(νa + P 2
a,t)−k]
=γ( (νa+1)
2 )γ( νa
2)
γ( (2k+νa−2)2 )
γ( 2kνa−12
)
ν−k+1
(2k+νa−1)
Deste modo obtemos:
−EYa,t[d2
d2θalogL(Θa | Dt)
]=∑A,Ta,t
5+νaσ2xa,t
θ2a(3+νa),
−EYa,t[d2
d2νalogL(Θa | Dt)
]=∑Aa
T4
[ψ′(νa2
)− ψ′
(νa+1
2
)− 2(5+νa)
νa(3+νa)(1+νa)
],
58
−EYa,t[
d2
dνadθalogL(Θa | Dt)
]= 0
Finalmente a priori segundo a regra de Jeffreys para a distribuicao a priori conjunta de
θa, νa no modelo hierarquico de risco coletivo T-student Binomial Negativo (MHRC-TB)
e denotada por πJcj(θa, νa) e e dada por:
πJcj(θa, νa) (4.15)
∝(
5 + νaθ2a(3 + νa)
) p2
×[ψ′(νa2
)− ψ′
(νa + 1
2
)− 2(5 + νa)
νa(3 + νa)(1 + νa)
] p2
onde p e numero de variaveis de regressao neste caso p = 1.
A priori de Jeffreys independente para νa, θa em um (MHRC-TB) e dado por:
πJind(νa) ∝[ψ′(νa2
)− ψ′
(νa + 1
2
)− 2(5 + νa)
νa(3 + νa)(1 + νa)
] p2
(4.16)
Para avaliar o uso adequado da distribuicao a priori obtida, deve-se verificar se a priori
de Jeffreys aqui obtida e propria ou nao, isto e:
∫νaπJ(νa)dνa = 1, ∀a = 1, . . . , A.
Portanto como e conhecido na literatura, basta provar a propriedade:
limθa→∞
p(θa) = O(θ−ka ), para k > 1 (4.17)
Usando a aproximacao apresentado em Abramowitz e Stegun (1964) para a funcao tri-
gama.
ψ(2)
(ϑa2
)≈ 2
ϑa+
2
ϑ2a
+4
3ϑ3a
obtemos limνa→∞ πJ(νa) = O(ν−1
a ), o qual confere que a priori nao e propria. Deste modo
o nucleo da distribuicao a posteriori e dado pela a condicional completa:
πJ(νa | xa,t, na,t, µa,t, σ2a,t) ∝
∝ γ[ (νa+1)2 ]
T
γ( νa2
)T√νaT
∏Tt
[1 + (log xa,t−µa,t)2
νaσ2a,t
]−(νa+1)2 (
5+νa3+νa
[ψ′(νa2
)− ψ′
(νa+1
2
)− 2(5+νa)
νa(3+νa)(1+νa)
]) 12 ,
0 ≤ xa,t <∞, νa > 0, σ2a > 0
Fonseca et al. (2008) encontraram a distribuicao a priori de Jeffreys para um modelo de
59
regressao, mostrando que ela e propria. Esta distribuicao e usada neste trabalho como
distribuicao a priori do parametro νa. Denotaremos por πJrg(νa):
πJrg(νa) ∝(
ϑa3 + ϑa
) p2
×([ψ′(ϑa2
)− ψ′
(ϑa + 1
2
)− 2(3 + ϑa)
ϑa(1 + ϑa)2
]) p2
, (4.18)
4.2.2 Priori de referencia do parametro de sobredispersao δa
O problema de dispersao sugere incorporar um fator de medicao da subdispersao Fs ou
sobredispersao F s, no modelo hierarquico de risco coletivo.
Dizemos que o modelo e sobredisperso se: V [Na,t] > E[Na,t], outro caso o modelo e
subdisperso. Logo definimos o fator de sobredispersao como:
Fs =V [Na,t]
E[Na,t]= (1 + µa,tδ
−1a ). (4.19)
O fator de sobredispersao F s quantifica o quanto a variancia da Binomial negativa excede
a sua media. A seguir descreve-se o calculo da priori de referencia, usando a metodologia
definida em Liseo et al. (2010) e baseada em um modelo de regressao binomial negativa.
Partimos de Na,t = na,t | βa, λaµa e βa ∼ G(δa, δa). Em particular µa = πTa,tλa, e como ja
foi deduzido anteriormente Na,t = na,t | δa, λa, πa,t ∼ BN(pa,t, δa), com pa,t = 1
(1+(πa,tλa)
δa).
Considerando-se o modelo T-student Binomial Negativo o logaritmo da funcao de veros-
similhanca incluindo a variavel latente βa e dada por:
logL(µa,t, λa, δa;Na,t)=
= −λaT∑t
(µa,t + δa) +
(T∑t
na,t + δa − 1
)log(λa) +
T∑t
[na,t log(λaµa,t)− log(na,t!)] +
Tδa log(δa)− T [log γ(δa) + (δa − 1) log λa].
As derivadas de segunda ordem sao dados por:
d2
dδ2alogL(µa,t, λa, δa;Na,t) = T [δ−1
a −Ψ′(δa)]
d2
dδadλalogL(µa,t, λa, δa;Na,t) = T [1− λ−1
a ]
d2
dλ2alogL(µa,t, λa, δa;Na,t) = −∑T
t (na,t + δa − 1)λ−2,
com E(λ−sa ) = δδaaγ(δa)
γ(δa−s)δ(δa−s)a
, s = 1, . . . e Ψ′
sendo a funcao trigrama
Calculando o valor esperado obtemos,
−E[− d2
dδ2alogL(µa,t, λa, δa;Na,t)
]= T [Ψ
′(δa)− δ−1
a ],
60
−E[− d2
dδadλalogL(µa,t, λa, δa;Na,t)
]= −T [δa − 1]−1
−E[− d2
dλ2alogL(µa,t, λa, δa;Na,t)
]= −∑T
t [µa,tδaδa−1
+ δ2aδa−2
], a = 1, . . . , A.
Usando o Teorema 2.2 de Liseo et al. (2010) obtem-se a priori condicional de δa | µa,t,
ver Sun e Berger (1998), para mais detalhe.
π(R)(δa | µa,t) ∝TΨ
′(δa)−
T
δa− δa − 2
δa(δa − 1)
T∑t
[µa,t(δa − 2) + δa(δa − 1)]−1
12
. (4.20)
Para derivar a priori para µa,t ou λa, considerando que µa,t = µ = eλ. Utiliza-se dire-
tamente a abordagem de Sun e Berger (1998). Para o modelo Binomial Negativa, com
parametros (δa, µ), isto e usando a equacao do logaritmo da verosimilhanca em (4.14),
temos:
logL(µa,t, δa;Na,t) = const.+∑Tt
[na,t log µa,t
µa,t+δa+ δa log δa
µa,tδa+ log Γ(na,t + δa)− log Γ(δa)
].
Do fato que a matriz de informacao de Fisher em (δa, µa,t), e diagonal tem-se:
|I|Iδa,δa
= Iµ,µ = Tδa
µa(µa,t + δa),
o qual depende de δa. Logo a priori marginal para µa,t ou λa e:
π(R)(µa,t) = exp
(1
2
∫π(δa | µa,t) log
δa
µa(µa,t + δa)
).
Pode-se observar que e preciso avaliar numericamente cada valor de µa,t. Alem disso,
observe que o uso de este metodo evita o calculo da esperanca sob Na,t de Ψ′(na,t + δa),
que e o procedimento usual para obter a priori de referencia deste modelo.
4.2.3 Distribuicoes a priori para os Hiperparametros αθa, βθa, αλa, βλa
No caso em que foram atribuıdos a priori gama para os parametros desconhecidos do se-
gundo nıvel da hierarquia, e necessario definir as distribuicoes associadas ao terceiro nıvel
do modelo hierarquico propostos neste trabalho. Considerando que os hiperparametros
αθa , βθa , αλa , βλa sao todos positivos, atribuı-se a distribuicao a priori gama vaga, isto e,
com parametros conhecidos G(0.01, 0.01),mas com media 1 e variancia 100.
61
Capıtulo 5
Aplicacao
Neste capıtulo apresentam-se os resultados de uma aplicacao dos modelos propostos
no capıtulo 4. Apresenta-se um estudo para dados simulados e reais. Estes modelos foram
aplicados em dados simulados com a finalidade de confirmar a eficiencia do procedimento
de inferencia utilizado. Isto e, estimar a precisao e a capacidade dos modelos propostos
para estimar os parametros do modelo. Alem disso, comparam-se os modelos propostos
com o encontrado na literatura utilizando dados referentes a um plano de saude. Os
resultados das Tabelas correspondentes as estatısticas dos parametros, encontram-se no
Apendice C.
5.1 Descricao do conjunto de dados
Foi feita uma aplicacao para dados reais utilizando os dados correspondentes de um plano
de seguro de saude com o objetivo de calcular os premios pagos utilizando os modelos
propostos no capıtulo anterior.
Os dados foram extraıdos de um plano de saude implementado no Nordeste do Brasil
e os premios pagos foram calculados para 7 classes de risco. Estas classes sao as faixas
etarias a = 1, ..., 7 e representam os grupos de idade nos intervalos [0, 17), [17, 30), [30, 40),
[40, 50), [50, 60), [60, 70), [70,+). As observacoes sao compiladas mensalmente (12 meses,
t = 1, ..., 12) do numero de segurados. A informacao esta dividida respetivamente em:
62
valores de consultas, diagnosticos e internacoes, os quais serao denominados servicos 1,2
e 3, respetivamente. Tem-se para cada servico, classe de idade a e perıodo de tempo t:
πa,t, o numero de segurados para cada tempo t e faixa etaria a assumido conhecido. na,t,
e o numero dos sinistros e xa,t, e o valor dos sinistros em uma classe de idade a e perıodo
de tempo t, respectivamente.
5.2 Estudo com dados simulados
Para fins ilustrativos foram gerados dados artificias do modelo MHRC-TP desenvolvido
no capıtulo 3, considerando T = 12, a = 1, πa,t = 1 e t = 1, . . . , 12 , λ = 5, θ = 8, ν = 5.
A Figura (5.1) mostra as dccp (distribuicoes condicionais completas a posteriori) para os
parametros νa, θa quando sao usadas as distribuicoes prioris obtidas no capıtulo anterior
πJcj(νa, θa), πInd(νa), π
Jrg(νa), cujas equacoes podem ser vistas em (4.15),(4.16),(4.18),
respectivamente. Repare que os parametros estao na escala logarıtmica. Do exemplo
Figura 5.1: Curvas de nıvel para o Logaritmo da verossimilhanca e as distribuicoes con-
dicionais completas dos parametros θa e νa
l(ν, θ | xa,t, na,t) V ero× πJf,G(νa, θa) V ero× πJcj(νa, θa) V ero× πJind,G(νa, θa)
anterior, e possıvel observar o comportamento das distribuicoes condicionais completas
nas diferentes distribuicoes a priori. Isto e, as curvas de nıvel possuem pontos maximos.
Neste trabalho no processo de estimacao foi utilizada a distribuicao a priori dada por
πJrg(νa), pois ela e propria.
63
Deste modo, foram feitas simulacoes, considerando amostras geradas e classificadas se-
gundo a descricao dos dados que serao utilizados na aplicacao em dados reais. Definem-se
dois cenarios: o primeiro cenario envolve os modelos cuja distribuicao do numero dos sinis-
tros e dada pela a distribuicao Poisson, isto e os modelos: MHRC: GP,NP,TP. O segundo
cenario se refere aos modelos cuja distribuicao do numero dos sinistros e a distribuicao
Binomial Negativa, isto e: MHRC: GB,NB,TB. Deste modo os parametros envolvidos em
cada um dos cenarios sao dados por: Θa = θa, λPa , νa e Θa = δa, λBa , θa, νa, respecti-
vamente. Observe que o parametro δa e um parametro proprio do cenario 2. Entretanto o
parametro λPa , denota o parametro λ proveniente da distribuicao Poisson. Neste sentido,
o parametro λBa , denota o parametro λ proveniente da distribuicao Binomial negativa. Os
demais parametros sao os mesmos nos dois diferentes cenarios. Lembre-se que se denota
por B, a variavel com distribuicao Binomial Negativa e denota-se por P , a variavel com
distribuicao Poisson, ou simplesmente cenario 2 e cenario 1, respectivamente.
Foram simuladas 20 amostras para ambos cenarios. Os valores verdadeiros dos parametros
utilizados para gerar as amostras sao dados na Tabela (5.1). Todos estes valores foram
Tabela 5.1: Valores verdadeiros dos parametros λa, θa, νaδa utilizadas na simulacao
P 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+
λpa 0.8712 0.9675 1.2430 0.8679 1.0276 1.0122 0.7813
θa 0.1594 0.3684 0.2145 1.3091 0.1665 0.2534 0.3864
νbga 6.4415 6.9303 6.1052 6.6040 6.9399 8.9514 8.5398
λbga 0.122 0.112 0.0912 0.0812 0.142 0.102 0.1322
δa 0.9362425 .8554903 .8249079 .933707 .8457212 .81688 .972395
gerados segundo a Gama com parametros 0.01 (G(0.01, 0.01), onde G denota a distri-
buicao Gama). Isto e, para cada classe de idade atribui-se a distribuicao Gama com
media 1 e variancia 100. No caso do grau de liberdade, os valores dos parametros foram
escolhidos aleatoriamente de uma uniforme entre 6 e 9. O procedimento de inferencia,
consiste em obter amostras da distribuicao a posteriori. Infelizmente estas nao podem ser
obtidas analiticamente e portanto e necessario utilizar metodos de simulacao estocastica
64
MCMC para simular amostras destas distribuicoes.
Implementou-se o algoritmo Metropolis Hasting, empregando-se uma escolha adequada
das distribuicoes propostas (q) para cada parametro. Neste trabalho foi escolhida a dis-
tribuicao normal truncada para quase todos os parametros. Vale mencionar que para o
parametro λa nos dois cenarios foram utilizadas a distribuicao Gama. Por outro lado,
na pratica devem-se tomar alguns cuidados para garantir a eficiencia do algoritmo. Esta
eficiencia foi atingida controlando-se a taxa de aceitacao α. A taxa de aceitacao para os
parametros apresentados neste trabalho estao em torno de 34%. Os resultados apresenta-
dos foram baseados em 75000 iteracoes do algoritmo MCMC, as quais foram descartadas
as primeiras 10000, consideradas como o aquecimento da cadeia. Tomou-se uma a cada
15 iteracoes, reduzindo uma possıvel autocorrelacao das cadeias.
Utilizou-se cadeias com 4334 iteracoes, isto e, a amostra da distribuicao a posteriori de
Θ(l)is , dada por π(Θ
(l)is ) contem L = 4334 valores; l = 1, . . . 4334, i = 1, . . . , 7 e s = 1.
para cada parametro e servico em cada uma das 7 classes de idade.
Nas Figuras (5.2), (5.3) apresentam-se os resultados dos diferentes parametros para to-
dos os modelos λa, δa, θa, νa. Dos graficos de histogramas pode-se observar um comporta-
mento (normal) esperado. Tambem foram utilizadas as estrategias mais empregadas para
diagnosticar a convergencia dos parametros. Estes metodos estao disponıveis no pacote
R: diagnostico de Raftery em Raftery e Lewis (1992); diagnostico de Geweke Geweke
(1992), Gelfand e Smith (1990) e os metodos observacionais, assim como os graficos das
cadeias das medias ergoticas. Os criterios formais e informais empregados indicam que
as cadeias convergem. Assim nao ha suspeita de nao convergencia dos parametros nos
diferentes modelos.
As Figuras (5.2), (5.3) apresentam os histogramas e intervalo de 95% de credibilidade
a posteriori para os parametros λa, δa, θa, νa, assim como os verdadeiros valores dos
parametros. Podemos concluir que os verdadeiros valores se encontram entre as linhas
pontilhadas que correspondentes aos quantis 2.5% e 97.5%. Para alguns parametros,
por exemplo (λ4), em todos os modelos, o verdadeiro valor do parametro encontra-se
um pouco afastado do ponto onde acontece a maxima densidade, mas ainda encontra-se
65
Figura 5.2: Curva de densidade, verdadeiro valor do parametro (linha cheia) e intervalo
de 95% de credibilidade (linha pontilhada), a posteriori para os parametros, para o servico
1 no cenario 1 MHRC-TP
θa λa νa
dentro do intervalo de credibilidade (2.5%,97.5%). Pode-se concluir que em todos os
casos se consegue recuperar a estrutura original dos parametros, isto e os verdadeiros va-
lores pertencem ao intervalo de credibilidade. Nas Tabelas (C.1), (C.2) sao apresentados
sumarios das distribuicoes a posteriori para o parametro λa nos dois cenarios.
Concluımos deste estudo de simulacao que a estimacao dos modelos propostos e efici-
ente, pois, segundo os resultados mencionados e possıvel verificar que os valores dos
parametros sao recuperados no processo de inferencia. Isto e, a simulacao de dados
mostrou que os verdadeiros valores dos parametros encontram-se dentro dos respectivos
intervalos de credibilidade. Isto acontece com todos os modelos. Alem disso, em todos os
casos houve convergencia das cadeias. Vale mencionar que todos os algoritmos utilizados
neste trabalho foram desenvolvidos no software R.
5.3 Aplicacao com dados reais
Aqui sao reportados os resultados encontrados com respeito a estimacao dos parametros
do servico 1. Este servico foi escolhido por apresentar menor variabilidade observada.
66
Figura 5.3: Curva de densidade, verdadeiro valor do parametro (linha cheia) e intervalo
de 95% de credibilidade (linha pontilhada), a posteriori para os parametros, para o servico
1 no cenario 2 MHRC-TB
θa λa
δa νa
Porem dado o objetivo deste trabalho, os valores dos premios de cada faixa etaria sao ob-
tidos de forma global, isto e, eles incorporam toda a incerteza associada aos tres servicos.
Os resultados dos modelos hierarquicos de risco coletivo propostos foram analisados se-
67
paradamente por servico. Isto e, no processo de estimacao a obtencao das amostras dos
parametros foram obtidas separadamente.
Com base na analise dos resultados da simulacao optou-se por apresentar os resultados
sumarizados em tabelas, graficos comparativos das estatısticas para as amostras a pos-
teriori dos parametros, analisando o comportamento nos servicos e classe de idade para
cada um dos modelos. Analisa-se tambem os parametros correspondentes de sobredis-
persao e robustez. Finalmente as distribuicoes preditiva a posteriori do premio serao
apresentados por cada classe de idade.
Espera-se encontrar um modelo adequado para esta aplicacao onde os resultados nao se-
jam muito afetados por observacoes aberrantes. Alem disso, pretende-se incorporar uma
possıvel dispersao. Os resultados apresentados neste capıtulo tem como objetivo obter
um modelo que permita estimar adequadamente os valores do premio predito. Deste
modo se compara o ajuste e a capacidade preditiva dos modelos. Para isso foram usadas
os criterios DIC,CRPS descritos em Spiegelhalter et al. (2002) e Gneiting et al. (2007)
respectivamente. Alem do fator de Bayes apresentado em Kass e Raftery (1995), base-
ado na aproximacao da distribuicao preditiva desenvolvida por Newton e Raftery (1994).
Finalmente as medidas EQMp, EAMp tambem, foram utilizadas. O criterio em todos os
casos (com excepcao do fator de Bayes) aponta como melhor modelo aquele que apresenta
o menor valor com respeito a medida que esta sendo considerada.
Lembrando a composicao dos dados, dispomos um total 84 observacoes por cada servico,
isto e, para as 7 classes de idades e 12 meses observados.
Os modelos propostos e as distribuicoes a priori utilizadas na obtencao das amostras a
posteriori sao as mesmas descritas no capıtulo 3. As quais, tambem foram usadas no
estudo de simulacao.
Implementou-se o algoritmo Metropolis Hastings para a obtencao das distribuicoes a
posteriori de todos os parametros. Posteriormente foram obtidas as amostras a posteri-
ori dos parametros de interesse. As taxas de aceitacao para a maioria dos parametros
encontram-se em torno de 40%.
Os valores resultantes apresentados foram baseados em 75000 iteracoes do algoritmo
MCMC, as quais foram descartadas as primeiras 10000, consideradas como o aqueci-
68
mento da cadeia. Tomou-se uma a cada 15 iteracoes. Deste modo, reduz-se a possıvel
autocorrelacao das cadeias.
Utilizou-se nesta analise de resultados, as cadeias com 4334 iteracoes, isto e a distribuicao
a posteriori de Θ(l)is , dada por π(Θ
(l)is ) contem L = 4334 valores.
Nas Tabelas (C.3), (C.4), (C.5), (C.6), (C.7), (C.8) apresentam-se as estatısticas das amos-
tras a posteriori dos diferentes parametros λa, δa, θa, νa para todos os modelos ajustados.
Na Figura (5.4) apresentam-se os histogramas das amostras a posteriori para todos os
parametros λ1, δ1, θ1, ν1 referentes a primeira classe de idade para todos os modelos nos
dois cenarios, correspondentes no servico 1. Observe que os histogramas tem um com-
portamento (normal) esperado. Tambem foram utilizadas as mesmas estrategias para a
analise de dados simulados. Finalmente os criterios formais e informais empregados indi-
cam que as cadeias convergem. Para analisar a estimacao do parametro λa nos diferentes
Figura 5.4: Histograma e intervalo de 95% de credibilidade (linha pontilhada) a posteriori
para os parametros λa, θa, νa, δa para o servico 1 para a classe de idade 1 nos MHRC
GP NP TP
GB NB TB
cenarios, isto e λPa , λBa , utiliza-se a Figura 5.5 onde e possıvel observar o aumento do
valor do parametro λPa para as classes de idade maiores. Isto acontece quando o numero
de sinistro e modelado por uma distribuicao Poisson (cenario 1). No entanto, no (cenario
2) os parametros λBa para a = 1, . . . , 7 variam quase em torno de um mesmo valor. Vale
69
mencionar tambem a alta variabilidade das ultimas classes de idade. Por outro lado,
Figura 5.5: Boxplot da distribuicoes a posteriori para os parametros λa para o servico 1
por classe de idade nos diferentes cenarios
o comportamento do parametro θ nos diferentes cenarios e as diferentes classes etarias
segundo a Figura 5.6, indica que este parametro nao apresenta mudancas. Isto e, os
parametros θa nao apresentam diferencas significativas. Mas o comportamento destes
parametros em relacao as faixas de idade indica que nas classes de idade maiores ha
maior variabilidade em relacao as demais classes de idade. Com relacao ao parametro
que mede a sobredispersao, δa, a = 1, . . . , 7 ver Figura 5.7, parece nao depender da dis-
tribuicao dos valores dos sinistros assumidas. Se analisamos os parametros νa que mede
a robustez do modelo em cada classe de idade, e possıvel verificar que nao apresentam
mudancas significativas em seu comportamento para os diferentes cenarios. Analisamos
os parametros relacionados com as medidas de sobredispersao e robustez δa e νa, res-
pectivamente, para cada classe de risco a, nos tres servicos s = 1, 2, 3 para os diferentes
70
Figura 5.6: Boxplot das distribuicoes a posteriori para os parametros θa para o servico 1
por classe de idade nos diferentes cenarios
Figura 5.7: Boxplot das distribuicoes a posteriori para os parametros δa para o servico 1
por classe de idade no cenario dois
71
Figura 5.8: Boxplot das distribuicoes a posteriori para os parametros νa para o servico 1
por classe de idade nos diferentes cenarios
modelos. Observamos nas Figuras 5.9 e 5.10 que os valores de δ em todos os modelos
sao maiores do que 10 e menores do que 40, sendo que nos servicos 1 apresentam os
maiores valores e nos servicos 2 e 3. Isto reflete a dispersao nos dados em particular
nesses servicos. No entanto, com relacao ao parametro que esta relacionado a robustez,
observamos que os menores valores correspondem ao servico 3. Alem disso, os valores
das estimativas dos parametros δ e ν sugerem que o modelo com subdispersao e caudas
pesadas devem ser considerados.
5.3.1 Analise da presenca de dados discordantes
Observe que Xa,t e o resultado da mistura Log Normal Gamma, onde φa,t pode ser visto
como a precisao na observacao (a, t), isto e:
Lt(xa,t | θa, κa, νa) =∫ ∞+
0Ln(xa,t | na,t, φa,t, θa, κa)G(φa,t |
ν
2,ν
2)dφa,t
Assim, e possıvel observar que a distribuicao a posteriori de φ e facilmente obtida. Alem
disso, amostras para o parametro φa,t podem ser obtidas incorporando um passo no
algoritmo. Isto e, usando o amostrador de Gibbs, amostras da distribuicao a posteriori
para o parametro φa,t foram obtidas e analisadas. A distribuicao posteriori para φa,t, e
72
dada por:
φa,t | xa,t, θ(l)a , ν
(l)a ∼ G(
νa + 1
2,( log(Xa,t)−µa,t
σa,t)2 + νa
2).
Lembrando que na analise κa = 1, e incorporando a priori φa,t ∼ G(νa2, νa
2), com media
E(φa,t) = 1, deste modo espera-se que a posteriori o valor um esteja contido no intervalo
de credibilidade. Em particular esperamos que os valores das medias a posteriori para
cada observacao encontram-se em torno de 1. Para uma melhor compreensao, a Figura
5.11 mostra o comportamento da distribuicao a posteriori do parametro φsa,t, isto e, φa,t
para cada observacao por cada servico s. Pode-se concluir que a presenca de dados
discrepantes no servico 3 e maior comparado com a quantidade apresentada no servico
2.
5.3.2 Calculo do premio
Para a avaliacao do Premio nos modelos propostos devemos considerar alguns resultados
do Capıtulo 2 e 3. O total dos valores dos sinistros e a populacao segurada para faixa
etaria a para um horizonte de tempo futuro H, sao dado respectivamente por:
Xa,T+H =T+H∑t=T+1
Xa,t Πa,T+H =T+H∑t=T+1
Πa,t
Denotando-se Ra,T+H = Xa,T+H/Πa,T+H , entao o premio para cada faixa etaria a e o
percentil 95th da distribuicao:
f(Ra,T+H | DT ) =∫
Θf(Ra,T+H | θ)f(θ | DT )dΘ
Lembrando que o valor 95% da preditiva e resultado do uso da teoria de decisao bayesi-
ana. A decisao d corresponde ao percentil 95% que maximiza a funcao utilidade desvio
absoluto modificado quando k1 = 0.05 e k2 = 0.95. Deste modo os valores resultantes
como premio sao calculados baseados na distribuicao preditiva a posteriori. Resta com-
parar os premios resultantes para todos os modelos aqui apresentados e decidir qual e o
modelo adequado segundo os criterios considerados. Alem disso, desejamos obter premios
que sejam pouco afetados por dados discordantes que considerem a sobredispersao.
73
Nas Tabelas (5.2) e (5.3) apresenta-se os valores do premio para todos os modelos ajus-
tados nos diferentes cenarios. Pode-se observar que segundo os dois cenarios o com-
portamento das estimativas dos premios nao apresentam diferencas significativas. Mas
pode-se observar uma pequena mudanca para as primeiras classes de idade, onde o premio
aumenta dependendo do cenario. No entanto para classe de idades maiores o premio di-
minui. Para uma melhor compressao as Figuras (5.12) e (5.13) mostram o encolhimento
dos valores estimados dos premios por faixa etaria para os diferentes modelos considera-
dos. Esta variacao do valor do premio se apresenta nas faixas etarias maiores, isto e, se a
distribuicao que modela os valores de sinistros e Log T-student o valor do premio resul-
tante e menor comparado com o valor do premio obtido ao se considerar a distribuicao
Gama ou Log Normal nos valores dos sinistros; este comportamento nao difere quando
se muda de cenario.
74
Figura 5.9: Grafico da distribuicao preditiva a posteriori, Mediana e o Intervalo de cre-
dibilidade (IC) para o parametro δa por servicos
GB
NB
TB
75
Figura 5.10: Grafico da distribuicao preditiva a posteriori, Mediana e o Intervalo de
credibilidade (IC) para o parametro ν por servicos
TP
TB
76
Figura 5.11: Boxplot da distribuicao posteriori de φ1a,t, φ
2a,t, φ
3a,t para cada classe a no
tempo t por servico respectivamente:
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat11
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat21
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat31
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat41
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat51
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat61
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat71
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat12
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat22
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat32
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat42
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat52
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat62
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat72
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat13
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat23
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat33
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat43
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat53
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat63
E[p
(φats|x
atn a
tπat)]
1 2 3 4 5 6 7 8 9 11
0.0
1.5
3.0
φat73
E[p
(φats|x
atn a
tπat)]
77
Tabela 5.2: Estatisticas da distribuicao preditiva aposteriori dos gasto por indenizacao por pessoa Ra,t+H , mediana (M), intervalo
de credibilidade de 95 % (IC) e desvio padrao (sd) no cenario 1
M St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+
GP
M 15.130 23.040 26.750 39.020 29.200 55.790 79.170
IC (14.520-15.8) (21.960-24.180) (25.590-28.000) (37.510-40.600) (28.060-30.420) (52.860-58.947) (73.293-85.727)
95% 15.674 23.980 27.800 40.300 30.220 58.400 84.5435
sd 0.319 0.5610 0.621 0.781 0.599 1.540 3.176
NP
M 14.980 22.290 25.950 33.320 28.330 49.650 67.440
IC (14.360-15.620) (21.260-23.360) (24.823-27.130) (32.150-34.500) (27.240-29.490) (47.190-52.236) (62.786-72.286)
95% 15.510 23.180 26.950 34.300 29.310 51.830 71.483
sd 0.319 0.532 0.597 0.599 0.573 1.290 2.413
TP
M 15.510 21.280 26.370 30.320 30.020 43.980 56.410
IC (14.690-16.380) (19.940-22.830) (24.390-28.620) (28.410-31.990) (28.390-31.710) (40.690-48.396) (50.486-63.733)
95% 16.250 22.563 28.230 31.730 31.440 47.563 62.360
sd 0.430 0.739 1.091 0.923 0.851 2.0104 3.845
78
Tabela 5.3: Estatisticas da distribuicao preditiva aposteriori dos gasto por indenizacao por pessoa Ra,t+H , mediana (M), intervalo
de credibilidade de 95 % (IC) e desvio padrao (sd) no cenario 2
M St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+
GB
M 15.130 23.050 26.770 39.030 29.210 55.820 79.230
IC (14.510-15.770) (22.003-24.166) (25.520-28.030) (37.513-40.580) (28.050-30.413) (52.853-58.933) (73.336-85.796)
95% 15.670 23.970 27.810 40.320 30.210 58.460 84.353
sd 0.316 0.550 0.627 0.780 0.598 1.572 3.086
NB
M 14.980 22.310 25.970 33.330 28.360 49.680 67.230
IC (14.380-15.600) (21.300-23.350) (24.800-27.190) (32.21-34.530) (27.280-29.466) (47.250-52.356) (62.770-72.416)
95% 15.490 23.200 26.990 34.330 29.300 51.903 71.523
sd 0.313 0.532 0.609 0.591 0.566 1.304 2.456
TB
M 15.510 21.280 26.430 30.320 30.0350 43.960 56.405
IC (14.690-16.390) (19.930-22.820) (24.350-28.706) (28.480-32.100) (28.416-31.730) (40.410-48.643) (50.616-63.697)
95% 16.250 22.570 28.320 31.790 31.483 47.683 62.300
sd 0.434 0.743 1.097 0.924 0.856 2.258 3.346
79
Figura 5.12: Grafico de encolimento dos valores do premio para os modelos propostos. Os valores dos sinistros sao distribuıdos
seguindo a distribuicao Gama, Log Normal e Log T-student, respectivamente segundo o cenario 1
80
Figura 5.13: Grafico de encolimento dos valores do premio para os modelos propostos. Os valores dos sinistros sao distribuıdos
seguindo a distribuicao Gama, Log Normal e Log T-student, respectivamente segundo o cenario 2
81
A Figura (5.14) apresenta os intervalos de credibilidade (linha tracejada) e o valor
do premio estimado (ponto cheio) para todos os modelos propostos. Pode-se observar a
influencia dos valores extremos na modelagem, pois como ja foi mencionado nas classe
de risco maiores a presenca de dados discrepantes e maior.
Figura 5.14: Intervalos de 95% de credibilidade e as estimativas pontuais do premios
por classe de idade segundo os dois cenarios. Os valores dos sinistros seguindo: Gama,
Normal, T-st, respectivamente
Premio, Cenario 1 Premio, Cenario 2
A Figura (5.15) apresenta os histogramas e intervalo de 95% de credibilidade da pre-
ditiva a posteriori para cada um dos valores estimados dos premios por cada faixa etaria
para os cinco modelos propostos. Percebe-se que os histogramas sao bem comportados.
82
Figura 5.15: Histograma e intervalo de 95% de credibilidade (linha pontilhada) e o valor estimado do premio (linha cheia vertical
vermelha) da distribuicao preditiva a posteriori Ra,t+H para cada classe de idade em todos os modelos ajustados
PGP PNP PTPP1
14.0 15.0 16.0
0.0
0.8
P2
21 22 23 24 25
0.0
0.4
P3
25 26 27 28 29
0.0
0.3
0.6
P4
36 38 40 42
0.0
0.3
P5
27 28 29 30 31
0.0
0.4
P6
50 54 58 62
0.00
0.15
P7
70 80 90
0.00
0.08
P1
28.0 29.0
0.0
1.0
P2
14.0 15.0 16.0
0.0
0.6
1.2
P3
20 21 22 23 24
0.0
0.4
P4
24 25 26 27 28
0.0
0.3
0.6
P5
31 32 33 34 35
0.0
0.4
P6
27 28 29 30
0.0
0.4
P7
46 48 50 52 540.
000.
20
P1
14.0 15.0 16.0 17.0
0.0
0.6
P2
19 21 23 25
0.0
0.3
P3
24 26 28 30 32
0.0
0.2
P4
26 28 30 32
0.0
0.3
P5
28 30 32 34
0.0
0.3
P6
40 45 50 55 60
0.00
0.15
P7
50 70 90 110
0.00
0.08
PGB PNB PTB
P1
14.0 15.0 16.0
0.0
0.6
1.2
P2
21 22 23 24 25
0.0
0.4
P3
25 26 27 28 29
0.0
0.3
0.6
P4
36 38 40 42
0.0
0.3
P5
27 28 29 30 31
0.0
0.4
P6
50 54 58 62
0.00
0.15
P7
70 75 80 85 90
0.00
0.08
P1
14.0 15.0 16.0
0.0
0.6
1.2
P2
21 22 23 24
0.0
0.4
P3
24 25 26 27 28
0.0
0.3
0.6
P4
31 32 33 34 35 36
0.0
0.4
P5
26 27 28 29 30 31
0.0
0.4
P6
44 48 52
0.00
0.20
P7
60 65 70 75
0.00
0.15
P1
14.0 15.0 16.0 17.0
0.0
0.6
P2
19 20 21 22 23 24 25
0.0
0.3
P3
24 26 28 30
0.0
0.2
P4
26 28 30 32 34 36 38
0.0
0.3
P5
28 30 32 34
0.0
0.3
P6
35 40 45 50 55 60 65
0.00
0.15
P7
50 60 70 800.
000.
08
83
Na Figura (5.16) podemos observar o incremento dos valores obtidos dos premios
segundo as classes de idade. Pode-se observar que os valores do sinistros considerando
a distribuicao Log T-student nos dois cenarios, e a unica que apresenta consistencia no
crescimento da distribuicao Ra,T+H segundo as faixas etarias.
Figura 5.16: Boxplot das distribuicoes preditivas: Ra,T+H nos modelos ajustados segundo
classe de idade segundo os dois cenarios
Na seguinte secao serao analisados criterios que auxiliam a escolha do modelo.
5.3.3 Comparacao dos modelos propostos
Nesta secao utiliza-se alguns criterios de comparacao para verificar a adequabilidade dos
modelos propostos. Dado que o objetivo principal do trabalho e fazer a predicao do
premio, escolhe-se um modelo que tenha maior capacidade preditiva. Entre os criterios
de comparacao utilizados na pratica e como ja foi descrito, consideramos o CRPS, cujos
resultados estao de acordo com os obtidos segundo o criterio DIC. Alem disso, calcularam-
se as medidas Erro Absoluto Medio predito (EAMp), o Erro Quadratico Medio predito
84
(EQMp) e o Fator de Bayes.
Tabela 5.4: Valor do Premio para todos os modelos propostos
M 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+
GP 15.6735 23.9800 27.8000 40.3000 30.2200 58.4000 84.5435
NP 15.5100 23.1800 26.9500 34.3000 29.3100 51.8300 71.4835
TP 16.2500 22.5635 28.2300 31.7300 31.4400 47.5635 62.3600
GB 15.6700 23.9700 27.8100 40.3200 30.2100 58.4600 84.3535
NB 15.4900 23.2000 26.9900 34.3300 29.3000 51.9035 71.5235
TB 16.2500 22.5700 28.3200 31.7900 31.4835 47.6835 62.3000
Na Tabela (5.5) apresenta-se um sumario das medidas de comparacao dos modelos
hierarquico de risco coletivo propostos neste trabalho. Pode ser visto, que os criterios
DIC, CRPS, indicam que a distribuicao Log T-student parece a mais apropriada para
modelar os valores dos sinistros. Para o numero de sinistros deve-se utilizar a distribuicao
Binomial Negativa. Isto e, o cenario 2 deve ser considerado. Por outro lado, o criterio
EAMp indica a escolha do cenario 1, mas a distribuicao para a modelagem dos valores de
sinistros deve ser Log T-student. No entanto, o criterio EQMp nao e influenciado pelos
cenarios, isto e, nao ha diferenca significativa para os diferentes cenarios. Alem disso,
este tambem sugere o uso da distribuicao Log T-student para a modelagem dos valores
dos sinistros. Contudo, conforme pode ser observado na Tabela 5.6, o fator de Bayes
fornece um resultado diferente, isto e, ele indica que o modelo MHRC Normal Binomial
Negativa deve ser preferıvel quando comparado com o modelo MHRC T-student Binomial
Negativa.
Finalmente pode-se concluir que a maioria dos criterios considerados dao preferencia ao
cenario 2 e a modelagem dos valores dos sinistros adotado deve ser a distribuicao Log
T-student: MHRC-TB.
85
Tabela 5.5: Valores de DIC, CRPS, EQMp, EAMp para os modelos ajustados
MHRC D.bar D.est DIC CRPS EQMp EAMp
GP 10420.14 10378.410 10461.860 0.491 0.871 0.573
GB 8761.463 8582.174 8940.752 0.581 1.330 0.755
NP 8172.317 8130.900 8213.733 0.465 0.758 0.546
NB 7349.903 6125.228 8574.577 0.646 0.934 0.798
TP 6077.799 6036.067 6119.53 0.454 0.701 0.540
TB 4005.113 3957.580 4052.646 0.399 0.704 0.611
Tabela 5.6: Resultados da comparacao usando o Fator de Bayes
M0 M1 FB Resultados
GP GB 13045.439 Evidencia muito forte contra M0
GP NP 2248.202 Evidencia muito forte contra M0
NP TP 2115.248 Evidencia muito forte contra M0
NP NB 1225482.686 Evidencia muito forte contra M0
NB TP -1223367.438 M0 mostra maior evidencia que M1
GB NB 1214685.450 Evidencia muito forte contra M0
TP TB 2089.184 Evidencia muito forte contra M0
GB TB -6592.803 M0 mostra maior evidencia que M1
NB TB -1221278.253 M0 mostra maior evidencia que M1
86
Capıtulo 6
Conclusoes e trabalhos futuros
Neste trabalho foram propostos modelos hierarquicos de risco coletivo que incorporam
a robustez e sobredispersao com a finalidade de obter um modelo capaz de fornecer
estimacoes e previsoes do premio que nao sejam muito influenciados pelas observacoes
aberrantes. Deste modo e possıvel fazer uma adequada precificacao do premio.
O procedimento de inferencia foi feito sob o enfoque bayesiano e foi desenvolvida uma
metodologia de estimacao atraves dos metodos MCMC.
Os modelos propostos foram estruturados de forma hierarquica. Cinco modelos foram
propostos e analisados. Para o modelo hierarquico de risco coletivo que incorpora a
robustez e sobredispersao, foram calculadas distribuicoes a priori nao informativas (de
Jeffreys e de referencia) para os parametros associados ao grau de robustez e de sobre-
dispersao, respectivamente.
Para validacao do algoritmo programado no software R, dados artificiais foram gerados
a partir dos modelos propostos, utilizando distribuicoes a priori proprias: de Jeffreys
e de referencia. Conclui-se do estudo de simulacao que os valores dos parametros sao
recuperados no processo de inferencia. Isto acontece com todos os modelos.
A convergencia das cadeias dos parametros foi verificada atraves dos metodos formais
(diagnosticos de Geweke e de Raftery), assim como metodos informais. Foi possıvel en-
contrar uma metodologia para deteccao de observacoes atıpicas. Assim como conhecer
as classes e os servicos mais dispersos.
Em relacao aos dados, foi verificado que o servico 3 apresenta a maior quantidade de
87
valores discrepantes e alem disso e mais disperso. O encolhimento do valor de premio em
cada cenario e devido a distribuicao associada aos valores dos sinistros. Alem disso, nao
existe diferenca significativa entre os cenarios considerados. A modelagem dos valores
do sinistros considerando a distribuicao Log T-student nos dois cenarios, e a unica que
apresenta consistencia no crescimento da distribuicao Ra,T+H segundo as faixas etarias.
Pode-se observar que as estimativas dos parametros δ e ν sugerem modelos com sub-
dispersao e caudas pesadas. Assim, na comparacao de modelos a maioria dos criterios
considerados conferem a preferencia pelo cenario 2 e para modelar os valores dos sinis-
tros deve ser empregado a distribuicao Log T-student. Contudo, os criterios CRPS, DIC
sugerem que o modelo hierarquico de risco coletivo Log T- student, Binomial Negativa
deve ser considerado.
Como trabalhos futuros, poderia ser considerado um modelo que relacione as despesas e
a idade do beneficiario. Distribuicoes Birnbaum Saunder-t e Gaussiana inversa, tambem
deveriam ser avaliadas e possivelmente empregadas para modelar os valores dos sinistros,
ver Gilberto et al. (2012), Leiva et al. (2008).
88
Apendice A
SBETA2
A.1 A Distribuicao SBeta2
A funcao de densidade Distribuicao SBeta2 e dada por:
ψ ∼ Beta2(p, q, b), π(ψ) =γ(p+ q)
γ(p)γ(q)
1
b
(ψb)p−1
(ψb
+ 1)p+q, ψ > 0
com b, p, q > 0, Johnson e Balakrishnan (1996) apresenta o caso b = 1. Pode ser definida
como uma mistura da distribuicao Gamma para o parametro de escala. Esta distribuicao
assume valores em R+. Suponha que:
ψ ∼ Gamma(p, b/ρ)
ρ ∼ Gamma(q, 1)
onde Gamma (a,b) denota a distribuicao Gamma com funcao de densidade dada por:
p(x | αβ) =1
Γ(α)βaxα−1 exp−x/β, α > 0, β > 0;
Sendo β o parametro de escala.
f(ψ, ρ) = Ga(ψ | ρ)Ga(ρ)
f(ψ, ρ) =
ρp
Γ(p)bpψp−1 exp−ψ
bρ
1
Γ(q)ρq−1 exp−ρ
Logo temos que :
89
f(ψ, ρ) ∝ ψp−1ρp+q−1 exp
[−(ψ
b+ 1)ρ
]Assim a densidade marginal para ψ e dada por:
f(ψ) ∝ ψp−1∫ ∞
0ρp+q−1 exp
[−(ψ
b+ 1
)ρ
]dρ ∝ ψp−1
(ψb
+ 1)p+q
f(ψ) =γ(p+ q)
γ(p)γ(q)
1
b
(ψb)p−1
(ψb
+ 1)p+q
Nao e difıcil mostrar que a densidade de 1ψ
e:
f(1
ψ) =
γ(p+ q)
γ(p)γ(q)b
(ψb)q−1
(ψb+ 1)p+q
Para a simulacao dos valores desta distribucao pode ser usado os (Odds) ψ = $1−$ ,
onde $ ∼ Beta($ | p, q).
A.1.1 Momentos SBeta2
E[ψ] = bE[V ] =p
q − 1quando q > 1
V ar[ψ] = b2V ar[V ] =p(p+ q − 1)
(q − 1)2(q − 2)b2 quando q > 2
e V = ψb
90
Apendice B
Processo Polya
B.1 Processo Polya - Aeppli
O processo de Polya-Aeppli e definido como uma generalizacao do processo de Poisson
homogeneo, definido em Minkova (2004). Baseia-se na variavel aleatoria X que segue
uma distribuicao geometrica com parametro 1− ρ, isto e,
P (X = i) = ρi−1(1− ρ), i = 1, 2, . . . .
Deste modo, o processo de Poisson composto e chamado de Polya - processo Aeppli. Um
processo de contagem N(t), t ≥ 0 e dito ser um Processo Polya-Aeppli se
a) N(0) = 0;
b) N(t) tem incrementos estacionarios, independentes;
c) para cada t > 0, N(t) e Polya - Aeppli distribuıdo.
Um modelo de risco em que o processo de contagem e o processo Polya-Aeppli e deno-
minado de modelo de risco de Polya-Aeppli.
Na pratica utiliza-se a distribuicao binomial negativa, incorporando-se efeitos aleatorios,
como e mostrado em Hausman et al. (1984). Eles mostram que condicionado ao efeito
1/δi, a distribuicao de Ni,t tem os seguintes momentos:
E[Ni,t | δi] = λi,t/δi e V [Ni,t | δi] = E[Ni,t | δi](1 + δi)/δi
91
Assim, esta distribuicao condicional implica sobredispersao. Eles desenvolveram o modelo
misto Binomial Beta, onde atribuem p = δi/(1 + δi) a distribuicao beta (veja tambem
Duvall (1999)) com parametros (a, b), com media a/(a+b) e variancia ab/((a+b+1)(a+
b)2). Hausman et al. (1984) obtem a distribuicao conjunta da Binomial Negativa-Beta
dada por:
P [Ni,1 = ni,1, . . . , Ni,T = ni,T ] =
[T∏t=1
Γ(λi,t + ni,t)
Γ(λi,t)Γ(ni,t + 1)
]Γ(∑Tt=1 ni,t + b)Γ(
∑Tt=1 λi,t + a)Γ(a+ b)
Γ(a)Γ(b)Γ(∑Tt=1 ni,t +
∑Tt=1 λi,t + a+ b)
Os momentos da Binomial Negativa-Beta sao dados por:
E[Na,t] = λi,tb
a− 1
e
V [Na,t] = λi,t(a+ b− 1)b
(a− 1)(a− 2)+ λ2
i,t
[(b+ 1)b
(a− 1)(a− 2)− b2
(a− 1)2
], a > 2, b > 0
isto e E[Na,t] = E[E[Na,t | α, β]] = E[απa,tβ
] = E[α 1−pp
] = α(E[1p]− 1) = α[ b
a−1], com p =
1
1+πa,tβ
V [Na,t] = E[V [Na,t | α, β]] + V [E[Na,t | α, β]] = E[α 1−pp2
] + V [α 1−pp
] = α2V [1−pp
] +
αE[1−pp2
] = α2(E[(1−pp
)2] − E[1−pp
]2) + αE[1−pp2
] = α2[ (b+1)b(a−1)(a−2)
− b2
(a−1)2] + α[ b(a+b−1)
(a−1)(a−2)] =
αb(a+b−1)(α+a−1)(a−1)2(b−1)
,
O modelo Binomial-Beta e um casso particular da distribuicao Multinomial-Dirichlet,
para mais detalhes ver Paulino et al. (2003) cap. 6.
92
Apendice C
Tabelas
C.1 Tabelas das estatısticas dos parametros estima-
dos
93
Tabela C.1: Estatisticas da distribuicao a posteriori de λa: a mediana (M), o valor verdadeiro (V) e o intervalo de credibilidade
de 95 % e o desvio padrao nos modelos segundo o cenario 1, referente ao estudo simulado
MHRC S 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+
λGPa
V 0.8712 0.9675 1.2430 0.8679 1.0276 1.01 0.7813
M 0.8706 0.9482 1.2430 0.8518 1.0330 0.9882 0.7715
IC (0.8466-0.8948) (0.9144-0.9830) (1.1993-1.2850) (0.8250-0.8778) (0.9996-1.0670) (0.9450-1.0330) (0.7226-0.8199)
sd 0.0124 0.0176 0.0215 0.0136 0.0171 0.0227 0.0249
λNPa
M 0.8703 0.9484 1.2430 0.8513 1.0340 0.9872 0.7718
IC (0.8464-0.8942) (0.9147-0.9835) (1.2013-1.2850) (0.8258-0.8783) (0.9994-1.0670) (0.9422-1.0340) (0.7240-0.8213)
q950 0.8906 0.9782 1.2780 0.8731 1.0620 1.0270 0.8132
sd 0.0122 0.0176 0.0212 0.0133 0.0172 0.0231 0.0250
λTPa
M 0.8705 0.9488 1.2420 0.8515 1.0340 0.9882 0.7723
IC (0.8470-0.8945) (0.9154-0.9828) (1.2030-1.2830) (0.8252-0.87874) (1.0000-1.0670) (0.9437-1.0320) (0.7254-0.8220)
q950 0.8910 0.9773 1.2770 0.8744 1.0620 1.0250 0.8145
sd 0.0122 0.0175 0.0209 0.0137 0.0168 0.0229 0.0248
94
Tabela C.2: Estatisticas da distribuicao a posteriori de λa: a mediana (M), o valor verdadeiro (V) e o intervalo de credibilidade
de 95 % e o desvio padrao nos modelos segundo o cenario 2, referente ao estudo simulado
MHRC S 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+
λGBa
V 0.1220 0.1120 0.0912 0.0812 0.1420 0.1020 0.1322
M 0.1179 0.1196 0.1251 0.1251 0.1246 0.1280 0.1189
IC (0.0241-0.3152) (0.0284-0.3181) (0.0284-0.3500) (0.0297-0.3601) (0.0268-0.3445) (0.0308-0.3524) (0.0257-0.3103)
q950 0.2716 0.2721 0.2965 0.2996 0.2924 0.3005 0.2701
sd 0.0769 0.0763 0.0836 0.0856 0.0943 0.0843 0.0747
λNBa
M 0.1279 0.1229 0.1314 0.1323 0.1346 0.1319 0.1183
IC (0.0366-0.3321) (0.0342-0.3164) (0.0341-0.3520) (0.0363-0.3530) (0.0350-0.3514) (0.0331-0.3580) (0.0272-0.3015)
q950 0.2831 0.2725 0.2995 0.3058 0.3060 0.3027 0.2621
sd 0.0774 0.0743 0.0841 0.0846 0.0850 0.0838 0.0704
λTBa
M 0.1234 0.1223 0.1252 0.1282 0.1308 0.1283 0.1178
IC (0.0323-0.3314) (0.0264-0.3105) (0.0300-0.3548) (0.0309-0.3501) (0.0327-0.3555) (0.0336-0.3566) (0.0228-0.3112)
q950 0.2823 0.2715 0.2941 0.2986 0.3041 0.3034 0.2680
sd 0.0785 0.0742 0.0829 0.0834 0.0868 0.0886 0.0752
95
Tabela C.3: Estatisticas da distribuicao a posteriori de λa: mediana (M), intervalo de credibilidade de 95 % (IC) e desvio padrao
(sd) para o servico 1 no cenario 1, referente a aplicacao no plano de saude
P St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+
λGPa
M 0.291 0.325 0.347 0.345 0.314 0.424 0.390
IC (0.277-0.304) (0.305-0.346) (0.326-0.370) (0.3280-0.362) (0.296-0.333) (0.396-0.453) (0.356-0.424)
sd 0.007 0.010 0.011 0.009 0.009 0.014 0.0174
λNPa
M 0.291 0.325 0.347 0.345 0.314 0.423 0.3890
IC (0.277-0.305) (0.306-0.346) (0.326-0.369) (0.328-0.362) (0.296-0.333) (0.395-0.452) (0.355-0.424)
95% 0.303 0.342 0.366 0.359 0.323 0.448 0.419
sd 0.007 0.009 0.011 0.008 0.009 0.014 0.017
λTPa
M 0.2908 0.3249 0.3470 0.3445 0.3138 0.4234 0.3888
IC (0.2770-0.3049) (0.3058-0.3450) (0.3259-0.3695) (0.3285-0.3610) (0.2959-0.3326) (0.3957-0.4526) (0.3561-0.4238)
95% 0.3025 0.3415 0.3659 0.3587 0.3297 0.4482 0.4171
sd 0.0071 0.0102 0.0110 0.0085 0.0094 0.0146 0.0172
96
Tabela C.4: Estatisticas da distribuicao a posteriori de λa: mediana (M), intervalo de credibilidade de 95 % (IC) e desvio padrao
(sd) para o servico 1 no cenarios 2, referente a aplicacao no plano de saude
P St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+
λGBa
M 0.0380 0.0398 0.0399 0.0403 0.0378 0.0427 0.0416
IC (0.0081-0.1062) (0.0089-0.1176) (0.0098-0.1136) (0.0082-0.1110) (0.0069-0.1046) (0.0082-0.1219) (0.0085-0.1262)
sd 0.0266 0.0288 0.0282 0.02747 0.0262 0.0298 0.0301
λNBa
M 0.037 0.040 0.039 0.038 0.039 0.040 0.042
IC (0.007-0.103) (0.008-0.114) (0.007-0.111) (0.008-0.114) (0.008-0.111) (0.008-0.120) (0.008-0.119)
95% 0.089 0.099 0.095 0.096 0.0939 0.104 0.105
sd 0.025 0.028 0.027 0.0280 0.026 0.031 0.029
λTBa
M 0.0379 0.0388 0.0388 0.0387 0.0382 0.0407 0.0401
IC (0.0069-0.1040) (0.0085-0.1105) (0.0069-0.1100) (0.0077-0.1122) (0.0072-0.1037) (0.0078-0.1244) (0.0073-0.1118)
95% 0.0896 0.0958 0.0932 0.0946 0.0895 0.1047 0.0956
sd 0.0255 0.0271 0.0274 0.0266 0.0250 0.0297 0.0275
97
Tabela C.5: Estatisticas da distribuicao a posteriori de θa: mediana (M), intervalo de credibilidade de 95 % (IC) e desvio padrao
(sd) para o servico 1 no cenario 1, referente a aplicacao no plano de saude
P St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+
θGPa
M 0.041 0.041 0.041 0.041 0.041 0.042 0.041
IC (0.039-0.043) (0.038-0.043) (0.038-0.044) (0.039-0.043) (0.039-0.043) (0.039-0.045) (0.038-0.045)
sd 0.001 0.001 0.001 0.001 0.001 0.001 0.001
θNPa
M 0.040 0.041 0.041 0.040 0.041 0.042 0.041
IC (0.039-0.043) (0.038-0.043) (0.038-0.044) (0.039-0.043) (0.039-0.043) (0.039-0.044) (0.037-0.044)
95% 0.042 0.043 0.043 0.042 0.043 0.044 0.044
sd 0.0010 0.0013 0.0013 0.0010 0.0011 0.0014 0.0018
θTPa
M 0.0403 0.0406 0.0408 0.0408 0.0407 0.0416 0.0407
IC (0.038-0.042) (0.0381-0.0432) (0.0383-0.0436) (0.0388-0.0429) (0.0384-0.0432) (0.0387-0.0448) (0.0373-0.0444)
95% 0.0421 0.0428 0.0432 0.0425 0.0427 0.0442 0.0438
sd 0.0010 0.0013 0.0014 0.0010 0.0012 0.0015 0.0018
98
Tabela C.6: Estatisticas da distribuicao a posteriori de θa: mediana (M), intervalo de credibilidade de 95 % (IC) e desvio padrao
(sd) para o servico 1 no cenario 2, referente a aplicacao no plano de saude
P St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+
θGBa
M 0.0406 0.0408 0.0410 0.0410 0.0409 0.0418 0.0411
IC (0.0387-0.0426) (0.0384-0.0434) (0.0384-0.0437) (0.0390-0.0430) (0.0386-0.0433) (0.0391-0.0447) (0.0376-0.0449)
sd 0.0009 0.0012 0.0013 0.00105 0.0012 0.0014 0.0019
θNBa
M 0.0406 0.0407 0.0410 0.0410 0.0408 0.0418 0.0408
IC (0.0388-0.0427) (0.0383-0.0433) (0.0385-0.0436) (0.0390-0.0430) (0.0384-0.0433) (0.0391-0.0448) (0.0374-0.0447)
95% 0.0424 0.0429 0.0432 0.0427 0.0428 0.0443 0.0440
sd 0.0010 0.0013 0.0013 0.0010 0.0012 0.0015 0.0018
θTBa
M 0.0403 0.0405 0.0408 0.0407 0.0406 0.0415 0.0407
IC (0.038-0.042) (0.038-0.043) (0.038-0.043) (0.038-0.042) (0.038-0.043) (0.038-0.044) (0.037-0.044)
95% 0.042 0.0428 0.0430 0.0424 0.0426 0.0441 0.0440
sd 0.0010 0.0013 0.0013 0.0010 0.0012 0.0014 0.0018
99
Tabela C.7: Estatisticas da distribuicao a posteriori de δa: mediana (M), intervalo de credibilidade de 95 % (IC) e desvio padrao
(sd) para o servico 1 no cenario 2, referente a aplicacao no plano de saude
P St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+
δGBa
M 28.830 27.530 27.050 27.130 28.330 24.040 25.150
q975 (20.650-38.270) (19.616-35.346) (19.419-33.524) (19.606-33.716) (20.493-36.167) (17.933-29.110) (18.213-30.87)
sd 4.549 4.060 3.565 3.629 4.033 2.833 3.195
δNBa
M 29.120 27.740 27.230 27.280 28.570 23.940 25.160
q975 (20.580-38.390) (19.580-35.610) (19.700-33.910) (19.590-34.100) (20.560-36.380) (17.850-29.070) (18.310-30.950)
sd 4.592 4.121 3.603 3.731 4.050 2.826 3.196
δTBa
M 29.010 27.715 27.250 27.310 28.530 24.020 25.210
q975 (20.599-38.190) (19.690-35.550) (19.840-33.850) (19.820-34.060) (20.719-36.190) (17.990-29.040) (18.300-30.920)
sd 4.516 4.073 3.569 3.649 3.963 2.800 3.198
100
Tabela C.8: Estatisticas da distribuicao a posteriori de νa: mediana (M), intervalo de credibilidade de 95 % (IC) e desvio padrao
(sd) para o servico 1 nos diferentes cenarios, referente a aplicacao no plano de saude
P St 0− 17 17− 30 30− 40 40− 50 50− 60 60− 70 70+
νTPa
M 10.720 11.125 11.170 10.905 11.135 11.010 11.120
IC (5.488-21.510) (5.525-21.713) (5.522-21.467) (5.578-21.607) (5.648-22.2005) (5.543-21.814) (5.5783-22.1135)
95% 19.977 20.237 20.071 19.953 20.493 20.254 20.254
sd 4.281 4.276 4.247 4.233 4.364 4.372 4.306
νTBa
M 10.82 11.35 11.12 11.04 11.17 11.18 11.14
IC (5.484-21.823) (5.659-22.026) (5.515-22.403) (5.552-22.196) (5.583-22.100) (5.637-21.963) (5.638-22.220)
95% 20.007 20.393 20.630 20.173 20.310 20.253 20.190
sd 4.304 4.306 4.412 4.317 4.367 4.326 4.300
101
Referencias Bibliograficas
Abramowitz, M. e Stegun, I, A. (1964) Handbook of Mathematical Functions. New York:
Dover. 59
Angers, J. e Berger, J. (1991) Robust hierarchical bayes estimation of exchangeable
means. Canadian Journal of Statistics, 19, 39–56. 4
Austin, M., Vilar, J., Cao, R. e Gonzales Fragueiro, C. (2011) Bayesian analysis of
aggregate loss models. Mathematical Finance, 21, 257–279. 3
Bayes, T. (1763) An eassy towards solving in the doctrine of chances. Philosophy Tran-
saction Royal Society London, 53, 370–418. 31
Berger, J. (1980) A robust generalized bayes estimator and confidence region for a mul-
tivariate normal mean. The Annals of Statistics, 716–761. 4
Berger, J. e Bernardo, J. (1992) On the development of reference prior method. Bayesian
Statistics, 4, 35–60. 35, 38
Bernardo, J. (1979) Reference posterior distributions for bayesian inference (with discus-
sion). Journal of the Royal Statistical Society: Series B (Statistical Methodology), 41,
113–47. 32, 33, 34
Bernardo, J. e Smith, A. (1994) Bayesian Theory. John Wiley and Sons, Chichester. 25,
26, 33, 34
Boucher, J., Denuit, M. e Guillen, M. (2008) Risk classification for claim counts: A
comparative analysis of various zero inflated mixed poisson and hurdle models. North
American Actuarial Journal, 11, 110–131. 5, 51
102
— (2009) Number of accidents or number of claims? an approach with zero inflated
poisson models for panel data. Journal of Risk and Insurance, 76.4, 821–846. 5, 51
Boucher, J. e Guillen, M. (2009) A survey on models for panel count data with applica-
tions to insurance. Racsam, 103, 277–294. 4, 51
Brown, R. (1993) Introduction to ratemarking and loss reserving for property and casualty
insurance. EUA: Actex Publications. 10
Carsten, F. (2013) Overdispersed Models for Claim Count Distribution. Dissertacao de
Mestrado, Tartu University, Rio de Janeiro. 5, 51
Carvalho, C., Polson, N. e Scott, J. (2010) The horseshoe estimator for sparse signals.
Biometrika, 97, 465–480. 5
Cassidy, D., Hamp, M. e Ouyed, R. (2010) Pricing european options with a log student’s-
distribution: A gosset formula. Physica A: Statistical Mechanics and its Applications,
389, 5736–5748. 5
Cechin, J. (2008) A historia e os desafios da saude suplementar: 10 anos de regulacao.
Sao Paulo: Saraiva: Letras e Lucros. 11
Cobb, B., Rumi, R. e A., S. (2012) Approximating the distribution of a sum of log normal
random variables. Sixth European Workshop on Probabilistic Graphical Models. 47
Cowles, M. e Carlin, B. (1996) Markov chain monte carlo convergence diagnostics: a
comparative review. J. Amer. Statist. Assoc., 91, 883–904. 42
Cramer, H. (1930) On the mathematical theory of risk. Skandia Jubile Volume,
Stockholm. 11
Dudley, C. (2006) Bayesian analysis of an aggregate claim model usiing various loss
distributions. Dissertacao de Mestrado, Doctoral dissertation, Dissertation thesis for
Master of Science in Actuarial Management, Heriot-Watt University Edinburgh. 2
DuMouchel, W. (1983) The 1982 massachusetts automobile insurance classification
scheme. Statistician, 32, 69–81. 3
103
Duvall, R. (1999) A bayesian approach to negative binomial parameter estimation.
Sedgwick Financial and Actuarial Consulting, 377–385. 5, 92
Embrechts, P., Kluppelberg, C. e Mikosch, T. (1997) Loss Models. Modelling Extremal
Events for Insurance and Finance. 5, 11, 15
Finger, R. e Steeneck, D. (1976) Estimating pure premiums by layer-an approach. PCAS
LXIII. 2
Fonseca, T., Ferreira, M. e Migon, H. (2008) Objective bayesian analysis for the student-t
regression model. Biometrika, 95, 325–333. 4, 6, 59
Fuquene, J., Perez, M. e Pericchi, L. (2011) Modelling outliers and structural breaks in
dynamic linear models with a novel use of a heavy tailed prior for the variances: An
alternative to the inverted gamma(submitted). Department of Applied Mathematics
and Statistics, California, Department of Mathematics, Puerto Rico. 20
Gamerman, D. e Lopes, H. (2006) Markov Chain Monte Carlo: Stochastic Simulation
for Bayesian Inference. New York: Chapman & Hall / CRC. 39
Gelfand, A. e Smith, A. (1990) Sampling-based approaches to calculating marginal den-
sities. J. Amer. Statist. Assoc., 85, 398–409. 41, 42, 65
Gelman, A., Meng, X. e Stern, H. (1995b) Posterior predictive assessment of model fitness
via realized discrepancies (with discussion). Statistica Sinica, 6, 733–807. 44
Gelman, A. e Rubin, D. (1992a) Inference from iterative simulation using multiple se-
quences (with discussion ). Statistical Science, 7, 457–511. 42
Geman, S. e Geman, D. (1984) Stochastic relaxation, gibbs distribution and the bayesian
restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelli-
gence, 6, 721–741. 41
Geweke, J. (1992) Evaluating the accuracy of sampling- based approaches to the calcu-
lation of posterior moments (with discussion). Bayesian Statistics (J. Bernardo, J.
Berger, A. Dawid and A. Smith,eds.), 169–193. University Press, Oxford. 42, 65
104
Ghosh, J. e Mukerjee, R. (1992) Noninformative priors (with discussion). Bayesian
Statistics, 4. 34, 36
Gilberto, P., Leiva, V., Barros, M. e Liu, S. (2012) Robust statistical modeling using
the birnbaum saunders-t distribution applied to insured. Applied Stochastic Models in
Business and Industry, 28, 16–34. 3, 88
Gisler, A. e Buhlmann, H. (2005) A Course in Credibility Theory and its Applications.
New York: Springer-Verlag. 24
Gisler, A. e Reinhard, P. (1993) Robust credibility. Astin Bulletin, 23, 117–143. 4
Gneiting, T., Balabdaoui, F. e Raftery, A. (2007) Probabilistic forecasts, calibration and
sharpness. Journal of the Royal Statistical Society: Series B (Statistical Methodology),
69, 243–268. 7, 44, 68
Green, E., Roesch Jr, F., Smith, A. e Strawderman, W. (1994) Bayesian estimation
for the three-parameter weibull distribution with tree diameter data. Biometrics, 50,
254–269. 42
GschloBl, S. (2006) Hierarchical bayesian spatial regression models with applications to
non-life insurance. Unpublished PhD thesis, Munich University of Technology. 45
GschloBl, S. e Czado, C. (2008) Modelling count data with overdispersion and spatial
effects. Statistical Papers, 49, 531–552. 45
Haberman, S. e Renshaw, A. (1996) Generalized linear models and actuarial science.
Statistician, 45, 407–436. 3
Hausman, J., Hall, B. e Griliches, Z. (1984) Econometric models for count data with
application to the patents r and d relationship. Econometrica, 52, 909–938. 4, 51, 91,
92
Herzod, T. (1994) Introduction to Credibility Theory. 3
105
Ismail, N. e Zamani, H. (2013) Estimation of claim count data using negative binomial,
generalized poisson, zero-inflated negative binomial and zero-inflated generalized pois-
son regression models. Casualty Actuarial Society: Astin Bulletin, 1–28. 5, 51
Jeffreys, H. (1939/1961) Theory of Probability. Oxford:Clarendon Press. 3rd ed. 31
Johnson, N. e Balakrishnan, N. (1996) Discrete Multivariate distributions. New York-
Wiley, 2a edn. 4, 51, 89
Kass, R. e Raftery, A. (1995) Bayes factors. Journal of the American Statistical Associ-
ation, 90, 773–795. 43, 68
Klugman, H., Panjer, E. e Willmot (1998) Loss Models. New York: Springer-Verlag. 15,
18, 22, 52
Klugman, S. (1992) Bayesian Credibility Models. 3
Klugman, S. e Hogg, R. (1983) On the estimation of long tailed skewed distributions
with actuarial applications. Journal of Econometrics, 23, 91–102. 5, 49
Kremer, E. (1994) Robust credibility via robust kalman filtering. Astin Bulletin, 24,
221–232. 4
Kunsch, H. (1992) Robust methods for credibility. Astin Bulletin, 22, 33–49. 3
Leiva, V., Barros, M. e Gilberto, P. (2008) Generalized Birnbaum Saunders models using
R. 88
Lindley, D. e Smith, A. (1972) Bayes estimates forr the linear model. Journal of the
Royal Statistical Society B, 34, 1–41. 29
Lindsey, J., Byrom, W., Wang, J. e Jones, B. (2000) Generalized nonlinear models for
pharmacokinetic data. Biometrics, 56, 81–88. 5
Liseo, B., Tancredi, A. e Barbieri, M. (2010) Approximated reference priors in the pre-
sence of latent structure. Em Frontiers of statistical decision making and bayesian
analysis, in honor of James O. Berger, 23–42. Springer, New York. 5, 60, 61
106
Lopes, H., Schmidt, A., Salazar, E., Gomez, M. e Achkar, M. (2012) Measuring the vulne-
rability of the uruguayan population to vector-borne diseases via spatially hierarchical
factor models. Annals of Applied Statistics, 6, 284–303. 44
Lundberg, F. (1903) Approximerad framstallning av sannolikhetsfunktionen aterforsa-
kring av kollektivrisker. Akad. Afhandling, 8–22. 11
Makov, U. (2001) Principal applications of bayesian methods in actuarial science a pers-
pective. North Am. Actuarial J., 4, 96–124. 3
Makov, U., A., S. e Liu, Y. (1996) Bayesian methods in actuarial science. Statistician,
45, 503–515. 3
McDonald, J. e Butler, R. (1987) Some generalized mixture distributions with an appli-
cation to unemployment duration. The review of economics and statistics, 232–240.
5
Metropolis, N., Rosenbluth, A. Rosenbluth, M., Teller, A. e Teller, E. (1953) Equation
of state calculations by fast computating machines. The journal of chemical physics,
21, 1087–1092. 39
Migon, H. S. e Gamerman, D. (1993) Generalized exponential growth model - a bayesian
approach. Journal of Forecasting, 12, 573–584. 30
— (1999) Statistical Inference: an Integrated Approach. Arnold. 31
Migon, H. S. e Moura, F. (2005) Hierarchical bayesian collective risk model: An applica-
tion to health insurance. Insurance: Mathematics & Economics, 36, 119–135. 5, 15,
27, 29, 46, 53
Minkova, L. (2004) The polya - aeppli process and ruin problems. J.Appl. Math. Stoch.
Analysis, 3, 221–234. 53, 91
Mitzenmacher, M. e Tworetzky, B. (2003) New models and methods for file size distribu-
tions. Proceedings of the Annual Allerton Conference on Communication Control and
Computing, 41, 603–612. 5
107
Newton, M. e Raftery, A. (1994) Approximate bayesian inference with the weighted
likelihood bootstrap. Journal of the Royal Statistical Society: Series B (Statistical
Methodology), 56, 3–48. 7, 43, 68
O’ Hagan, A. e Andrade, J. (2006) Bayesian robustness modelling using regularly varying
distribution. Bayesian Analysis, 1, 169–188. 4, 18
Pai, S. (1997) Bayesian analysis of compound loss distributions. J. Econometrics, 79,
129–146. 3
Paulino, D., Turkman, A. e Murteira, B. (2003) Estatıstica Bayesiana. Fundacao Calouste
Gulbenkian, Lisboa. 25, 32, 92
Perez, M. e Pericchi, L. (2009) The case for a fully robust hierarchical bayesian analysis
of clinical trials in the 2009 international workshop on objective bayesian methodology
wharton school of business. Wharton School of Business. 4, 20
Raftery, A. e Lewis, S. (1992) How many iterations in the gibbs sampler? Bayesian
Statistics (J. Bernardo, J. Berger, A. Dawid and A. Smith,eds.), 763–773. University
Press, Oxford. 42, 65
Rıos, D. e French, S. (2000) Statistical Decision Theory. Kendall’s library of statistics 9,
Great Britain. 26
Ritter, C. e Tanner, M. (1992) Facilitating the gibbs sampler: The gibbs stopper and the
griddy-gibbs sampler. J. Amer. Statist. Assoc., 87, 861–868. 42
Schnieper, R. (2004) Bayesian robusta experiencia in rating. ASTIN Bulletin, 34, 125–
150. 5
Shengwang, M., Wei, Y. e Whitmore, G. (1999) Accounting for individual over-dispersion
in a bonus-malus automobile insurance system. Casualty Actuarial Society: Astin
Bulletin, 29, 327–337. 5, 51
108
Spiegelhalter, D., Best, N., Carlin, B. e Van del Linde, A. (2002) Bayesian measures of
model complexity and fit. Journal of the Royal Statistical Society: Series B (Statistical
Methodology), 64, 583–639. 7, 43, 68
Sun, D. e Berger, J. (1998) Reference priors with partial information. Biometrika, 85,
55–71. 5, 7, 33, 35, 38, 61
Vallejos, C. e Steel, M. (2013) Objective bayesian survival analysis using shape mixtures
of log-normal distributions. Departament of Statistics, University of Warwick, 1, 1–28.
3, 5, 47, 49
Vilar, J., Cao, R., Austin, M. e Gonzales Fragueiro, C. (2009) Nonparametric analysis of
aggregate loss models. Journal of Applied Statistics, 36, 149–166. 3
West, M. (1984) Outlier models and priori distributions in bayesian linear regression.
Journal of the Royal Statistical Society: Series B (Statistical Methodology), 46, 431–
439. 4, 19
Zellner, A. (1986) Bayesian estimation and prediction using asymmetric loss functions.
J. Amer. Stat. Assoc., 81, 451–466. 28
Zuo Yun, Y., Shao Lin, P., Hai, R., Qinfeng, G. e Zhang He, C. (2005) Logcauchy, log-sech
and lognormal distributions of species abundances in forest communities. Ecological
Modelling, 184, 329–340. 5
109