uma abordagem bayesiana para modelos de...

22
UMA ABORDAGEM BAYESIANA PARA MODELOS DE SOBREVIV ˆ ENCIA BIVARIADOS BASEADOS EM C ´ OPULAS ARQUIMEDIANAS Marco Antonio de OLIVEIRA 1 Adriano Kamimura SUZUKI 1 Erlandson Ferreira SARAIVA 2 RESUMO: Neste trabalho consideramos modelos baseados nas c´opulas arquimedianas de Clayton e Frank para modelar a dependˆ encia de dados de sobrevivˆ encia bivariados na presen¸ ca de covari´ aveis e observa¸c˜ oes censuradas. Para fins inferenciais, realizamos uma abordagem bayesiana usando m´ etodos Monte Carlo em Cadeias de Markov (MCMC). Al´ em disso, algumas discuss˜oes sobre os crit´ eriosdesele¸c˜aodemodeloss˜aoapresentadas. Com o objetivo de detectar observa¸ oes influentes nos dados analisados foi utilizado o etodo bayesiano de an´alise de influˆ encia de dele¸c˜ao de casos baseado na divergˆ encia ψ. Mostramos a aplicabilidade dos modelos propostos a conjuntos de dados simulados e reais. Todas as implementa¸ oes computacionais foram realizadas utilizando os sistemas WinBUGS e R por meio do pacote BRugs. PALAVRAS-CHAVE: An´alise de sobrevivˆ encia; c´opulas Arquimedianas; divergˆ encia ψ; inferˆ encia Bayesiana. 1 Introdu¸c˜ ao Na an´alise de sobrevivˆ encia e de confiabilidade ocorrem situa¸c˜ oes em que se observa dois tempos de vida para um mesmo equipamento ou paciente (dados de sobrevivˆ encia bivariados). Por exemplo, na ´area m´ edica pode ocorrer o interesse em estudar os tempos de vida de ´org˜ aos humanos emparelhados como rins e olhos, o tempo at´ e a primeira e a segunda infec¸c˜ ao ou interna¸ ao, dentre outros. J´a em aplica¸ oes industriais, este tipo de dados ´ e observado, por exemplo, em sistema cujo 1 Universidade de S˜ao Paulo – USP, Instituto de Ciˆ encias Matem´aticas e de Computa¸c˜ ao, CEP: 13566-590, S˜ao Carlos, S˜ ao Paulo, Brasil. E-mail: [email protected], [email protected] 2 Universidade Federal de Mato Grosso do Sul – UFMS, Instituto de Matem´ atica, CEP: 79070-900, Campo Grande, Mato Grosso do Sul, Brasil. E-mail: [email protected] 390 Rev. Bras. Biom., S˜ao Paulo, v.32, n.3, p.390-411, 2014

Upload: others

Post on 05-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

UMA ABORDAGEM BAYESIANA PARA MODELOS DESOBREVIVENCIA BIVARIADOS BASEADOS EM COPULAS

ARQUIMEDIANAS

Marco Antonio de OLIVEIRA1

Adriano Kamimura SUZUKI1

Erlandson Ferreira SARAIVA2

RESUMO: Neste trabalho consideramos modelos baseados nas copulas arquimedianas

de Clayton e Frank para modelar a dependencia de dados de sobrevivencia bivariados na

presenca de covariaveis e observacoes censuradas. Para fins inferenciais, realizamos uma

abordagem bayesiana usando metodos Monte Carlo em Cadeias de Markov (MCMC).

Alem disso, algumas discussoes sobre os criterios de selecao de modelos sao apresentadas.

Com o objetivo de detectar observacoes influentes nos dados analisados foi utilizado o

metodo bayesiano de analise de influencia de delecao de casos baseado na divergencia

ψ. Mostramos a aplicabilidade dos modelos propostos a conjuntos de dados simulados e

reais. Todas as implementacoes computacionais foram realizadas utilizando os sistemas

WinBUGS e R por meio do pacote BRugs.

PALAVRAS-CHAVE: Analise de sobrevivencia; copulas Arquimedianas; divergencia ψ;

inferencia Bayesiana.

1 Introducao

Na analise de sobrevivencia e de confiabilidade ocorrem situacoes em que seobserva dois tempos de vida para um mesmo equipamento ou paciente (dados desobrevivencia bivariados). Por exemplo, na area medica pode ocorrer o interesseem estudar os tempos de vida de orgaos humanos emparelhados como rins e olhos,o tempo ate a primeira e a segunda infeccao ou internacao, dentre outros. Ja emaplicacoes industriais, este tipo de dados e observado, por exemplo, em sistema cujo

1Universidade de Sao Paulo – USP, Instituto de Ciencias Matematicas e de Computacao, CEP:13566-590, Sao Carlos, Sao Paulo, Brasil. E-mail: [email protected], [email protected]

2Universidade Federal de Mato Grosso do Sul – UFMS, Instituto de Matematica, CEP: 79070-900,Campo Grande, Mato Grosso do Sul, Brasil. E-mail: [email protected]

390 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014

Page 2: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

o tempo de duracao depende da durabilidade de dois componentes, como o tempode vida de motores em um aviao bimotor.

Em geral, dados de sobrevivencia bivariados sao correlacionados e o estudodessa dependencia tem sido foco de muitas pesquisas.

Modelos baseados em funcoes copulas tem se tornado uma ferramenta popularpara modelar a dependencia entre dados multivariados, especialmente em areasbiologicas, ciencias atuariais e financas (ver por exemplo Embrechts et al., 2003;Cherubini et al., 2004; Trivedi & Zimmer, 2005; Nelsen, 2006; Kolev et al., 2006;Salvadori et al., 2007; Jaworski, 2010; Patton, 2012).

Uma copula e uma funcao que conecta as distribuicoes marginais univariadascom a sua distribuicao multivariada conjunta. Diferentes funcoes copulasrepresentam diferentes estruturas de dependencia entre as variaveis (Nelsen,2006). Uma outra vantagem da modelagem copula e a sua relativa simplicidadematematica. Alem disso, e possıvel construir uma variedade de estruturas dedependencia com base em modelos parametricos ou nao parametricos para asdistribuicoes marginais.

Em analise de sobrevivencia, modelos baseados em copulas sao considerados,por exemplo em Hougaard (1989), Oakes (1989), Shih & Louis (1995), Gustafson etal. (2003), Zhang et al. (2010), Boleta & Achcar (2012) e Louzada et al. (2012, 2013).Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011), realizamossob uma abordagem bayesiana uma comparacao entre modelos de sobrevivenciabivariados baseados em copulas arquimedianas, especificamente nas copulas deClayton e Frank, para modelar a dependencia de dados de sobrevivencia bivariadoscom distribuicoes marginais Weibull na presenca de covariaveis e observacoescensuradas. Alem disso, consideramos uma analise de influencia de delecao decasos baseado na divergencia ψ que possui como caso particular a divergencia deKullback-Leibler, utilizada por Louzada et al. (2012, 2013) e Suzuki et al. (2011).

2 Metodologia

O teorema de Sklar e um dos resultados mais importantes na teoria e aplicacoesde copulas. A partir deste, temos que uma copula conecta as distribuicoes marginaisunivariadas formando uma distribuicao multivariada, ou entao que uma funcaode distribuicao multivariada pode ser decomposta nas marginais univaridas e naestrutura de dependencia dada pela copula.

A representacao da copula arquimediana permite reduzir o estudo de copulamultivariada ao estudo de uma funcao univariada φ, comumente chamada degerador de uma copula arquimediana. Uma distribuicao bivariada pertence a famıliade copulas Arquimedianas se tem a seguinte representacao:

Cϕ(u;v) = φ(φ(u)−1 + φ(v)−1), 0 ≤ u, v ≤ 1 (1)

em que 0 < φ < 1, φ(0) = 1, φ′ < 0, φ′′ > 0 e ϕ e o parametro dedependencia da copula. A seguir apresentamos um breve comentario sobre ascopulas Arquimedianas de Clayton e Frank que sao estudadas neste trabalho.

Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 391

Page 3: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

Copula de Clayton

A copula arquimediana de Clayton (Clayton, 1978) tem a forma:

Cϕ(u;v) = (u−ϕ + v−ϕ − 1)−1ϕ , ϕ ∈ R+, (2)

e funcao geradora dada por φ(t) = 1ϕ (t

−ϕ − 1). O valor ϕ = 0 representa

independencia, ou seja, Cϕ(u;v) = uv.

Copula de Frank

A copula de Frank (Frank, 1979) e amplamente utilizada em aplicacoesempıricas (Meester & MacKay, 1994). Permite dependencia negativa e e simetricaem ambas as caldas. Tem a forma:

Cϕ(u;v) = logϕ

(1 +

(ϕu − 1)(ϕv − 1)

ϕ− 1

), ϕ ∈ (0;1) (3)

e funcao geradora dada por φ(t) = − ln(

1−ϕt

1−ϕ

). O valor ϕ = 1 representa

independencia, ou seja, Cϕ(u;v) = uv.

Inferencia

Seja Cϕ uma funcao distribuicao com funcao densidade cϕ sob [0;1]2 paraϕ ∈ R. Considere (T1;T2) os tempos de falhas pareados e, Sj(tj) e fj(tj),respectivamente, a funcao de sobrevivencia e a funcao densidade de Tj , j = 1, 2.Se (T1, T2) provem da copula Cϕ para algum ϕ entao as funcoes de sobrevivencia edensidade conjunta de (T1;T2) sao dadas por:

S(t1;t2) = Cϕ(S1(t1);S2(t2)), t1, t2 > 0 (4)

e

f(t1;t2) = cϕ(S1(t1);S2(t2))f1(t1)f2(t2), t1, t2 > 0, (5)

respectivamente. Note que as distribuicoes marginais e a estrutura de dependenciapodem ser visualizadas separadamente e esta estrutura de dependencia erepresentada por uma copula.

Considere (Ti1;Ti2) e (Ci1;Ci2) os i -esimos tempos de vida e de censurabivariados, para i = 1, . . . , n. Suponha que (Ti1;Ti2) e (Ci1;Ci2) sao independentes.Para cada indivıduo i, as quantidades individuais sao representadas pelas variaveisaleatorias tij = min(Tij ;Cij) e δij = I(tij = Tij), que denota o indicador de falha,j = 1, 2.

Sejam S(t1|γ1) e S(t2|γ2) as funcoes de sobrevivencia de Ti1 e Ti2,respectivamente, em que γ1 e γ2 sao vetores de parametros de q1 e q2 elementosassociados a cada uma das distribuicoes marginais.

Considerando a funcao de sobrevivencia bivariada S(t1; t2|ϕ,γ1,γ2) dadaem (4), a contribuicao do i -esimo indivıduo para a log-verossimilhanca de

392 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014

Page 4: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

θ = (ϕ,γ1,γ2) e dada por (Lawless, 2003):

ℓi(θ) = δi1δi2 log

(∂2S(t1; t2|θ)∂ti1∂ti2

)+ δi1(1− δi2) log

(−∂S(t1; t2|θ)

∂ti1

)+δi2(1− δi1) log

(−∂S(t1; t2|θ)

∂ti2

)+ (1− δi1)(1− δi2) logS(t1; t2|θ). (6)

As derivadas da funcao de sobrevivencia conjunta para os tempos de falhaspareados utilizando as copulas de Clayton e Frank estao apresentadas nos ApendicesA e B, respectivamente.

Para inferencia, por meio da metodologia bayesiana, assumimos que nao haconhecimentos previos dos parametros theta por meio das distribuicoes a priori naoinformativas.

Combinando as distribuicoes a priori independentes com a funcao deverossimilhanca, L(θ) = exp(

∑ni=1 ℓi(θ)), em que ℓi(θ) e dada em (6), obtemos

diretamente a distribuicao conjunta a posteriori de θ, π(θ|D), em queD e o conjuntode dados observados. As estimativas dos parametros sao dadas pelas medias dadistribuicao a posteriori.

Para as distribuicoes marginais consideramos modelos Weibull. Realizamosaplicacoes em conjuntos de dados simulados e reais. Todas as implementacoescomputacionais foram realizadas utilizando os sistemas WinBUGS (Lunn et al.,2000) e R (R Development Core Team, 2012) por meio do pacote BRugs (Thomaset al., 2006).

3 Criterios de comparacao de modelos

Analogamente a Louzada et al. (2012, 2013), neste trabalho utilizamos quatrocriterios de selecao de modelos: o DIC (Deviance Information Criterion), o EAIC(Expected Akaike Information Criterion), o EBIC (Expected Bayesian (ou Schwarz )Information Criterion) e o LPML (Logarithm of the Pseudo Marginal Likelihood),os quais especificamente sao usados na metodologia bayesiana em que as amostrasdas distribuicoes a posteriori para os parametros do modelo sao obtidas usandometodos MCMC.

4 Diagnostico

Na literatura, uma forma utilizada de avaliacao da influencia de umaobservacao no ajuste de um modelo e por meio da exclusao de casos (Cook &Weisberg, 1982). Atualmente, tecnicas de influencia local tem sido amplamenteutilizadas, por exemplo em Cancho et al. (2010), Vidal & Castro (2010) e Louzadaet al. (2012, 2013).

Neste trabalho vamos considerar a analise de influencia de delecao de casosbaseado na divergencia ψ. Seja Dψ(P ;P(−i)) a divergencia ψ entre P e P(−i), em

Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 393

Page 5: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

que P indica a distribuicao a posteriori de θ para os dados completos e, P(−i) adistribuicao a posteriori sem o i -esimo caso. Especificamente,

Dψ(P ;P(−i)) =

∫ψ

(π(θ|D(−i))

π(θ|D)

)π(θ|D) dθ, (7)

em que ψ e uma funcao convexa com ψ(1) = 0. Varias escolhas de ψ sao dadasem Dey & Birmiwal (1994). Por exemplo, ψ(z) = − log(z) define a divergencia deKullback-Leibler (K-L), ψ(z) = (z − 1) log(z) a distancia J (ou a versao simetricada divergencia de K-L), ψ(z) = 0,5|z − 1| a distancia variacional ou norma L1 eψ(z) = (z − 1)2 define a divergencia χ2.

Podemos calcular Dψ(P ;P(−i)) considerando uma amostra da distribuicao a

posteriori de θ via metodos MCMC. Considere θ(1), . . . ,θ(V ) uma amostra detamanho V de π(θ|D). Entao, uma estimativa Monte Carlo e dada por:

Dψ(P ;P(−i)) =1

V

V∑q=1

ψ

(π(θ(q)|D(−i))

π(θ(q)|D)

). (8)

A medida Dψ(P ;P(−i)) pode ser interpretada como a divergencia ψ do efeitoda exclusao do i-esimo caso dos dados completos na distribuicao a posteriori de θ.

Como apontado por Peng & Dey (1995) e Weiss (1996), pode ser difıcil paraum profissional (por exemplo, um medico) avaliar o ponto de corte da medida dedivergencia, de modo a determinar se uma observacao ou um pequeno subconjuntode observacoes e influente ou nao. Neste contexto, usaremos a proposta dadapor Peng & Dey (1995) e Weiss (1996). Considere uma moeda viesada comprobabilidade de sucesso p. Entao, a divergencia ψ entre a moeda viesada e anao viesada e:

Dψ(f0;f1) =

∫ψ

(f0(x)

f1(x)

)f1(x)dx, (9)

em que f0(x) = px(1− p)1−x e f1(x) = 0, 5, x = 0, 1. Se Dψ(f0, f1) = dψ(p), entaopode ser facilmente verificado que dψ satisfaz a seguinte equacao:

dψ(p) =ψ(2p) + ψ(2(1− p))

2. (10)

Nao e difıcil notar que, para as medidas de divergencia consideradas, dψaumenta a medida que p afasta-se de 0,5. Alem disso, dψ(p) e simetrica em tornode p = 0,5 e dψ atinge seu mınimo em p = 0,5. Neste ponto, dψ(0,5) = 0 e f0 = f1.Portanto, se considerarmos p > 0,80 (ou p ≤ 0,20) como uma moeda muito viciada,entao dL1(0,80) = 0,30. Esta relacao implica que o i-esimo caso e consideradoinfluente quando dL1(0,80) > 0,30.

Assim, se usarmos a divergencia de Kullback-Leibler, podemos considerar queuma observacao e influente quando dK-L > 0,223. Da mesma forma, usando adistancia J ou a divergencia χ2, uma observacao na qual dJ > 0,416 ou dχ2(0,80) >0,360 pode ser considerada influente.

394 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014

Page 6: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

5 Estudo de simulacao

Inicialmente empregamos dados simulados para estudar as propriedadesfrequentistas dos estimadores bayesianos quando os parametros do modelo saoconhecidos. O objetivo deste estudo de simulacao e mostrar o bom comportamentodas estimativas bayesianas, com base na media frequentista e nas medidas utilizadaspara comparacao de modelos: EAIC, EBIC, DIC e LPML.

Para simular n observacoes (ti1;ti2) do modelo baseado nas copulas de Frank eClayton, assumindo que as marginais Tj tem distribuicao Weibull com parametrosαj e λij = exp(β0j + β1jxi), j = 1, 2, realizamos o seguinte algoritmo:

Algoritmo

Passo 1: Gerar as covariaveis xi de uma distribuicao Bernoulli com parametro 0,5.Passo 2: Gerar os tempos de censura Cij a partir de uma distribuicao UniformeU(0; τj), com τj controlando o percentual de observacoes censuradas, j = 1, 2.

Passo 3: Gerar Ti1 = (−log(1− ui1)/λi1)1/α1 em que ui1 ∼ U(0; 1). Comparar Ti1com o valor de censura Ci1 a fim de determinar o indicador de censura δi1 e o valorobservado dado por ti1 = min(Ti1; Ci1).Passo 4: Gerar ui2 ∼ U(0; 1) e calcular:- Se for para o modelo baseado na copula Frank, calcular wi = −(1/θ) log(1 +(ui2(1− e−θ))/(ui2(e−θui1 − 1)− e−θui1)), em que θ = − log(ϕ).

- Se for o modelo baseado na copula Clayton, calcular wi = [u−ϕi1 (u−ϕ/(ϕ+1)i2 − 1) +

1](−1/ϕ).

Obter Ti2 = (−log(1− wi)/λi2)1/α2 e entao comparar Ti2 com o valor de censuraCi2 a fim de determinar o indicador de censura δi2 e o valor observado dado porti2 = min(Ti2; Ci2).

Analisamos tambem o caso sem covariavel cujo o procedimento de simulacaoe dado pelos Passos 2-4 descritos anteriormente.

Neste trabalho, simulamos os conjuntos de dados assumindo (0%; 0%) e(30%; 30%) de censuras para dois diferentes tamanhos de amostras n = 50 e 200.Para cada caso, geramos 50 conjuntos Monte Carlo de dados.

As seguintes distribuicoes a priori independentes foram consideradas para oamostrador de Gibbs: αj ∼ Gama(1; 0,001) e λj ∼ Gama(1; 0,001) (modelo semcovariavel) ou βij ∼ N(0; 1000) (modelo com covariavel), i = 0, 1 e j = 1, 2.Assumimos ϕ ∼ Gama(1; 0,001) e ϕ ∼ Beta(1; 1) para o parametro da copula deClayton e Frank, respectivamente.

Para cada conjunto de dados gerados simulamos duas cadeias de tamanho50.000 para cada parametro, desconsiderando as primeiras 10.000 iteracoes paraeliminar o efeito dos valores iniciais e, para evitar problemas de autocorrelacao,consideramos um espacamento de tamanho 20, obtendo uma amostra efetiva detamanho 4.000 sobre a qual a inferencia a posteriori e baseada. Para cada amostra,a media e o desvio padrao a posteriori dos parametros e os valores de EAIC, EBIC,

Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 395

Page 7: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

DIC e LPML sao gravados. As simulacoes foram realizadas utilizando os sistemasWinBUGS (Lunn et al., 2000) e R (R Development Core Team, 2012) por meio dopacote BRugs (Thomas et al., 2006).

A convergencia das cadeias foi monitorada de acordo com os metodosrecomendados por (Cowless & Carlin, 1996) (pacote CODA (Plummer et al.,2006)). Em todos os casos, a convergencia foi verificada por meio do diagnostico deGelman-Rubin (Gelman & Rubin, 1992) sendo muito proximo a 1 (≤ 1,01).

A Tabela 1 mostra as estatısticas resumo (Media MC e entre parenteses o DPMC) da simulacao para os parametros ajustando os modelos baseados na copulade Clayton e na de Frank para as duas configuracoes de censuras e tamanhos deamostras simuladas. Os verdadeiros valores sao dados entre parenteses, a Media MC

denota a media aritmetica das 50 estimativas dada por50∑j=1

θkj/50 e o DP MC denota

o desvio padrao medio frequentista dado por50∑j=1

DP (θkj)/50. Podemos observar

que todos os casos (com e sem a presenca de dados censurados) as estimativasobtidas estao proximas, em media, do verdadeiro valor.

A Tabela 2 apresenta a media Monte Carlo (MC) dos quatro criterios decomparacao de modelos discutidos na Secao 3 para comparar os modelos desobrevivencia bivariado baseado na copula Clayton e Frank com marginais Weibull.Podemos observar que para as duas configuracoes de censuras, o verdadeiro modelogerado supera o outro em todas as medias dos criterios considerados.

6 Diagnostico de observacoes influentes

Para examinar o desempenho da medida de diagnostico, geramos uma amostrade tamanho 300 para o modelo Frank bivariado com parametros fixos β01 = 2,5,β11 = 0,5, α1 = 2, β02 = 3,5, β12 = −1, α2 = 3 e ϕ = 0,5, e tambem uma amostra demesmo tamanho para o modelo Clayton bivariado com parametros fixos β01 = 2,5,β11 = 0,5, α1 = 2, β02 = 3,5, β12 = −1, α2 = 3 e ϕ = 0,5. Em ambas as amostrasconsideramos que 15% de cada tempo foi censurado.

Para amostra do modelo Frank bivariado, selecionamos os casos 40 e 75(ambos os tempos observados), 210 (tempo 1 observado e tempo 2 censurado)e 280 (ambos os tempos censurados) para perturbacao. Para criar observacoesartificialmente influentes no conjunto de dados, escolhemos um, dois ou tres dessescasos selecionados. Para cada caso, perturbamos um ou ambos os tempos daseguinte forma: ti = ti+5Dt, i = 1, 2, em que Dt e o desvio padrao dos ti’s. Para ocaso 75 foi perturbado apenas o tempo de vida t1, para ambos os casos 40 e 210 otempo de vida t2 e, para o caso 280, ambos os tempos de vidas foram perturbados.De forma analoga para a amostra do modelo Clayton bivariado, selecionamos oscasos 100 (ambos os tempos observados), 25 e 50 (um tempo observado e outrocensurado) e 270 (ambos os tempos censurados) para perturbacao. Para o caso 25foi perturbado apenas o tempo de vida t1, para ambos os casos 50 e 100 o tempode vida t2 e, para o caso 20, ambos os tempos de vidas foram perturbados.

396 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014

Page 8: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

Tab

ela1-Estatısticasresumodasimulacaoparaos

param

etrosajustan

doomodeloClaytonbivariadoeFrankbivariado

paraas

duas

configu

racoes

decensurasetaman

hos

deam

ostras

simuladas

N=

50N

=200

Verdadeiro

Parametro

Clayton/F

rank

Clayton/F

rank

Modelo

(0%;0%

)(30%

;30%)

(0%;0%

)(30%;30%)

r 1(1,5)

1,588(0,167)/1,702(0,176)

1,671(0,202)/1,665(0,209)

1,520(0,064)/1,621(0,099)

1,590(0,090)/1,588(0,098)

Sem

λ1(2,0)

2,141(0,400)/1,963(0,424)

1,767(0,327)/1,599(0,318)

2,044(0,155)/1,759(0,210)

1,663(0,138)/1,483(0,142)

covariavel

r 2(0,5)

0,515(0,041)/0,545(0,045)

0,545(0,051)/0,547(0,055)

0,510(0,024)/0,537(0,026)

0,527(0,034)/0,523(0,037)

λ2(3,0)

3,224(0,564)/3,004(0,617)

2,719(0,508)/2,483(0,540)

3,082(0,286)/2,675(0,376)

2,538(0,245)/2,249(0,247)

ϕ(3,0)

2,987(0,844)/0,006(0,013)

2,716(0,860)/0,027(0,033)

2,962(0,377)/0,001(0,001)

2,601(0,513)/0,004(0,004)

Clayton

r 1(2,0)

2,114(0,204)/2,238(0,240)

2,214(0,261)/2,235(0,292)

2,052(0,097)/2,194(0,193)

2,214(0,261)/2,235(0,292)

β01(-1,0)

-1,080(0,216)/-1,218(0,255)

-1,379(0,265)/-1,481(0,301)

-1,048(0,106)/-1,319(0,238)

-1,379(0,265)/-1,481(0,301)

Com

β11(0,5)

0,523(0,107)/0,559(0,214)

0,570(0,207)/0,600(0,261)

0,512(0/,056)/0,519(0,187)

0,570(0,207)/0,600(0,261)

covariavel

r 2(3,0)

3,226(0,330)/3,425(0,366)

3,391(0,410)/3,364(0,387)

3,041(0,131)/3,003(0,259)

3,391(0,410)/3,364(0,387)

β02(1,0)

1,040(0,167)/1,040(0,200)

0,846(0,190)/0,744(0,210)

1,000(0,060)/0,756(0,217)

0,846(0,190)/0,744(0,210)

β12(-0,5)

-0,540(0,129)/-0,573(0,180)

-0,543(0,168)/-0,517

(0,240)

-0,504(0,048)/-0,441(0,164)

-0,543(0,168)/-0,517(0,240)

ϕ(4,0)

4,201(0,980)/0,002(0,004)

3,637(1,237)/0,025(0,031)

4,098(0,377)/1,4.10

−4(9.10−

5)

3,637(1,237)/0,025(0,031)

r 1(1,5)

1,569(0,171)/1,578(0,171)

1,572(0,239)/1,569(0,239)

1,511(0,088)/1,513(0,087)

1,530(0,107)/1,528(0,104)

Sem

λ1(2,0)

2,099(0,385)/2,106(0,390)

1,427(0,218)/1,429(0,219)

2,033(0,143)/2,036(0,142)

1,401(0,103)/1,401(0,101)

covariavel

r 2(3,0)

3,015(0,282)/3,018(0,271)

3,179(0,435)/3,181(0,439)

3,014(0,197)/3,024(0,190)

3,054(0,203)/3,053(0,203)

λ2(1,0)

1,040(0,130)/1,035(0,130)

0,689(0,075)/0,695(0,074)

1,021(0,079)/1,019(0,081)

0,705(0.058)/0,708(0,058)

ϕ(0,5)

1,230(0,153)/0,516(0,151)

0,091(0,114)/0,577(0,123)

0,075(0,088)/0,569(0,161)

0,056

0,039)/0,610(0,109)

Frank

r 1(2,0)

2,084(0,272)/2,106(0,278)

2,061(0,223)/2,088(0,229)

2,044(0,109)/2,055(0,107)

2,077(0,288)/2,099(0,287)

β01(-1,0)

-1,466(0,300)/-1,466(0,302)

-1,077(0,255)/-1,082(0,262)

-1,056(0,134)/-1,058(0,131)

-1,438(0,294)/-1,440(0,297)

Com

β11(0,5)

0,571(0,338)/0,577(0,327)

0,569(0,273)/0,582(0,269)

0,535(0,151)/0,536(0,144)

0,528(0,371)/0,540(0,367)

covariavel

r 2(3,0)

3,086(0,502)/3,113(0,511)

3,187(0,440)/3,228(0,442)

3,028(0,170)/3,043(0,169)

3,124(0,430)/3,154(0,431)

β02(1,0)

0,606(0,286)/0,627(0,289)

1,041(0,232)/1,066(0,236)

1,013(0,119)/1,017(0,118)

0,642(0,259)/0,663(0,258)

β12(-0,5)

-0,486(0,403)/-0,486(0,407)

-0,578(0,335)/-0,580(0,341)

-0,497(0,172)/-0,490(0,170)

-0,550(0,385)/-0,549(0,381)

ϕ(0,5)

0,297(0,121)/0,589(0,108)

0,235(0,123)/0,578(0,117)

0,162(0,071)/0,547(0,153)

0,340(0,204)/0,563(0,129)

Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 397

Page 9: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

Tab

ela2-Med

iaMon

teCarlo

dos

criteriosbayesianos

baseados

sobre

as50

amostras

geradas

paraas

duas

configu

racoes

decensuras

Criterios

Bayesianos

EAIC

EBIC

DIC

LPML

Clayton/F

rank

Clayton/F

rank

Clayton/Frank

Clayton/F

rank

(0%;0%

)(30%

;30%)

(0%;0%)

(30%

;30%

)(0%;0%)

(30%

;30%)

(0%;0%)

(30%;30%

)Clayton

N=

50-130,561/-113,791

-27,338/-18,952

-121,001/-104,231

-17,778/-9,392

-135,455/-120,518

-32,188/-26,312

1,346/1,178

0,315/0,234

Sem

Frank

71,713/71,390

102,106/101,893

81,273/80,950

111,666/111,453

66,169/65,656

96,347/96,075

-0,666/-0,663

-0,967/-0,967

covariavel

Clayton

N=

200

-543,761/-476,573

-130,719/-104,460

-527,269/-460,082

-114,227/-87,968

-548,708/-477,169

-135,662/-110,165

1,372/1,193

0,338/0,273

Frank

249,399/248,182

381,759/381,063

265,891/264,673

398,250/397,554

244,068/242,758

376,196/375,544

-0,610/-0,607

-0,941/-0,939

Clayton

N=

5031,474/52,804

95,566/107,175

44,858/66,188

108,95/120,559

24,652/43,395

88,747/97,053

-0,259/-0,466

-0,904/-1,005

Com

Frank

112,277/111,828

136,446/135,970

125,661/125,212

149,830/149,354

104,612/104,068

128,743/128,100

-1,057/-1,049

-1,301/-1,291

covariavel

Clayton

N=

200

87,755/198,448

95,566/107,175

110,843/221,537

108,950/120,559

80,781/206,782

88,747/97,053

-0,203/-0,516

-0,904/-1,005

Frank

413,493/412,406

499,284/498,660

436,582/435,494

522,373/521,748

406,152/404,992

491,748/491,084

-1,016/-1,013

-1,230/-1,228

398 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014

Page 10: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

Para a implementacao do algoritmo MCMC, assim como a verificacao daconvergencia das cadeias, realizamos os mesmos procedimentos descritos na Secao 5.

As Tabelas 3 e 4 mostram que as inferencias a posteriori sao sensıveis aperturbacao do(s) caso(s) selecionado(s).

Tabela 3 - Media e desvio padrao (DP) para os parametros do modelo desobrevivencia Frank bivariado para cada conjunto de dados simulados

Nome Identificacao α1 β01 β11 α2 β02 β12 ϕdos dos casos Media Media Media Media Media Media Media

dados perturbados (DP) (DP) (DP) (DP) (DP) (DP) (DP)a Amostra original 1,858 2,205 -0,486 2,812 2,306 -0,109 0,461

(0,095) (0,136) (0,130) (0,139) (0,137) (0,127) (0,165)b 40 1,861 2,199 -0,468 2,621 2,160 -0,180 0,484

(0,090) (0,128) (0,125) (0,123) (0,125) (0,122) (0,175)c 75 1,789 2,072 -0,405 2,818 2,311 -0,110 0,475

(0,083) (0,124) (0,128) (0,139) (0,136) (0,124) (0,177)d 210 1,864 2,208 -0,481 2,498 1,955 0,006 0,469

(0,092) (0,133) (0,126) (0,113) (0,113) (0,126) (0,181)e {40, 210} 1,862 2,204 -0,478 2,372 1,868 -0,058 0,467

(0,089) (0,127) (0,125) (0,103) (0,111) (0,122) (0,179)f {75, 210} 1,790 2,075 -0,410 2,496 1,954 0,007 0,443

(0,085) (0,122) (0,125) (0,108) (0,110) (0,125) (0,173)g {40, 75, 210} 1,793 2,069 -0,404 2,372 1,870 -0,058 0,470

(0,086) (0,122) (0,124) (0,108) (0,112) (0,125) (0,186)h 280 1,793 2,082 -0,415 2,765 2,271 -0,133 0,472

(0,086) (0,122) (0,123) (0,133) (0,132) (0,126) (0,172)i {40, 280} 1,789 2,080 -0,418 2,597 2,155 -0,226 0,471

(0,087) (0,122) (0,124) (0,125) (0,132) (0,127) (0,176)

Tabela 4 - Media e desvio padrao (DP) para os parametros do modelo Claytonbivariado para cada conjunto de dados simulados

Nome Identificacao α1 β01 β11 α2 β02 β12 ϕdos dos casos Media Media Media Media Media Media Media

dados perturbados (DP) (DP) (DP) (DP) (DP) (DP) (DP)a Amostra original 2,571 2,133 -0,515 2,043 3,499 -1,071 3,864

(0,116) (0,104) (0,052) (0,088) (0,155) (0,072) (0,387)b 25 2,135 1,758 -0,402 1,883 3,221 -0,986 3,536

(0,092) (0,091) (0,055) (0,089) (0,157) (0,076) (0,390)c 50 2,311 1,898 -0,440 1,650 2,789 -0,769 3,498

(0,112) (0,104) (0,055) (0,067) (0,123) (0,062) (0,401)d 100 2,303 1,895 -0,440 1,643 2,778 -0,764 3,484

(0,110) (0,101) (0,054) (0,068) (0,123) (0,060) (0,392)e {25, 50} 2,017 1,639 -0,358 1,583 2,667 -0,741 3,319

(0,097) (0,091) (0,057) (0,072) (0,129) (0,064) (0,410)f {25, 100} 2,008 1,631 -0,358 1,574 2,648 -0,733 3,344

(0,097) (0,096) (0,056) (0,068) (0,126) (0,061) (0,426)g {25, 50, 100} 2,002 1,607 -0,339 1,463 2,414 -0,606 2,956

(0,103) (0,095) (0,060) (0,067) (0,118) (0,065) (0,383)h 270 2,386 1,937 -0,471 1,824 3,077 -0,919 4,391

(0,103) (0,095) (0,050) (0,071) (0,122) (0,061) (0,427)i {100, 270} 2,221 1,800 -0,423 1,560 2,603 -0,706 3,818

(0,110) (0,100) (0,053) (0,063) (0,113) (0,056) (0,426)

Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 399

Page 11: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

Nessas tabelas o conjunto de dados (a) denota os dados originais simuladossem perturbacao e os conjuntos de dados (b) a (i) denotam os conjuntos de dadoscom casos perturbados.

As Tabelas 5 e 6 mostram os criterios bayesianos do ajuste de diferentes casosde conjuntos de dados perturbados. Podemos observar em ambas as tabelas queo conjunto de dados (a) (conjunto dos dados originais simulados) teve o melhorajuste.

Tabela 5 - Criterios bayesianos ajustando o modelo de sobrevivencia Frankbivariado para cada conjunto de dados simulados

Nomes Criterios Bayesianosdos dados EAIC EBIC DIC LPML

a -324,742 -298,815 -331,800 0,551b -299,573 -273,646 -307,100 0,506c -309,320 -283,393 -316,600 0,524d -290,032 -264,105 -297,400 0,481e -268,413 -242,487 -276,000 0,448f -274,985 -249,058 -282,400 0,456g -252,791 -226,865 -260,100 0,420h -304,855 -278,928 -312,100 0,516i -281,996 -256,070 -289,300 0,476

Tabela 6 - Criterios bayesianos ajustando o modelo de sobrevivencia Claytonbivariado para cada conjunto de dados simulados

Nome Criterios Bayesianosdos dados EAIC EBIC DIC LPML

a -794,777 -768,851 -801,900 1,336b -697,389 -671,462 -704,400 1,147c -667,741 -641,814 -674,600 1,089d -667,130 -641,204 -674,100 1,078e -595,197 -569,270 -602,100 0,953f -594,850 -568,923 -601,700 0,963g -524,499 -498,573 -531,400 0,842h -761,130 -735,203 -768,200 1,270i -650,270 -624,344 -657,300 1,066

Vamos considerar as amostras da distribuicao a posteriori dos parametros domodelo Frank bivariado e Clayton bivariado para obter uma estimativa das quatromedidas de divergencia, cujos os resultados foram apresentados nas Tabelas 7 e 8,respectivamente. As tabelas mostram, antes da perturbacao (conjunto de dados(a)), que todos os casos selecionados nao sao influentes, com pequenas medidasde divergencia. Entretanto, apos perturbacoes (conjunto de dados (b) a (i)) asquatro medidas aumentam, indicando que os casos sao influentes. Os valores que

400 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014

Page 12: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

ultrapassam os pontos de cortes apresentados na Secao 4 estao destacados comasterisco (∗).

Tabela 7 - Medidas de divergencia para o modelo Frank bivariado

Nome Identificacao Medidas de divergenciados dados dos casos dK-L dJ dL1 dχ2

a 40 0,004 0,006 0,030 0,00675 0,004 0,005 0,028 0,005210 0,112 0,250 0,198 0,309280 0,002 0,003 0,023 0,003

b 40 1,318∗ 2,820∗ 0,613∗ 12,667∗

c 75 0,528∗ 1,231∗ 0,420∗ 3,434∗

d 210 4,209∗ 6,507∗ 0,722∗ 69,532∗

e 40 0,689∗ 1,473∗ 0,463∗ 3,561∗

210 2,873∗ 5,025∗ 0,736∗ 28,342∗

f 75 0,523∗ 1,137∗ 0,401∗ 2,836∗

210 3,963∗ 9,745∗ 0,983∗ 625,790∗

g 40 0,770∗ 1,647∗ 0,473∗ 5,901∗

75 0,522∗ 1,111∗ 0,405∗ 2,733∗

210 3,090∗ 6,463∗ 0,833∗ 83,764∗

h 280 0,760∗ 1,279∗ 0,420∗ 2,343∗

i 40 1,068∗ 2,384∗ 0,576∗ 9,093∗

280 0,649∗ 1,414∗ 0,446∗ 3,748∗

Tabela 8 - Medidas de divergencia para o modelo Clayton bivariado

Nome Identificacao Medidas de divergenciados dados dos casos dK-L dJ dL1 dχ2

a 25 0,019 0,050 0,089 0,05350 0,003 0,009 0,037 0,009100 0,002 0,006 0,030 0,006270 0,021 0,035 0,076 0,036

b 25 8,799∗ 14,421∗ 0,937∗ 735,358∗

c 50 11,206∗ 20,673∗ 1,236∗ 1067,438∗

d 100 14,535∗ 14,661∗ 0,515∗ 2,449∗

e 25 5,396∗ 7,335∗ 0,713∗ 34,800∗

50 11,079∗ 23,351∗ 1,270∗ 4618,061∗

f 25 5,669∗ 9,344∗ 0,830∗ 187,049∗

100 7,622∗ 9,801∗ 0,717∗ 76,340∗

g 25 4,716∗ 12,024∗ 1,109∗ 836,578∗

50 4,530∗ 7,270∗ 0,783∗ 64,310∗

100 5,140∗ 8,024∗ 0,795∗ 74,378∗

h 270 3,399∗ 7,546∗ 0,931∗ 113,676∗

i 100 8,523∗ 12,195∗ 0,848∗ 136,893∗

270 1,188∗ 2,590∗ 0,591∗ 11,278∗

Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 401

Page 13: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

As Figuras 1 e 2 mostram os graficos de ındices das quatro medidas dedivergencia para o conjunto de dados (b) do modelo Frank bivariado e para oconjunto de dados (d) do modelo Clayton bivariado, respectivamente. Claramente,podemos ver que as quatro medidas de divergencia detectam os pontos influentes.

Figura 1 - Graficos de ındices das me-didas de divergencia para ocaso (b) do modelo Frankbivariado.

Figura 2 - Graficos de ındices das me-didas de divergencia para ocaso (d) do modelo Claytonbivariado.

7 Aplicacao a Dados Reais

Como aplicacao a dados reais, utilizamos os dados apresentados emMcGilchrist & Aisbett (1991) que se referem a 38 pacientes com insuficencia renal.Os tempos (em dias) bivariados medidos e a respeito da recorrencia de infeccao nolocal onde foi inserido o cateter nos pacientes que utilizaram um aparelho portatil dedialise, sendo dado para cada paciente dois tempos de recorrencia. Vamos considerarcomo covariavel o sexo do paciente (0 masculino, 1 feminino).

Ajustamos os modelos Frank bivariado e Clayton bivariado considerando duascadeias de tamanho 50.000 para cada parametro, desconsiderando as primeiras10.000 iteracoes para eliminar o efeito dos valores iniciais e, para evitar problemasde autocorrelacao, foi considerado um espacamento de tamanho 20, obtendo umaamostra efetiva de tamanho 4.000 sobre a qual a inferencia a posteriori e baseada.A convergencia das cadeias foi monitorada de acordo com os metodos recomendadospor (Cowless & Carlin, 1996).

As seguintes distribuicoes a priori independentes foram consideradas pararealizar o amostrador de Gibbs: βji ∼ N(0; 1000), αj ∼ Gama(1; 0, 001), i = 0, 1,j = 1, 2. Assumimos ϕ ∼ Gama(1; 0,001) e ϕ ∼ Beta(1; 1) para o parametro da

402 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014

Page 14: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

copula de Clayton e Frank, respectivamente.Na Tabela 9 apresentamos os resumos a posteriori para os parametros do

modelo Frank bivariado e Clayton bivariado, ambos com marginais Weibull.

Tabela 9 - Media a posteriori, desvio padrao (DP) e intervalo HPD (95%) para osparametros do modelo Frank bivariado e Clayton bivariado

Parametro Clayton FrankMedia DP HPD (95%) Media DP HPD (95%)

α1 0,972 0,123 (0,735, 1,211) 0,969 0,969 (0,718, 1,210)Tempo 1 β01 -3,314 0,579 (-4,473, -2,213) -3,477 0,614 (-4,674, -2,271)

β11 -1,882 0,414 (-2,695, -1,061) -1,600 0,429 (-2,424, -0,763)α2 0,816 0,105 (0,613, 1,025) 0,807 0,107 (0,603, 1,019)

Tempo 2 β02 -3,459 0,616 (-4,707, -2,311) -3,500 0,649 (-4,798, -2,278)β12 -0,531 0,365 (-1,262, 0,169) -0,377 0,398 (-1,136, 0,403)

Copula ϕ 0,493 0,289 (0,020, 1,038) 0,572 0,246 (0,172, 0,999)

As Figuras 3 e 4 mostram, respectivamente, as curvas de Kaplan-Meier paraas variaveis T1 e T2 dicotomizadas pelo sexo do paciente juntamente com os ajustesda sobrevivencia Weibull marginal assumindo o modelo Frank bivariado e Claytonbivariado.

0 100 200 300 400 500

0.0

0.2

0.4

0.6

0.8

1.0

Tempo 1

Sobre

viv

ência

Clayton

Frank

Figura 3 - Curvas de Kaplan-Meiere curvas de sobrevivenciasWeibull estimadas para avariavel T1.

0 100 200 300 400 500

0.0

0.2

0.4

0.6

0.8

1.0

Tempo 2

Sobre

viv

ência

Clayton

Frank

Figura 4 - Curvas de Kaplan-Meiere curvas de sobrevivenciasWeibull estimadas para avariavel T2.

A Tabela 10 apresenta os criterios de comparacao de modelos para compararo modelo de sobrevivencia bivariado baseado na copula de Clayton e de Frank commarginais Weibull. Como resultado, consideramos que o modelo de Clayton comoa melhor escolha para ajustar o conjunto de dados levando em consideracao que amaioria dos criterios utilizados dao evidencias positivas a favor deste modelo.

Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 403

Page 15: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

Tabela 10 - Criterios bayesianos

Modelo Criterios BayesianosEAIC EBIC DIC LPML

Clayton 737,705 749,168 1955,380 -9,634Frank 742,030 753,493 1784,190 -9,704

Os graficos de ındices apresentamos nas Figuras 5 e 6 considerando o modelode Frank bivariado e Clayton bivariado, respectivamente. Em comparacao compontos de cortes apresentados na Secao 4, podemos observar que todas as medidasdetectam a observacao 21 como possıvel ponto influente.

0 10 20 30

01

23

4

Índice

Div

erg

ênci

a K

−L

21

0 10 20 30

02

46

8

Índice

Dis

tânci

a J 21

0 10 20 30

0.0

0.4

0.8

Índice

Dis

tânci

aL

1

21

0 10 20 30

040

80

Índice

Div

erg

ênci

a χ

2

21

Figura 5 - Graficos de ındices dasmedidas de divergenciaconsiderando o modeloFrank bivariado.

0 10 20 30

0.0

1.0

2.0

3.0

Índice

Div

erg

ênci

a K

−L

21

0 10 20 30

02

46

8

Índice

Dis

tânci

a J 21

0 10 20 30

0.0

0.4

0.8

1.2

Índice

Dis

tânci

aL

1

21

0 10 20 30

0100

200

Índice

Div

erg

ênci

a χ

2

21

Figura 6 - Graficos de ındices dasmedidas de divergenciaconsiderando o modeloClayton bivariado.

Consideracoes Finais

Neste trabalho apresentamos a modelagem de dados de sobrevivencia pormeio de copulas arquimedianas, em particular para as copulas de Clayton eFrank. Todo o procedimento inferencial foi realizado sob uma abordagem bayesianaassumindo ausencia de informacao a priori. Como aplicacao dos modelos estudadosrealizamos um amplo estudo de simulacao no qual verificamos que com diferentestamanhos amostrais e diferentes configuracoes de censura as estimativas obtidasforam proximas do verdadeiro valor.

Alem disso, realizamos comparacao de modelos por meio dos criteriosbayesianos EAIC, EBIC, DIC e LPML. Simulamos amostras a partir dos doismodelos (Frank bivariado e Clayton bivariado) e observamos que todos os criteriosindicaram o modelo no qual as amostras foram geradas.

404 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014

Page 16: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

Avaliamos a robustez do modelo relacionado as escolhas dos hiperparametrosdas distribuicoes a priori, realizando um estudo de sensibilidade no qual constatamosque as estimativas dos parametros a posteriori nao apresentaram diferencassignificativas nos resultados das aplicacoes aos dados artificiais e aos dados reais.

Tambem, estudamos o metodo bayesiano de analise de influencia de delecaode casos baseado na divergencia ψ cujo o o objetivo e detectar possıvel(is)observacao(oes) influente(s) nos dados analisados. Assumimos quatro particularesescolhas para a funcao ψ nas quais resultaram a divergencia de Kullback-Leibler(K-L), a distancia J (ou a versao simetrica da divergencia de K-L), a distanciavariacional ou norma L1 e a divergencia χ2. Para uma amostra simulada decada modelo, perturbamos uma, duas e tres observacoes. Observamos que asquatro medidas de divergencia detectaram os pontos perturbados e para o casosem perturbacao (amostra original simulada), nenhuma observacao foi detectada.Por fim, realizamos uma aplicacao a dados reais de pacientes com infeccao renal.

Uma abordagem frequentista pode ser realizada por meio de uma estimacaoem dois estagios (ver, por exemplo, Joe (1997) e Genest et al. (1995)), em que noprimeiro sao estimados os parametros das distribuicoes marginais nao levando emconsideracao a dependencia. Ja no segundo estagio, obter o estimador do parametrode dependencia maximizando uma pseudo verossimilhanca em que os estimadoresobtidos no primeiro estagio para as marginais sao fixos.

Como trabalho futuro este estudo pode ser ampliado com outras escolhaspara as distribuicoes marginais tais como distribuicao Weibull Exponenciada, adistribuicao Exponencial generalizada e a distribuicao Weibull inversa generalizada,entre outras. Tambem, para as distribuicoes marginais trabalhar com os modelosde longa duracao (Maller & Zhou, 1996; Rodrigues et al., 2009) tambem conhecidoscomo modelos com fracao de cura (ver Clayton, 1978).

Alem disso, modelos baseados em outras funcoes copulas tambem podem serexplorados, tais como as copulas arquimedianas: Ali-Mikhail-Haq, Gumbel e Joe(Nelsen, 2006).

OLIVEIRA, M. A.; SUZUKI, A. K. A Bayesian Approach to Bivariate SurvivalModels Based on Archimedean Copulas. Rev. Bras. Biom., Sao Paulo, v.32, n.3,p.390-411, 2014.

ABSTRACT: In this work we consider models based on Clayton and Frank Archimedian

copulas to model the dependence of bivariate survival data in the presence of covariates

and censored data. For inferential purposes, a Bayesian approach via Markov Chain

Monte Carlo (MCMC) were considered. Further, some discussions on the model

selection criteria are given. In order to examine outlying and influential observations,

we present a Bayesian case deletion influence diagnostics based on the divergence ψ.

The applicability of the proposed models are illustrated on artificial and real data. All

computer implementations were performed using WinBUGS and R systems through the

BRugs package.

KEYWORDS: Survival analysis; Archimedean copulas; psi-divergence; Bayesian

inference.

Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 405

Page 17: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

BOLETA, J.; ACHCAR, J. A. Distribuicao Exponencial generalizada bivariadaderivada de funcoes copulas: Uma aplicacao a dados de cancer gastrico. RevistaBrasileira de Biometria, v.30, n.4, p.401-414, 2012.

Thomas, A.; O’Hara, B.; Ligges, U.; Sturtz, S. Making BUGS open. R News, v.6,n.1, p.12-17, 2006.

CANCHO, V.; ORTEGA, E.; PAULA, G. On estimation and influence diagnosticsfor log-Birnbaum-Saunders Student-t regression models: Full Bayesian analysis.Journal of Statistical Planning and Inference, v.140, p.2486-2496, 2010.

CHERUBINI, U.; LUCIANO, E.; VECCHIATO, W. Copula methods in finance.Hoboken. 1.ed. New York: John Wiley and Sons, 2004. 310p.

CLAYTON, D. G. A model for association in bivariate life-tables and its applicationin epidemiological studies of familial tendency in chronic disease incidence.Biometrika, v.65, p.141-151, 1978.

COOK, R. D.; WEISBERG, S. Residuals and influence in regression. Boca Raton:Chapman and Hall, 1982. 230p.

COWLESS, M. K.; CARLIN, B. P. Markov chain Monte Carlo convergencediagnostics: a comparative review. Journal of the American Statistical Association,v.91, p.883-904, 1996.

DEY, D.; BIRMIWAL, L. Robust Bayesian analysis using divergence measures.Statistics and Probability Letters, v.20, p.287-294, 1994.

EMBRECHTS, P.; LINSKOG, F.; MCNIEL, A. Modelling dependence with copulasand applications to risks management. Handbook of Heavy Tailed Distributions inFinance, ed. S. Rachev, Elsevier, Chapter 8, p. 329-384, 2003.

FRANK, M. J. On the simultaneous associativity of F(x, y) and x + y - F(x, y).Aequations Mathematicae, v.19, p.194-226, 1979.

GELMAN, A.; RUBIN, D. B. Inference from iterative simulation using multiplesequences. Statistical Science, v.7, p.457-511, 1992.

GENEST, C.; GHOUDI, K.; RIVEST, L. P. A semiparametric estimation procedureof dependence parameters in multivariate families of distributions. Biometrika, v.82,n.3, p.543-552, 1995.

GUSTAFSON, P.; AESCHLIMAN, D.; LEVY, A. R. A simple approach to fittingbayesian survival models. Lifetime Data Analysis, v.9, p.5-19, 2003.

HOUGAARD, P. Fitting a multivariate failure time distribution. IEEETransactions on Reliability, v.38, p.444-448, 1989.

JAWORSKI, P. Copula theory and its applications. In: Jaworski, P.; Durante,F.; Hardle; T. Rychlik, W. (Eds.). Proceedings of the Workshop Held in Warsaw.Heidelberg: Springer, 2010. v.198, p.237-261 (Lecture Notes in Statistics).

JOE, H. Multivariate models and dependence concepts. London: Chapman andHall, 1997. 424p.

406 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014

Page 18: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

KOLEV, N.; DOS ANJOS, U.; MENDES, B. V. M. Copulas: A review and recentdevelopments. Stochastic Models, v.22, n.4, p.617-660, 2006.

LAWLESS, J. F. Statistical models and methods for lifetime data. New York: Wileyand Sons, 2003. 664p.

LOUZADA, F.; SUZUKI, A. K.; CANCHO, V. G.; PRINCE F. L.; PEREIRA,G. A. The long-term bivariate survival FGM copula model: an application to abrazilian HIV data. Journal of Data Science, v.10, p.511-535, 2012.

LOUZADA, F.; SUZUKI, A. K.; CANCHO, V. G. The FGM long-termbivariate survival copula model: model, bayesian estimation, and case influencediagnostics.Communications in Statistics - Theory and Methods, v.42, n.4, p.673-691, 2013.

LUNN, D. G.; THOMAS, A.; BEST, N.; SPIEGELHALTER, D. WinBUGS – aBayesian modelling framework: concepts, structure, and extensibility. Statisticsand Computing, v.10, p.325-337, 2000.

MALLER, R. A.; ZHOU, X. Survival analysis with long-term survivors. New York:Wiley and Sons, 1996. 308p.

MCGILCHRIST C. A.; AISBETT C. W. Regression with frailty is survival analysis.Biometrics, v.47, p.461-466, 1991.

MEESTER, S.; MACKAY, J. A parametric model for cluster correlated categoricaldata. Biometrics, v.50, p.954-963, 1994.

NELSEN, R. An introduction to copulas. 2.ed. New York: Springer, 2006. 272p.

OAKES, D. Bivariate survival models induced by frailties. Journal of the AmericanStatistical Association, v.84, p.487-493, 1989.

PATTON, A. J. A review of copula models for economic time series. Journal ofMultivariate Analysis, v.110, p.4-18, 2012.

PENG, F.; DEY, D. Bayesian analysis of outlier problems using divergencemeasures. The Canadian Journal of Statistics - La Revue Canadienne deStatistique, v.23, p.199-213, 1995.

PLUMMER, M.; BEST, N.; COWLES, K.; VINES, K. Output analysis anddiagnostics for MCMC. R News, v.6, n.1, p.7-11, 2006.

R DEVELOPMENT CORE TEAM. R: A language and environment for statisticalcomputing. R Foundation for Statistical Computing: Vienna, Austria, v.2, n.1,2012.

RODRIGUES, J.; DE CASTRO, M.; CANCHO, V. G.; LOUZADA NETO, F. Onthe unification of long-survival models. Statistics and Probabilities Letters, v.79,p.753-759, 2009.

ROMEO, J. S.; TANAKA, N. I.; PEDROSO DE LIMA, A. C. Bivariate survivalmodeling: a bayesian approach based on copulas. Lifetime Data Analysis, v.12,p.205-222, 2006.

Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 407

Page 19: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

SALVADORI, G.; DE MICHELE, C.; KOTTEGODA, N. T.; ROSSO, R. Extremesin Nature: An Approach Using Copulas. Dordrecht (NL): Springer, 2007. v.56,292p. (Series: Water Science and Technology Library).

SHIH, J. H.; LOUIS, T. A. Inferences on the association parameter in copula modelsfor bivariate survival data. Biometrics, v.51, p.1384-1399, 1995.

SUZUKI, A. K.; LOUZADA-NETO, F.; CANCHO, V. G.; BARRIGA, G. D. C.The FGM bivariate lifetime copula model: a bayesian approach. Advances andApplications in Statistics, v.21, n.1, p.55-76, 2011.

TRIVEDI, P. K.; ZIMMER, D. M. Copula modelling: an introduction forpractitioners. Foundations and Trends in Econometrics, v.1, p.1-111, 2005.

VIDAL, I.; CASTRO, L. M. Influential observations in the independent Student-t measurement error model with weak nondifferential error. Chilean Journal ofStatistics, v.1, p.17-34, 2010.

WEISS, R. An approach to Bayesian sensitivity analysis. Journal of the RoyalStatistical Society Series B, p.739-750, 1996.

ZHANG, S.; ZHANG, Y.; CHALONER, K.; STAPLETON, J. T. A copula modelfor bivariate hybrid censored survival data with application to the MACS study.Lifetime Data Analysis, v.16, p.231-249, 2010.

Recebido em 23.04.2014.

Aprovado apos revisao em 28.08.2014.

408 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014

Page 20: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

Apendice

Neste apendice vamos apresentar as derivadas da funcao de sobrevivenciaconjunta para os tempos de falhas pareados, utilizando as copulas de Clayton eFrank, que sao utilizadas na composicao da funcao de log-verosimilhanca utilizadaspara se fazer as inferencias por meio da metodologia bayesiana. Tambem, os codigosWinBUGS utilizados neste trabalho.

Apendice A

Assumindo um modelo de sobrevivencia bivariado baseado na copulade Clayton (ver Clayton, 1978) temos que S(t1;t2) = Cϕ(S1(t1);S2(t2)) =

(S1(t1)−ϕ + S2(t2)

−ϕ − 1)−1ϕ , ϕ ∈ R+.

Considere a funcao ν(t1;t2) = S1(t1)−ϕ + S2(t2)

−ϕ − 1. Pelo

fato de que −dSj(tj)dtj

= fj(tj), j = 1, 2, obtemos ∂S(t1;t2)∂t1

=

−ν(t1;t2)−1ϕ−1S1(t1)

−ϕ−1f1(t1);∂S(t1;t2)∂t2

= −ν(t1;t2)−1ϕ−1S2(t2)

−ϕ−1f2(t2) e∂2S(t1;t2)∂t1∂t2

= ν(t1;t2)− 1

ϕ−2(∏2j=1 Sj(tj)

−ϕ−1fj(tj))(1 + ϕ).

Apendice B

Assumindo um modelo de sobrevivencia bivariado baseado na copulade Frank (ver Frank (1979)) temos que S(t1;t2) = Cϕ(S1(t1);S2(t2)) =

logϕ

(1 + (ϕS1(t1)−1)(ϕS2(t2 )−1)

ϕ−1

).

Considere as funcoes: Vj(tj) = ϕSt(tj), j = 1, 2 e ν(t1;t2) = 1 +(ν1(t1)−1)(ν2(t2)−1)

ϕ−1 . Pelo fato de que −dSj(tj)dtj

= fj(tj), j = 1, 2, obtemos

∂S(t1;t2)∂t1

= − v1(t1)f1(t1)(v2(t2)−1)(ϕ−1)v(t1;t2)

; ∂S(t1;t2)∂t2

= −v2(t2)f2(t2)(v1(t1)−1)(ϕ−1)v(t1,t2)

e ∂2S(t1;t2)∂t1∂t2

=∏2j=1 vj(tj)fj(tj) lnϕ

v(t1;t2)[(ϕ+1)∏2

j=1(vj(tj)−1)].

Apendice C

Codigos WinBUGS para o modelo Clayton com marginais Weibull.

model{

for (i in 1:N){theta1[i]← exp(beta01 + beta11 ∗ x1[i])theta2[i]← exp(beta02 + beta12 ∗ x2[i])

Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 409

Page 21: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

# Funcao de sobrevivencia marginals1[i]← exp(−theta1[i] ∗ pow(t1[i], r1))s2[i]← exp(−theta2[i] ∗ pow(t2[i], r2))

# Funcao de densidade marginalf1[i]← exp(−theta1[i] ∗ pow(t1[i], r1)) ∗ theta1[i] ∗ r1 ∗ pow(t1[i], r1− 1)f2[i]← exp(−theta2[i] ∗ pow(t2[i], r2)) ∗ theta2[i] ∗ r2 ∗ pow(t2[i], r2− 1)

s[i]← pow(s1[i],−alpha) + pow(s2[i],−alpha)− 1

# Funcao de verossimilhancaL[i]← pow(1 + alpha, d1[i] ∗ d2[i]) ∗ pow(s[i],−1/alpha− d1[i]− d2[i]) ∗ pow(s1[i],−(alpha+ 1)∗d1[i]) ∗ pow(s2[i],−(alpha+ 1) ∗ d2[i]) ∗ pow(f1[i], d1[i]) ∗ pow(f2[i], d2[i])

zeros[i]← 0phi[i]← log(L[i])zeros[i] ∼ dloglik(phi[i])}

# Priorisalpha ∼ dgamma(1, 0.001)r1 ∼ dgamma(1, 0.001)r2 ∼ dgamma(1, 0.001)beta01 ∼ dnorm(0, 0.001)beta11 ∼ dnorm(0, 0.001)beta02 ∼ dnorm(0, 0.001)beta12 ∼ dnorm(0, 0.001)}

Codigos WinBUGS para o modelo Frank com marginais Weibull.

model{

for (i in 1:N){theta1[i]← exp(beta01 + beta11 ∗ x1[i])theta2[i]← exp(beta02 + beta12 ∗ x2[i])

# Funcao de sobrevivencia marginals1[i]← exp(−theta1[i] ∗ pow(t1[i], r1))s2[i]← exp(−theta2[i] ∗ pow(t2[i], r2))

# Funcao de densidade marginal

410 Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014

Page 22: UMA ABORDAGEM BAYESIANA PARA MODELOS DE …jaguar.fcav.unesp.br/RME/fasciculos/v32/v32_n3/A6_MarcoAntonio_… · Neste trabalho, seguindo Romeo et al. (2006) e Suzuki et al. (2011),

f1[i]← exp(−theta1[i] ∗ pow(t1[i], r1)) ∗ theta1[i] ∗ r1 ∗ pow(t1[i], r1− 1)f2[i]← exp(−theta2[i] ∗ pow(t2[i], r2)) ∗ theta2[i] ∗ r2 ∗ pow(t2[i], r2− 1)

v1[i]← pow(alpha, s1[i])v2[i]← pow(alpha, s2[i])s[i]← 1 + (v1[i]− 1) ∗ (v2[i]− 1)/(alpha− 1)

# Funcao de verossimilhancaL[i]← pow(v1[i] ∗ f1[i], d1[i]) ∗ pow(v2[i] ∗ f2[i], d2[i]) ∗ pow(log(alpha), d1[i] + d2[i]− 1)∗pow(alpha− 1,−d1[i]− d2[i] + 2 ∗ d1[i] ∗ d2[i]) ∗ pow(s[i], d1[i] ∗ d2[i]− d1[i]− d2[i])∗pow(log(s[i]), (1− d1[i]) ∗ (1− d2[i])) ∗ pow(alpha− 1 + (v1[i]− 1) ∗ (v2[i]− 1),−d1[i] ∗ d2[i])∗pow(v2[i]− 1, d1[i] ∗ (1− d2[i])) ∗ pow(v1[i]− 1, d2[i] ∗ (1− d1[i]))

zeros[i]← 0phi[i]← log(L[i])zeros[i] ∼ dloglik(phi[i])}

# Priorisalpha ∼ dbeta(1, 1)r1 ∼ dgamma(1, 0.001)r2 ∼ dgamma(1, 0.001)beta01 ∼ dnorm(0, 0.001)beta11 ∼ dnorm(0, 0.001)beta02 ∼ dnorm(0, 0.001)beta12 ∼ dnorm(0, 0.001)}

Rev. Bras. Biom., Sao Paulo, v.32, n.3, p.390-411, 2014 411