Download - Uso de métodos bayesianos na análise de dados de sobrevida ... · Análise de sobrevivência. 2. Ponto de corte. 3. Inferência bayesiana. 4. Distribuição bivariada. Folha de

UNIVERSIDADE DE SÃO PAULO

FACULDADE DE MEDICINA DE RIBEIRÃO PRETO

DEPARTAMENTO DE MEDICINA SOCIAL

Uso de métodos bayesianos na análise de dados de sobrevida

na presença de censuras, fração de cura, covariáveis e dados

bivariados.

TATIANA REIS ICUMA

Ribeirão Preto - SP 2019

TATIANA REIS ICUMA



bivariados.

Tese apresentada ao Departamento de

Medicina Social da Faculdade de Medicina de

Ribeirão Preto da Universidade de São Paulo,

para obtenção do título de Doutora em

Ciências.

Área de concentração: Saúde na comunidade

Orientador: Profº. Drº. Jorge Alberto Achcar

Ribeirão Preto - SP

2019

AUTORIZO A REPRODUÇÃO E DIVULGAÇÃO TOTAL OU PARCIAL DESTE TRABALHO, POR

QUALQUER MEIO CONVENCIONAL OU ELETRÔNICO, PARA FINS DE ESTUDO E PESQUISA,

DESDE QUE CITADA A FONTE.

Ficha Catalográfica

Icuma, Tatiana Reis



bivariados. Ribeirão Preto, 2019. 60p. : il ; 30cm Tese de doutorado, apresentada à Faculdade de Medicina de

Ribeirão Preto/USP. Área de concentração: Saúde na Comunidade.

Orientador: Achcar, Jorge Alberto.

1. Análise de sobrevivência. 2. Ponto de corte. 3. Inferência bayesiana. 4. Distribuição bivariada.

Folha de Aprovação

Nome: Tatiana Reis Icuma

Título: Uso de métodos bayesianos na análise de dados de sobrevida na presença de censuras,

fração de cura, covariáveis e dados bivariados.

Tese apresentada ao Programa de Pós-graduação em

Saúde na Comunidade da Faculdade de Medicina de

Ribeirão Preto da Universidade de São Paulo, para

obtenção do título de Doutora.

Área de concentração: Saúde na comunidade.

Aprovado em: ____/____/____

Banca Examinadora

Prof.(a) Dr.(a) ________________________________________ Instituição: ______

Julgamento: ____________________________________ Assinatura: ___________







AGRADECIMENTOS

À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) pela bolsa de

estudos no primeiro semestre do curso de Doutorado.

RESUMO

ICUMA, Tatiana Reis. Uso de métodos bayesianos na análise de dados de sobrevida na

presença de censuras, fração de cura, covariáveis e dados bivariados. 2019. 60 páginas.

Dissertação (Mestrado) – Faculdade de Medicina de Ribeirão Preto – USP, Ribeirão Preto – SP

– Brasil, 2019.

A incidência e mortalidade por câncer estão crescendo rapidamente em todo o mundo. Em 2018 foi observado 18,1 milhões de novos casos de câncer e 9,6 milhões de mortes em decorrência da doença. As razões são complexas, mas refletem o envelhecimento e o crescimento da população, bem como alterações na prevalência e distribuição dos principais fatores de risco. A constante pesquisa de dados oncológicos tem gerado importantes informações e evidencias para a construção de conhecimentos a repeito da doença. Sendo assim, é cada vez mais importante e necessário o uso, a busca e o aprimoramento de ferramentas estatisicas adequadas capazes de produzir inferências consistentes e confiáveis, sendo úteis para a identificação e compreensão de fatores de risco, fatores de prognóstico. Nesse trabalho são aprentados métodos estatísticos de análise de sobrevivência aplicados a dados oncológicos. O primeiro, consiste na categorização de covariáveis contínuas, determinando possíveis de pontos de corte em análise de sobrevicência na resença ou não de censuras sob um enfoque bayesiano. O segundo, traz uma abordagem bayesiana do modelo bivariado geometrico de Basu-Dhar na presença de censuras e fração de cura. Por fim, o terceiro, são cópulas Farlie-Gumbel-Morgenstern (FGM) na presença de censuras sob um enfoque Bayesiano. Essas metodologias são aplicadas a dados oncológicos reais de estudos de mieloma múltiplo, câncer de próstata, de mama, de cólon e retinoplastia diabética.

PALAVRAS-CHAVE: Análise de sobrevivência. Ponto de corte. Inferência bayesiana.

Distribuição bivariada.

ABSTRACT

ICUMA, Tatiana Reis. Use of Bayesian methods in survival data analysis in presence of

censoring, fraction cure, covariates and bivariate data. 2019. 60 páginas. Dissertação

(Mestrado) – Faculdade de Medicina de Ribeirão Preto – USP, Ribeirão Preto – SP – Brasil,

2019.

Cancer incidence and mortality are growing rapidly worldwide. In the year of 2018 it was

observed 18.1 million new cancer cases and 9.6 million deaths from the disease. The reasons

for these high numbers are complex, but they reflect aging and population growth, as well as

changes in the prevalence and distribution of major risk factors. The constant research of

cancer data has generated important information and evidence for the construction of

knowledge regarding to the disease. Thus, it is increasingly important and necessary new

research studies on this disease and to improve appropriate statistical tools capable of

producing consistent and reliable inferences, being useful for the identification and

understanding of risk factors or prognostic factors. In this work, we present different survival

analysis statistical methods applied to oncological data. The first one consists in the

categorization of continuous covariates, determining possible cutoffs in covariates for survival

analysis regression models in presence or absence of censorship under a Bayesian approach.

The second one introduces a Bayesian approach for the Basu-Dhar geometric bivariate model

for survival discrete models in presence of censorship and cured fraction. Finally, the third one

is related to the Farlie-Gumbel-Morgenstern (FGM) copula model for bivariate survival data in

presence of censorship under a Bayesian approach. These methodologies are applied to actual

cancer data from multiple myeloma, prostate, breast, colon, and diabetic retinoplasty studies.

KEYWORDS: Survival analysis. Cutoff. Bayesian Inference. Bivariate distribution.

SUMÁRIO

CAPÍTULO 1. INTRODUÇÃO……………………………………………………………………………………………. 10

1.1. MOTIVAÇÃO……………………………………………………………………………………………………………. 10

1.2. ALGUNS CONCEITOS TEÓRICOS………………………………………………………………………………. 13

1.2.1. CONCEITOS BÁSICOS EM ANÁLISE DE SOBREVIVÊNCIA……………………………………… 13

1.2.2. USO DE MÉTODOS BAYESIANOS EM ANÁLISE DE SOBREVIVÊNCIA: ALGUNS CONCEITOS BÁSICOS………………………………………………………………………………………….

14

1.2.3. MODELOS DE REGRESSÃO PARAMÉTRICA EM ANÁLISE DE SOBREVIVÊNCIA…………..……………………………………………………………………………………

19

1.2.4. CATEGORIZAÇÃO DE COVARIÁVEIS CONTÍNUAS…………………………………………………….…………………………………………………

20

1.2.5. ANÁLISES BIVARIADAS (DEPENDÊNCIA) …………………………………………………………… 22

CAPÍTULO 2. OBJETIVOS…………………………………………………………………………………………………. 26

CAPÍTULO 3. ESTUDO 1 – DETERMINAÇÃO DE PONTO DE CORTE ÓTIMO EM ANÁLISE DE SOBREVIVÊNCIA………………………………………………………………………………………………………………

27

CAPÍTULO 4. ESTUDO 2 – MODELOS BIVARIADOS DE ANÁLISE DE SOBREVIVÊNCIA ASSUMINDO DISTRIBUIÇÕES DISCRETAS…………………………………………………………………………

29

CAPÍTULO 5. ESTUDO 3 – "DADOS DE SOBREVIDA BIVARIADOS E O USO DE CÓPULA FGM SOB O ENFOQUE BAYESIANO – UMA APLICAÇÃO EM DADOS DE PACIENTES COM CÂNCER COLORRETAL".…………………………………………………………………………………………………..

32

CAPÍTULO 6. CONCLUSÕES……………………………………………………………………………………………. 52

APÊNDICE A……………………………………………………………………………………………………………………. 54

APÊNDICE B……………………………………………………………………………………………………………………. 56

ORGANIZAÇÃO DA TESE

O presente volume se encontra no formato de uma coletânea de artigos e está distribuído

em 6 capítulos conforme descrito abaixo:

O capítulo 1 trata-se da introdução da tese, contendo a motivação, considerada de

interesse para a saúde pública, conceitos teóricos que não são descritos em detalhes nos

artigos apresentados, mas são importantes para munir o leitor com ferramentas que facilitem

a leitura do texto.

O capítulo 2 contém o objetivo geral do estudo, com motivação de interesse para a saúde

pública e os objetivos específicos aborados em cada artigo apresentado.

Os caítulos 3 e 4 correspondem ao desenvolvimento da tese nos quais são apresentados os

artigos científicos publicados em revistas especializadas.

O capítulo 5 apresenta um artigo cientifico que está pronto para a submissão em revista

especializada. Ele foi elaborado a partir de um estudo com pacientes com câncer de cólon

atendidos no Hospital das Clínicas de Ribeirão Preto.

Por fim, o capítulo 6 traz algumas considerações finais e conclusões.

10

CAPÍTULO 1. INTRODUÇÃO

1.1. MOTIVAÇÃO

Segundo dados publicados pelo Centro Internacional para Pesquisa do Câncer ,

GLOBOCAN/IARC (FERLAY et al., 2018) em 2018 houve 18,1 milhões de novos casos de câncer e

9,6 milhões de mortes em decorrência da doença. As doenças e agravos não transmissíveis

(DANT) são agora responsáveis pelo adoecimento e pela maioria das mortes globais, e espera-se

que o câncer se classifique como a principal causa de morte e uma barreira importante para o

aumento da expectativa de vida em todos os países do mundo no século 21. Segundo estimativas

da Organização Mundial da Saúde (OMS) em 2015, o câncer é a primeira ou a segunda principal

causa de morte antes dos 70 anos em 91 dos 172 países, e ocupa o terceiro ou quarto lugar em

mais 22 países (Figura 1).

Figura 1. Mapa mundial que apresenta o ranking nacional de câncer como causa de morte em idades inferiores a 70 anos em 2015. Fonte: Organização Mundial da Saúde.

A incidência e mortalidade por câncer estão crescendo rapidamente em todo o mundo. As

razões são complexas, mas refletem o envelhecimento e o crescimento da população, bem como

alterações na prevalência e distribuição dos principais fatores de risco para o câncer, vários dos

quais estão associados ao desenvolvimento socioeconômico.

11

Com o rápido crescimento populacional e o envelhecimento em todo o mundo, a

crescente proeminência do câncer como uma das principais causas de morte reflete em parte os

declínios acentuados nas taxas de mortalidade por acidente vascular cerebral e doença cardíaca

coronária, em relação ao câncer, em muitos países. As transições demográficas e epidemiológicas

globais sinalizam um impacto cada vez maior da carga de câncer nas próximas décadas (FERLAY et

al., 2013).

O cenário no Brasil, segundo dados do Instituto Nacional de Câncer José Alencar Gomes

da Silva (INCA) para o biênio 2018-2019, estima-se que cerca de 600 mil novos casos de câncer

surgem por ano no País, e as projeções indicam que o problema deve se agravar cada vez mais

nas próximas décadas, principalmente, com o envelhecimento populacional e com as mudanças

para estilos de vida que favorecem fatores de risco para o surgimento da doença. Os cânceres de

próstata, pulmão, mama feminina e cólon e reto estão entre os mais incidentes, entretanto ainda

com altas taxas para os cânceres do colo do útero, estômago e esôfago. À exceção do câncer de

pele não melanoma, os tipos de câncer mais incidentes em homens serão próstata (31,7%),

pulmão (8,7%), intestino (8,1%), estômago (6,3%) e cavidade oral (5,2%). Nas mulheres, os

cânceres de mama (29,5%), intestino (9,4%), colo do útero (8,1%), pulmão (6,2%) e tireoide (4,0%)

figurarão entre os principais.

As transições demográficas e epidemiológicas pelas quais o País vem passando já

sinalizam a carga cada vez maior do câncer no Brasil, no qual vem crescendo a proporção de

óbitos por neoplasias, dentre outras doenças crônicas não transmissíveis (Figura 2).

Figura 2. Perfil de óbitos por CID-10 no Brasil: comparação entre 1998 e 2016. Fonte: Interfarma, 2019.

12

Estima-se que a doença já seja responsável por mais de 200 mil mortes anuais no País

(Interfarma, 2019). No entanto, apesar dos esforços e investimentos dos últimos anos, o Brasil

ainda possui deficiências importantes no diagnóstico e tratamento de câncer, que afetam tanto a

chance de cura quanto a qualidade de vida dos pacientes. Quanto maior o atraso para o início do

tratamento do câncer, mais avançada é a doença e maiores são os impactos sociais e financeiros

associados a ela. A falta de tratamentos e as inequidades no acesso à rede assistencial também

agravam o problema. Desta forma, a jornada do paciente com câncer também é altamente

afetada pelo sistema de saúde em que está inserido, devido a diferenças entre instituições,

regiões e tipos de cobertura e acesso aos tratamentos e serviços de saúde oferecidos no Sistema

Único de Saúde (SUS) e na saúde suplementar (planos de saúde).

Há evidências crescentes quanto à influência de inovações em tratamentos oncológicos

na chance de sobrevivência de pacientes após diagnóstico e tratamento de câncer, assim como

em termos de redução do risco de incidência e melhoria na qualidade de vida durante o

tratamento (WCRF/AICR, 2014).

Na busca por respostas a alguns questionamentos, como: por que alguns pacientes têm

recidiva tumoral e outros não? Quais são os fatores que predipõe à recidiva? O que faz um tumor

ser menos agressivo? A constante pesquisa de dados oncológicos tem gerado importantes

informações para a construção de conhecimentos a repeito da doença.

Sendo assim, é cada vez mais importante e necessário o uso, a busca e o aprimoramento

de ferramentas estatísticas adequadas capazes de produzir inferências consistentes e confiáveis.

13

1.2. ALGUNS CONCEITOS TEÓRICOS

1.2.1. CONCEITOS BÁSICOS EM ANÁLISE DE

SOBREVIVÊNCIA

A análise de sobrevivência é relacionada a um conjunto técnicas estatísticas aplicadas a

situações quando se pretende analisar dados relacionados ao tempo de ocorrência de algum

evento de interesse, isto é, ao tempo transcorrido entre um evento inicial, no qual o indivíduo

entra em um estado particular e um evento final, que modifica este estado.

Em análise de sobrevivência, a variável resposta é, geralmente, o tempo de sobrevida.

Define-se sobrevida como o intervalo de tempo desde a entrada do indivíduo no estudo até a

ocorrência do evento de interesse, podendo este evento ser o tempo de falha ou óbito, tempo de

recuperação ou cura ou o tempo até o término do estudo. O diferencial das técnicas de análise de

sobrevivência em relação á outras técnicas estatísticas é a possibilidade de considerar dados

censurados, ou seja, indivíduos que apresentam apenas informação parcial da resposta. Isto se

refere às situações em que por alguma razão houve a perda de seguimento durante o estudo, ou

seja, o acompanhamento do paciente foi interrompido, seja porque o paciente mudou de cidade

ou o paciente morreu por uma causa que não seja a estudada. Sem a presença de censuras, as

técnicas estatísticas clássicas, como a análise de regressão, análise de variância e outros modelos

estatisticos associados à planejamento de experimentos, poderiam ser utilizadas na análise

desses tipos de dados (Colosimo e Giolo, 2006).

Os dados censurados, resultados provenientes de um estudo de sobrevivência devem ser

usados na análise, pois fornecem informações sobre o tempo de sobrevida de pacientes e a sua

omissão no cálculo das estatísticas de interesse pode acarretar conclusões viciadas. Existem várias

formas de censuras, sendo a mais usual a censura à direita, que ocorre quando o evento de

interesse não é observado até o término do estudo ou até o ultimo instante em que o individuo é

acompanhado. Censuras aleatórias são frequentes na área médica; elas acontecem quando um

paciente é retirado no decorrer do estudo sem ter ocorrido o evento de interesse ou também,

podem ocorrer caso o paciente apresente óbito devido à outra doença diferente da doença

estudada.

Na análise de sobrevivência, o tempo de vida ou tempo de sobrevida é denotado por uma

variável aleatória não negativa 𝑇 ≥ 0 que pode ser expressa através da função densidade de

probabilidade 𝑓(𝑡), da função de sobrevivência 𝑆(𝑡) = 𝑃( 𝑇 > 𝑡) ou a função de risco, ℎ(𝑡).

14

A função densidade de probabilidade é definida como o limite da probabilidade de

observar o evento de interesse em um individuo no intervalo de tempo [𝑡, 𝑡 + 𝛥𝑡] por unidade de

tempo, expressa por,

𝑓(𝑡) = 𝑙𝑖𝑚∆𝑡→0𝑃(𝑡≤𝑡+∆𝑡)

∆𝑡 (1)

em que 𝑓(𝑡) ≥ 0, para todo 𝑡, e tem área abaixo da curva igual a 1 para 𝑡 > 0.

A função de sobrevivência 𝑆(𝑡) é definida como a probabilidade de um indivíduo

sobreviver pelo menos até um tempo 𝑡 qualquer, isto é, a probabilidade de ocorrer o evento além

de 𝑡, e é dada por,

𝑆(𝑡) = 𝑃(𝑇 > 𝑡) = 1 − 𝐹(𝑡) (2)

em que 𝐹(𝑡) = 𝑃(𝑇 ≤ 𝑡) é a função distribuição acumulada em 𝑡.

Da função de sobrevivência 𝑆(𝑡) é possível obter a função densidade de

probabilidade 𝑓(𝑡), da relação,

𝑓(𝑡) = −𝑑

𝑑𝑡𝑆(𝑡) =

𝑑

𝑑𝑡𝐹(𝑡) (3)

em que 𝑑

𝑑𝑡 denota a derivada da função em relação à t.

A função de risco é utilizada para descrever como o risco do evento muda com o tempo 𝑡.

Essa função é definida como a probabilidade do evento ocorrer no intervalo de tempo [𝑡, 𝑡 + ∆𝑡],

dado que o individuo tenha sobrevivido pelo menos até o tempo 𝑡, e é dada por,

ℎ(𝑡) = 𝑙𝑖𝑚∆𝑡→0𝑃(𝑡≤𝑇<𝑡+∆𝑡|𝑇≥𝑡)

∆𝑡 (4)

A função de risco também pode ser obtida da relação entre a função densidade de

probabilidade 𝑓(𝑡) e a função de sobrevivência 𝑆(𝑡),

ℎ(𝑡) =𝑓(𝑡)

𝑆(𝑡)= −

𝑑

𝑑𝑡𝑙𝑜𝑔 𝑆(𝑡) (5)

1.2.2. USO DE MÉTODOS BAYESIANOS EM ANÁLISE DE

SOBREVIVÊNCIA: ALGUNS CONCEITOS BÁSICOS

A estatística bayesiana tem sido cada vez mais utilizada como uma alternativa a estatística

clássica ou frequentista. Os métodos bayesianos têm se mostrado muito eficazes e poderosos na

15

análise de dados, principalmente na área da saúde, onde em muitos casos o tamanho amostral é

pequeno, nessas condições, teorias assintóticas (presentes na frequentista) podem não ser são

recomendadas.

Na prática, a maior diferença entre as duas técnicas estatísticas é que a metodologia

bayesiana tenta medir o grau de incerteza que se tem sobre a ocorrência de um determinado

evento do espaço amostral, utilizando distribuições de probabilidades a priori dos parâmetros do

modelo estatistico assumido na análise dos dados e a informação amostral (verossimilhança). A

inferência bayesiana se caracteriza por calcular uma função densidade de probabilidade conjunta

(densidade a posteriori) sobre todos os possíveis vetores de parâmetros (espaço dos parâmetros).

Na inferência bayesiana, a incerteza sobre os parâmetros desconhecidos associa-se uma

distribuição de probabilidade (Gianola e Fernando, 1986), enquanto que, na inferência

frequentista, os parâmetros são valores fixos ou constantes, aos quais não se associam a qualquer

distribuição (Blasco, 2001). No contexto bayesiano, o objetivo é, condicionalmente aos dados 𝑦

observados, descrever a incerteza sobre o valor de algum parâmetro 𝜃 não observado, em termos

de probabilidades ou densidades (Box e Tiao, 1992). O parâmetro 𝜃 pode ser um escalar ou um

vetor de parâmetros.

A informação acerca de um parâmetro 𝜃, também chamada de distribuição a priori, é

incorporada ao estudo através do uso do teorema de Bayes, que combina a informação contida

nos dados, resultando na distribuição a posteriori. Dessa forma é possível incorporar na análise de

dados o conhecimento de um pesquisador ou especialista, quando disponível. A fundamentação

da teoria de inferência Bayesiana é baseada na fórmula de Bayes.

Fórmula de Bayes

Sejam os eventos 𝐴1 , 𝐴2, … , 𝐴𝑘 formando uma sequência de eventos mutualmente

exclusivos e exaustivos formando uma partição do espaço amostral 𝛺, isto é, ⋃ 𝐴𝑗 = 𝛺𝑘𝑗=1 e

𝐴𝑖 ∩ 𝐴𝑗 = ∅ (conjunto vazio) para 𝑖 ≠ 𝑗 tal que 𝑃(⋃ 𝐴𝑗𝑘𝑗=1 ) = ∑ 𝐴𝑗

𝑘𝑗=1 = 1.

então para qualquer outro evento 𝐵(𝐵 ⊂ 𝛺), temos

𝑃(𝐴𝑖|𝐵) =𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)

∑ 𝑃(𝐵|𝐴𝑗)𝑃(𝐴𝑗)𝑘𝑗=1

(6)

para todo 𝑖 variando de 1 até 𝑘.

16

Seja 𝜽 um vetor de parâmetros s serem estimados. Logo, pelo teorema de Bayes, tem-se a

seguinte distribuição de probabilidade a posteriori para 𝜽.

𝜋(𝜽|𝒚) =𝜋(𝜽)𝑓(𝑦|𝜽)

∫ 𝜋(𝜽)𝑓(𝑦|𝜽)𝑑𝜽 (7)

assumindo que 𝜽 seja contínuo, 𝜋(𝜽) é a distribuição a priori conjunta para 𝜽 e 𝑓(𝑦|𝜽) = 𝐿(𝜽) =

∏ 𝑓(𝑦𝑖|𝜽) 𝑛𝑖=1 a função de verossimilhança de 𝜽.

Assim, a partir da fórmula de Bayes, temos,

𝜋(𝜽|𝑦) ∝ 𝐿(𝜽|𝑌)𝜋(𝜽) (8)

Assim temos 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑎 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑖 ∝ 𝑣𝑒𝑟𝑜𝑠𝑠𝑖𝑚𝑖𝑙ℎ𝑎𝑛ç𝑎 𝑥 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑎 𝑝𝑟𝑖𝑜𝑟𝑖,

sendo que o símbolo ∝ representa proporcional. Assumindo que 𝜽 seja discreto, substituir o sinal

de integral no denominador de (7) por um sinal de somatório variando em todos valores discretos

possiveis do parâmetro em seu espaço paramétrico.

A função de probabilidade a priori representa o conhecimento prévio a respeito dos

elementos de 𝜽 antes da observação dos dados, refletindo a incerteza em relação aos possíveis

valores de 𝜽 antes do vetor de dados 𝒚 ser selecionado. A função de densidade (ou função massa

de probabilidade no caso discreto) a posteriori incorpora o estado de incerteza do conhecimento

prévio a respeito do parâmetro 𝜽 após a observação dos dados em 𝒚 e a função de

verossimilhança representa a contribuição de 𝒚 para o conhecimento sobre 𝜽.

Distribuições a priori

Uma distribuição a priori para um parâmetro pode ser elicitada de várias formas:

(a) Podemos assumir distribuições a priori definidas no domínio de variação do parâmetro

de interesse. Como caso particular, poderíamos considerar uma distribuição a priori Beta que é

definida no intervalo (0, 1) para proporções que também são definidas no intervalo (0, 1) ou

considerar uma priori normal para parâmetros definidos em toda reta;

(b) Podemos construir uma priori baseada em informações de um ou mais especialistas;

(c) Podemos considerar métodos estruturais de elicitação de distribuições a priori (ver,

por exemplo, Paulino et al, 2003);

(d) Podemos considerar distribuições a priori não informativas quando temos total

ignorância sobre os parâmetros de interesse;

17

(e) Podemos usar métodos Bayesianos empíricos em dados ou experimentos prévios para

construir a priori de interesse.

Métodos de simulação para amostras da distribuição a posteriori

Na obtenção de sumários a posteriori é necessário resolver integrais múltiplas, muitas

vezes, complicadas, o que exige o uso de métodos numéricos ou de aproximações de integrais,

especialmente quando a dimensão do vetor de parâmetros é grande.

Daí surge a necessidade do uso de métodos computacionais poderosos, como os métodos

de Monte Carlo em cadeias de Markov (MCMC) que incluem alguns algoritmos de simulação de

amostras da distribuição a posteriori conjunta de interesse, como os algoritmos de Metropolis-

Hastings e o amostrador de Gibbs. É importante salientar que os métodos com base em simulação

de amostras da distribuição a posteriori conjunta de interesse, como, por exemplo, o método de

Monte Carlo em cadeias de Markov (MCMC), passaram a ser muito utilizados com o avanço dos

recursos computacionais em termos de harware e software. Esses métodos consistem na

simulação de uma variável aleatória através de uma cadeia de Markov, no qual a sua distribuição

assintóticamente se aproxima da distribuição a posteriori de interesse (ver, por exemplo,

Bernardo e Smith, 1994).

Uma cadeia de Markov é um processo estocástico no qual estados futuros são

independentes de estados passados dado o estado presente.

No entanto, como existe certa dependência com os valores iniciais fixados no processo

de simulação, na prática uma amostra simulada inicial é descartada após um período de

aquecimento, chamada “Burn-in- sample”.

As formas mais usuais de simulação dos métodos MCMC são dadas pelo amostrador de

Gibbs e o algoritmo de Metropolis-Hastings. Essas duas formas simulam amostras da distribuição

a posteriori conjunta a partir das distribuições condicionais a posteriori completas (ver, por

exemplo, Gelfand e Smith, 1990; Chib e Greenberg, 1995).

O amostrador de Gibbs nos permite gerar amostras da distribuição a posteriori conjunta

desde que as distribuições condicionais completas possuam formas fechadas ou conhecidas. Por

outro lado, o algoritmo de Metropolis-Hasting permite gerar amostras da distribuição a posteriori

conjunta com distribuições condicionais completas possuindo ou não uma forma conhecida ou

fechada.

18

O amostrador de Gibbs

Supor que 𝜽 = (𝜃1, … , 𝜃𝑘) seja um vetor de parâmetros aleatórios e 𝒚 seja o vetor dos

dados observados; tem-se como objetivo, obter inferências sobre a distribuição a posteriori

conjunta 𝜋(𝜽|𝒚) = 𝜋(𝜃1, … , 𝜃𝑘|𝒚) (Bernardo e Smith, 1994).

Dado um vetor arbitrário de valores iniciais 𝜃1 (0)

, … , 𝜃𝑘 (0)

para as quantidades

desconhecidas, implementa-se o seguinte procedimento iterativo:

Obtém-se 𝜃1(1)

de π (𝜃1|𝒚, 𝜃2(0)

, … , 𝜃𝑘(0)

)

Obtém-se 𝜃2(1)

de π (𝜃2|𝒚, 𝜃1(1)

, 𝜃3(0)

, … , 𝜃𝑘(0)

)

Obtém-se 𝜃3(1)

de π (𝜃3|𝒚, 𝜃1(1)

, 𝜃2(1)

, 𝜃4(0)

, … , 𝜃𝑘(0)

)

⋮

Obtém-se 𝜃𝑘(1)

de π (𝜃𝑘|𝒚, 𝜃1(1)

, … , 𝜃𝑘−1(1)

)

Obtém-se 𝜃1(2)

de π (𝜃1|𝒚, 𝜃2(1)

, … , 𝜃𝑘(1)

)

⋮

e assim por diante.

Agora, supor que este processo é continuado através de 𝑡 iterações e é

independentemente replicado 𝑚 vezes para que ao final se tenha 𝑚 replicações do vetor

amostrado 𝜽𝑡 = (𝜃1(𝑡)

, … , 𝜃𝑘(𝑡)

), onde 𝜽𝑡 é uma realização de uma cadeia de Markov com

probabilidade de transição dada por,

𝑝(𝜽𝑡 , 𝜽𝑡+1) = ∏ 𝜋(𝜃𝑘𝑙𝑡+1|𝒚, 𝜃1

𝑡+1 , … , 𝜃𝑙−1𝑡+1, 𝜃𝑙+1

𝑡 , … , 𝜃𝑘𝑡 )𝑘

𝑙=1

Como, como 𝑡 → ∞, (𝜃1(𝑡)

, … , 𝜃𝑘(𝑡)

) tende em distribuição a um vetor aleatório cuja

densidade conjunta é 𝜋(𝜽|𝒚), ou seja, a distribuição a posteriori de interesse. Em particular, 𝜃𝑖𝑡

tende em distribuição a uma quantidade aleatória cuja densidade é 𝜋(𝜃𝑖|𝒚), também chamada de

densidade marginal a posteriori de 𝜃𝑖. Desta maneira, para 𝑡 grande, as replicações (𝜃𝑖1(𝑡)

, … , 𝜃𝑖𝑚(𝑡)

)

são aproximadamente uma amostra aleatória de 𝜋(𝜃𝑖|𝒚).

Após a geração de amostras da distribuição a posteriori de interesse, utilizamos essas

amostras para obter estimadores de Monte Carlo para sumários a posteriori de interesse como a

média a posteriori, o desvio-padrão a posteriori e intervalos de credibilidade de interesse.

19

O algoritmo Metropolis-Hastings

Supor que se deseja simular uma densidade a posteriori 𝜋(𝜽|𝒚). Um algoritmo de

Metropolis-Hastings se inicia com um valor inicial 𝜃0 e especifica uma regra para a simulação do

𝑡 − é𝑠𝑖𝑚𝑜 valor da sequência 𝜃𝑡 dado o (𝑡 − 1) − é𝑠𝑖𝑚𝑜 valor da sequência 𝜃𝑡−1. Esta regra

consiste em uma densidade proposta (ou densidade geradora) a qual simula um valor candidato

𝜃∗ e o cálculo da uma probabilidade de aceitação P, que indica a probabilidade do valor candidato

ser aceito para ser o próximo valor na sequência. Especificamente, esse algoritmo pode ser

descrito da seguinte forma (ver, por exemplo, Albert, 2007),

1. Simular um valor candidato 𝜃∗ de uma densidade proposta 𝑝(𝜃∗|𝜃𝑡−1).

2. Calcular a razão

𝑅 = 𝜋(𝜃∗|𝒚)𝑝(𝜃𝑡−1|𝜃∗)

𝜋(𝜃𝑡−1|𝒚)𝑝(𝜃∗|𝜃𝑡−1)

3. Calcular a probabilidade de aceitação 𝑃 = 𝑚𝑖𝑛 {𝑅, 1}

4. Amostrar um valor 𝜃𝑡 tal que 𝜃𝑡 = 𝜃∗ com probabilidade 𝑃, caso contrário 𝜃𝑡 = 𝜃𝑡−1.

Sob certas condições de regularidade facilmente satisfeitas na densidade proposta

𝑝(𝜃∗|𝜃𝑡−1), a sequência simulada 𝜃1, 𝜃2, … convergirá a uma variável aleatória que é distribuída

de acordo com a distribuição a posteriori 𝜋(𝜽|𝒚) (ver, por exemplo, Bernardo e Smith, 1994; Chib

e Greenberg, 1995).

1.2.3. MODELOS DE REGRESSÃO PARAMÉTRICA EM

ANÁLISE DE SOBREVIVÊNCIA

A construção de modelos de regressão em análise de sobrevivência busca ajustar os dados a

modelos paramétricos existentes com finalidade de obter inferências para quantidades

populacionais de interesse e também conhecer como o tempo de sobrevida está relacionado com

uma ou mais covariáveis de interesse. Com o uso de modelos de regressão paramétricos, é

possível a identificação de quais covariáveis afetam o tempo de sobrevida bem como a

intensidade e a direção de cada uma delas em explicar a ocorrência do evento estudado

(Hougaard, 1999; Colossimo e Giolo, 2006; Louzada, Mazucheli e Achcar, 2002).

Em pesquisas médicas, a análise de regressão é usada para desenvolver modelos que

contribuam com a predição da resposta de um paciente a partir de uma ou mais variáveis

explicativas, tais como fatores prognósticos, fatores de tratamento e características dos

20

indivíduos. Para dados de sobrevivência, o principal objetivo da modelagem de um conjunto de

dados é a análise do tempo até a ocorrêcia de um determinado evento, usualmente o óbito de

um paciente, ou a recidiva de uma doença ou de algum sintoma. Nesse contexto , a importância

da modelagem e predição da variável resposta está em definir o tratamento, o prognóstico e

outras decisões clínicas para cada paciente individualmente e, também, em um processo de

triagem, identificar grupos de risco para estratificar os indivíduos por grau da doença. (Altman e

Royston, 2000; Tunes-da-Silva e Klein, 2011)

Do ponto de vista paramétrico, os modelos de sobrevivência são constituídos por dois

componentes: um aleatório e outro determinístico (ver, por exemplo, Louzada, Mazuchelli e

Achcar, 2002), onde o componente determinístico é dado por,

𝜂 = 𝑔(𝑎𝑥) (9)

onde 𝜂 é um dado parâmetro de uma distribuição de probabilidade; 𝑔(. ) é uma função positiva e

contínua, geralmente assumida igual a 𝑒𝑥𝑝(𝜷𝑥), 𝜷 = (𝛽0, 𝛽1, … , 𝛽𝑘) 𝑡 é um vetor de parâmetros

de regressão a serem estimados e associados a um vetor 𝑘 covariáveis 𝒙 = (𝑥1, 𝑥2, … , 𝑥𝑘) 𝑡. Note

que 𝒙 = (𝑥1, 𝑥2, … , 𝑥𝑘) 𝑡 estabelece um efeito multiplicativo no parâmetro 𝜂, e é responsável

pela aceleração ou desaceleração do tempo de sobrevida.

Desse modo, uma função log-linear é convenientemente utilizada para escrever a relação

entre 𝜂 e o vetor de covariáveis 𝒙, de tal maneira que para o 𝑖 − é𝑠𝑖𝑚𝑜 indivíduo temos,

𝑙𝑛[𝜂(𝑥𝑖)] = 𝛽0 + ∑ 𝛽𝑗𝑥𝑖𝑗𝑘𝑗=1 (10)

Em geral, é comum assumir que as covariáveis afetam apenas o parâmetro de locação de

uma determinada distribuição, porém, em muitas aplicações, assumir também que o parâmetro

de escala seja afetado pelas covariáveis o pode ser mais apropriado na análise dos dados

(Louzada, Mazuchelli e Achcar, 2002).

1.2.4. CATEGORIZAÇÃO DE COVARIÁVEIS CONTÍNUAS

Em estudos médicos de análise de sobrevivência é comum o interesse na categorização de

variáveis explicativas contínuas devido a dificuldade de interpretação de sua relação com a

variável resposta. No capítulo 3 este assunto será abordado em maiores detalhes.

21

A seleção de pontos para divisão das observações da amostra em dois (dicotomia), três

(tricotomia) ou mais grupos (politomia) está relacionado a vários problemas e não há consenso na

literatura sobre a melhor estratégia a ser tomada.

Das formas de categorização, a prática de dicotomizar covariáveis originalmente

contínuas é a mais comum em pesquisas clínicas (Royson et al., 2006). Podemos destacar alguns

pontos em que as variáveis categóricas são preferíveis do ponto de vista clinico e estatístico:

o No caso de dicotomia, fornecem uma classificação simples em grupos de baixo e

alto risco

o Estabelecem um critério padrão para comparação com estudos subsequentes

o Auxiliam na recomendação de tratamentos terapêuticos

o Definem um critério para o diagnóstico de uma enfermidade

o Estimam prognósticos

o Oferecem uma interpretação mais simples de modelos estatísticos comuns como,

por exemplo, as medidas de razão de chance ou risco relativo

o Evitam a suposição de linearidade implícita em alguns modelos estatísticos para

variáveis contínuas e

o Fazem sumarização dos dados mais eficientemente

Os métodos de seleção de ponto de corte são divididos em duas categorias: métodos

orientados pelos dados e métodos orientados pela resposta (Klein e Wu, 2004). Os métodos

orientados pelos dados baseiam a escolha do ponto de corte na distribuição da covariável como,

por exemplo, o uso da média ou dos percentis. Essa abordagem encontra valores arbitrários e

pode não ser útil para verificação do melhor valor para ponto de corte devida a alta dependência

da amostra. A segunda abordagem, orientada pela resposta, propõe métodos que baseiam-se na

relação entre a covariável e a resposta e seleciona pontos de corte para os quais a covariável

categorizada tem o maior efeito sobre a variável resposta. (Altman e Royston, 2000). Embora

pontos de corte baseados na resposta sejam mais indicados para estimação dos pontos de corte,

eles geram uma série de problemas que inspiram cuidados na hora de categorizar variáveis

contínuas (Faraggi e Simon, 1996 e Mazumdar e Glassman, 2000).

Apesar da utilidade da categorização, a forma como é feita a divisão dos indivíduos pode

acarretar problemas graves, tais como: grande perda de informação, redução do poder de

detectar a verdadeira relação entre as variáveis explicativas e a resposta, variáveis importantes

podem aparentar ser não significativas e a quantidade de grupos escollhida pode não ser

adequada para indicar os diferentes grupos de risco. Para diminuir tais efeitos e reduzir a chance

22

da categorização conduzir a um modelo clinicamente ou estatisticamente não significativo é

importante procurar métodos de seleção de pontos de corte adequados ao banco de dados,

utilizar técnicas de correção do possível viés dos parâmetros estimados ocasionado pelos

problemas intrísecos à categorização e métodos de validação dos resultados para que eles sejam

úteis em pesquisas baseadas em outras amostras (Hilsenbeck e Clark, 1996)

1.2.5. ANÁLISES BIVARIADAS (DEPENDÊNCIA)

Recentemente, os tratamentos para vários tipos de câncer evoluíram bastante, o que

ocasionou uma diminuição na mortalidade de pacientes e um aumento na proporção de

pacientes com recidiva da doença. Desde modo, surge o interesse no estudo dos dois eventos:

recidiva e óbito.

Nos capítulos 3 e 4 temos o interesse na análise do tempo até o evento intermediário e o

tempo até o evento terminal. Assim, tem-se um par de variáveis aleatórias observadas no mesmo

paciente, e é razoável considerar a existência de uma estrutura de dependnência entre essas duas

variáveis. Portanto, torna-se conveniente uma discussão sobre situações que podem gerar

dependência em dados envolvendo o tempo até a ocorrência de um evento.

Em análise de sobrevivência, existem muitos mecanismos que geram dependência.

Hougaard (2000) os classifica em três principais categorias.

Eventos comuns: quando vários eventos acontecem simultaneamente, isto é,

dados paralelos, por exemplo, acidentes ou desastres que levam a morte de

muitas pessoas ao mesmo tempo.

Riscos comuns: quando os indivíduos objeto de estudo são dependentes pela

existência de alguns fatores de risco comuns que, geralmente, são não

observáveis. Neste caso, são incluídos efeitos aleatórios no modelo com a função

que engloba os fatores comuns não observáveis. O ponto chave é a

independencia condicional quando os riscos comuns são conhecidos. Aqui são

usados modelos de risco latente, sendo o modelo de fragilidade o mais comum. A

dependência gerada na modelo de riscos semicompetitivos faz parte deste tipo de

dependêcnia, pois se um individuo apresenta algum dos eventos de interesse,

recaída ou óbito, isto não muda a sobrevida de cada um dos outros pacientes,

mas sim o conhecimento da sobrevivência deles.

23

Evento-Relativo: o evento atual pode mudar o risco de eventos futuros, por

exemplo, quando uma pessoas adquire um vírus, o risco que outras pessoas sejam

infectadas aumenta.

Além da natureza da dependêcnia, há outra consideração importante: a duração da

dependência. Podem ser consideradas as seguintes situações:

Dependência instantânea: dois ou mais eventos ocorrem ao mesmo tempo;

Dependência de curto prazo: a dependência é mais pronunciada imediatamente

após outros indivíduos no grupo experimentarem o evento;

Dependência de longo prazo: um evento implica que o risco entre os membros do

outro grupo incrementa para sempre.

A partir desses conceitos básicos introdutorios apresentados neste capítulo, dois estudos

foram conduzidos levando à publicação de três artigos em revistas especializadas (adicionados a

seguir): um artigo relacionado a um estudo para a obtenção de inferências bayesianas para

pontos de corte de covariáveis contínuas em modelos de regressão com dados de sobrevivência e

dois artigos relacionados a um estudo com o uso de modelos bivariados discretos na presença de

covariáveis de dados censurados para dados de sobrevivência. Neste último caso é importante

salientar que em geral os modelos para dados de sobrevivência assumem dados contínuos e o uso

de modelos assumindo dados discretos podem apresentar muitas vantagens em termos de

interpretações e custo computacional para obter as inferências de interesse. Em síntese: os

resultados do estudo relacionados a esta tese publicados como três artigos de revistas

especializadas são estudos originais e que podem ser de grande impacto na área de dados de

sobrevivência, especialmente para serem usados por pesquisadores da área de oncologia.

24

1.3. REFERÊNCIAS INTRODUÇÃO

ALBERT, J. Bayesian Computation with R. New York: Springer-Verlag, 2007. 300p.

ALTMAN, D. G.; ROYSTON, P., What do we mean by validating a prognostic model?

Statistic in medice, 19(4): 453-473, 2000.

BERNARDO, J. M.; SMITH, A. F. M. Bayesian theory. New York: Wiley, 1994.

BLASCO, A. The Bayesian controversy in animal breeding. Journal of Animal Science, v.79,

p.2023-2046, 2001.

BOX, G.E.P.; TIAO, G.C. Bayesian Inference in Statistical Analysis. New York: J. Wiley Interscience, 1992. 588p.

BRAY F., Transitions in human development and the global cancer burden, Stewart BW,

Wild CP, eds. World Cancer Report 2014. Lyon: IARC Press; 2014:42-55.

CHIB, S.; GREENBERG, E. Understanding the Metropolis-Hastings algorithm. The American Statistician, v. 49, 327–335, 1995.

COLOSIMO, E. A.; GIOLO, S. R. Análise de Sobrevivência Aplicada. São Paulo: Edgard

Blucher Ltda., 2006. 205 p.

FARAGGI D.; SIMON R., A simulation study os cross-validation for selecting an optimal

cutpoint in univariate survival analysis. Statistics in medicine, 15(20):2203-2213, 1996.

FERLAY J., et al. Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries CA Cancer J Clin, Published online.

<http://dx.doi.org/10.3322/caac.21492>

FERLAY, J. et al. GLOBOCAN 2012 v1.0, cancer incidence and mortality worldwide. Lyon,

France: IARC, 2013. (IARC CancerBase, 11). <http://globocan.iarc.fr>

GELFAND, A. E.; SMITH, A. F. M. Sampling based approaches to calculating marginal

densities. Journal of the American Statistical Association, v.85, p.398–409, 1990.

GIANOLA, D.; FERNANDO, R.L. Bayesian methods in animal breeding theory. Journal of Animal Science, v.63, p.217-244, 1986.

HILSENBECK S. G.; CLARK G. M., Pratical p-value adjustment for optimally selected

cutpoints. Statistics in medicine, 15(1):103-112, 1996.

HOUGAARD, F., Analysis os mutivariate survival data, Springer, 2000.

HOUGAARD, P. Fundamentals of survival data. Biometrics, v.55, n.1, p.13-22, 1999.

INTERFARMA, Câncer no Brasil A jornada do paciente no sistema de saúde e seus impactos

sociais e financeiros. 2019. <https://www.interfarma.org.br/public/files/biblioteca/cancer-no-brasil-n-a-jornada-do-paciente-no-sistema-de-saude-e-seus-impactos-sociais-e-financeiros-

interfarma.pdf>

KLEIN J. P.; WU JT., Discretizing a continuous covariate in survival analysis of failure time data, volume 360, Jonh Wiley & Sons, 2011.

25

LOUZADA, F.; MAZUCHELI, J.; ACHCAR, J. A. Introdução à análise de sobrevivência e

confiabilidade. São Carlos: IMCA, 2002.

MAZUMDAR M.; GLASSMAN J. R., Categorizing a prognostic variable: review of methods, code for easy implementation and applications to decision-making about cancer treatments.

Statistics in medicine, 19(1):113-132, 2000.

PAULINO, C. D.; TURKMAN, M. A. A.; MURTEIRA, B. Estatística Bayesiana. Lisboa: Fundação Calouste Gulbenkian, 2003. 446p.

ROYSTON P.; ALTMAN D. G.; SAUERBREI W., Dichotomizing continuous predictors in

multiple regression: a bad idea. Statistics in medice, 25(1):127-141, 2006.

TUNES-DA-SILVA, G.; KLEIN J. P., Cutpoint selection for discretizing a continuous covariate for generalized estimating euations. Computational statistics and data analysis,

55(1):226-235, 2011.

26

CAPÍTULO 2. OBJETIVOS

Motivados principalmente por conjuntos de dados oncológicos reais, o objetivo principal

desta tese é explorar diferentes métodos de análise de sobrevivência especialmente sob um

enfoque bayesiano através de aplicações a banco de dados oncológicos conforme os objetivos de

pesquisadores especialistas da área médica. Mais detalhadamente, pode-se mencionar os

seguintes objetivos específicos:

Determinar possíveis pontos de corte para a categorização de covariáveis

contínuas em estudos com dados de sobrevivência na presença ou não de

censuras, utilizando-se de métodos de estimação Bayesianos a fim de evidenciar

possíveis fatores que podem afetar os tempos de sobrevida dos pacientes.

Implementar a abordagem Bayesiana para a estimação dos parâmetros do

modelo bivariado geométrico de Basu-Dhar na presença de censuras e fração de

cura.

Evidenciar possiveis fatores que afetem os tempos de sobrevida livre de

progressão e tempo de sobrevida geral dos pacientes com câncer colorrretal em

estudo utilizando-se de técnicas estatísticas que incorporem a dependência

existente entre dois tempos de sobrevida observados, em especial usando as

funções de cópulas de Farlie-Gumbel-Morgenstern (FGM) na presença de

censuras e covariáveis sob um enfoque Bayesiano.

A seguir são apresentados os resumos dos artigos publicados como resultados dessa

pesquisa.

27

CAPÍTULO 3. ESTUDO 1 – DETERMINAÇÃO DE PONTO DE CORTE ÓTIMO EM ANÁLISE DE SOBREVIVÊNCIA

ICUMA, Tatiana Reis; ACHCAR, Jorge Alberto; MARTINEZ, Edson Zangiacomi; DAVARZANI, Nasser.

Determination of optimum medical cut points for continuous covariates in lifetime regression

models. Model Assisted Statistics and Applications, Amsterdam, v. 13, n. 2, p. 141-159, 2018.

Disponível em: < http://dx.doi.org/10.3233/MAS-180426 > DOI: 10.3233/MAS-180426.

29

CAPÍTULO 4. ESTUDO 2 – MODELOS BIVARIADOS DE ANÁLISE DE SOBREVIVÊNCIA ASSUMINDO DISTRIBUIÇÕES DISCRETAS

MARTINEZ, Edson Zangiacomi; ACHCAR, Jorge Alberto; ICUMA, Tatiana Reis. Bivariate

Basu-Dhar geometric model for survival data with a cure fraction. Electronic Journal of

Applied Statistical Analysis, Lecce, v. 11, n. 2, p. 655-673, 2018.

Disponível em:

< http://dx.doi.org/10.1285/i20705948v11n2p655 > DOI: 10.1285/i20705948v11n2p655.

ICUMA, Tatiana Reis; BUZATTO, Isabela Panzeri Carlotti; TIEZZI, Daniel Guimarães;

ACHCAR, Jorge Alberto; DAVARZANI, Nasser. Use of bivariate lifetime distributions

assuming continuous or discrete data applied to patients with breast cancer. Journal of

Data Science, New York, v. 14, n. 4, p. 657-680, 2016.

Disponível em: < http://www.jds-online.com/volume-14-number-4-october-2016 >.

32

CAPÍTULO 5. ESTUDO 3 – DADOS DE SOBREVIDA BIVARIADOS E O USO DE CÓPULA FGM SOB O ENFOQUE BAYESIANO – UMA

APLICAÇÃO EM DADOS DE PACIENTES COM CÂNCER COLORRETAL.

1. Introdução

O câncer é um problema de saúde pública, principalmente para países em desenvolvimento,

como o Brasil. Estima-se, para o Brasil, no biênio 2018-2019, a ocorrência de 600 mil casos novos

de câncer, para cada ano. Essas estimativas refletem o perfil de um país que possui os cânceres

de próstata, pulmão, mama feminina e cólon e reto entre os mais incidentes, entretanto ainda

apresenta altas taxas para os cânceres do colo do útero, estômago e esôfago. (MATHERS et al.) e

as projeções indicam que o problema deve se agravar cada vez mais nas próximas décadas,

principalmente, com o envelhecimento populacional e com as mudanças para estilos de vida que

favorecem fatores de risco para o surgimento da doença (INTERFARMA, 2019).

As transições demográficas e epidemiológicas pelas quais o País vem passando já sinalizama

carga cada vez maior do câncer no Brasil, no qual vem crescendo a proporção de óbitos por

neoplasias, dentre outras doenças crônicas não transmissíveis (DANT).

A estimativa mundial, realizada em 2018 pelo Globocan/Iarc, apontou 18,1 mihões de casos

novos estimados no mundo e 9,6 milhões de mortes em decorrência da doença.

O câncer de cólon e reto possui relevância epidemiológica em nível mundial, uma vez que é a

terceira neoplasia maligna mais comumente diagnosticada e a quarta principal causa de morte

por câncer, representando 1,1 milhão de casos novos e quase 600 mil óbitos em 2018. O padrão

da incidência difere entre os sexos, sendo o terceiro tipo de câncer mais observado no sexo

masculino, atrás dos cânceres de pulmão e próstata. E o quarto mais observado no sexo femino,

atrás dos cânceres de mama, pulmão e útero.

No Brasil, o câncer em geral configura-se como problema de saúde pública, as neoplasias têm

uma crescente importância no perfil de mortalidade do país, ocupando o segundo lugar de causa

de obito. Estimam-se 17.380 casos novos de câncer de cólon e reto em homens e 18.980 em

mulheres para cada ano do biênio 2018-2019. Esses valores correspondem a um risco estimado

de 16,83 casos novos a cada 100 mil homens e 17,90 para cada 100 mil mulheres. É o terceiro

mais frequente em homens e o segundo entre as mulheres. O Câncer colorretal encontra-se entre

os cinco primeiros cânceres mais frequentes, porém sua incidencia não é homogênea em todo o

país.

O câncer de cólon e reto é uma doença multifatorial influenciada por fatores genéticos,

ambientais e relacionados ao estilo de vida (Boyle; Leon, 2002; Sandler, 1996). Em 2013, o

Instituto brasileiro de Geografia e Estatística (IBGE) divulgou os resultados da Primeira Pesquisa

Nacional de Saúde, onde foram apresentados relevantes hábitos de consumo alimentar dos

brasileiros divididos entre as grandes regiões.

33

As diferenças geográficas observadas na incidência possivelmente refletem aos hábitos de

vida e perfis de consumo alimentares adotados em cada região. Assim, os fatores de risco ligados

ao estilo de vida são modificáveis e incluem: o consumo de bebidas alcoólicas, a baixa ingestão de

frutas e vegetais, o alto consumo de carnes vermelhas e de alimentos processados, a obesidade, o

tabagismo e a inatividade física (Bouvard et al., 2015; Fedirko et al., 2011; Harriss et al., 2009;

Walter, 2014; World Cancer Research Fundation, 2012)

A Sociedade Brasileira de Coloproctologia recomenda que indivíduos assintomáticos em um

grupo de risco normal iniciem o rastreamento a partir dos 50 anos, com realização anual de

pesquisa de sangue oculto nas fezes e retossigmoidoscopia anual ou bianual. Apesar das

recomendações da sociedade médica, não há recomendação oficial do Ministério da Saúde para

um programa nacional de rastreamento em câncer colorretal (Ministério da Saúde do Brasil,

2014).

Mesmo que a colonoscopia seja atualmente considerada o “padrão-ouro” para rastrear este

câncer, o SUS provavelmente não teria capacidade operacional suficiente para realizar o exame

em toda a população acima de 50 anos. E se trata de um exame que exige preparo do paciente,

internação hospitalar e em alguns casos anestesia. Sua baixa adesão como exame de

rastreamento também se dá devido à preconceitos por parte da população por se tratar de um

exame invasivo via anal. Consequentemente, grande parte dos pacientes são diagnosticados já

em estágios mais avançados. (INTERFARMA, 2019)

Alguns fatores como o estadiamento, estágio clínico da doença, comprometimento

linfonodal, estádio T e outros, estão relacionados com o prognóstico e curso da doença,

influenciando o tempo de sobrevida dos pacientes acometidos. Dentro deste contexto, o objetivo

deste trabalho é evidenciar possíveis fatores que podem afetar o tempo de sobrevida livre de

progressão e o tempo de sobrevida global em um estudo realizado na Faculdade de Medicina de

Ribeirão Preto – USP em 2016.

Em análise de sobrevivência a variável dependente de interesse é o tempo decorrido até o

aparecimento de algum evento. Este tempo é medido desde o início da observação até a

ocorrência do evento, podendo ser: óbito, recidiva, alta, cura, dependendo do contexto em

estudo. Um diferencial da análise de sobrevida é a inclusão de dados censurados, diferentes de

dados faltantes. Os dados referentes aos pacientes que não desenvolveram o evento até o final

do estudo ou tiveram perda de acompanhamento são censurados; eles contribuem para a análise

até o último momento em que os pesquisadores observaram.

Ainda em relação aos tempos de sobrevida em análise de sobrevivência, temos situações em

que não é válida a suposição de independência entre os tempos de sobrevida. Por exemplo, pode

ocorrer a situação em que indivíduos de um estudo estão sujeitos a múltiplos eventos

recorrentes, tais como ataques epiléticos e/ou ataques cardíacos, dentre outros. Nestes casos,

mais de um tempo de sobrevida é observado para cada indivíduo em estudo e, desse modo,

supões-se que exista associação entre os tempos de um mesmo indivíduo (Colossimo e Giolo,

2006).

Recentemente, os tratamentos para vários tipos de câncer evoluíram bastante, o que

ocasionou uma diminuição na mortalidade de pacientes e um aumento na proporção de

34

pacientes com recidiva da doença. Desde modo, surge o interesse no estudo dos dois eventos:

recidiva e óbito.

Uma forma para modelar a dependência entre dados multivariados são os modelos baseados

em cópulas. Estes modelos vêm sendo cada vez mais desenvolvidos atualmente, como por

exemplo, nas áreas biológicas, ciências atuariais e finanças. De acordo com Fisher (1997), cópulas

são de interesse para estatísticos por duas razões: primeiro, é uma forma de estudar medidas de

dependência e segundo, à partir delas se constroem famílias de distribuições bivariadas.

1.1. Banco de dados

O banco de dados utilizado neste estudo provém da tese de título “Correlação entre CD44,

CD166, CDH1 e FN1 de acordo com o status da mutação KRAS e a localização (cólon direito versus

esquerdo) da neoplasia maligna de cólon metastática” da autora Karen Bento Ribeiro e sua

orientadora Profa. Dra. Fernanda Maris Peria. O uso neste presente trabalho foi autorizado pelas

autoras.

O conjunto de dados se refere a 66 pacientes com câncer colorretal. As informações foram

coletadas, de forma restrospectiva, no prontuário médico do paciente. Os dados foram coletados

no período de janeiro de 2016 a novembro de 2016, sendo que a data registrada do último

seguimento de pacientes incluídos no estudo foi em 17 de outubro de 2016.

A seleção dos casos que participaram do estudo partiu de uma lista de 345 pacientes do

HCFMRP-USP para os quais fora solicitado análise do status da mutação KRAS na amostra tecidual

da neoplasia maligna colorretal, para os quais havia necessidade de se indicar terapia anti-EGFR

com cetuximabe, através de exame oferecido pelo Laboratório externo Merck Serono®, no

período de 21 de junho de 2010 a 24 de agosto de 2016 atendidos no ambulatório de Oncologia

do HCFMRP-USP. Dos 345 casos, 66 foram elegiveis para a participação do estudo segundo os

critérios de inclusão e exclusão definidos pelas pesquisadoras e conforme a disponibilidade das

informações.

O enfoque neste presente trabalho são os tempos de sobrevida. São considerados o tempo de

sobrevida global (SG) e o tempo de sobrevida livre de progressão (SLP). Definiu-se tempo de

sobrevida global, o tempo entre a data do diagnóstico avançado da doença tumoral (data em que

o paciente recebeu o diagnóstico de metástase/progressão/recidiva de doença tumoral) até a

data de óbito por qualquer motivo, caso o paciente apresentasse metástase metacrônica, ou pela

data da biópsia tumoral até a data de óbito por qualquer motivo, caso o paciente apresentasse

metástase sincrônica ao diagnóstico. Definiu-se sobrevida livre de progressão o tempo entre a

data da biópsia tumoral até a data da primeira progressão tumoral/recidiva/óbito, o que

ocorresse primeiro. As covariáveis consideradas são:

1. Sexo: Feminino, Masculino;

2. Idade: Maior que 65 anos Menor que 65 anos;

3. Realização de quimioterapia: Sim, Não;

4. Cólon: Direito, Esquerdo;

5. Status da mutação KRAS: Mutado, Selvagem;

6. ECOG: 0,1,2;

35

7. Grau de diferenciação tumoral: Bem, Moderado, Pouco;

8. Histologia do tumor: Adenocarcinoma, Mucinoso;

9. Categoria tumoral T: T2, T3, T4;

10. Categoria tumoral N: N0, N1, N2;

11. Estágio clínico: II, III, IV;

12. Uso de Cetuximabe (terapia anti-EGFR): Não, Sim

13. Uso de Bevacizumabe (terapia anti-VEGF): Não Sim

Dos 66 casos elegíveis, foram exluidos neste estudo 2 casos por conter dados faltantes. Dos

64 casos que compõe o banco de dados (Tabela 1), 45 pacientes faleceram após a progressão da

doença e 19 permaneciam vivos, entre os vivos, 12 tiveram a progressão da doença durante o

estudo.

Tabela1. Quantidade e porcentagem da censura livre de progressão e global.

Quantidade Porcentagem

Censura Livre de progressão Sim 7 11,0% Não 57 89,0%

Censura Global Sim 19 30,0% Não 45 70,0%

Na Figura 1 são apresentados os gráficos dos estimadores não – paramétricos de Kaplan

Meier (1958) para as funções de sobrevivência para os tempos livre de progressão e tempos de

sobrevida global.

Figura 1. Estimadores de Kaplan Meier. (a) Tempo de sobrevida livre de progressão, (b) Tempo de sobrevida

Global.

2. Objetivos

Evidenciar possiveis fatores que afetem os tempos de sobrevida livre de progressão e tempo

de sobrevida geral dos pacientes com câncer colorrretal em estudo. Utilizando-se de técnicas

estatísticas que considerem a dependência existente entre os dois tempos de sobrevida

observados, sob um enfoque bayesiano.

36

3. Metodologia

3.1. Uso da Distribuição de Weibull na análise dos dados de sobrevivência SLP e SG

3.1.1. Distribuição de Weibull sem a presença de covariáveis: uso de inferência

clássica

A distribuição de Weibull foi proposta originalmente por Weibull (1951). Sua popularidade em

aplicações práticas se deve ao fato dela apresentar uma grande variedade de formas, todas com

uma propriedade básica: a sua função de riscos pode ser monótona crescente, decrescente e

constante. A função densidade de probabilidade é dada por,

𝑓(𝑡𝑖) =𝛼 𝑡𝑖

𝛼−1 𝑒𝑥𝑝 [−(𝑡𝑖𝜆

)𝛼

]

𝜆𝛼 (1)

em que, ti > 0 denota os tempos de sobrevida. Os parâmetros λ e α denotam respectivamente,

os parâmetros de escala e de forma para a distribuição. Diferentes valores de α levam a

diferentes formas para a distribuição o que a torna muito flexível na análise de dados para

tempos de sobrevida. Na análise de sobrevivência o grande interesse é focado na função de

sobrevivência S(t∗) = P(T > t∗) em que t∗ é um tempo qualquer fixado. Assumindo a

distribuição de Weibull com f.d.p. (1), a função de sobrevivência é dada por,

𝑆(𝑡∗) = 𝑒𝑥𝑝 {− (𝑡∗

𝜆)

𝛼} (2)

A função de risco h(t) ou taxa instantânea de falha, da distribuição de Weibull (ver, por

exemplo, Lawless, 1982) é dada, de h(t) = f(t) /S(t), por:

ℎ(𝑡) = 𝛼 𝑡𝛼−1

𝜆𝛼 (3)

Observar que se α=1, temos a distribuição exponencial, isto é, a distribuição exponencial é um

caso especial da distribuição de Weibull. A função de risco h(t) dada por (3) é estritamente

crescente para α > 1, estritamente decrescente para α < 1 e constante para α = 1. Assim, observa-

se uma grande flexibilidade de ajuste aos dados. A média e a variância da distribuição de Weibull

com densidade dada por (16) são dadas respectivamente por:

𝜇 = 𝐸(𝑇) = 𝜆𝛤 (1 + 1

𝛼) (4)

𝜎2 = 𝑉𝑎𝑟(𝑇) = 𝜆2 {𝛤 (1 + 2

𝛼) − 𝛤 [1 +

1

𝛼]

2} (5)

sendo que Γ(.) denota uma função gama, Γ(z) = ∫ e−t∞

0 tz−1 dt.

37

Estimadores para os parâmetros λ e α podem ser obtidos usando o método de máxima

verossimilhança obtidos maximizando a função de verossimilhança L(λ, α) na presença de dados

censurados usando métodos numéricos (EMV).

3.1.2. Distribuição de Weibull na presença de covariáveis: uso de inferência

clássica

Na presença de um vetor de covariáveis x = (x1, x2 , … , xp) assumir um modelo de regressão

de Weibull para os tempos livres da doença definido por,

𝑙𝑜𝑔(𝑡𝑖) = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑝𝑥𝑝𝑖 + 𝜎∗𝜀𝑖, (6)

sendo que, ti denotam os tempos de sobrevida, i = 1, . . . , n. O parâmetro σ∗ está relacionado

com o parâmetro de forma da distribuição de Weibull (1) pela relação. σ∗ = 1/α O termo εi em

(6) é uma quantidade aleatória com distribuição de valor extremo (ver Lawless, 1982) também

definida como distribuição de valor extremo de tipo I (mínimo) ou distribuição de Gumbel

(Gumbel ,1954) com função densidade de probabilidade dada por ,

𝑓(𝜀) = 𝑒𝑥𝑝(𝜀 − 𝑒𝑥𝑝(𝜀 )) , −∞ < 𝜀 < ∞ (7)

Também observar que o parâmetro de escala λ definido em (1) está relacionado com as

covariáveis a partir da relação,

𝜆𝑖 = 𝑒𝑥𝑝(𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑝𝑥𝑝𝑖) (8)

isto é, o modelo de regressão definido por (6) define um modelo de regressão no parâmetro de

escala (ver por exemplo, Colosimo e Giolo, 2006 ou Cox e Oakes, 1984) assumindo mesmo

parâmetro de forma.

Para o modelo de regressão (6), encontra-se estimadores para os parâmetros de regressão

β0, β1, β2 … , βp e o parâmetro σ∗ usando métodos de máxima verossimilhança (ver por exemplo,

Mood, Graybill e Boes, 1974). Estimadores de máxima verossimilhança para os parâmetros

β0, β1, β2 … , βp e σ∗ são obtidos maximizando-se a função de verossimilhança, 𝐿(𝜽) = 𝛱 𝑓(𝜀𝑖)

onde 𝑓(𝜀𝑖) = 𝑒𝑥𝑝[𝜀𝑖 − 𝑒𝑥𝑝(𝜀𝑖)], 𝑖 = 1, . . . , 𝑛, 𝜽 = (𝛽0 , 𝛽1, 𝛽2 … , 𝛽𝑝 , 𝜎∗ ) e,

𝜎∗ 𝜀𝑖 = 𝑙𝑜𝑔(𝑡𝑖) − [𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑝𝑥𝑝𝑖] (9)

Na prática, em geral maximiza-se o logaritmo da função de verossimilhança na determinação

dos estimadores de máxima verossimilhança usando algum método numérico (por exemplo,

método de Newton-Raphson), usualmente disponíveis em softwares estatísticos.

38

3.1.3. Distribuição de Weibull na presença de covariáveis: uso de métodos

Bayesianos

Para uma análise Bayesiana dos dados assumir agora uma distribuição de Weibull na presença

de covariáveis considerando métodos MCMC (Monte Carlo em Cadeias de Markov, ver por

exemplo, Gelfand e Smith, 1990; Casela e George, 1992; Chib e Greenberg, 1995) e o uso do

software OpenBugs (Spiegelhalter et al, 2003), utilizado para a obtenção das inferências

Bayesianas de interesse. A densidade da distribuição de Weibull é dada em uma forma

reparametrizada de (1) por f(t) = αθtα−1exp{− θtα} onde θ =1

λα (em (1)).

Considerar o modelo de regressão dado por,

𝜃𝑖 = 𝑒𝑥𝑝(𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑝𝑥𝑝𝑖) (10)

Assumir distribuições a priori não-informativas normais N(0, σ2) com valores grandes para σ2

(priori aproximadamente não-informativa) para todos os parâmetros de regressão βr ,

r = 0,1,2, . . . , p ; uma priori uniforme U(0, a) com hiperparâmetro a conhecido para o parâmetro

de forma α e usar o software OpenBugs (burn-in sample = 11000 e 1000 amostras finais tomadas

de 100 em 100). A convergência do algoritmo de simulação MCMC é monitorada a partir de traços

das amostras geradas para todos os parâmetros.

3.2. Uso de modelos de sobrevivência bivariados construídos a partir de funções

cópulas na análise dos dados de sobrevivência SLP e SG

Assumindo dados de sobrevivência dependentes T1 e T2 associados a cada paciente

poderíamos assumir diferentes distribuições paramétricas bivariadas introduzidas na literatura

(ver por exemplo, Freund, 1961; Marshall e Olkin, 1967 a,b; Sarkar, 1987; Downton, 1970;

Gumbel, 1960; Hawkes, 1972; Hougaard, 1986; Arnold e Strauss, 1988; Block e Basu, 1974).

Alternativamente, poderíamos construir distribuições bivariadas de Weibul ou baseada em

qualquer outra distribuição de sobrevida (log-normal, gamma, log-logistica ou gama generalizada,

entre várias outras) usando funções cópulas (ver por exemplo , Nelsen, 1999 ou Trivedi e Zimmer,

2005 a,b).

3.2.1. Funções cópulas

Funções cópulas podem ser usadas para relacionar distribuições marginais com uma

distribuição conjunta. Para funções de distribuições marginais acumuladas

F1(t1), F2(t2), . . . , Fm(tm), a função,

39

𝐶(𝐹1(𝑡1), 𝐹2(𝑡2), . . . , 𝐹𝑚(𝑡𝑚)) = 𝐹 (𝑡1 , 𝑡2, . . . , 𝑡𝑚) (11)

que é definida usando uma função cópula C, resulta em uma função distribuição multivariada com

funções distribuições marginais F1(t1), F2(t2), . . . , Fm(tm). É importante salientar que qualquer

função distribuição multivariada F pode ser escrita na forma de uma função cópula (Sklar, 1959);

isto é, se F (t1, t2, . . . , tm) é uma função distribuição conjunta com funções distribuições

marginais F1(t1), F2(t2), . . . , Fm(tm), então existe uma função cópula C(u1, u2 , . . . , um), tal que,

𝐹 (𝑡1 , 𝑡2, . . . , 𝑡𝑚) = 𝐶(𝐹1(𝑡1), 𝐹2(𝑡2), . . . , 𝐹𝑚(𝑡𝑚)) (12)

Se cada Fi é continua, então C é única.

O procedimento usado na formulação de uma distribuição multivariada usando uma cópula é

baseado na idéia de que uma transformação simples pode ser feita de cada variável marginal de

tal forma que cada variável marginal transformada tem uma distribuição uniforme. Feito isso, a

estrutura de dependência pode ser expressada como uma distribuição multivariada nas uniformes

obtidas e uma cópula é precisamente uma distribuição multivariada nas variáveis aleatórias

uniformes. Dessa forma existem muitas famílias de cópulas que diferem em termos da estrutura

de dependência que elas representam. No caso bivariado, sejam T1 e T2 duas variáveis aleatórias

com funções de distribuição contínua F1 e F2. A transformação de probabilidade integral pode ser

aplicada separadamente para as duas variáveis aleatórias definindo-se U = F1( t1) e V =

F2( t2), onde U e V tem distribuições uniformes em (0, 1) mas são usualmente dependentes se

T1 e T2 são dependentes (T1 e T2 independentes implica que U e V são independentes). A

especificação da dependência entre T1 e T2 é o mesmo que especificar a dependência entre U e V

. Com U e V variáveis aleatórias uniformes, o problema se reduz à especificação de uma

distribuição bivariada entre duas uniformes, isto é, uma cópula.

3.2.2. Função cópula FGM (Farlie-Gumbel-Morgenstern)

Neste estudo, será considerado um modelo de cópula muito popular apropriado para

capturar dependências não muito fortes dada pela função de cópula FGM de Farlie-Gumbel-

Morgenstern (Morgenstern, 1956) dada por,

𝐶(𝑢, 𝑣) = 𝑢𝑣[1 + 𝜃(1 – 𝑢)(1 – 𝑣)] (13)

sendo que, − 1 ≤ θ ≤ 1; u = F1(t1) e v = F2(t2).

Assumir distribuições de probabilidade marginais de Weibull (ver (1)), isto é,

𝐹1(𝑡1) = 1 − 𝑆(𝑡1) = 𝑒𝑥𝑝 {− (𝑡1

𝜆1)

𝑝1

} (14)

𝐹2(𝑡2) = 1 − 𝑆(𝑡2) = 𝑒𝑥𝑝 {− (𝑡2

𝜆2)

𝑝2

}

40

assim, de (13), temos,

𝐹(𝑡1, 𝑡2 , 𝜆1, 𝜆2, 𝑝1, 𝑝2, 𝜃) = [1 − 𝑒𝑥𝑝 {− (𝑡1

𝜆1)

𝑝1

}] [ 1 − 𝑒𝑥𝑝 {− (𝑡2

𝜆2)

𝑝2

} ]

[1 + 𝜃 𝑒𝑥𝑝{− (𝑡1

𝜆1)

𝑝1

− (𝑡2

𝜆2)

𝑝2

}] (15)

Da expressão, S(t1, t2) = 1 − F1(t1) − F2(t2) + F(t1, t2), encontramos,

𝑆(𝑡1 , 𝑡2) = 𝑒𝑥𝑝 {− (𝑡1

𝜆1)

𝑝1

− (𝑡2

𝜆2)

𝑝2

} [1 + 𝜃 {1 – 𝑒𝑥𝑝[− (𝑡1

𝜆1)

𝑝1

][ 1 – 𝑒𝑥𝑝[− (𝑡2

𝜆2)

𝑝2

]} (16)

3.2.3. Análise Bayesiana para os dados bivariados assumindo a cópula FGM e

dados censurados

Assumir que T1 e T2 podem ser censurados e que as censuras sejam independentes dos

tempos de sobrevidas. Dividir as n observações da amostra em quatro classes:

C1: ambos t1i e t2i são tempos de sobrevida completos observados;

C2: t1i é completo e t2i é censurado;

C3: t1i é censurado e t2i é completo;

C4: ambos t1i e t2i são tempos de sobrevida censurados.

A função de verossimilhança assumindo um modelo contínuo (ver por exemplo, Lawless,

1982, página 479) é dada por,

𝐿 = ∏ 𝑓(𝑡1𝑖 , 𝑡2𝑖)𝑖∈𝐶1∏ (−

𝜕𝑆(𝑡1𝑖,𝑡2𝑖)

𝜕𝑡1𝑖)𝑖∈𝐶2

∏ (−𝜕𝑆(𝑡1𝑖,𝑡2𝑖)

𝜕𝑡2𝑖)𝑖∈𝐶3

∏ 𝑆(𝑡1𝑖 , 𝑡2𝑖)𝑖∈𝐶4 (17)

sendo f(t1i, t2i) é a função de probabilidade conjunta para T1 e T2; S(t1i, t2i) é a função de

sobrevida conjunta; ∂S(t1i,t2i)

∂t1i e

∂S(t1i,t2i)

∂t2i são as derivadas parciais de S(t1i, t2i) com respeito à

t1i, t2i , respectivamente.

Definir as variáveis indicadoras δji por, δji = 1 se tji é uma observação completa e δji = 0 se

tji é uma observação censurada para j = 1,2; i = 1, 2, . . . , n.

Assim, podemos reescrever a função de verossimilhança (17) por,

𝐿 = ∏[𝑓(𝑡1𝑖 , 𝑡2𝑖 )]𝛿1𝑖𝛿2𝑖

𝑛

𝑖=1

∏ [−𝜕𝑆(𝑡1𝑖 , 𝑡2𝑖)

𝜕𝑡1𝑖]

𝛿1𝑖(1−𝛿2𝑖)

𝑛

𝑖=1

∏ [−𝜕𝑆(𝑡1𝑖 , 𝑡2𝑖)

𝜕𝑡2𝑖]

(1−𝛿1𝑖)𝛿2𝑖

𝑛

𝑖=1

𝑥

41

𝑥 ∏[𝑆(𝑡1𝑖 , 𝑡2𝑖)](1−𝛿1𝑖)(1−𝛿2𝑖)

𝑛

𝑖=1

(18)

Assumindo distribuições marginais de Weibull, temos em (18),

𝑓2(𝑡1𝑖 , 𝑡2𝑖 ) =𝑝1 𝑝2 𝑡1𝑖

𝑝1−1 𝑡2𝑖

𝑝2−1

𝜆1𝑝1 𝜆2

𝑝2 𝑒𝑥𝑝 {− (

𝑡1𝑖

𝜆1)

𝑝1

− (𝑡2𝑖

𝜆2)

𝑝2

} {1 + 𝜃 − 2𝜃𝑒𝑥𝑝 [− (𝑡1𝑖

𝜆1)

𝑝1

]

− 2𝜃𝑒𝑥𝑝 [− (𝑡2𝑖

𝜆2)

𝑝2

] + 4𝜃𝑒𝑥𝑝 [− (𝑡1𝑖

𝜆1)

𝑝1

− (𝑡2𝑖

𝜆2)

𝑝2

]}

−𝜕𝑆2(𝑡1𝑖 , 𝑡2𝑖 )

𝜕𝑡1𝑖=

𝑝1 𝑡1𝑖𝑝1−1

𝜆1𝑝1

𝑒𝑥𝑝 {− (𝑡1𝑖

𝜆1)

𝑝1

− (𝑡2𝑖

𝜆2)

𝑝2

} {1 + 𝜃 − 2𝜃𝑒𝑥𝑝 [− (𝑡1𝑖

𝜆1)

𝑝1

]

− 𝜃𝑒𝑥𝑝 [− (𝑡2𝑖

𝜆2)

𝑝2

] + 2𝜃𝑒𝑥𝑝 [− (𝑡1𝑖

𝜆1)

𝑝1

− (𝑡2𝑖

𝜆2)

𝑝2

]}

e

−𝜕𝑆2(𝑡1𝑖 , 𝑡2𝑖 )

𝜕𝑡2𝑖=

𝑝2 𝑡2𝑖𝑝2−1

𝜆1𝑝1

𝑒𝑥𝑝 {− (𝑡1𝑖

𝜆1)

𝑝1

− (𝑡2𝑖

𝜆2)

𝑝2

} {1 + 𝜃 − 𝜃𝑒𝑥𝑝 [− (𝑡1𝑖

𝜆1)

𝑝1

]

− 2𝜃𝑒𝑥𝑝 [− (𝑡2𝑖

𝜆2)

𝑝2

] + 2𝜃𝑒𝑥𝑝 [− (𝑡1𝑖

𝜆1)

𝑝1

− (𝑡2𝑖

𝜆2)

𝑝2

]}

Na presença de um vetor de covariáveis x = (x1, x2 , . . . xp), assumir o seguinte modelo de

regressão:

𝜆1𝑖 = 𝛼1𝑒𝑥𝑝 {𝛽1′𝑥𝑖}

𝜆2𝑖 = 𝛼2𝑒𝑥𝑝 {𝛽2′ 𝑥𝑖} (20)

sendo que βj = (βj1, βj2, . . . , βjp) o vetor de parâmetros de regressão associados às covariáveis,

j = 1,2.

Para uma análise Bayesiana (ver por exemplo, Paulino et. al, 2003) , assumir as seguintes

distribuições a priori para os parâmetros do modelo:

𝛼𝑗~𝑈(𝑎𝑗 , 𝑏𝑗)

𝑝𝑗~𝑈(𝑐𝑗, 𝑑𝑗)

42

𝜃~𝑈(𝑒, 𝑓)

𝛽𝑗𝑙~𝑁(0, 𝑔2) (21)

sendo que aj, bj, cj, dj, e, f e g são hiperparâmetros fixados, j = 1,2 e N(0, g2) denota uma

distribuição normal com média igual à zero e variância igual à g2.

4. Resultados

De acordo com a Tabela 2, a maoiria dos pacientes fizeram quimioterapia, tiveram o lado

esquerdo do cólon afetado, com ECOG igual a 0, um tumor moderadamente diferenciado e

adenocarcinoma. Apenas 8 pacientes usaram cetuximabe (terapia anti-EGFR) e 15 pacientes

usaram bevacizumabe (terapia anti-VEGF). As covariáveis que trazem evidencias de afetar os

tempos do sobrevida dos pacientes, segundo o teste não-paramétrico Log Rank são:

Quimioterapia, ECOG, Diferenciação Tumoral, Cetuximabe e Bevacixumabe.

A seguir são apresentados gráficos com o estimador não-paramétrico de Kaplan Meier (Figura

2) para os tempos de sobrevida livre de progressão e sobrevida global em cada covariável. No

geral, por uma análise gráfica, não se observa grandes diferenciações entre as classes das

covariáveis, a não ser, nas covariáveis ECOG, Grau de diferenciação, Estadio N, Estágio clínico e

Quimioterapia, em que o fato de receber quimioterapia aumenta a curva de sobrevida dos

pacientes.

Tabela 2. Análise exploratória das covariáveis.

Variável Quantidade (%) Log Rank

Sobrevida livre de progressão (SLP)

Sobrevida Global (SG)

Sexo 0,0922 0,3670 Feminino 28 (43,8%)

Masculino 36 (56,2%) Idade

0,9540 0,6940 >65 anos 33 (51,6%) <65 anos 31 (48,4%)

Quimioterapia 0,0001 0,0317 Sim 59 (92,2%)

Não 5 (7,8%) Cólon

0,1950 0,2200 Direito 25 (39,1%) Esquerdo 39 (60,9%)

Mutação 0,9150 0,9940 Mutado 35 (54,7%)

Selvagem 29 (45,3%) ECOG

0,0001 0,0001 0 42 (65,6%) 1 15 (23,4%) 2 7 (10,9%)

Diferenciação Tumoral 0,0016 0,0223 Bem 8 (12,5%)

Moderado 48 (75,0%)

43

Pouco 8 (12,5%) Histologia

0,9790 0,8390 Adenocarcinoma 56 (87,5%) Mucinoso 8 (12,5%)

Categoria tumoral T

0,4180 0,2110 T2 4 (6,2%) T3 46 (71,9%) T4 14 (21,9%)

Categoria tumoral N

0,0965 0,1870 N0 15 (23,4%) N1 24 (37,5%) N2 25 (39,1%)

Estágio clínico

0,1940 0,1260 II 7 (10,9%) III 7 (10,9%) IV 50 (78,1%)

Cetuximabe 0,1230 0,0092 Não 56 (87,5%)

Sim 8 (12,5%) Bevacizumabe

0,0231 0,1480 Não 49 (76,6%) Sim 15 (23,4%)

44

Figura 2. Estimadores de Kaplan Meier das covariáveis.

45

A função de taxa de falha empírica (Figura 3) auxilia a escolha da distribuição paramétrica,

neste caso, será utilizada a distribuição de Weibull para ambos os tempos de sobrevida, devido ao

comportamento crescente desta função.

Figura 3. Função taxa de falha empírica.

4.1. Análise frequentista dos tempos SLP e SG assumindo a distribuição de Weibull

sem a presença de covariáveis.

Para uma análise dos tempos de SLP e SG (sobrevida livre de progressão e sobrevida geral)

sem a presença de covariáveis, considera-se a distribuição de Weibull com densidade (1). Foram

obtidos os estimadores de máxima verossimilhança (ver Tabela 3).

Tabela 3. EMV dos parâmetros da distribuição de Weibull sem covariáveis.

Parâmetro

Sobrevida Livre de Progressão Sobrevida Global

Estimativa Intervalo de confiança 95%

Estimativa Intervalo de confiança 95%

Inferior Superior Inferior Superior

Forma 1,09 0,90 1,32 1,09 0,90 1,32 Escala 16,84 13,19 21,49 16,84 13,19 21,49 Média 16,29 12,84 20,67 35,76 27,93 45,78

Desvio-padrão 14,94 10,98 20,34 29,70 20,66 42,69 Mediana 12,03 9,22 15,70 28,14 21,85 36,23

Os gráficos da Figura 4 mostram que o modelo assumindo distribuição Weibull é adequado

aos dois tempos de sobrevida.

Figura 4. Probability plot para o ajuste com distribuição Weibull.

50403020100

0,30

0,25

0,20

0,15

0,10

0,05

0,00

Média 17,8132

Mediana 11,2667

IQR 12,1333

Tempo de sobrevida livre de progressão

Taxa d

e f

alh

a

Sobrevida livre de progressãoFunção Taxa de Falha (empírica)

9080706050403020100

0,5

0,4

0,3

0,2

0,1

0,0

Média 34,5175

Mediana 28,8333

IQR 36,2

Tempo de sobrevida Global

Taxa d

e f

alh

a

Sobrevida GlobalFunção Taxa de Falha (empírica)

1001010,1

99

90

80

70

60

50

40

30

20

10

5

3

2

1

Forma 1,20970

Escala 38,0928

Média 35,7588

DP 29,6975

Mediana 28,1359

SG

Perc

en

t

Probability Plot for SGWeibull - 95% CI

1001010,1

99

90

80

70

60

50

40

30

20

10

5

3

2

1

Forma 1,09122

Escala 16,8358

Média 16,2885

DP 14,9425

Mediana 12,0327

SLP

Perc

en

t

Probability Plot for SLPWeibull - 95% CI

46

4.2. Análise frequentista dos dados SLP e SG assumindo a distribuição de Weibull na

presença de covariáveis

Usando modelos de regressão de Weibull dados por (6) com todas as covariáveis, temos na

Tabela 4 os resultados inferenciais de interesses.

Tabela 4. EMV dos parâmetros da distribuição de Weibull com covariáveis.

Covariáveis Sobrevida Livre de Progressão Sobrevida Global

Coeficiente Estimado

Erro Padrão

Valor p Coeficiente Estimado

Erro Padrão

Valor p

Intercepto 3,61 0,46 4,8E-15 3,65 0,58 3,29E-10

SEXO1 -0,67 0,21 0,002 -0,35 0,27 0,20

IDADE_CAT1 0,25 0,20 0,21 -0,05 0,24 0,83

ECOG1 -0,55 0,21 0,01 -0,64 0,26 0,01

ECOG2 -1,01 0,25 0,0001 -1,06 0,33 0,001 HISTOLOGIA1 0,34 0,27 0,21 0,07 0,29 0,82

GRAU_DIFERENCIACAO1 0,18 0,27 0,50 0,35 0,40 0,39

GRAU_DIFERENCIACAO2 -0,89 0,39 0,02 0,15 0,50 0,77

QUIMIOTERAPIA1 -1,11 0,33 0,0007 -1,95 0,46 2,11E-05

ESTADIO_T1 0,16 0,36 0,65 0,25 0,38 0,51

ESTADIO_T2 0,15 0,41 0,72 0,12 0,40 0,77

ESTADIO_N1 -0,43 0,29 0,15 -1,49 0,67 0,03

ESTADIO_N2 -0,66 0,31 0,03 -1,87 0,60 0,002

COLON_LADO1 0,23 0,17 0,18 0,22 0,22 0,30 EC1 -0,23 0,43 0,59 1,79 0,69 0,009

EC2 -0,45 0,37 0,23 1,51 0,64 0,02

MUTACAO1 0,44 0,19 0,02 -0,10 0,19 0,62

CETUXIMABE1 -0,78 0,24 0,001 -0,55 0,33 0,10

BEVACIZUMABE1 -0,23 0,24 0,33 -0,18 0,29 0,54

Log(escala) -0,68 0,11 1,41E-10 -0,62 0,12 1,5E-07

Dos resultados obtidos na Tabela 4, observa-se que as covariáveis que têm trazem evidência

de afetar o o tempo de SLP são: Sexo, ECOG, Grau de diferenciação, Quimioterapia, Estadio N,

Mutação e Cetuximabe. Também observa-se da Tabela 4 que as covariáveis que apresentam

evidencia de afetar o tempo de SG são: ECOG, Quimioterapia, Estadio N e EC.

4.3. Análise Bayesiana dos tempos de SLP e SG assumindo dados dependentes e

distribuição Weibull na presença de covariáveis usando um modelo de cópula

FGM

Assumir agora as mesmas covariáveis consideradas para os tempos de sobrevivência SLP e SG

supostos anteriormente como variáveis independentes com distribuição de Weibull, consideradas

na seção 4.2. Agora considerando uma estrutura de dependência dada por um modelo de cópula

FGM (seção 3.2).

Para uma análise Bayesiana do modelo definido por (15) e (16) assumir as seguintes

distribuições a priori para os parâmetros do modelo: 𝛼𝑗 ~ 𝑈(0,100), 𝑝𝑗 ~ 𝑈(0,2), 𝜃 ~ 𝑈(0,1) e

47

𝛽𝑗𝑙 ~ 𝑁(0,2) onde 𝑗 = 1,2 e 𝑙 = 1, 2, . . . , 9. Também foi assumido independência a priori entre

todos os parâmetros. Na simulação as amostras da distribuição a posteriori conjunta de interesse

foi usado o software OpenBugs (burn-in sample =11.000 e 1000 amostras finais tomadas de 100

em 100). A convergência do algoritmo de simulação MCMC foi monitorada a partir de traços das

amostras geradas para todos os parâmetros.A Tabela 5 apresenta os sumários a posteriori de

interesse.

Tabela 5. Estimadores Bayesianos, erros-padrões e intervalos de credibilidade 95% para os parâmetros de

regressão de Weibull para covariáveis (dados SLP e SG)

Covariável Parâmetro Média Estimada Desvio-Padrão Intervalo de confiança 95%

Limite Inferior Limite Superior

alpha1 67,69 18,25 31,45 98,13

alpha2 77,61 15,60 43,23 99,22

p1 1,59 0,17 1,27 1,92

p2 1,49 0,18 1,16 1,84

theta 0,85 0,15 0,46 0,99

SEXO beta11 -0,66 0,19 -1,03 -0,29

IDADE_CAT beta12 0,11 0,20 -0,27 0,51

ECOG beta13 -0,56 0,13 -0,81 -0,31

HISTOLOGIA beta14 0,17 0,28 -0,33 0,72

GRAU_DIFERENCIACAO beta15 -0,38 0,24 -0,84 0,11

QUIMIOTERAPIA beta16 -0,99 0,34 -1,62 -0,30

ESTADIO_T beta17 0,04 0,21 -0,36 0,45

ESTADIO_N beta18 -0,24 0,15 -0,54 0,05

COLON_LADO beta19 0,30 0,17 -0,04 0,64

EC beta110 -0,27 0,15 -0,55 0,01

MUTACAO beta111 0,41 0,19 0,03 0,78

CETUXIMABE beta112 -0,74 0,29 -1,29 -0,11

BEVACIZUMABE beta113 -0,20 0,23 -0,67 0,28

SEXO beta21 -0,23 0,22 -0,65 0,17

IDADE_CAT beta22 -0,24 0,24 -0,70 0,25

ECOG beta23 -0,69 0,15 -1,00 -0,39

HISTOLOGIA beta24 0,22 0,33 -0,38 0,97

GRAU_DIFERENCIACAO beta25 -0,02 0,25 -0,51 0,47

QUIMIOTERAPIA beta26 -1,16 0,40 -1,93 -0,28

ESTADIO_T beta27 -0,06 0,21 -0,47 0,33

ESTADIO_N beta28 -0,44 0,18 -0,80 -0,09

COLON_LADO beta29 0,38 0,22 0,00 0,80

EC beta210 0,28 0,19 -0,08 0,67

MUTACAO beta211 0,01 0,22 -0,41 0,44

CETUXIMABE beta212 -0,59 0,37 -1,30 0,20

BEVACIZUMABE beta213 -0,41 0,28 -0,96 0,16

Dos resultados da Tabela 5 podemos concluir que:

As covariáveis SEXO, ECOG, QUIMIOTERAPIA, MUTAÇÃO e CETUXIMABE tem efeito

significativo em em SLP (intervalo de credibilidade 95% para os parâmetros de regressão

associados com as covariáveis não contem o valor zero).

48

As covariáveis ECOG, QUIMIOTERAPIA e ESTADIO.N e tem efeitos significativos em SG

(intervalos de credibilidade 95% para os parâmetros de regressão beta 23, beta 26 e beta28

associados às covariáveis ECOG, QUIMIOTERAPIA e ESTADIO.N não contem o valor zero).

5. Conclusões

Dados de sobrevida multivariados, como o caso do banco de dados utilizado neste estudo,

necessitam de ferramentas estatísticas adequadas para a sua análise, que considerem a

associação entre os tempos de um mesmo indivíduo.

Modelo de cópula é uma ferramenta conveniente para estudar a estrutura de dependência

entre as variáveis observadas e cada cópula representa diferentes estruturas de dependência

(Nelsen, 1999). Neste estudo foi considerada a cópula FMG que se mostra adequada quando os

dados apresentam fraca dependência

A identificação de fatores que afetem os tempos de sobrevida de pacientes oncológicos é de

extrema importância para a evolução dos tratamentos e tecnologias. A análise considerando

distribuições Weibull com o uso de cópulas FGM sob um enfoque bayesiano, evidenciou que os

fatores: sexo, ECOG, quimioterapia, mutação, cetuximabe e estadio N podem afetar o tempo de

sobrevida livre de progressão e o tempo de sobrevida global.

Pacientes que não fizeram quimioterapia apresentaram tempos de SLP e SG menor em

relação aos pacientes que fizeram quimioterapia. Também apresentaram tempos de SLP e SG

diferente os pacientes com diferentes classificações de ECOG, de modo que pacientes com ECOG

0 (zero) apresentaram tempos de sobrevida superiores do que pacientes com ECOG 1 e 2. O

Estadio N mostrou afetar ambos os tempos de sobrevida (SLP e SG), de modo que quanto maior a

presençade células cancerígenas nos linfonodos próximos menor os tempos de sobrevida.

Nos tempos de sobrevida livre de progressão, são evidenciados maiores tempos em sexo

feminino, status de mutação KRAS mutado. O uso de Cetuximabe também mostrou evidencias de

afetar somente o tempo de sobrevida LP, porém apenas 8 pacientes fizeram uso da medicação,

podendo ser na verdade uma fator de confusão, considerando que a gravidade da doença destes

pacientes é diferente dos demais.

O uso de técnicas de cópula para dados bivariados se mostrou bastante eficiente para

evidenciar os fatores relacionados com os tempos de sobrevida dos pacientes com câncer

colorretal.

49

6. Referências

Arnold, B. C.; Strauss, D. (1988). Bivariate distributions with exponential conditionals.Journal of the American Statistical Association, 83(402), 522–527.

Block, H. W.; Basu, A. P. (1974). A continuous bivariate exponential extension. Journal of the American Statistical Association, (69), 1031–1037.

Bouvard, V. et al. (2015) Carcinogenicity of consumption of red and processed meat. The Lancet. Oncology, London, v. 16, n. 16, p. 1599-1600.

Bray F, Ferlay J, Soerjomataram I, Siegel RL, Torre LA, Jemal A Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries CA Cancer J Clin, Published online. <http://dx.doi.org/10.3322/caac.21492>

Boyle, P.; Leon, M. E. (2002) Epidemiology of colorectal cancer. British Medical Bulletin, London, v. 64, n. 1, p. 1-25.

Casella, G.; George, E. I. (1992). Explaining the Gibbs sampler. The American Statistician,(46), 167–174.

Chib, S.; Greenberg, E. (1995). Understanding the Metropolis-Hastings algorithm. The American Statistician, (49), 327–335.

Colosimo, E. A.; Giolo, S. R. (2006). Análise de Sobrevivência Aplicada. Projeto Fisher - ABE. Edgard Blucher Ltda., São Paulo.

Cox, D. R. ; Oakes, D. (1984). Analysis of Survival Data. Chapman & Hall, London.

Downton, F. (1970). Bivariate exponential distributions in reliability theory. Journal of the Royal Statistical Society, B(32), 408–417.

Fedirko, V. et al. (2011) Alcohol drinking and colorectal cancer risk: an overall and dose-response meta-analysis of published studies. Annals of Oncology, Dordrecht, v. 22, n. 9, p. 1958- 1972.

Fischer, N. I. (1997) Copulas. In: Encyclopedia os Statistical Sciences, Update v. 1, p.159-163. John Wiley Sons, New York

Freund, J. E. (1961). A bivariate extension of the exponential distribution. Journal of the American Statistical Association, (56), 971–977.

Gelfand, A. E. ; Smith, A. F. M. (1990). Sampling based approaches to calculating marginal densities. Journal of the American Statistical Association, (85), 398–409.

Gumbel, E. J. (1954). Statistical theory of extreme values and some practical applications. Applied Mathematics Series 33 (1st ed.). U.S. Department of Commerce, National Bureau of Standards

Gumbel, E. J. (1960). Bivariate exponential distributions. Journal of the American Statistical Association, (55), 698–707.

Harriss, D. J. et al. (2009) Lifestyle factors and colorectal cancer risk (2): a systematic review and meta-analysis of associations with leisure-time physical activity. Colorectal disease, Oxford, v. 11, n. 7, p. 689-701.

Hawkes, A. G. (1972). A bivariate exponential distribution with applications to reliability. Journal of the Royal Statistical Society, B(34), 129–131.

Hougaard, P. (1986). Survival models for heterogeneous populations derived from stable distributions. Biometrika, 3(73), 387–396.

INTERFARMA. Câncer no Brasil A jornada do paciente no sistema de saúde e seus impactos sociais e financeiros. 2019. <https://www.interfarma.org.br/public/files/biblioteca/cancer-no-brasil-n-a-jornada-do-paciente-no-sistema-de-saude-e-seus-impactos-sociais-e-financeiros-interfarma.pdf>

Kaplan, E. L.; Meier, P. (1958). "Nonparametric estimation from incomplete observations". J. Amer. Statist. Assn. 53 (282): 457–481.

50

Klein, J. P. ; Moeschberger, M. L. (1997). Survival Analysis: Techniques for Censoredand Truncated Data. Springer-Verlag, New York.

Lawless, J. F. (1982). Statistical Models and Methods for Lifetime Data. John Wiley, New York.

Marshall, A. W. & Olkin, I. (1967a). A generalized bivariate exponential distribution. Journal of Applied Probability, (4), 291–302.

Marshall, A. W. & Olkin, I. (1967b). A multivariate exponential distribution. Journal of the American Statistical Association, (62), 30–44.

Mathers, C. D., & Loncar, D. (2006). Projections of global mortality and burden of disease from 2002 to 2030. PLoS Medicine, 3(11), 2011–2030. https://doi.org/10.1371/journal.pmed.0030442

Ministério da Saúde do Brasil. Diretrizes Diagnósticas e Terapêuticas do Câncer de Cólon e Reto. 2014.

Mood,A.M.; Graybill,F.A.; Boes, D.C (1974) Introduction to the Theory of Statistics. Front Cover. McGraw-Hill.

Morgenstern, D. (1956). Einfache Beispiele Zweidimensionaler Verteilungen. Mitteilingsblatt fur Mathematische Statistik , 8, 234–253.

Nelsen, R. B. (1999). An Introduction to Copulas. Springer-Verlag, New York.

Paulino, C. D., Turkman, M. A. A. ; Murteira, B. (2003). Estatística Bayesiana.Fundação Calouste Gulbenkian, Lisboa.

Sandler, R. S. (1996) Epidemiology and risk factors for colorectal cancer. Gastroenterology Clinics of North America, Philadelphia, v. 25, n.4, p.717-735.

Sarkar, S. K. (1987). A continuous bivariate exponential distribution. Journal of the

American Statistical Association, (82), 667–675.

Sklar, A. (1959). Fonctions de repartition `a n-dimensions et leurs marges. Inst. Stat.

University Paris, (8), 229–231.

Spiegelhalter, D. J.; Thomas, A.; Best, N. G.; Gilks, W. R. (2003). WinBUGS User Manual (version 1.4). MRC Biostatistics Unit, Cambridge, UK.

Trivedi, P. K. ; Zimmer, D. M. (2005a). Copula Modelling. New Publishers, New York.

Trivedi, P. K. ; Zimmer, D. M. (2005b). Copula modelling: An introduction to practicioners. Foundations and trends in econometrics, 1(1), 1–111.

Walter, V. (2014) Smoking and survival of colorectal cancer patients: systematic review and meta-analysis. Annals of Oncology, Dordrecht, v. 25, n. 8, p. 1517-1525.

Weibull, W. (1951). A Statistical distribution function of wide applicability. Journal of Applied Mechanics, pages 292–297.

World Cancer Research Fundation; AMERICAN INSTITUTE FOR CANCER RESEARCH. Pancreatic Cancer 2012 report: food, nutrition, physical activity, and the prevention of colorectal cancer. Washington, DC: American Institute for Cancer Research, 2012. (Continuous Update Project CUP).

51

Apêndice A - Programa Open Bugs (Modelo de Weibull dependente com função de

copula FGM)

model { for (i in 1:N) {

lambda1[i]<- alpha1*exp(beta11*SEXO[i] +beta12*IDADE_CAT[i] +beta13*ECOG[i] +beta14*HISTOLOGIA[i]

+beta15*GRAU_DIFERENCIACAO[i] +beta16*QUIMIOTERAPIA[i] +beta17*ESTADIO_T[i] +beta18* ESTADIO_N [i] +beta19*COLON_LADO[i] +beta110*EC[i] +beta111* MUTACAO[i] +beta112*CETUXIMABE[i] +beta113*BEVACIZUMABE[i])

lambda2[i]<- alpha2*exp(beta21*SEXO[i] +beta22*IDADE_CAT[i] +beta23*ECOG[i] +beta24*HISTOLOGIA[i] +beta25*GRAU_DIFERENCIACAO[i] +beta26*QUIMIOTERAPIA[i] +beta27*ESTADIO_T[i] +beta28* ESTADIO_N [i] +beta29*COLON_LADO[i] +beta210*EC[i] +beta211* MUTACAO[i] +beta212* CETUXIMABE[i]

+beta213*BEVACIZUMABE[i]) zeros[i] <- 0 phi[i] <- -log(L[i])

zeros[i] ~ dpois(phi[i]) a1[i]<- pow(SLP[i]/lambda1[i],p1) a2[i]<- pow(SG[i]/lambda2[i],p2)

b2[i]<- exp(-a1[i]-a2[i]) b1[i]<- 1+theta-2*theta*exp(-a1[i])-2*theta*exp(-a2[i])+4*theta*b2[i] f2[i]<-((p1*p2*a1[i]*a2[i])/(SLP[i]*SG[i]))*b1[i]*b2[i]

c1[i]<- p1*a1[i]/SLP[i] c2[i]<- p2*a2[i]/SG[i] S21[i]<- (c1[i])*(b2[i])*(1+theta-2*theta*exp(-a1[i])-theta*exp(-a2[i])+2*theta*b2[i])

S22[i]<- (c2[i])*(b2[i])*(1+theta-theta*exp(-a1[i])-2*theta*exp(-a2[i])+2*theta*b2[i]) S2[i]<- (b2[i])*(1+theta*(1-exp(-a1[i]))*(1-exp(-a2[i]))) L[i]<- exp(CensuraLP[i]*CensuraG[i]*log(f2[i])+ CensuraLP[i]*(1-CensuraG[i])*log(S21[i]) + (1-

CensuraLP[i])*CensuraG[i]*log(S22[i]) + (1-CensuraLP[i])*(1-CensuraG[i])*log(S2[i])) } alpha1~ dunif(0,100)

alpha2~ dunif(0,100) theta~ dunif(0,1) p1~ dunif(0,2)

p2~ dunif(0,2) beta11~ dnorm(0,1)

beta12~ dnorm(0,1) beta13~dnorm(0,1) beta14~ dnorm(0,1)


beta18~ dnorm(0,1) beta19~ dnorm(0,1) beta110~ dnorm(0,1)


beta21~ dnorm(0,1) beta22~ dnorm(0,1)




beta212~ dnorm(0,1) beta213~ dnorm(0,1) }

52

CAPÍTULO 6. CONCLUSÕES

A estimativa de pontos de corte ótimos (baseados na variável resposta) para covariáveis em

modelos de regressão paramétrica em análise de sobrevivência é de grande interesse em estudos

médicos. Apesar da perda de informações ao usar a dicotomização de uma variável independente

sob um abordagem de modelagem de regressão, esses pontos de corte são muito úteis para um

melhor diagnóstico em diferentes situações médicas.

Uma dessas aplicações é dada quando deseja-se evidenciar possíveis fatores que afetam a

sobrevida dos pacientes. Neste estudo, após a dicotomização das variáveis contínuas, foi possível

evidenciar a relação delas com o tempo de sobrevida. A metodologia proposta pode ser usada

para diferentes distribuições com dados censurados ou sem censura sob uma abordagem

bayesiana e usando métodos de simulação MCMC.

A crescente influência das inovações em tratamentos oncológicos no aumento do tempo

de sobrevida de pacientes após diagnóstico e tratamento de câncer faz surgir o interesse no

estudo dos dois eventos: recidiva e óbito.

No presente estudo também observou-se a necessidade da incorporação de fração de

cura, pois em uma fração dos individuos não se observou o evento de interesse. O modelo

bivariado geométrico de Basu-Dhar foi adequado ao banco de dados que necessitava de uma

modelagem estatístisca que considerasse a dependência entres os tempos observados e a

incorporação da informação de fração de cura. Se mostrou ser uma boa alternativa à dados

bivariados na presença de fração de cura, uma vez que geralmente encontramos dificuldades

computacionais para obter inferências para os parâmentros de interesse usando distribuições

como por exemplo Block-Basu ou Marshal e Olkin. No entanto, uma limitação importante do

modelo bivariado geométrico de Basu-Dhar é que suas funções de risco marginal são constantes e

isso pode ser irreal em alguns casos.

No caso dos dados de pacientes com câncer de cólon, foi aplicado um modelo de cópula

que é uma ferramenta conveniente para estudar a estrutura de dependência entre os tempos de

sobrevida, neste estudo foi considerada a cópula FMG que se mostrou adequada quando os

dados apresentam fraca dependência.

A identificação de fatores que afetem os tempos de sobrevida de pacientes oncológicos é

de extrema importância para a evolução dos tratamentos e tecnologias. A análise considerando

distribuições Weibull com o uso de cópulas FGM sob um enfoque bayesiano, evidenciou quais

53

fatores afetaram os temos de sobrevida dos pacientes e de que forma, fornecendo importantes

informações para o pesquisador especialista.

A depender do objetivo do médico/pesquisador, ferramentas estatísticas de análise de

sobrevivência são muito úteis e capazes de incorporar as caracteristicas individuais de cada

conjunto de dados.

54

APÊNDICE A

PROGRAMA OPEN BUGS (ESTUDO 1)

i. Uncensored data (Krall Data set)

model{ for(i in 1 : N) {

time[i] ~ dweib(r, mu[i]) mu[i] <- exp(beta0+beta1*step(x1[i]-tau1)+ beta2*step(x2[i]-tau2)+ beta3*step(x3[i]-tau3)+ beta4*x4[i] + beta5*step(x5[i]-tau4))

} r ~ dgamma(1,1) beta0 ~ dnorm(1,0.1) beta1 ~ dnorm(0,1) beta2 ~ dnorm(0,1) beta3 ~ dnorm(0,1) beta4 ~ dnorm(0,1) beta5 ~ dnorm(0,1) tau1 ~ dunif(1.3,1.7) tau2 ~ dunif(5,14.6) tau3 ~ dunif(45,70) tau4 ~ dunif(8,18)

}

ii. Grenne e Byar Data set

model{

for(i in 1 : N) { dtime[i] ~ dweib(r, mu[i])I(cen[i],) mu[i] <- exp(beta0+beta1*stage[i]+beta2*step(age[i]-tau1)+beta3*step(weightindex[i]-tau2)+beta4*carddisease[i]+beta5*step(systolic[i]-tau3)+beta6*step(diastolic[i]-tau4)+beta7*step(serum.hemogl[i]-tau5)+beta8*step(sz[i]-tau6)+beta9*step(sg[i]-tau7)+beta10*step(ap[i]-tau8)+beta11*bm[i]+beta12*rx[i])

} r ~ dgamma(1,1) beta0 ~ dnorm(5,0.1) beta1 ~ dnorm(0,1) beta2 ~ dnorm(0,1) beta3 ~ dnorm(0,1) beta4 ~ dnorm(0,1) beta5 ~ dnorm(0,1) beta6 ~ dnorm(0,1) beta7 ~ dnorm(0,1) beta8 ~ dnorm(0,1) beta9 ~ dnorm(0,1) beta10 ~ dnorm(0,1) beta11 ~ dnorm(0,1) beta12 ~ dnorm(0,1) tau1 ~ dunif(48,89) tau2 ~ dunif(69,152) tau3 ~ dunif(8,30) tau4 ~ dunif(4,18) tau5 ~ dunif(5.9,18.2) tau6 ~ dunif(0,69) tau7 ~ dunif(5,15) tau8 ~ dunif(0.1,999.9)

}

iii. German breast cancer Data set

model{ for(i in 1 : N) {

time[i] ~ dweib(r, mu[i])I(cen[i],)

55

mu[i] <- exp(beta0+beta1*step(age[i]-tau.age)+beta2*menopause[i]+beta3*hormone[i]+beta4*step(size[i]-tau.size)+beta5*grade[i]+beta6*step(node[i]-tau.node)+beta7*step(progrecp[i]-tau.progrecp)+beta8*step(estrrecp[i]-tau.estrrecp))

} r ~ dgamma(1,1) beta0 ~ dnorm(8,0.1) beta1 ~ dnorm(0,1) beta2 ~ dnorm(0,1) beta3 ~ dnorm(0,1) beta4 ~ dnorm(0,1) beta5 ~ dnorm(0,1) beta6 ~ dnorm(0,1) beta7 ~ dnorm(0,1) beta8 ~ dnorm(0,1) tau.age ~ dunif(21,80) tau.size ~ dunif(3,120) tau.node ~ dunif(1,51) tau.progrecp ~ dunif(0,2380) tau.estrrecp ~ dunif(0,1144)

56

APÊNDICE B

PROGRAMA OPEN BUGS (ESTUDO 2)

i. Distribuição BDBG na presença de censura e fração de cura

model {

for (i in 1:N) { difT[i] <- t1[i] - t2[i] k1[i] <- 1 - step(difT[i]) k3[i] <- equals(t1[i],t2[i]) k2[i] <- (1-k1[i])*(1-k3[i]) PT1[i] <- (1-p[1]*p[3])*pow(p[1]*p[3],t1[i]-1) PT2[i] <- (1-p[2]*p[3])*pow(p[2]*p[3],t2[i]-1) P1A[i] <- phi[1]*pow(p[1],t1[i]-1)*(1-p[1])*pow(p[2]*p[3],t2[i]-1)*(1-p[2]*p[3]) P1B[i] <- phi[1]*pow(p[2],t2[i]-1)*(1-p[2])*pow(p[1]*p[3],t1[i]-1)*(1-p[1]*p[3]) P1C[i] <- phi[1]*pow(p[1]*p[2]*p[3],t1[i]-1)*(1-p[1]*p[3]-p[2]*p[3]+p[1]*p[2]*p[3]) P2A[i] <- phi[2]*PT1[i]+phi[1]*pow(p[1],t1[i]-1)*(1-p[1])*pow(p[2]*p[3],t2[i]) P2B[i] <- phi[2]*PT1[i]+phi[1]*pow(p[2],t2[i])*pow(p[1]*p[3],t1[i]-1)*(1-p[1]*p[3]) P2C[i] <- P2A[i] P3A[i] <- phi[3]*PT2[i]+phi[1]*pow(p[1],t1[i])*pow(p[2]*p[3],t2[i]-1)*(1-p[2]*p[3]) P3B[i] <- phi[3]*PT2[i]+phi[1]*pow(p[2],t2[i]-1)*(1-p[2])*pow(p[1]*p[3],t1[i]) P3C[i] <- P3B[i] P4[i] <- phi[4]+phi[1]*pow(p[1],t1[i])*pow(p[2],t2[i])*pow(p[3],max(t1[i],t2[i]))+phi[2]*pow(p[1]*p[3],t1[i]-1)+phi[3]*pow(p[2]*p[3],t2[i]-1)P1[i] <- pow(P1A[i],k1[i])*pow(P1B[i],k2[i])*pow(P1C[i],k3[i]) P2[i] <- pow(P2A[i],k1[i])*pow(P2B[i],k2[i])*pow(P2C[i],k3[i]) P3[i] <- pow(P3A[i],k1[i])*pow(P3B[i],k2[i])*pow(P3C[i],k3[i]) L[i] <- pow(P1[i],d1[i]*d2[i])*pow(P2[i],d1[i]*(1-d2[i])) *pow(P3[i],(1-d1[i])*d2[i])*pow(P4[i],(1-d1[i])*(1-d2[i])) logL[i] <- log(L[i]) zeros[i] <- 0 zeros[i] ~ dloglik(logL[i])

} phi[1] <- (1-theta[1])*(1-theta[2]) + w phi[2] <- (1-theta[1])*theta[2] - w phi[3] <- theta[1]*(1-theta[2]) - w phi[4] <- theta[1]*theta[2] + w

} # Prior distributions theta[1] ~ dbeta(1,1) theta[2] ~ dbeta(1,1) p[1] ~ dbeta(1,1) p[2] ~ dbeta(1,1) p[3] ~ dbeta(1,1) w <- g*(min(theta[1],theta[2]) - theta[1]*theta[2]) g ~ dunif(0,1) # Means of the lifetimes m[1] <- 1/(1-p[1]*p[3]) m[2] <- 1/(1-p[2]*p[3]) # Marginal survival functions for (t in 1:120) {

S1[t] <- theta[1]+(1-theta[1])*pow(p[1]*p[3],t-1) S2[t] <- theta[2]+(1-theta[2])*pow(p[2]*p[3],t-1) }

}

ii. Distribuição exponencial bivariada Block e Basu sem a presença de covariáveis

model { lambda<- lambda1+lambda2+lambda3 lambda12<- lambda1+lambda2 lambda13<- lambda1+lambda3 lambda23<- lambda2+lambda3 a1<- (lambda*lambda1*lambda23)/lambda12 a2<- (lambda*lambda2*lambda13)/lambda12 mean1<- 1/lambda13+(lambda2*lambda3)/(lambda*lambda12*lambda13)

57

mean2<- 1/lambda23+(lambda1*lambda3)/(lambda*lambda12*lambda23) d1<-lambda2*lambda3*(2*lambda1*lambda+lambda2*lambda3) var1<-1/pow(lambda13,2)+d1/(pow(lambda,2)*pow(lambda12,2)*pow(lambda13,2)) sd1<-sqrt(var1) d2<-lambda1*lambda3*(2*lambda2*lambda+lambda1*lambda3) var2<-1/pow(lambda23,2)+d2/(pow(lambda,2)*pow(lambda12,2)*pow(lambda23,2)) sd2<-sqrt(var2) b1<-(pow(lambda1,2)+pow(lambda2,2))*lambda3*lambda+lambda1*lambda2*pow(lambda3,2) b2<- pow(lambda,2)*lambda12*lambda13*lambda23 cov12<-b1/b2 rho12<-cov12/(sd1*sd2) for (i in 1:N) { zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) f1[i]<- a1*exp(-lambda1*t1[i]-lambda23*t2[i]) f2[i]<- a2*exp(-lambda13*t1[i]-lambda2*t2[i]) S1[i]<- (lambda/lambda12)*exp(-lambda1*t1[i]-lambda23*t2[i])-(lambda3/lambda12)*exp(-lambda*t2[i]) S2[i]<- (lambda/lambda12)*exp(-lambda13*t1[i]-lambda2*t2[i])-(lambda3/lambda12)*exp(-lambda*t1[i]) Sstar1t1[i]<- (lambda*lambda1)/(lambda12)*exp(-lambda1*t1[i]-lambda23*t2[i])

Sstar2t1[i]<- (lambda*lambda13)/(lambda12)*exp(-lambda13*t1[i]-lambda2*t2[i])- (lambda*lambda3)/(lambda12)*exp(-lambda*t1[i]) Sstar1t2[i]<- (lambda*lambda23)/(lambda12)*exp(-lambda1*t1[i]-lambda23*t2[i])- (lambda*lambda3)/(lambda12)*exp(-lambda*t2[i])

Sstar2t2[i]<- (lambda*lambda2)/(lambda12)*exp(-lambda13*t1[i]-lambda2*t2[i]) L[i]<- exp(v[i]*delta1[i]*delta2[i]*log(f1[i])+ (1-v[i])*delta1[i]*delta2[i]*log(f2[i])+ v[i]*delta1[i]*(1-delta2[i])*log(Sstar1t1[i]) + (1-v[i])*delta1[i]*(1-delta2[i])*log(Sstar2t1[i]) + v[i]*(1-delta1[i])*delta2[i]*log(Sstar1t2[i]) + (1-v[i])*(1-delta1[i])*delta2[i]*log(Sstar2t2[i]) + v[i]*(1-delta1[i])*(1-delta2[i])*log(S1[i]) + (1-v[i])*(1-delta1[i])*(1-delta2[i])*log(S2[i]))

} lambda1~ dgamma(1,100) lambda2~ dgamma(1,100) lambda3~ dgamma(1,100) }

iii. Distribuição exponencial bivariada Block e Basu com a presença de covariáveis

model { for (i in 1:N) {

lambda1[i]<- alpha1* exp(beta11*idade[i]+beta12*herceptin[i]+beta13*estágio[i]+beta14*tipo.cirurgia[i]+beta15*pCR[i]+beta16*estrogênio[i]+beta17*progesterona[i]) lambda2[i]<- alpha2* exp(beta21*idade[i]+beta22*herceptin[i]+beta23*estágio[i]+beta24*tipo.cirurgia[i]+beta25*pCR[i]+beta26*estrogênio[i]+beta27*progesterona[i])

lambda[i]<- lambda1[i]+lambda2[i]+lambda3 lambda12[i]<- lambda1[i]+lambda2[i] lambda13[i]<- lambda1[i]+lambda3 lambda23[i]<- lambda2[i]+lambda3 a1[i]<- (lambda[i]*lambda1[i]*lambda23[i])/lambda12[i] a2[i]<- (lambda[i]*lambda2[i]*lambda13[i])/lambda12[i] zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) f1[i]<- a1[i]*exp(-lambda1[i]*t1[i]-lambda23[i]*t2[i]) f2[i]<- a2[i]*exp(-lambda13[i]*t1[i]-lambda2[i]*t2[i])

S1[i]<- (lambda[i]/lambda12[i])*exp(-lambda1[i]*t1[i]-lambda23[i]*t2[i])-(lambda3/lambda12[i])*exp(-lambda[i]*t2[i]) S2[i]<- (lambda[i]/lambda12[i])*exp(-lambda13[i]*t1[i]-lambda2[i]*t2[i])-(lambda3/lambda12[i])*exp(-lambda[i]*t1[i])

Sstar1t1[i]<- (lambda[i]*lambda1[i])/(lambda12[i])*exp(-lambda1[i]*t1[i]-lambda23[i]*t2[i]) Sstar2t1[i]<- (lambda[i]*lambda13[i])/(lambda12[i])*exp(-lambda13[i]*t1[i]-lambda2[i]*t2[i])- (lambda[i]*lambda3)/(lambda12[i])*exp(-lambda[i]*t1[i]) Sstar1t2[i]<- (lambda[i]*lambda23[i])/(lambda12[i])*exp(-lambda1[i]*t1[i]-lambda23[i]*t2[i])- (lambda[i]*lambda3)/(lambda12[i])*exp(-lambda[i]*t2[i])

Sstar2t2[i]<- (lambda[i]*lambda2[i])/(lambda12[i])*exp(-lambda13[i]*t1[i]-lambda2[i]*t2[i]) L[i]<- exp(v[i]*delta1[i]*delta2[i]*log(f1[i])+ (1-v[i])*delta1[i]*delta2[i]*log(f2[i])+ v[i]*delta1[i]*(1-delta2[i])*log(Sstar1t1[i]) + (1-v[i])*delta1[i]*(1-delta2[i])*log(Sstar2t1[i]) + v[i]*(1-

58

delta1[i])*delta2[i]*log(Sstar1t2[i]) + (1-v[i])*(1-delta1[i])*delta2[i]*log(Sstar2t2[i]) + v[i]*(1-delta1[i])*(1-delta2[i])*log(S1[i]) + (1-v[i])*(1-delta1[i])*(1-delta2[i])*log(S2[i]))

mean1[i]<- 1/lambda13[i]+(lambda2[i]*lambda3)/(lambda[i]*lambda12[i]*lambda13[i]) mean2[i]<- 1/lambda23[i]+(lambda1[i]*lambda3)/(lambda[i]*lambda12[i]*lambda23[i]) }

lambda3~ dgamma(1,100) alpha1~ dgamma(1,1) alpha2~ dgamma(1,1) beta11~ dnorm(0,1) beta12~ dnorm(0,1) beta13~ dnorm(0,1) beta14~ dnorm(0,1) beta15~ dnorm(0,1) beta16~ dnorm(0,1) beta17~ dnorm(0,1) beta21~ dnorm(0,1) beta22~ dnorm(0,1) beta23~ dnorm(0,1) beta24~ dnorm(0,1) beta25~ dnorm(0,1) beta26~ dnorm(0,1) beta27~ dnorm(0,1)

}

iv. Distribuição geométrica bivariada Arnold sem a presença de covariáveis

model { gamma1 <- 1-theta1-theta2 gamma2 <- 1-theta1 gamma3 <- 1-theta2 for (i in 1:N) { zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) a1[i]<- pow(gamma1,t1[i]-1) a2[i]<- pow(gamma3,t2[i]-t1[i]-1) a3[i]<- pow(gamma1,t2[i]-1) a4[i]<- pow(gamma2,t1[i]-t2[i]-1) P1[i]<- theta1*theta2*a1[i]*a2[i] P2[i]<- theta1*theta2*a3[i]*a4[i] a5[i]<- pow(gamma1,t2[i]) a6[i]<- pow(gamma2,t1[i]-t2[i]-1) S1[i]<- theta1*a1[i]*a2[i] S2[i]<- theta1*a5[i]*a6[i] a7[i]<- pow(gamma1,t1[i]) a8[i]<- pow(gamma3,t2[i]-t1[i]-1) a9[i]<- pow(gamma2,t1[i]-t2[i]) R1[i]<- theta2*a8[i]*a7[i] R2[i]<- theta2*a9[i]*a3[i] a10[i]<- pow(gamma3,t2[i]-t1[i]) U1[i]<- a10[i]*a7[i] U2[i]<- a9[i]*a5[i]

L[i]<- exp(v[i]*delta1[i]*delta2[i]*log(P1[i])+(1-v[i])*delta1[i]*delta2[i]*log(P2[i])+v[i]*delta1[i]*(1-delta2[i])*log(S1[i])+

(1-v[i])*delta1[i]*(1-delta2[i])*log(S2[i]) + v[i]*(1-delta1[i])*delta2[i]*log(R1[i]) + (1-v[i])*(1-delta1[i])*delta2[i]*log(R2[i]) + v[i]*(1-delta1[i])*(1-delta2[i])*log(U1[i]) + (1-v[i])*(1-delta1[i])*(1-delta2[i])*log(U2[i]))

} theta1<- p[1] theta2<- p[2] r<- p[3] p[1:3]~ddirich(alpha[]) mean1<-(1-theta1)/theta1 mean2<-(1-theta2)/theta2 }

59

v. Distribuição geométrica bivariada Arnold com a presença de covariáveis

model{ for (i in 1:N) { zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) a1[i] <- 1-theta[i] p1[i] <- theta[i]*pow(a1[i],t1[i]) p2[i] <- pow(a1[i],t1[i]) L[i]<- exp(delta1[i]*log(p1[i])+(1-delta1[i])*log(p2[i]))

logit(theta[i]) <-beta10+beta11*idade[i]+beta12*herceptin[i]+ beta13*estágio[i]+beta14*tipo.cirurgia[i]+beta15*pCR[i]+beta16*estrogênio[i]+beta17*progesterona[i]

mean[i]<-(1-theta[i])/theta[i] }

beta10~dnorm(0,1) beta11~ dnorm(0,1) beta12~dnorm(0,1) beta13~dnorm(0,1) beta14~dnorm(0,1) beta15~dnorm(0,1) beta16~dnorm(0,1) beta17~ dnorm(0,1)

}

vi. Distribuição geométrica bivariada Arnold com a presença de covariáveis e utilizando

distribuições a priori informativas

model { for (i in 1:N) { zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) gamma1[i] <- 1-theta1[i]-theta2[i] gamma2[i] <- 1-theta1[i] gamma3[i] <- 1-theta2[i] a1[i]<- pow(gamma1[i],t1[i]-1) a2[i]<- pow(gamma3[i],t2[i]-t1[i]-1) a3[i]<- pow(gamma1[i],t2[i]-1) a4[i]<- pow(gamma2[i],t1[i]-t2[i]-1) P1[i]<- theta1[i]*theta2[i]*a1[i]*a2[i] P2[i]<- theta1[i]*theta2[i]*a3[i]*a4[i] a5[i]<- pow(gamma1[i],t2[i]) a6[i]<- pow(gamma2[i],t1[i]-t2[i]-1) S1[i]<- theta1[i]*a1[i]*a2[i] S2[i]<- theta1[i]*a5[i]*a6[i] a7[i]<- pow(gamma1[i],t1[i]) a8[i]<- pow(gamma3[i],t2[i]-t1[i]-1) a9[i]<- pow(gamma2[i],t1[i]-t2[i]) R1[i]<- theta2[i]*a8[i]*a7[i] R2[i]<- theta2[i]*a9[i]*a3[i] a10[i]<- pow(gamma3[i],t2[i]-t1[i]) U1[i]<- a10[i]*a7[i] U2[i]<- a9[i]*a5[i]

logit(theta1[i]) <-beta10+beta11*idade[i]+beta12*herceptin[i]+beta13*estágio[i]+beta14*tipo.cirurgia[i]+beta15*pCR[i]+beta16*estrogênio[i]+beta17*progesterona[i] logit(theta2[i]) <- beta20+ beta21*idade[i]+beta22*herceptin[i]+beta23*estágio[i]+beta24*tipo.cirurgia[i]+beta25*pCR[i]+beta26*estrogênio[i]+beta27*progesterona[i] L[i]<- exp(v[i]*delta1[i]*delta2[i]*log(P1[i])+(1-v[i])*delta1[i]*delta2[i]*log(P2[i])+v[i]*delta1[i]*(1-delta2[i])*log(S1[i])+(1-v[i])*delta1[i]*(1-delta2[i])*log(S2[i])+v[i]*(1-delta1[i])*delta2[i]*log(R1[i])+(1-v[i])*(1-delta1[i])*delta2[i]*log(R2[i]) + v[i]*(1-delta1[i])*(1-delta2[i])*log(U1[i])+(1-v[i])*(1-delta1[i])*(1-delta2[i])*log(U2[i]))

} beta10~ dnorm(-1.1500,1) beta11~ dnorm(-0.6106,1) beta12~ dnorm(-0.7497,1) beta13~ dnorm(-0.7921,1)

60

beta14~ dnorm(0.1646,1) beta15~ dnorm(-0.5464,1) beta16~ dnorm(-0.3122,1) beta17~ dnorm(-0.4517,1) beta20~ dnorm(-1.1310,1) beta21~ dnorm(0.0109,1) beta22~ dnorm(-0.8977,1) beta23~ dnorm(-1.3640,1) beta24~ dnorm(0.8478,1) beta25~ dnorm(-0.7906,1) beta26~ dnorm(-0.0024,1) beta27~ dnorm(-0.7040,1)

}

vii. Distribuição geométrica bivariada Basu-Dhar sem a presença de covariáveis

model { for (i in 1:N) { zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) z1[i]<-max(t1[i]-1,t2[i]) z2[i]<-max(t1[i],t2[i]) z3[i]<-max(t1[i],t2[i]-1) log(A1[i])<-(t1[i]-1)*log(p1)+ (t2[i]-1)*(log(p2)+log(p12))+log(1-p1)+log(1-p2*p12) log(A2[i])<-(t1[i]-1)*(log(p1)+log(p2)+log(p12))+ log(1-p1*p2-p2*p12+p1*p2*p12) log(A3[i])<-(t2[i]-1)*log(p2)+ (t1[i]-1)*(log(p1)+log(p12))+log(1-p2)+log(1-p1*p12) log(P11[i])<-delta1[i]*(1-delta2[i])*(1-delta3[i])*log(A1[i])+ delta3[i]*(1-delta1[i])*(1-delta2[i])*log(A2[i])+ delta2[i]*(1-delta1[i])*(1-delta3[i])*log(A3[i]) log(P10[i])<- (t1[i]-1)*log(p1)+ t2[i]*log(p2)+log(pow(p12,z1[i])-p1*pow(p12,z2[i])) log(P01[i])<- t1[i]*log(p1)+(t2[i]-1)*log(p2)+log(pow(p12,z3[i])-p2*pow(p12,z2[i])) log(P00[i])<- t1[i]*log(p1)+t2[i]*log(p2)+z2[i]*log(p12)

log(L[i])<- v1[i]*v2[i]*log(P11[i])+v1[i]*(1-v2[i])*log(P10[i])+(1-v1[i])*v2[i]*log(P01[i])+(1-v1[i])*(1-v2[i])*log(P00[i])

} p1~ dunif(0,1) p2~ dunif(0,1) p12~ dunif(0,1) mean1<-1/(1-p1*p12) mean2<-1/(1-p2*p12)

}

viii. Distribuição geométrica bivariada Basu-Dhar com a presença de covariáveis

model {

for (i in 1:N) { zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) z2[i]<-max(t1[i],t2[i]) logit(p1[i]) <- beta10+beta11*idade[i]+beta12*herceptin[i]+beta13*estágio[i]+beta14*tipo.cirurgia[i]+beta15*pCR[i]+beta16*estrogênio[i]+beta17*progesterona[i] logit(p2[i]) <- beta20+beta21*idade[i]+beta22*herceptin[i]+beta23*estágio[i]+beta24*tipo.cirurgia[i]+beta25*pCR[i]+beta26*estrogênio[i]+beta27*progesterona[i] logit(p12[i]) <- beta30+beta31*idade[i]+beta32*herceptin[i]+beta33*estágio[i]+beta34*tipo.cirurgia[i]+beta35*pCR[i]+beta36*estrogênio[i]+beta37*progesterona[i] log(A1[i])<-(t1[i]-1)*log(p1[i])+ (t2[i]-1)*(log(p2[i])+log(p12[i]))+log(1-p1[i])+log(1-p2[i]*p12[i]) log(A2[i])<-(t1[i]-1)*(log(p1[i])+log(p2[i])+log(p12[i]))+ log(1-p1[i]*p2[i]-p2[i]*p12[i]+p1[i]*p2[i]*p12[i]) log(A3[i])<-(t2[i]-1)*log(p2[i])+ (t1[i]-1)*(log(p1[i])+log(p12[i]))+log(1-p2[i])+log(1-p1[i]*p12[i]) log(P11[i])<-delta1[i]*(1-delta2[i])*(1-delta3[i])*log(A1[i])+delta3[i]*(1-delta1[i])*(1-delta2[i])*log(A2[i])+ delta2[i]*(1-delta1[i])*(1-delta3[i])*log(A3[i]) log(P10[i])<- ((t1[i]-1)*log(p1[i])+ t2[i]*log(p2[i])+ t2[i]*log(p12[i])+ log(1-p1[i]))* delta1[i]+((t1[i]-1)*log(p1[i])+ t1[i]*log(p2[i])+ t1[i]*log(p12[i])+ log(1-p1[i]))*delta3[i]+ ((t2[i])*log(p1[i])+(t1[i]-1)*log(p1[i])+(t1[i]-1)*log(p12[i])+ log(1-p1[i]*p12[i]))*delta2[i]

61

log(P01[i])<- ((t1[i])*log(p1[i])+ (t2[i]-1)*log(p2[i])+ (t2[i]-1)*log(p12[i])+ log(1-p2[i]*p12[i]))*delta1[i]+((t2[i]-1)*log(p2[i])+ t1[i]*log(p1[i])+ t1[i]*log(p12[i])+ log(1-p2[i]))*delta3[i]+((t2[i]-1)*log(p2[i])+(t1[i])*log(p1[i])+(t1[i])*log(p12[i])+log(1-p2[i]))*delta2[i] log(P00[i])<- t1[i]*log(p1[i])+t2[i]*log(p2[i])+z2[i]*log(p12[i]) log(L[i])<- v1[i]*v2[i]*log(P11[i])+v1[i]*(1-v2[i])*log(P10[i])+(1-v1[i])*v2[i]*log(P01[i])+(1-v1[i])*(1-v2[i])*log(P00[i]) mean1[i]<-(1/(1-p1[i]*p12[i])) mean2[i]<-(1/(1-p2[i]*p12[i]))

} beta10~ dnorm(0,1) beta11~ dnorm(0,1) beta12~ dnorm(0,1) beta13~ dnorm(0,1) beta14~ dnorm(0,1) beta15~ dnorm(0,1) beta16~ dnorm(0,1) beta17~ dnorm(0,1) beta20~ dnorm(0,1) beta21~ dnorm(0,1) beta22~ dnorm(0,1) beta23~ dnorm(0,1) beta24~ dnorm(0,1) beta25~ dnorm(0,1) beta26~ dnorm(0,1) beta27~ dnorm(0,1) beta30~ dnorm(0,1) beta31~ dnorm(0,1) beta32~ dnorm(0,1) beta33~ dnorm(0,1) beta34~ dnorm(0,1) beta35~ dnorm(0,1) beta36~ dnorm(0,1) beta37~ dnorm(0,1)

}

Download - Uso de métodos bayesianos na análise de dados de sobrevida ... · Análise de sobrevivência. 2. Ponto de corte. 3. Inferência bayesiana. 4. Distribuição bivariada. Folha de

Top Related