UNIVERSIDADE DE SÃO PAULO
FACULDADE DE MEDICINA DE RIBEIRÃO PRETO
DEPARTAMENTO DE MEDICINA SOCIAL
Uso de métodos bayesianos na análise de dados de sobrevida
na presença de censuras, fração de cura, covariáveis e dados
bivariados.
TATIANA REIS ICUMA
Ribeirão Preto - SP 2019
TATIANA REIS ICUMA
Uso de métodos bayesianos na análise de dados de sobrevida
na presença de censuras, fração de cura, covariáveis e dados
bivariados.
Tese apresentada ao Departamento de
Medicina Social da Faculdade de Medicina de
Ribeirão Preto da Universidade de São Paulo,
para obtenção do título de Doutora em
Ciências.
Área de concentração: Saúde na comunidade
Orientador: Profº. Drº. Jorge Alberto Achcar
Ribeirão Preto - SP
2019
AUTORIZO A REPRODUÇÃO E DIVULGAÇÃO TOTAL OU PARCIAL DESTE TRABALHO, POR
QUALQUER MEIO CONVENCIONAL OU ELETRÔNICO, PARA FINS DE ESTUDO E PESQUISA,
DESDE QUE CITADA A FONTE.
Ficha Catalográfica
Icuma, Tatiana Reis
Uso de métodos bayesianos na análise de dados de sobrevida
na presença de censuras, fração de cura, covariáveis e dados
bivariados. Ribeirão Preto, 2019. 60p. : il ; 30cm Tese de doutorado, apresentada à Faculdade de Medicina de
Ribeirão Preto/USP. Área de concentração: Saúde na Comunidade.
Orientador: Achcar, Jorge Alberto.
1. Análise de sobrevivência. 2. Ponto de corte. 3. Inferência bayesiana. 4. Distribuição bivariada.
Folha de Aprovação
Nome: Tatiana Reis Icuma
Título: Uso de métodos bayesianos na análise de dados de sobrevida na presença de censuras,
fração de cura, covariáveis e dados bivariados.
Tese apresentada ao Programa de Pós-graduação em
Saúde na Comunidade da Faculdade de Medicina de
Ribeirão Preto da Universidade de São Paulo, para
obtenção do título de Doutora.
Área de concentração: Saúde na comunidade.
Aprovado em: ____/____/____
Banca Examinadora
Prof.(a) Dr.(a) ________________________________________ Instituição: ______
Julgamento: ____________________________________ Assinatura: ___________
Prof.(a) Dr.(a) ________________________________________ Instituição: ______
Julgamento: ____________________________________ Assinatura: ___________
Prof.(a) Dr.(a) ________________________________________ Instituição: ______
Julgamento: ____________________________________ Assinatura: ___________
Prof.(a) Dr.(a) ________________________________________ Instituição: ______
Julgamento: ____________________________________ Assinatura: ___________
AGRADECIMENTOS
À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) pela bolsa de
estudos no primeiro semestre do curso de Doutorado.
RESUMO
ICUMA, Tatiana Reis. Uso de métodos bayesianos na análise de dados de sobrevida na
presença de censuras, fração de cura, covariáveis e dados bivariados. 2019. 60 páginas.
Dissertação (Mestrado) – Faculdade de Medicina de Ribeirão Preto – USP, Ribeirão Preto – SP
– Brasil, 2019.
A incidência e mortalidade por câncer estão crescendo rapidamente em todo o mundo. Em 2018 foi observado 18,1 milhões de novos casos de câncer e 9,6 milhões de mortes em decorrência da doença. As razões são complexas, mas refletem o envelhecimento e o crescimento da população, bem como alterações na prevalência e distribuição dos principais fatores de risco. A constante pesquisa de dados oncológicos tem gerado importantes informações e evidencias para a construção de conhecimentos a repeito da doença. Sendo assim, é cada vez mais importante e necessário o uso, a busca e o aprimoramento de ferramentas estatisicas adequadas capazes de produzir inferências consistentes e confiáveis, sendo úteis para a identificação e compreensão de fatores de risco, fatores de prognóstico. Nesse trabalho são aprentados métodos estatísticos de análise de sobrevivência aplicados a dados oncológicos. O primeiro, consiste na categorização de covariáveis contínuas, determinando possíveis de pontos de corte em análise de sobrevicência na resença ou não de censuras sob um enfoque bayesiano. O segundo, traz uma abordagem bayesiana do modelo bivariado geometrico de Basu-Dhar na presença de censuras e fração de cura. Por fim, o terceiro, são cópulas Farlie-Gumbel-Morgenstern (FGM) na presença de censuras sob um enfoque Bayesiano. Essas metodologias são aplicadas a dados oncológicos reais de estudos de mieloma múltiplo, câncer de próstata, de mama, de cólon e retinoplastia diabética.
PALAVRAS-CHAVE: Análise de sobrevivência. Ponto de corte. Inferência bayesiana.
Distribuição bivariada.
ABSTRACT
ICUMA, Tatiana Reis. Use of Bayesian methods in survival data analysis in presence of
censoring, fraction cure, covariates and bivariate data. 2019. 60 páginas. Dissertação
(Mestrado) – Faculdade de Medicina de Ribeirão Preto – USP, Ribeirão Preto – SP – Brasil,
2019.
Cancer incidence and mortality are growing rapidly worldwide. In the year of 2018 it was
observed 18.1 million new cancer cases and 9.6 million deaths from the disease. The reasons
for these high numbers are complex, but they reflect aging and population growth, as well as
changes in the prevalence and distribution of major risk factors. The constant research of
cancer data has generated important information and evidence for the construction of
knowledge regarding to the disease. Thus, it is increasingly important and necessary new
research studies on this disease and to improve appropriate statistical tools capable of
producing consistent and reliable inferences, being useful for the identification and
understanding of risk factors or prognostic factors. In this work, we present different survival
analysis statistical methods applied to oncological data. The first one consists in the
categorization of continuous covariates, determining possible cutoffs in covariates for survival
analysis regression models in presence or absence of censorship under a Bayesian approach.
The second one introduces a Bayesian approach for the Basu-Dhar geometric bivariate model
for survival discrete models in presence of censorship and cured fraction. Finally, the third one
is related to the Farlie-Gumbel-Morgenstern (FGM) copula model for bivariate survival data in
presence of censorship under a Bayesian approach. These methodologies are applied to actual
cancer data from multiple myeloma, prostate, breast, colon, and diabetic retinoplasty studies.
KEYWORDS: Survival analysis. Cutoff. Bayesian Inference. Bivariate distribution.
SUMÁRIO
CAPÍTULO 1. INTRODUÇÃO……………………………………………………………………………………………. 10
1.1. MOTIVAÇÃO……………………………………………………………………………………………………………. 10
1.2. ALGUNS CONCEITOS TEÓRICOS………………………………………………………………………………. 13
1.2.1. CONCEITOS BÁSICOS EM ANÁLISE DE SOBREVIVÊNCIA……………………………………… 13
1.2.2. USO DE MÉTODOS BAYESIANOS EM ANÁLISE DE SOBREVIVÊNCIA: ALGUNS CONCEITOS BÁSICOS………………………………………………………………………………………….
14
1.2.3. MODELOS DE REGRESSÃO PARAMÉTRICA EM ANÁLISE DE SOBREVIVÊNCIA…………..……………………………………………………………………………………
19
1.2.4. CATEGORIZAÇÃO DE COVARIÁVEIS CONTÍNUAS…………………………………………………….…………………………………………………
20
1.2.5. ANÁLISES BIVARIADAS (DEPENDÊNCIA) …………………………………………………………… 22
CAPÍTULO 2. OBJETIVOS…………………………………………………………………………………………………. 26
CAPÍTULO 3. ESTUDO 1 – DETERMINAÇÃO DE PONTO DE CORTE ÓTIMO EM ANÁLISE DE SOBREVIVÊNCIA………………………………………………………………………………………………………………
27
CAPÍTULO 4. ESTUDO 2 – MODELOS BIVARIADOS DE ANÁLISE DE SOBREVIVÊNCIA ASSUMINDO DISTRIBUIÇÕES DISCRETAS…………………………………………………………………………
29
CAPÍTULO 5. ESTUDO 3 – "DADOS DE SOBREVIDA BIVARIADOS E O USO DE CÓPULA FGM SOB O ENFOQUE BAYESIANO – UMA APLICAÇÃO EM DADOS DE PACIENTES COM CÂNCER COLORRETAL".…………………………………………………………………………………………………..
32
CAPÍTULO 6. CONCLUSÕES……………………………………………………………………………………………. 52
APÊNDICE A……………………………………………………………………………………………………………………. 54
APÊNDICE B……………………………………………………………………………………………………………………. 56
ORGANIZAÇÃO DA TESE
O presente volume se encontra no formato de uma coletânea de artigos e está distribuído
em 6 capítulos conforme descrito abaixo:
O capítulo 1 trata-se da introdução da tese, contendo a motivação, considerada de
interesse para a saúde pública, conceitos teóricos que não são descritos em detalhes nos
artigos apresentados, mas são importantes para munir o leitor com ferramentas que facilitem
a leitura do texto.
O capítulo 2 contém o objetivo geral do estudo, com motivação de interesse para a saúde
pública e os objetivos específicos aborados em cada artigo apresentado.
Os caítulos 3 e 4 correspondem ao desenvolvimento da tese nos quais são apresentados os
artigos científicos publicados em revistas especializadas.
O capítulo 5 apresenta um artigo cientifico que está pronto para a submissão em revista
especializada. Ele foi elaborado a partir de um estudo com pacientes com câncer de cólon
atendidos no Hospital das Clínicas de Ribeirão Preto.
Por fim, o capítulo 6 traz algumas considerações finais e conclusões.
10
CAPÍTULO 1. INTRODUÇÃO
1.1. MOTIVAÇÃO
Segundo dados publicados pelo Centro Internacional para Pesquisa do Câncer ,
GLOBOCAN/IARC (FERLAY et al., 2018) em 2018 houve 18,1 milhões de novos casos de câncer e
9,6 milhões de mortes em decorrência da doença. As doenças e agravos não transmissíveis
(DANT) são agora responsáveis pelo adoecimento e pela maioria das mortes globais, e espera-se
que o câncer se classifique como a principal causa de morte e uma barreira importante para o
aumento da expectativa de vida em todos os países do mundo no século 21. Segundo estimativas
da Organização Mundial da Saúde (OMS) em 2015, o câncer é a primeira ou a segunda principal
causa de morte antes dos 70 anos em 91 dos 172 países, e ocupa o terceiro ou quarto lugar em
mais 22 países (Figura 1).
Figura 1. Mapa mundial que apresenta o ranking nacional de câncer como causa de morte em idades inferiores a 70 anos em 2015. Fonte: Organização Mundial da Saúde.
A incidência e mortalidade por câncer estão crescendo rapidamente em todo o mundo. As
razões são complexas, mas refletem o envelhecimento e o crescimento da população, bem como
alterações na prevalência e distribuição dos principais fatores de risco para o câncer, vários dos
quais estão associados ao desenvolvimento socioeconômico.
11
Com o rápido crescimento populacional e o envelhecimento em todo o mundo, a
crescente proeminência do câncer como uma das principais causas de morte reflete em parte os
declínios acentuados nas taxas de mortalidade por acidente vascular cerebral e doença cardíaca
coronária, em relação ao câncer, em muitos países. As transições demográficas e epidemiológicas
globais sinalizam um impacto cada vez maior da carga de câncer nas próximas décadas (FERLAY et
al., 2013).
O cenário no Brasil, segundo dados do Instituto Nacional de Câncer José Alencar Gomes
da Silva (INCA) para o biênio 2018-2019, estima-se que cerca de 600 mil novos casos de câncer
surgem por ano no País, e as projeções indicam que o problema deve se agravar cada vez mais
nas próximas décadas, principalmente, com o envelhecimento populacional e com as mudanças
para estilos de vida que favorecem fatores de risco para o surgimento da doença. Os cânceres de
próstata, pulmão, mama feminina e cólon e reto estão entre os mais incidentes, entretanto ainda
com altas taxas para os cânceres do colo do útero, estômago e esôfago. À exceção do câncer de
pele não melanoma, os tipos de câncer mais incidentes em homens serão próstata (31,7%),
pulmão (8,7%), intestino (8,1%), estômago (6,3%) e cavidade oral (5,2%). Nas mulheres, os
cânceres de mama (29,5%), intestino (9,4%), colo do útero (8,1%), pulmão (6,2%) e tireoide (4,0%)
figurarão entre os principais.
As transições demográficas e epidemiológicas pelas quais o País vem passando já
sinalizam a carga cada vez maior do câncer no Brasil, no qual vem crescendo a proporção de
óbitos por neoplasias, dentre outras doenças crônicas não transmissíveis (Figura 2).
Figura 2. Perfil de óbitos por CID-10 no Brasil: comparação entre 1998 e 2016. Fonte: Interfarma, 2019.
12
Estima-se que a doença já seja responsável por mais de 200 mil mortes anuais no País
(Interfarma, 2019). No entanto, apesar dos esforços e investimentos dos últimos anos, o Brasil
ainda possui deficiências importantes no diagnóstico e tratamento de câncer, que afetam tanto a
chance de cura quanto a qualidade de vida dos pacientes. Quanto maior o atraso para o início do
tratamento do câncer, mais avançada é a doença e maiores são os impactos sociais e financeiros
associados a ela. A falta de tratamentos e as inequidades no acesso à rede assistencial também
agravam o problema. Desta forma, a jornada do paciente com câncer também é altamente
afetada pelo sistema de saúde em que está inserido, devido a diferenças entre instituições,
regiões e tipos de cobertura e acesso aos tratamentos e serviços de saúde oferecidos no Sistema
Único de Saúde (SUS) e na saúde suplementar (planos de saúde).
Há evidências crescentes quanto à influência de inovações em tratamentos oncológicos
na chance de sobrevivência de pacientes após diagnóstico e tratamento de câncer, assim como
em termos de redução do risco de incidência e melhoria na qualidade de vida durante o
tratamento (WCRF/AICR, 2014).
Na busca por respostas a alguns questionamentos, como: por que alguns pacientes têm
recidiva tumoral e outros não? Quais são os fatores que predipõe à recidiva? O que faz um tumor
ser menos agressivo? A constante pesquisa de dados oncológicos tem gerado importantes
informações para a construção de conhecimentos a repeito da doença.
Sendo assim, é cada vez mais importante e necessário o uso, a busca e o aprimoramento
de ferramentas estatísticas adequadas capazes de produzir inferências consistentes e confiáveis.
13
1.2. ALGUNS CONCEITOS TEÓRICOS
1.2.1. CONCEITOS BÁSICOS EM ANÁLISE DE
SOBREVIVÊNCIA
A análise de sobrevivência é relacionada a um conjunto técnicas estatísticas aplicadas a
situações quando se pretende analisar dados relacionados ao tempo de ocorrência de algum
evento de interesse, isto é, ao tempo transcorrido entre um evento inicial, no qual o indivíduo
entra em um estado particular e um evento final, que modifica este estado.
Em análise de sobrevivência, a variável resposta é, geralmente, o tempo de sobrevida.
Define-se sobrevida como o intervalo de tempo desde a entrada do indivíduo no estudo até a
ocorrência do evento de interesse, podendo este evento ser o tempo de falha ou óbito, tempo de
recuperação ou cura ou o tempo até o término do estudo. O diferencial das técnicas de análise de
sobrevivência em relação á outras técnicas estatísticas é a possibilidade de considerar dados
censurados, ou seja, indivíduos que apresentam apenas informação parcial da resposta. Isto se
refere às situações em que por alguma razão houve a perda de seguimento durante o estudo, ou
seja, o acompanhamento do paciente foi interrompido, seja porque o paciente mudou de cidade
ou o paciente morreu por uma causa que não seja a estudada. Sem a presença de censuras, as
técnicas estatísticas clássicas, como a análise de regressão, análise de variância e outros modelos
estatisticos associados à planejamento de experimentos, poderiam ser utilizadas na análise
desses tipos de dados (Colosimo e Giolo, 2006).
Os dados censurados, resultados provenientes de um estudo de sobrevivência devem ser
usados na análise, pois fornecem informações sobre o tempo de sobrevida de pacientes e a sua
omissão no cálculo das estatísticas de interesse pode acarretar conclusões viciadas. Existem várias
formas de censuras, sendo a mais usual a censura à direita, que ocorre quando o evento de
interesse não é observado até o término do estudo ou até o ultimo instante em que o individuo é
acompanhado. Censuras aleatórias são frequentes na área médica; elas acontecem quando um
paciente é retirado no decorrer do estudo sem ter ocorrido o evento de interesse ou também,
podem ocorrer caso o paciente apresente óbito devido à outra doença diferente da doença
estudada.
Na análise de sobrevivência, o tempo de vida ou tempo de sobrevida é denotado por uma
variável aleatória não negativa 𝑇 ≥ 0 que pode ser expressa através da função densidade de
probabilidade 𝑓(𝑡), da função de sobrevivência 𝑆(𝑡) = 𝑃( 𝑇 > 𝑡) ou a função de risco, ℎ(𝑡).
14
A função densidade de probabilidade é definida como o limite da probabilidade de
observar o evento de interesse em um individuo no intervalo de tempo [𝑡, 𝑡 + 𝛥𝑡] por unidade de
tempo, expressa por,
𝑓(𝑡) = 𝑙𝑖𝑚∆𝑡→0𝑃(𝑡≤𝑡+∆𝑡)
∆𝑡 (1)
em que 𝑓(𝑡) ≥ 0, para todo 𝑡, e tem área abaixo da curva igual a 1 para 𝑡 > 0.
A função de sobrevivência 𝑆(𝑡) é definida como a probabilidade de um indivíduo
sobreviver pelo menos até um tempo 𝑡 qualquer, isto é, a probabilidade de ocorrer o evento além
de 𝑡, e é dada por,
𝑆(𝑡) = 𝑃(𝑇 > 𝑡) = 1 − 𝐹(𝑡) (2)
em que 𝐹(𝑡) = 𝑃(𝑇 ≤ 𝑡) é a função distribuição acumulada em 𝑡.
Da função de sobrevivência 𝑆(𝑡) é possível obter a função densidade de
probabilidade 𝑓(𝑡), da relação,
𝑓(𝑡) = −𝑑
𝑑𝑡𝑆(𝑡) =
𝑑
𝑑𝑡𝐹(𝑡) (3)
em que 𝑑
𝑑𝑡 denota a derivada da função em relação à t.
A função de risco é utilizada para descrever como o risco do evento muda com o tempo 𝑡.
Essa função é definida como a probabilidade do evento ocorrer no intervalo de tempo [𝑡, 𝑡 + ∆𝑡],
dado que o individuo tenha sobrevivido pelo menos até o tempo 𝑡, e é dada por,
ℎ(𝑡) = 𝑙𝑖𝑚∆𝑡→0𝑃(𝑡≤𝑇<𝑡+∆𝑡|𝑇≥𝑡)
∆𝑡 (4)
A função de risco também pode ser obtida da relação entre a função densidade de
probabilidade 𝑓(𝑡) e a função de sobrevivência 𝑆(𝑡),
ℎ(𝑡) =𝑓(𝑡)
𝑆(𝑡)= −
𝑑
𝑑𝑡𝑙𝑜𝑔 𝑆(𝑡) (5)
1.2.2. USO DE MÉTODOS BAYESIANOS EM ANÁLISE DE
SOBREVIVÊNCIA: ALGUNS CONCEITOS BÁSICOS
A estatística bayesiana tem sido cada vez mais utilizada como uma alternativa a estatística
clássica ou frequentista. Os métodos bayesianos têm se mostrado muito eficazes e poderosos na
15
análise de dados, principalmente na área da saúde, onde em muitos casos o tamanho amostral é
pequeno, nessas condições, teorias assintóticas (presentes na frequentista) podem não ser são
recomendadas.
Na prática, a maior diferença entre as duas técnicas estatísticas é que a metodologia
bayesiana tenta medir o grau de incerteza que se tem sobre a ocorrência de um determinado
evento do espaço amostral, utilizando distribuições de probabilidades a priori dos parâmetros do
modelo estatistico assumido na análise dos dados e a informação amostral (verossimilhança). A
inferência bayesiana se caracteriza por calcular uma função densidade de probabilidade conjunta
(densidade a posteriori) sobre todos os possíveis vetores de parâmetros (espaço dos parâmetros).
Na inferência bayesiana, a incerteza sobre os parâmetros desconhecidos associa-se uma
distribuição de probabilidade (Gianola e Fernando, 1986), enquanto que, na inferência
frequentista, os parâmetros são valores fixos ou constantes, aos quais não se associam a qualquer
distribuição (Blasco, 2001). No contexto bayesiano, o objetivo é, condicionalmente aos dados 𝑦
observados, descrever a incerteza sobre o valor de algum parâmetro 𝜃 não observado, em termos
de probabilidades ou densidades (Box e Tiao, 1992). O parâmetro 𝜃 pode ser um escalar ou um
vetor de parâmetros.
A informação acerca de um parâmetro 𝜃, também chamada de distribuição a priori, é
incorporada ao estudo através do uso do teorema de Bayes, que combina a informação contida
nos dados, resultando na distribuição a posteriori. Dessa forma é possível incorporar na análise de
dados o conhecimento de um pesquisador ou especialista, quando disponível. A fundamentação
da teoria de inferência Bayesiana é baseada na fórmula de Bayes.
Fórmula de Bayes
Sejam os eventos 𝐴1 , 𝐴2, … , 𝐴𝑘 formando uma sequência de eventos mutualmente
exclusivos e exaustivos formando uma partição do espaço amostral 𝛺, isto é, ⋃ 𝐴𝑗 = 𝛺𝑘𝑗=1 e
𝐴𝑖 ∩ 𝐴𝑗 = ∅ (conjunto vazio) para 𝑖 ≠ 𝑗 tal que 𝑃(⋃ 𝐴𝑗𝑘𝑗=1 ) = ∑ 𝐴𝑗
𝑘𝑗=1 = 1.
então para qualquer outro evento 𝐵(𝐵 ⊂ 𝛺), temos
𝑃(𝐴𝑖|𝐵) =𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖)
∑ 𝑃(𝐵|𝐴𝑗)𝑃(𝐴𝑗)𝑘𝑗=1
(6)
para todo 𝑖 variando de 1 até 𝑘.
16
Seja 𝜽 um vetor de parâmetros s serem estimados. Logo, pelo teorema de Bayes, tem-se a
seguinte distribuição de probabilidade a posteriori para 𝜽.
𝜋(𝜽|𝒚) =𝜋(𝜽)𝑓(𝑦|𝜽)
∫ 𝜋(𝜽)𝑓(𝑦|𝜽)𝑑𝜽 (7)
assumindo que 𝜽 seja contínuo, 𝜋(𝜽) é a distribuição a priori conjunta para 𝜽 e 𝑓(𝑦|𝜽) = 𝐿(𝜽) =
∏ 𝑓(𝑦𝑖|𝜽) 𝑛𝑖=1 a função de verossimilhança de 𝜽.
Assim, a partir da fórmula de Bayes, temos,
𝜋(𝜽|𝑦) ∝ 𝐿(𝜽|𝑌)𝜋(𝜽) (8)
Assim temos 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑎 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑖 ∝ 𝑣𝑒𝑟𝑜𝑠𝑠𝑖𝑚𝑖𝑙ℎ𝑎𝑛ç𝑎 𝑥 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑎 𝑝𝑟𝑖𝑜𝑟𝑖,
sendo que o símbolo ∝ representa proporcional. Assumindo que 𝜽 seja discreto, substituir o sinal
de integral no denominador de (7) por um sinal de somatório variando em todos valores discretos
possiveis do parâmetro em seu espaço paramétrico.
A função de probabilidade a priori representa o conhecimento prévio a respeito dos
elementos de 𝜽 antes da observação dos dados, refletindo a incerteza em relação aos possíveis
valores de 𝜽 antes do vetor de dados 𝒚 ser selecionado. A função de densidade (ou função massa
de probabilidade no caso discreto) a posteriori incorpora o estado de incerteza do conhecimento
prévio a respeito do parâmetro 𝜽 após a observação dos dados em 𝒚 e a função de
verossimilhança representa a contribuição de 𝒚 para o conhecimento sobre 𝜽.
Distribuições a priori
Uma distribuição a priori para um parâmetro pode ser elicitada de várias formas:
(a) Podemos assumir distribuições a priori definidas no domínio de variação do parâmetro
de interesse. Como caso particular, poderíamos considerar uma distribuição a priori Beta que é
definida no intervalo (0, 1) para proporções que também são definidas no intervalo (0, 1) ou
considerar uma priori normal para parâmetros definidos em toda reta;
(b) Podemos construir uma priori baseada em informações de um ou mais especialistas;
(c) Podemos considerar métodos estruturais de elicitação de distribuições a priori (ver,
por exemplo, Paulino et al, 2003);
(d) Podemos considerar distribuições a priori não informativas quando temos total
ignorância sobre os parâmetros de interesse;
17
(e) Podemos usar métodos Bayesianos empíricos em dados ou experimentos prévios para
construir a priori de interesse.
Métodos de simulação para amostras da distribuição a posteriori
Na obtenção de sumários a posteriori é necessário resolver integrais múltiplas, muitas
vezes, complicadas, o que exige o uso de métodos numéricos ou de aproximações de integrais,
especialmente quando a dimensão do vetor de parâmetros é grande.
Daí surge a necessidade do uso de métodos computacionais poderosos, como os métodos
de Monte Carlo em cadeias de Markov (MCMC) que incluem alguns algoritmos de simulação de
amostras da distribuição a posteriori conjunta de interesse, como os algoritmos de Metropolis-
Hastings e o amostrador de Gibbs. É importante salientar que os métodos com base em simulação
de amostras da distribuição a posteriori conjunta de interesse, como, por exemplo, o método de
Monte Carlo em cadeias de Markov (MCMC), passaram a ser muito utilizados com o avanço dos
recursos computacionais em termos de harware e software. Esses métodos consistem na
simulação de uma variável aleatória através de uma cadeia de Markov, no qual a sua distribuição
assintóticamente se aproxima da distribuição a posteriori de interesse (ver, por exemplo,
Bernardo e Smith, 1994).
Uma cadeia de Markov é um processo estocástico no qual estados futuros são
independentes de estados passados dado o estado presente.
No entanto, como existe certa dependência com os valores iniciais fixados no processo
de simulação, na prática uma amostra simulada inicial é descartada após um período de
aquecimento, chamada “Burn-in- sample”.
As formas mais usuais de simulação dos métodos MCMC são dadas pelo amostrador de
Gibbs e o algoritmo de Metropolis-Hastings. Essas duas formas simulam amostras da distribuição
a posteriori conjunta a partir das distribuições condicionais a posteriori completas (ver, por
exemplo, Gelfand e Smith, 1990; Chib e Greenberg, 1995).
O amostrador de Gibbs nos permite gerar amostras da distribuição a posteriori conjunta
desde que as distribuições condicionais completas possuam formas fechadas ou conhecidas. Por
outro lado, o algoritmo de Metropolis-Hasting permite gerar amostras da distribuição a posteriori
conjunta com distribuições condicionais completas possuindo ou não uma forma conhecida ou
fechada.
18
O amostrador de Gibbs
Supor que 𝜽 = (𝜃1, … , 𝜃𝑘) seja um vetor de parâmetros aleatórios e 𝒚 seja o vetor dos
dados observados; tem-se como objetivo, obter inferências sobre a distribuição a posteriori
conjunta 𝜋(𝜽|𝒚) = 𝜋(𝜃1, … , 𝜃𝑘|𝒚) (Bernardo e Smith, 1994).
Dado um vetor arbitrário de valores iniciais 𝜃1 (0)
, … , 𝜃𝑘 (0)
para as quantidades
desconhecidas, implementa-se o seguinte procedimento iterativo:
Obtém-se 𝜃1(1)
de π (𝜃1|𝒚, 𝜃2(0)
, … , 𝜃𝑘(0)
)
Obtém-se 𝜃2(1)
de π (𝜃2|𝒚, 𝜃1(1)
, 𝜃3(0)
, … , 𝜃𝑘(0)
)
Obtém-se 𝜃3(1)
de π (𝜃3|𝒚, 𝜃1(1)
, 𝜃2(1)
, 𝜃4(0)
, … , 𝜃𝑘(0)
)
⋮
Obtém-se 𝜃𝑘(1)
de π (𝜃𝑘|𝒚, 𝜃1(1)
, … , 𝜃𝑘−1(1)
)
Obtém-se 𝜃1(2)
de π (𝜃1|𝒚, 𝜃2(1)
, … , 𝜃𝑘(1)
)
⋮
e assim por diante.
Agora, supor que este processo é continuado através de 𝑡 iterações e é
independentemente replicado 𝑚 vezes para que ao final se tenha 𝑚 replicações do vetor
amostrado 𝜽𝑡 = (𝜃1(𝑡)
, … , 𝜃𝑘(𝑡)
), onde 𝜽𝑡 é uma realização de uma cadeia de Markov com
probabilidade de transição dada por,
𝑝(𝜽𝑡 , 𝜽𝑡+1) = ∏ 𝜋(𝜃𝑘𝑙𝑡+1|𝒚, 𝜃1
𝑡+1 , … , 𝜃𝑙−1𝑡+1, 𝜃𝑙+1
𝑡 , … , 𝜃𝑘𝑡 )𝑘
𝑙=1
Como, como 𝑡 → ∞, (𝜃1(𝑡)
, … , 𝜃𝑘(𝑡)
) tende em distribuição a um vetor aleatório cuja
densidade conjunta é 𝜋(𝜽|𝒚), ou seja, a distribuição a posteriori de interesse. Em particular, 𝜃𝑖𝑡
tende em distribuição a uma quantidade aleatória cuja densidade é 𝜋(𝜃𝑖|𝒚), também chamada de
densidade marginal a posteriori de 𝜃𝑖. Desta maneira, para 𝑡 grande, as replicações (𝜃𝑖1(𝑡)
, … , 𝜃𝑖𝑚(𝑡)
)
são aproximadamente uma amostra aleatória de 𝜋(𝜃𝑖|𝒚).
Após a geração de amostras da distribuição a posteriori de interesse, utilizamos essas
amostras para obter estimadores de Monte Carlo para sumários a posteriori de interesse como a
média a posteriori, o desvio-padrão a posteriori e intervalos de credibilidade de interesse.
19
O algoritmo Metropolis-Hastings
Supor que se deseja simular uma densidade a posteriori 𝜋(𝜽|𝒚). Um algoritmo de
Metropolis-Hastings se inicia com um valor inicial 𝜃0 e especifica uma regra para a simulação do
𝑡 − é𝑠𝑖𝑚𝑜 valor da sequência 𝜃𝑡 dado o (𝑡 − 1) − é𝑠𝑖𝑚𝑜 valor da sequência 𝜃𝑡−1. Esta regra
consiste em uma densidade proposta (ou densidade geradora) a qual simula um valor candidato
𝜃∗ e o cálculo da uma probabilidade de aceitação P, que indica a probabilidade do valor candidato
ser aceito para ser o próximo valor na sequência. Especificamente, esse algoritmo pode ser
descrito da seguinte forma (ver, por exemplo, Albert, 2007),
1. Simular um valor candidato 𝜃∗ de uma densidade proposta 𝑝(𝜃∗|𝜃𝑡−1).
2. Calcular a razão
𝑅 = 𝜋(𝜃∗|𝒚)𝑝(𝜃𝑡−1|𝜃∗)
𝜋(𝜃𝑡−1|𝒚)𝑝(𝜃∗|𝜃𝑡−1)
3. Calcular a probabilidade de aceitação 𝑃 = 𝑚𝑖𝑛 {𝑅, 1}
4. Amostrar um valor 𝜃𝑡 tal que 𝜃𝑡 = 𝜃∗ com probabilidade 𝑃, caso contrário 𝜃𝑡 = 𝜃𝑡−1.
Sob certas condições de regularidade facilmente satisfeitas na densidade proposta
𝑝(𝜃∗|𝜃𝑡−1), a sequência simulada 𝜃1, 𝜃2, … convergirá a uma variável aleatória que é distribuída
de acordo com a distribuição a posteriori 𝜋(𝜽|𝒚) (ver, por exemplo, Bernardo e Smith, 1994; Chib
e Greenberg, 1995).
1.2.3. MODELOS DE REGRESSÃO PARAMÉTRICA EM
ANÁLISE DE SOBREVIVÊNCIA
A construção de modelos de regressão em análise de sobrevivência busca ajustar os dados a
modelos paramétricos existentes com finalidade de obter inferências para quantidades
populacionais de interesse e também conhecer como o tempo de sobrevida está relacionado com
uma ou mais covariáveis de interesse. Com o uso de modelos de regressão paramétricos, é
possível a identificação de quais covariáveis afetam o tempo de sobrevida bem como a
intensidade e a direção de cada uma delas em explicar a ocorrência do evento estudado
(Hougaard, 1999; Colossimo e Giolo, 2006; Louzada, Mazucheli e Achcar, 2002).
Em pesquisas médicas, a análise de regressão é usada para desenvolver modelos que
contribuam com a predição da resposta de um paciente a partir de uma ou mais variáveis
explicativas, tais como fatores prognósticos, fatores de tratamento e características dos
20
indivíduos. Para dados de sobrevivência, o principal objetivo da modelagem de um conjunto de
dados é a análise do tempo até a ocorrêcia de um determinado evento, usualmente o óbito de
um paciente, ou a recidiva de uma doença ou de algum sintoma. Nesse contexto , a importância
da modelagem e predição da variável resposta está em definir o tratamento, o prognóstico e
outras decisões clínicas para cada paciente individualmente e, também, em um processo de
triagem, identificar grupos de risco para estratificar os indivíduos por grau da doença. (Altman e
Royston, 2000; Tunes-da-Silva e Klein, 2011)
Do ponto de vista paramétrico, os modelos de sobrevivência são constituídos por dois
componentes: um aleatório e outro determinístico (ver, por exemplo, Louzada, Mazuchelli e
Achcar, 2002), onde o componente determinístico é dado por,
𝜂 = 𝑔(𝑎𝑥) (9)
onde 𝜂 é um dado parâmetro de uma distribuição de probabilidade; 𝑔(. ) é uma função positiva e
contínua, geralmente assumida igual a 𝑒𝑥𝑝(𝜷𝑥), 𝜷 = (𝛽0, 𝛽1, … , 𝛽𝑘) 𝑡 é um vetor de parâmetros
de regressão a serem estimados e associados a um vetor 𝑘 covariáveis 𝒙 = (𝑥1, 𝑥2, … , 𝑥𝑘) 𝑡. Note
que 𝒙 = (𝑥1, 𝑥2, … , 𝑥𝑘) 𝑡 estabelece um efeito multiplicativo no parâmetro 𝜂, e é responsável
pela aceleração ou desaceleração do tempo de sobrevida.
Desse modo, uma função log-linear é convenientemente utilizada para escrever a relação
entre 𝜂 e o vetor de covariáveis 𝒙, de tal maneira que para o 𝑖 − é𝑠𝑖𝑚𝑜 indivíduo temos,
𝑙𝑛[𝜂(𝑥𝑖)] = 𝛽0 + ∑ 𝛽𝑗𝑥𝑖𝑗𝑘𝑗=1 (10)
Em geral, é comum assumir que as covariáveis afetam apenas o parâmetro de locação de
uma determinada distribuição, porém, em muitas aplicações, assumir também que o parâmetro
de escala seja afetado pelas covariáveis o pode ser mais apropriado na análise dos dados
(Louzada, Mazuchelli e Achcar, 2002).
1.2.4. CATEGORIZAÇÃO DE COVARIÁVEIS CONTÍNUAS
Em estudos médicos de análise de sobrevivência é comum o interesse na categorização de
variáveis explicativas contínuas devido a dificuldade de interpretação de sua relação com a
variável resposta. No capítulo 3 este assunto será abordado em maiores detalhes.
21
A seleção de pontos para divisão das observações da amostra em dois (dicotomia), três
(tricotomia) ou mais grupos (politomia) está relacionado a vários problemas e não há consenso na
literatura sobre a melhor estratégia a ser tomada.
Das formas de categorização, a prática de dicotomizar covariáveis originalmente
contínuas é a mais comum em pesquisas clínicas (Royson et al., 2006). Podemos destacar alguns
pontos em que as variáveis categóricas são preferíveis do ponto de vista clinico e estatístico:
o No caso de dicotomia, fornecem uma classificação simples em grupos de baixo e
alto risco
o Estabelecem um critério padrão para comparação com estudos subsequentes
o Auxiliam na recomendação de tratamentos terapêuticos
o Definem um critério para o diagnóstico de uma enfermidade
o Estimam prognósticos
o Oferecem uma interpretação mais simples de modelos estatísticos comuns como,
por exemplo, as medidas de razão de chance ou risco relativo
o Evitam a suposição de linearidade implícita em alguns modelos estatísticos para
variáveis contínuas e
o Fazem sumarização dos dados mais eficientemente
Os métodos de seleção de ponto de corte são divididos em duas categorias: métodos
orientados pelos dados e métodos orientados pela resposta (Klein e Wu, 2004). Os métodos
orientados pelos dados baseiam a escolha do ponto de corte na distribuição da covariável como,
por exemplo, o uso da média ou dos percentis. Essa abordagem encontra valores arbitrários e
pode não ser útil para verificação do melhor valor para ponto de corte devida a alta dependência
da amostra. A segunda abordagem, orientada pela resposta, propõe métodos que baseiam-se na
relação entre a covariável e a resposta e seleciona pontos de corte para os quais a covariável
categorizada tem o maior efeito sobre a variável resposta. (Altman e Royston, 2000). Embora
pontos de corte baseados na resposta sejam mais indicados para estimação dos pontos de corte,
eles geram uma série de problemas que inspiram cuidados na hora de categorizar variáveis
contínuas (Faraggi e Simon, 1996 e Mazumdar e Glassman, 2000).
Apesar da utilidade da categorização, a forma como é feita a divisão dos indivíduos pode
acarretar problemas graves, tais como: grande perda de informação, redução do poder de
detectar a verdadeira relação entre as variáveis explicativas e a resposta, variáveis importantes
podem aparentar ser não significativas e a quantidade de grupos escollhida pode não ser
adequada para indicar os diferentes grupos de risco. Para diminuir tais efeitos e reduzir a chance
22
da categorização conduzir a um modelo clinicamente ou estatisticamente não significativo é
importante procurar métodos de seleção de pontos de corte adequados ao banco de dados,
utilizar técnicas de correção do possível viés dos parâmetros estimados ocasionado pelos
problemas intrísecos à categorização e métodos de validação dos resultados para que eles sejam
úteis em pesquisas baseadas em outras amostras (Hilsenbeck e Clark, 1996)
1.2.5. ANÁLISES BIVARIADAS (DEPENDÊNCIA)
Recentemente, os tratamentos para vários tipos de câncer evoluíram bastante, o que
ocasionou uma diminuição na mortalidade de pacientes e um aumento na proporção de
pacientes com recidiva da doença. Desde modo, surge o interesse no estudo dos dois eventos:
recidiva e óbito.
Nos capítulos 3 e 4 temos o interesse na análise do tempo até o evento intermediário e o
tempo até o evento terminal. Assim, tem-se um par de variáveis aleatórias observadas no mesmo
paciente, e é razoável considerar a existência de uma estrutura de dependnência entre essas duas
variáveis. Portanto, torna-se conveniente uma discussão sobre situações que podem gerar
dependência em dados envolvendo o tempo até a ocorrência de um evento.
Em análise de sobrevivência, existem muitos mecanismos que geram dependência.
Hougaard (2000) os classifica em três principais categorias.
Eventos comuns: quando vários eventos acontecem simultaneamente, isto é,
dados paralelos, por exemplo, acidentes ou desastres que levam a morte de
muitas pessoas ao mesmo tempo.
Riscos comuns: quando os indivíduos objeto de estudo são dependentes pela
existência de alguns fatores de risco comuns que, geralmente, são não
observáveis. Neste caso, são incluídos efeitos aleatórios no modelo com a função
que engloba os fatores comuns não observáveis. O ponto chave é a
independencia condicional quando os riscos comuns são conhecidos. Aqui são
usados modelos de risco latente, sendo o modelo de fragilidade o mais comum. A
dependência gerada na modelo de riscos semicompetitivos faz parte deste tipo de
dependêcnia, pois se um individuo apresenta algum dos eventos de interesse,
recaída ou óbito, isto não muda a sobrevida de cada um dos outros pacientes,
mas sim o conhecimento da sobrevivência deles.
23
Evento-Relativo: o evento atual pode mudar o risco de eventos futuros, por
exemplo, quando uma pessoas adquire um vírus, o risco que outras pessoas sejam
infectadas aumenta.
Além da natureza da dependêcnia, há outra consideração importante: a duração da
dependência. Podem ser consideradas as seguintes situações:
Dependência instantânea: dois ou mais eventos ocorrem ao mesmo tempo;
Dependência de curto prazo: a dependência é mais pronunciada imediatamente
após outros indivíduos no grupo experimentarem o evento;
Dependência de longo prazo: um evento implica que o risco entre os membros do
outro grupo incrementa para sempre.
A partir desses conceitos básicos introdutorios apresentados neste capítulo, dois estudos
foram conduzidos levando à publicação de três artigos em revistas especializadas (adicionados a
seguir): um artigo relacionado a um estudo para a obtenção de inferências bayesianas para
pontos de corte de covariáveis contínuas em modelos de regressão com dados de sobrevivência e
dois artigos relacionados a um estudo com o uso de modelos bivariados discretos na presença de
covariáveis de dados censurados para dados de sobrevivência. Neste último caso é importante
salientar que em geral os modelos para dados de sobrevivência assumem dados contínuos e o uso
de modelos assumindo dados discretos podem apresentar muitas vantagens em termos de
interpretações e custo computacional para obter as inferências de interesse. Em síntese: os
resultados do estudo relacionados a esta tese publicados como três artigos de revistas
especializadas são estudos originais e que podem ser de grande impacto na área de dados de
sobrevivência, especialmente para serem usados por pesquisadores da área de oncologia.
24
1.3. REFERÊNCIAS INTRODUÇÃO
ALBERT, J. Bayesian Computation with R. New York: Springer-Verlag, 2007. 300p.
ALTMAN, D. G.; ROYSTON, P., What do we mean by validating a prognostic model?
Statistic in medice, 19(4): 453-473, 2000.
BERNARDO, J. M.; SMITH, A. F. M. Bayesian theory. New York: Wiley, 1994.
BLASCO, A. The Bayesian controversy in animal breeding. Journal of Animal Science, v.79,
p.2023-2046, 2001.
BOX, G.E.P.; TIAO, G.C. Bayesian Inference in Statistical Analysis. New York: J. Wiley Interscience, 1992. 588p.
BRAY F., Transitions in human development and the global cancer burden, Stewart BW,
Wild CP, eds. World Cancer Report 2014. Lyon: IARC Press; 2014:42-55.
CHIB, S.; GREENBERG, E. Understanding the Metropolis-Hastings algorithm. The American Statistician, v. 49, 327–335, 1995.
COLOSIMO, E. A.; GIOLO, S. R. Análise de Sobrevivência Aplicada. São Paulo: Edgard
Blucher Ltda., 2006. 205 p.
FARAGGI D.; SIMON R., A simulation study os cross-validation for selecting an optimal
cutpoint in univariate survival analysis. Statistics in medicine, 15(20):2203-2213, 1996.
FERLAY J., et al. Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries CA Cancer J Clin, Published online.
<http://dx.doi.org/10.3322/caac.21492>
FERLAY, J. et al. GLOBOCAN 2012 v1.0, cancer incidence and mortality worldwide. Lyon,
France: IARC, 2013. (IARC CancerBase, 11). <http://globocan.iarc.fr>
GELFAND, A. E.; SMITH, A. F. M. Sampling based approaches to calculating marginal
densities. Journal of the American Statistical Association, v.85, p.398–409, 1990.
GIANOLA, D.; FERNANDO, R.L. Bayesian methods in animal breeding theory. Journal of Animal Science, v.63, p.217-244, 1986.
HILSENBECK S. G.; CLARK G. M., Pratical p-value adjustment for optimally selected
cutpoints. Statistics in medicine, 15(1):103-112, 1996.
HOUGAARD, F., Analysis os mutivariate survival data, Springer, 2000.
HOUGAARD, P. Fundamentals of survival data. Biometrics, v.55, n.1, p.13-22, 1999.
INTERFARMA, Câncer no Brasil A jornada do paciente no sistema de saúde e seus impactos
sociais e financeiros. 2019. <https://www.interfarma.org.br/public/files/biblioteca/cancer-no-brasil-n-a-jornada-do-paciente-no-sistema-de-saude-e-seus-impactos-sociais-e-financeiros-
interfarma.pdf>
KLEIN J. P.; WU JT., Discretizing a continuous covariate in survival analysis of failure time data, volume 360, Jonh Wiley & Sons, 2011.
25
LOUZADA, F.; MAZUCHELI, J.; ACHCAR, J. A. Introdução à análise de sobrevivência e
confiabilidade. São Carlos: IMCA, 2002.
MAZUMDAR M.; GLASSMAN J. R., Categorizing a prognostic variable: review of methods, code for easy implementation and applications to decision-making about cancer treatments.
Statistics in medicine, 19(1):113-132, 2000.
PAULINO, C. D.; TURKMAN, M. A. A.; MURTEIRA, B. Estatística Bayesiana. Lisboa: Fundação Calouste Gulbenkian, 2003. 446p.
ROYSTON P.; ALTMAN D. G.; SAUERBREI W., Dichotomizing continuous predictors in
multiple regression: a bad idea. Statistics in medice, 25(1):127-141, 2006.
TUNES-DA-SILVA, G.; KLEIN J. P., Cutpoint selection for discretizing a continuous covariate for generalized estimating euations. Computational statistics and data analysis,
55(1):226-235, 2011.
26
CAPÍTULO 2. OBJETIVOS
Motivados principalmente por conjuntos de dados oncológicos reais, o objetivo principal
desta tese é explorar diferentes métodos de análise de sobrevivência especialmente sob um
enfoque bayesiano através de aplicações a banco de dados oncológicos conforme os objetivos de
pesquisadores especialistas da área médica. Mais detalhadamente, pode-se mencionar os
seguintes objetivos específicos:
Determinar possíveis pontos de corte para a categorização de covariáveis
contínuas em estudos com dados de sobrevivência na presença ou não de
censuras, utilizando-se de métodos de estimação Bayesianos a fim de evidenciar
possíveis fatores que podem afetar os tempos de sobrevida dos pacientes.
Implementar a abordagem Bayesiana para a estimação dos parâmetros do
modelo bivariado geométrico de Basu-Dhar na presença de censuras e fração de
cura.
Evidenciar possiveis fatores que afetem os tempos de sobrevida livre de
progressão e tempo de sobrevida geral dos pacientes com câncer colorrretal em
estudo utilizando-se de técnicas estatísticas que incorporem a dependência
existente entre dois tempos de sobrevida observados, em especial usando as
funções de cópulas de Farlie-Gumbel-Morgenstern (FGM) na presença de
censuras e covariáveis sob um enfoque Bayesiano.
A seguir são apresentados os resumos dos artigos publicados como resultados dessa
pesquisa.
27
CAPÍTULO 3. ESTUDO 1 – DETERMINAÇÃO DE PONTO DE CORTE ÓTIMO EM ANÁLISE DE SOBREVIVÊNCIA
ICUMA, Tatiana Reis; ACHCAR, Jorge Alberto; MARTINEZ, Edson Zangiacomi; DAVARZANI, Nasser.
Determination of optimum medical cut points for continuous covariates in lifetime regression
models. Model Assisted Statistics and Applications, Amsterdam, v. 13, n. 2, p. 141-159, 2018.
Disponível em: < http://dx.doi.org/10.3233/MAS-180426 > DOI: 10.3233/MAS-180426.
28
29
CAPÍTULO 4. ESTUDO 2 – MODELOS BIVARIADOS DE ANÁLISE DE SOBREVIVÊNCIA ASSUMINDO DISTRIBUIÇÕES DISCRETAS
MARTINEZ, Edson Zangiacomi; ACHCAR, Jorge Alberto; ICUMA, Tatiana Reis. Bivariate
Basu-Dhar geometric model for survival data with a cure fraction. Electronic Journal of
Applied Statistical Analysis, Lecce, v. 11, n. 2, p. 655-673, 2018.
Disponível em:
< http://dx.doi.org/10.1285/i20705948v11n2p655 > DOI: 10.1285/i20705948v11n2p655.
ICUMA, Tatiana Reis; BUZATTO, Isabela Panzeri Carlotti; TIEZZI, Daniel Guimarães;
ACHCAR, Jorge Alberto; DAVARZANI, Nasser. Use of bivariate lifetime distributions
assuming continuous or discrete data applied to patients with breast cancer. Journal of
Data Science, New York, v. 14, n. 4, p. 657-680, 2016.
Disponível em: < http://www.jds-online.com/volume-14-number-4-october-2016 >.
30
31
32
CAPÍTULO 5. ESTUDO 3 – DADOS DE SOBREVIDA BIVARIADOS E O USO DE CÓPULA FGM SOB O ENFOQUE BAYESIANO – UMA
APLICAÇÃO EM DADOS DE PACIENTES COM CÂNCER COLORRETAL.
1. Introdução
O câncer é um problema de saúde pública, principalmente para países em desenvolvimento,
como o Brasil. Estima-se, para o Brasil, no biênio 2018-2019, a ocorrência de 600 mil casos novos
de câncer, para cada ano. Essas estimativas refletem o perfil de um país que possui os cânceres
de próstata, pulmão, mama feminina e cólon e reto entre os mais incidentes, entretanto ainda
apresenta altas taxas para os cânceres do colo do útero, estômago e esôfago. (MATHERS et al.) e
as projeções indicam que o problema deve se agravar cada vez mais nas próximas décadas,
principalmente, com o envelhecimento populacional e com as mudanças para estilos de vida que
favorecem fatores de risco para o surgimento da doença (INTERFARMA, 2019).
As transições demográficas e epidemiológicas pelas quais o País vem passando já sinalizama
carga cada vez maior do câncer no Brasil, no qual vem crescendo a proporção de óbitos por
neoplasias, dentre outras doenças crônicas não transmissíveis (DANT).
A estimativa mundial, realizada em 2018 pelo Globocan/Iarc, apontou 18,1 mihões de casos
novos estimados no mundo e 9,6 milhões de mortes em decorrência da doença.
O câncer de cólon e reto possui relevância epidemiológica em nível mundial, uma vez que é a
terceira neoplasia maligna mais comumente diagnosticada e a quarta principal causa de morte
por câncer, representando 1,1 milhão de casos novos e quase 600 mil óbitos em 2018. O padrão
da incidência difere entre os sexos, sendo o terceiro tipo de câncer mais observado no sexo
masculino, atrás dos cânceres de pulmão e próstata. E o quarto mais observado no sexo femino,
atrás dos cânceres de mama, pulmão e útero.
No Brasil, o câncer em geral configura-se como problema de saúde pública, as neoplasias têm
uma crescente importância no perfil de mortalidade do país, ocupando o segundo lugar de causa
de obito. Estimam-se 17.380 casos novos de câncer de cólon e reto em homens e 18.980 em
mulheres para cada ano do biênio 2018-2019. Esses valores correspondem a um risco estimado
de 16,83 casos novos a cada 100 mil homens e 17,90 para cada 100 mil mulheres. É o terceiro
mais frequente em homens e o segundo entre as mulheres. O Câncer colorretal encontra-se entre
os cinco primeiros cânceres mais frequentes, porém sua incidencia não é homogênea em todo o
país.
O câncer de cólon e reto é uma doença multifatorial influenciada por fatores genéticos,
ambientais e relacionados ao estilo de vida (Boyle; Leon, 2002; Sandler, 1996). Em 2013, o
Instituto brasileiro de Geografia e Estatística (IBGE) divulgou os resultados da Primeira Pesquisa
Nacional de Saúde, onde foram apresentados relevantes hábitos de consumo alimentar dos
brasileiros divididos entre as grandes regiões.
33
As diferenças geográficas observadas na incidência possivelmente refletem aos hábitos de
vida e perfis de consumo alimentares adotados em cada região. Assim, os fatores de risco ligados
ao estilo de vida são modificáveis e incluem: o consumo de bebidas alcoólicas, a baixa ingestão de
frutas e vegetais, o alto consumo de carnes vermelhas e de alimentos processados, a obesidade, o
tabagismo e a inatividade física (Bouvard et al., 2015; Fedirko et al., 2011; Harriss et al., 2009;
Walter, 2014; World Cancer Research Fundation, 2012)
A Sociedade Brasileira de Coloproctologia recomenda que indivíduos assintomáticos em um
grupo de risco normal iniciem o rastreamento a partir dos 50 anos, com realização anual de
pesquisa de sangue oculto nas fezes e retossigmoidoscopia anual ou bianual. Apesar das
recomendações da sociedade médica, não há recomendação oficial do Ministério da Saúde para
um programa nacional de rastreamento em câncer colorretal (Ministério da Saúde do Brasil,
2014).
Mesmo que a colonoscopia seja atualmente considerada o “padrão-ouro” para rastrear este
câncer, o SUS provavelmente não teria capacidade operacional suficiente para realizar o exame
em toda a população acima de 50 anos. E se trata de um exame que exige preparo do paciente,
internação hospitalar e em alguns casos anestesia. Sua baixa adesão como exame de
rastreamento também se dá devido à preconceitos por parte da população por se tratar de um
exame invasivo via anal. Consequentemente, grande parte dos pacientes são diagnosticados já
em estágios mais avançados. (INTERFARMA, 2019)
Alguns fatores como o estadiamento, estágio clínico da doença, comprometimento
linfonodal, estádio T e outros, estão relacionados com o prognóstico e curso da doença,
influenciando o tempo de sobrevida dos pacientes acometidos. Dentro deste contexto, o objetivo
deste trabalho é evidenciar possíveis fatores que podem afetar o tempo de sobrevida livre de
progressão e o tempo de sobrevida global em um estudo realizado na Faculdade de Medicina de
Ribeirão Preto – USP em 2016.
Em análise de sobrevivência a variável dependente de interesse é o tempo decorrido até o
aparecimento de algum evento. Este tempo é medido desde o início da observação até a
ocorrência do evento, podendo ser: óbito, recidiva, alta, cura, dependendo do contexto em
estudo. Um diferencial da análise de sobrevida é a inclusão de dados censurados, diferentes de
dados faltantes. Os dados referentes aos pacientes que não desenvolveram o evento até o final
do estudo ou tiveram perda de acompanhamento são censurados; eles contribuem para a análise
até o último momento em que os pesquisadores observaram.
Ainda em relação aos tempos de sobrevida em análise de sobrevivência, temos situações em
que não é válida a suposição de independência entre os tempos de sobrevida. Por exemplo, pode
ocorrer a situação em que indivíduos de um estudo estão sujeitos a múltiplos eventos
recorrentes, tais como ataques epiléticos e/ou ataques cardíacos, dentre outros. Nestes casos,
mais de um tempo de sobrevida é observado para cada indivíduo em estudo e, desse modo,
supões-se que exista associação entre os tempos de um mesmo indivíduo (Colossimo e Giolo,
2006).
Recentemente, os tratamentos para vários tipos de câncer evoluíram bastante, o que
ocasionou uma diminuição na mortalidade de pacientes e um aumento na proporção de
34
pacientes com recidiva da doença. Desde modo, surge o interesse no estudo dos dois eventos:
recidiva e óbito.
Uma forma para modelar a dependência entre dados multivariados são os modelos baseados
em cópulas. Estes modelos vêm sendo cada vez mais desenvolvidos atualmente, como por
exemplo, nas áreas biológicas, ciências atuariais e finanças. De acordo com Fisher (1997), cópulas
são de interesse para estatísticos por duas razões: primeiro, é uma forma de estudar medidas de
dependência e segundo, à partir delas se constroem famílias de distribuições bivariadas.
1.1. Banco de dados
O banco de dados utilizado neste estudo provém da tese de título “Correlação entre CD44,
CD166, CDH1 e FN1 de acordo com o status da mutação KRAS e a localização (cólon direito versus
esquerdo) da neoplasia maligna de cólon metastática” da autora Karen Bento Ribeiro e sua
orientadora Profa. Dra. Fernanda Maris Peria. O uso neste presente trabalho foi autorizado pelas
autoras.
O conjunto de dados se refere a 66 pacientes com câncer colorretal. As informações foram
coletadas, de forma restrospectiva, no prontuário médico do paciente. Os dados foram coletados
no período de janeiro de 2016 a novembro de 2016, sendo que a data registrada do último
seguimento de pacientes incluídos no estudo foi em 17 de outubro de 2016.
A seleção dos casos que participaram do estudo partiu de uma lista de 345 pacientes do
HCFMRP-USP para os quais fora solicitado análise do status da mutação KRAS na amostra tecidual
da neoplasia maligna colorretal, para os quais havia necessidade de se indicar terapia anti-EGFR
com cetuximabe, através de exame oferecido pelo Laboratório externo Merck Serono®, no
período de 21 de junho de 2010 a 24 de agosto de 2016 atendidos no ambulatório de Oncologia
do HCFMRP-USP. Dos 345 casos, 66 foram elegiveis para a participação do estudo segundo os
critérios de inclusão e exclusão definidos pelas pesquisadoras e conforme a disponibilidade das
informações.
O enfoque neste presente trabalho são os tempos de sobrevida. São considerados o tempo de
sobrevida global (SG) e o tempo de sobrevida livre de progressão (SLP). Definiu-se tempo de
sobrevida global, o tempo entre a data do diagnóstico avançado da doença tumoral (data em que
o paciente recebeu o diagnóstico de metástase/progressão/recidiva de doença tumoral) até a
data de óbito por qualquer motivo, caso o paciente apresentasse metástase metacrônica, ou pela
data da biópsia tumoral até a data de óbito por qualquer motivo, caso o paciente apresentasse
metástase sincrônica ao diagnóstico. Definiu-se sobrevida livre de progressão o tempo entre a
data da biópsia tumoral até a data da primeira progressão tumoral/recidiva/óbito, o que
ocorresse primeiro. As covariáveis consideradas são:
1. Sexo: Feminino, Masculino;
2. Idade: Maior que 65 anos Menor que 65 anos;
3. Realização de quimioterapia: Sim, Não;
4. Cólon: Direito, Esquerdo;
5. Status da mutação KRAS: Mutado, Selvagem;
6. ECOG: 0,1,2;
35
7. Grau de diferenciação tumoral: Bem, Moderado, Pouco;
8. Histologia do tumor: Adenocarcinoma, Mucinoso;
9. Categoria tumoral T: T2, T3, T4;
10. Categoria tumoral N: N0, N1, N2;
11. Estágio clínico: II, III, IV;
12. Uso de Cetuximabe (terapia anti-EGFR): Não, Sim
13. Uso de Bevacizumabe (terapia anti-VEGF): Não Sim
Dos 66 casos elegíveis, foram exluidos neste estudo 2 casos por conter dados faltantes. Dos
64 casos que compõe o banco de dados (Tabela 1), 45 pacientes faleceram após a progressão da
doença e 19 permaneciam vivos, entre os vivos, 12 tiveram a progressão da doença durante o
estudo.
Tabela1. Quantidade e porcentagem da censura livre de progressão e global.
Quantidade Porcentagem
Censura Livre de progressão Sim 7 11,0% Não 57 89,0%
Censura Global Sim 19 30,0% Não 45 70,0%
Na Figura 1 são apresentados os gráficos dos estimadores não – paramétricos de Kaplan
Meier (1958) para as funções de sobrevivência para os tempos livre de progressão e tempos de
sobrevida global.
Figura 1. Estimadores de Kaplan Meier. (a) Tempo de sobrevida livre de progressão, (b) Tempo de sobrevida
Global.
2. Objetivos
Evidenciar possiveis fatores que afetem os tempos de sobrevida livre de progressão e tempo
de sobrevida geral dos pacientes com câncer colorrretal em estudo. Utilizando-se de técnicas
estatísticas que considerem a dependência existente entre os dois tempos de sobrevida
observados, sob um enfoque bayesiano.
36
3. Metodologia
3.1. Uso da Distribuição de Weibull na análise dos dados de sobrevivência SLP e SG
3.1.1. Distribuição de Weibull sem a presença de covariáveis: uso de inferência
clássica
A distribuição de Weibull foi proposta originalmente por Weibull (1951). Sua popularidade em
aplicações práticas se deve ao fato dela apresentar uma grande variedade de formas, todas com
uma propriedade básica: a sua função de riscos pode ser monótona crescente, decrescente e
constante. A função densidade de probabilidade é dada por,
𝑓(𝑡𝑖) =𝛼 𝑡𝑖
𝛼−1 𝑒𝑥𝑝 [−(𝑡𝑖𝜆
)𝛼
]
𝜆𝛼 (1)
em que, ti > 0 denota os tempos de sobrevida. Os parâmetros λ e α denotam respectivamente,
os parâmetros de escala e de forma para a distribuição. Diferentes valores de α levam a
diferentes formas para a distribuição o que a torna muito flexível na análise de dados para
tempos de sobrevida. Na análise de sobrevivência o grande interesse é focado na função de
sobrevivência S(t∗) = P(T > t∗) em que t∗ é um tempo qualquer fixado. Assumindo a
distribuição de Weibull com f.d.p. (1), a função de sobrevivência é dada por,
𝑆(𝑡∗) = 𝑒𝑥𝑝 {− (𝑡∗
𝜆)
𝛼} (2)
A função de risco h(t) ou taxa instantânea de falha, da distribuição de Weibull (ver, por
exemplo, Lawless, 1982) é dada, de h(t) = f(t) /S(t), por:
ℎ(𝑡) = 𝛼 𝑡𝛼−1
𝜆𝛼 (3)
Observar que se α=1, temos a distribuição exponencial, isto é, a distribuição exponencial é um
caso especial da distribuição de Weibull. A função de risco h(t) dada por (3) é estritamente
crescente para α > 1, estritamente decrescente para α < 1 e constante para α = 1. Assim, observa-
se uma grande flexibilidade de ajuste aos dados. A média e a variância da distribuição de Weibull
com densidade dada por (16) são dadas respectivamente por:
𝜇 = 𝐸(𝑇) = 𝜆𝛤 (1 + 1
𝛼) (4)
𝜎2 = 𝑉𝑎𝑟(𝑇) = 𝜆2 {𝛤 (1 + 2
𝛼) − 𝛤 [1 +
1
𝛼]
2} (5)
sendo que Γ(.) denota uma função gama, Γ(z) = ∫ e−t∞
0 tz−1 dt.
37
Estimadores para os parâmetros λ e α podem ser obtidos usando o método de máxima
verossimilhança obtidos maximizando a função de verossimilhança L(λ, α) na presença de dados
censurados usando métodos numéricos (EMV).
3.1.2. Distribuição de Weibull na presença de covariáveis: uso de inferência
clássica
Na presença de um vetor de covariáveis x = (x1, x2 , … , xp) assumir um modelo de regressão
de Weibull para os tempos livres da doença definido por,
𝑙𝑜𝑔(𝑡𝑖) = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑝𝑥𝑝𝑖 + 𝜎∗𝜀𝑖, (6)
sendo que, ti denotam os tempos de sobrevida, i = 1, . . . , n. O parâmetro σ∗ está relacionado
com o parâmetro de forma da distribuição de Weibull (1) pela relação. σ∗ = 1/α O termo εi em
(6) é uma quantidade aleatória com distribuição de valor extremo (ver Lawless, 1982) também
definida como distribuição de valor extremo de tipo I (mínimo) ou distribuição de Gumbel
(Gumbel ,1954) com função densidade de probabilidade dada por ,
𝑓(𝜀) = 𝑒𝑥𝑝(𝜀 − 𝑒𝑥𝑝(𝜀 )) , −∞ < 𝜀 < ∞ (7)
Também observar que o parâmetro de escala λ definido em (1) está relacionado com as
covariáveis a partir da relação,
𝜆𝑖 = 𝑒𝑥𝑝(𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑝𝑥𝑝𝑖) (8)
isto é, o modelo de regressão definido por (6) define um modelo de regressão no parâmetro de
escala (ver por exemplo, Colosimo e Giolo, 2006 ou Cox e Oakes, 1984) assumindo mesmo
parâmetro de forma.
Para o modelo de regressão (6), encontra-se estimadores para os parâmetros de regressão
β0, β1, β2 … , βp e o parâmetro σ∗ usando métodos de máxima verossimilhança (ver por exemplo,
Mood, Graybill e Boes, 1974). Estimadores de máxima verossimilhança para os parâmetros
β0, β1, β2 … , βp e σ∗ são obtidos maximizando-se a função de verossimilhança, 𝐿(𝜽) = 𝛱 𝑓(𝜀𝑖)
onde 𝑓(𝜀𝑖) = 𝑒𝑥𝑝[𝜀𝑖 − 𝑒𝑥𝑝(𝜀𝑖)], 𝑖 = 1, . . . , 𝑛, 𝜽 = (𝛽0 , 𝛽1, 𝛽2 … , 𝛽𝑝 , 𝜎∗ ) e,
𝜎∗ 𝜀𝑖 = 𝑙𝑜𝑔(𝑡𝑖) − [𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑝𝑥𝑝𝑖] (9)
Na prática, em geral maximiza-se o logaritmo da função de verossimilhança na determinação
dos estimadores de máxima verossimilhança usando algum método numérico (por exemplo,
método de Newton-Raphson), usualmente disponíveis em softwares estatísticos.
38
3.1.3. Distribuição de Weibull na presença de covariáveis: uso de métodos
Bayesianos
Para uma análise Bayesiana dos dados assumir agora uma distribuição de Weibull na presença
de covariáveis considerando métodos MCMC (Monte Carlo em Cadeias de Markov, ver por
exemplo, Gelfand e Smith, 1990; Casela e George, 1992; Chib e Greenberg, 1995) e o uso do
software OpenBugs (Spiegelhalter et al, 2003), utilizado para a obtenção das inferências
Bayesianas de interesse. A densidade da distribuição de Weibull é dada em uma forma
reparametrizada de (1) por f(t) = αθtα−1exp{− θtα} onde θ =1
λα (em (1)).
Considerar o modelo de regressão dado por,
𝜃𝑖 = 𝑒𝑥𝑝(𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑝𝑥𝑝𝑖) (10)
Assumir distribuições a priori não-informativas normais N(0, σ2) com valores grandes para σ2
(priori aproximadamente não-informativa) para todos os parâmetros de regressão βr ,
r = 0,1,2, . . . , p ; uma priori uniforme U(0, a) com hiperparâmetro a conhecido para o parâmetro
de forma α e usar o software OpenBugs (burn-in sample = 11000 e 1000 amostras finais tomadas
de 100 em 100). A convergência do algoritmo de simulação MCMC é monitorada a partir de traços
das amostras geradas para todos os parâmetros.
3.2. Uso de modelos de sobrevivência bivariados construídos a partir de funções
cópulas na análise dos dados de sobrevivência SLP e SG
Assumindo dados de sobrevivência dependentes T1 e T2 associados a cada paciente
poderíamos assumir diferentes distribuições paramétricas bivariadas introduzidas na literatura
(ver por exemplo, Freund, 1961; Marshall e Olkin, 1967 a,b; Sarkar, 1987; Downton, 1970;
Gumbel, 1960; Hawkes, 1972; Hougaard, 1986; Arnold e Strauss, 1988; Block e Basu, 1974).
Alternativamente, poderíamos construir distribuições bivariadas de Weibul ou baseada em
qualquer outra distribuição de sobrevida (log-normal, gamma, log-logistica ou gama generalizada,
entre várias outras) usando funções cópulas (ver por exemplo , Nelsen, 1999 ou Trivedi e Zimmer,
2005 a,b).
3.2.1. Funções cópulas
Funções cópulas podem ser usadas para relacionar distribuições marginais com uma
distribuição conjunta. Para funções de distribuições marginais acumuladas
F1(t1), F2(t2), . . . , Fm(tm), a função,
39
𝐶(𝐹1(𝑡1), 𝐹2(𝑡2), . . . , 𝐹𝑚(𝑡𝑚)) = 𝐹 (𝑡1 , 𝑡2, . . . , 𝑡𝑚) (11)
que é definida usando uma função cópula C, resulta em uma função distribuição multivariada com
funções distribuições marginais F1(t1), F2(t2), . . . , Fm(tm). É importante salientar que qualquer
função distribuição multivariada F pode ser escrita na forma de uma função cópula (Sklar, 1959);
isto é, se F (t1, t2, . . . , tm) é uma função distribuição conjunta com funções distribuições
marginais F1(t1), F2(t2), . . . , Fm(tm), então existe uma função cópula C(u1, u2 , . . . , um), tal que,
𝐹 (𝑡1 , 𝑡2, . . . , 𝑡𝑚) = 𝐶(𝐹1(𝑡1), 𝐹2(𝑡2), . . . , 𝐹𝑚(𝑡𝑚)) (12)
Se cada Fi é continua, então C é única.
O procedimento usado na formulação de uma distribuição multivariada usando uma cópula é
baseado na idéia de que uma transformação simples pode ser feita de cada variável marginal de
tal forma que cada variável marginal transformada tem uma distribuição uniforme. Feito isso, a
estrutura de dependência pode ser expressada como uma distribuição multivariada nas uniformes
obtidas e uma cópula é precisamente uma distribuição multivariada nas variáveis aleatórias
uniformes. Dessa forma existem muitas famílias de cópulas que diferem em termos da estrutura
de dependência que elas representam. No caso bivariado, sejam T1 e T2 duas variáveis aleatórias
com funções de distribuição contínua F1 e F2. A transformação de probabilidade integral pode ser
aplicada separadamente para as duas variáveis aleatórias definindo-se U = F1( t1) e V =
F2( t2), onde U e V tem distribuições uniformes em (0, 1) mas são usualmente dependentes se
T1 e T2 são dependentes (T1 e T2 independentes implica que U e V são independentes). A
especificação da dependência entre T1 e T2 é o mesmo que especificar a dependência entre U e V
. Com U e V variáveis aleatórias uniformes, o problema se reduz à especificação de uma
distribuição bivariada entre duas uniformes, isto é, uma cópula.
3.2.2. Função cópula FGM (Farlie-Gumbel-Morgenstern)
Neste estudo, será considerado um modelo de cópula muito popular apropriado para
capturar dependências não muito fortes dada pela função de cópula FGM de Farlie-Gumbel-
Morgenstern (Morgenstern, 1956) dada por,
𝐶(𝑢, 𝑣) = 𝑢𝑣[1 + 𝜃(1 – 𝑢)(1 – 𝑣)] (13)
sendo que, − 1 ≤ θ ≤ 1; u = F1(t1) e v = F2(t2).
Assumir distribuições de probabilidade marginais de Weibull (ver (1)), isto é,
𝐹1(𝑡1) = 1 − 𝑆(𝑡1) = 𝑒𝑥𝑝 {− (𝑡1
𝜆1)
𝑝1
} (14)
𝐹2(𝑡2) = 1 − 𝑆(𝑡2) = 𝑒𝑥𝑝 {− (𝑡2
𝜆2)
𝑝2
}
40
assim, de (13), temos,
𝐹(𝑡1, 𝑡2 , 𝜆1, 𝜆2, 𝑝1, 𝑝2, 𝜃) = [1 − 𝑒𝑥𝑝 {− (𝑡1
𝜆1)
𝑝1
}] [ 1 − 𝑒𝑥𝑝 {− (𝑡2
𝜆2)
𝑝2
} ]
[1 + 𝜃 𝑒𝑥𝑝{− (𝑡1
𝜆1)
𝑝1
− (𝑡2
𝜆2)
𝑝2
}] (15)
Da expressão, S(t1, t2) = 1 − F1(t1) − F2(t2) + F(t1, t2), encontramos,
𝑆(𝑡1 , 𝑡2) = 𝑒𝑥𝑝 {− (𝑡1
𝜆1)
𝑝1
− (𝑡2
𝜆2)
𝑝2
} [1 + 𝜃 {1 – 𝑒𝑥𝑝[− (𝑡1
𝜆1)
𝑝1
][ 1 – 𝑒𝑥𝑝[− (𝑡2
𝜆2)
𝑝2
]} (16)
3.2.3. Análise Bayesiana para os dados bivariados assumindo a cópula FGM e
dados censurados
Assumir que T1 e T2 podem ser censurados e que as censuras sejam independentes dos
tempos de sobrevidas. Dividir as n observações da amostra em quatro classes:
C1: ambos t1i e t2i são tempos de sobrevida completos observados;
C2: t1i é completo e t2i é censurado;
C3: t1i é censurado e t2i é completo;
C4: ambos t1i e t2i são tempos de sobrevida censurados.
A função de verossimilhança assumindo um modelo contínuo (ver por exemplo, Lawless,
1982, página 479) é dada por,
𝐿 = ∏ 𝑓(𝑡1𝑖 , 𝑡2𝑖)𝑖∈𝐶1∏ (−
𝜕𝑆(𝑡1𝑖,𝑡2𝑖)
𝜕𝑡1𝑖)𝑖∈𝐶2
∏ (−𝜕𝑆(𝑡1𝑖,𝑡2𝑖)
𝜕𝑡2𝑖)𝑖∈𝐶3
∏ 𝑆(𝑡1𝑖 , 𝑡2𝑖)𝑖∈𝐶4 (17)
sendo f(t1i, t2i) é a função de probabilidade conjunta para T1 e T2; S(t1i, t2i) é a função de
sobrevida conjunta; ∂S(t1i,t2i)
∂t1i e
∂S(t1i,t2i)
∂t2i são as derivadas parciais de S(t1i, t2i) com respeito à
t1i, t2i , respectivamente.
Definir as variáveis indicadoras δji por, δji = 1 se tji é uma observação completa e δji = 0 se
tji é uma observação censurada para j = 1,2; i = 1, 2, . . . , n.
Assim, podemos reescrever a função de verossimilhança (17) por,
𝐿 = ∏[𝑓(𝑡1𝑖 , 𝑡2𝑖 )]𝛿1𝑖𝛿2𝑖
𝑛
𝑖=1
∏ [−𝜕𝑆(𝑡1𝑖 , 𝑡2𝑖)
𝜕𝑡1𝑖]
𝛿1𝑖(1−𝛿2𝑖)
𝑛
𝑖=1
∏ [−𝜕𝑆(𝑡1𝑖 , 𝑡2𝑖)
𝜕𝑡2𝑖]
(1−𝛿1𝑖)𝛿2𝑖
𝑛
𝑖=1
𝑥
41
𝑥 ∏[𝑆(𝑡1𝑖 , 𝑡2𝑖)](1−𝛿1𝑖)(1−𝛿2𝑖)
𝑛
𝑖=1
(18)
Assumindo distribuições marginais de Weibull, temos em (18),
𝑓2(𝑡1𝑖 , 𝑡2𝑖 ) =𝑝1 𝑝2 𝑡1𝑖
𝑝1−1 𝑡2𝑖
𝑝2−1
𝜆1𝑝1 𝜆2
𝑝2 𝑒𝑥𝑝 {− (
𝑡1𝑖
𝜆1)
𝑝1
− (𝑡2𝑖
𝜆2)
𝑝2
} {1 + 𝜃 − 2𝜃𝑒𝑥𝑝 [− (𝑡1𝑖
𝜆1)
𝑝1
]
− 2𝜃𝑒𝑥𝑝 [− (𝑡2𝑖
𝜆2)
𝑝2
] + 4𝜃𝑒𝑥𝑝 [− (𝑡1𝑖
𝜆1)
𝑝1
− (𝑡2𝑖
𝜆2)
𝑝2
]}
−𝜕𝑆2(𝑡1𝑖 , 𝑡2𝑖 )
𝜕𝑡1𝑖=
𝑝1 𝑡1𝑖𝑝1−1
𝜆1𝑝1
𝑒𝑥𝑝 {− (𝑡1𝑖
𝜆1)
𝑝1
− (𝑡2𝑖
𝜆2)
𝑝2
} {1 + 𝜃 − 2𝜃𝑒𝑥𝑝 [− (𝑡1𝑖
𝜆1)
𝑝1
]
− 𝜃𝑒𝑥𝑝 [− (𝑡2𝑖
𝜆2)
𝑝2
] + 2𝜃𝑒𝑥𝑝 [− (𝑡1𝑖
𝜆1)
𝑝1
− (𝑡2𝑖
𝜆2)
𝑝2
]}
e
−𝜕𝑆2(𝑡1𝑖 , 𝑡2𝑖 )
𝜕𝑡2𝑖=
𝑝2 𝑡2𝑖𝑝2−1
𝜆1𝑝1
𝑒𝑥𝑝 {− (𝑡1𝑖
𝜆1)
𝑝1
− (𝑡2𝑖
𝜆2)
𝑝2
} {1 + 𝜃 − 𝜃𝑒𝑥𝑝 [− (𝑡1𝑖
𝜆1)
𝑝1
]
− 2𝜃𝑒𝑥𝑝 [− (𝑡2𝑖
𝜆2)
𝑝2
] + 2𝜃𝑒𝑥𝑝 [− (𝑡1𝑖
𝜆1)
𝑝1
− (𝑡2𝑖
𝜆2)
𝑝2
]}
Na presença de um vetor de covariáveis x = (x1, x2 , . . . xp), assumir o seguinte modelo de
regressão:
𝜆1𝑖 = 𝛼1𝑒𝑥𝑝 {𝛽1′𝑥𝑖}
𝜆2𝑖 = 𝛼2𝑒𝑥𝑝 {𝛽2′ 𝑥𝑖} (20)
sendo que βj = (βj1, βj2, . . . , βjp) o vetor de parâmetros de regressão associados às covariáveis,
j = 1,2.
Para uma análise Bayesiana (ver por exemplo, Paulino et. al, 2003) , assumir as seguintes
distribuições a priori para os parâmetros do modelo:
𝛼𝑗~𝑈(𝑎𝑗 , 𝑏𝑗)
𝑝𝑗~𝑈(𝑐𝑗, 𝑑𝑗)
42
𝜃~𝑈(𝑒, 𝑓)
𝛽𝑗𝑙~𝑁(0, 𝑔2) (21)
sendo que aj, bj, cj, dj, e, f e g são hiperparâmetros fixados, j = 1,2 e N(0, g2) denota uma
distribuição normal com média igual à zero e variância igual à g2.
4. Resultados
De acordo com a Tabela 2, a maoiria dos pacientes fizeram quimioterapia, tiveram o lado
esquerdo do cólon afetado, com ECOG igual a 0, um tumor moderadamente diferenciado e
adenocarcinoma. Apenas 8 pacientes usaram cetuximabe (terapia anti-EGFR) e 15 pacientes
usaram bevacizumabe (terapia anti-VEGF). As covariáveis que trazem evidencias de afetar os
tempos do sobrevida dos pacientes, segundo o teste não-paramétrico Log Rank são:
Quimioterapia, ECOG, Diferenciação Tumoral, Cetuximabe e Bevacixumabe.
A seguir são apresentados gráficos com o estimador não-paramétrico de Kaplan Meier (Figura
2) para os tempos de sobrevida livre de progressão e sobrevida global em cada covariável. No
geral, por uma análise gráfica, não se observa grandes diferenciações entre as classes das
covariáveis, a não ser, nas covariáveis ECOG, Grau de diferenciação, Estadio N, Estágio clínico e
Quimioterapia, em que o fato de receber quimioterapia aumenta a curva de sobrevida dos
pacientes.
Tabela 2. Análise exploratória das covariáveis.
Variável Quantidade (%) Log Rank
Sobrevida livre de progressão (SLP)
Sobrevida Global (SG)
Sexo 0,0922 0,3670 Feminino 28 (43,8%)
Masculino 36 (56,2%) Idade
0,9540 0,6940 >65 anos 33 (51,6%) <65 anos 31 (48,4%)
Quimioterapia 0,0001 0,0317 Sim 59 (92,2%)
Não 5 (7,8%) Cólon
0,1950 0,2200 Direito 25 (39,1%) Esquerdo 39 (60,9%)
Mutação 0,9150 0,9940 Mutado 35 (54,7%)
Selvagem 29 (45,3%) ECOG
0,0001 0,0001 0 42 (65,6%) 1 15 (23,4%) 2 7 (10,9%)
Diferenciação Tumoral 0,0016 0,0223 Bem 8 (12,5%)
Moderado 48 (75,0%)
43
Pouco 8 (12,5%) Histologia
0,9790 0,8390 Adenocarcinoma 56 (87,5%) Mucinoso 8 (12,5%)
Categoria tumoral T
0,4180 0,2110 T2 4 (6,2%) T3 46 (71,9%) T4 14 (21,9%)
Categoria tumoral N
0,0965 0,1870 N0 15 (23,4%) N1 24 (37,5%) N2 25 (39,1%)
Estágio clínico
0,1940 0,1260 II 7 (10,9%) III 7 (10,9%) IV 50 (78,1%)
Cetuximabe 0,1230 0,0092 Não 56 (87,5%)
Sim 8 (12,5%) Bevacizumabe
0,0231 0,1480 Não 49 (76,6%) Sim 15 (23,4%)
44
Figura 2. Estimadores de Kaplan Meier das covariáveis.
45
A função de taxa de falha empírica (Figura 3) auxilia a escolha da distribuição paramétrica,
neste caso, será utilizada a distribuição de Weibull para ambos os tempos de sobrevida, devido ao
comportamento crescente desta função.
Figura 3. Função taxa de falha empírica.
4.1. Análise frequentista dos tempos SLP e SG assumindo a distribuição de Weibull
sem a presença de covariáveis.
Para uma análise dos tempos de SLP e SG (sobrevida livre de progressão e sobrevida geral)
sem a presença de covariáveis, considera-se a distribuição de Weibull com densidade (1). Foram
obtidos os estimadores de máxima verossimilhança (ver Tabela 3).
Tabela 3. EMV dos parâmetros da distribuição de Weibull sem covariáveis.
Parâmetro
Sobrevida Livre de Progressão Sobrevida Global
Estimativa Intervalo de confiança 95%
Estimativa Intervalo de confiança 95%
Inferior Superior Inferior Superior
Forma 1,09 0,90 1,32 1,09 0,90 1,32 Escala 16,84 13,19 21,49 16,84 13,19 21,49 Média 16,29 12,84 20,67 35,76 27,93 45,78
Desvio-padrão 14,94 10,98 20,34 29,70 20,66 42,69 Mediana 12,03 9,22 15,70 28,14 21,85 36,23
Os gráficos da Figura 4 mostram que o modelo assumindo distribuição Weibull é adequado
aos dois tempos de sobrevida.
Figura 4. Probability plot para o ajuste com distribuição Weibull.
50403020100
0,30
0,25
0,20
0,15
0,10
0,05
0,00
Média 17,8132
Mediana 11,2667
IQR 12,1333
Tempo de sobrevida livre de progressão
Taxa d
e f
alh
a
Sobrevida livre de progressãoFunção Taxa de Falha (empírica)
9080706050403020100
0,5
0,4
0,3
0,2
0,1
0,0
Média 34,5175
Mediana 28,8333
IQR 36,2
Tempo de sobrevida Global
Taxa d
e f
alh
a
Sobrevida GlobalFunção Taxa de Falha (empírica)
1001010,1
99
90
80
70
60
50
40
30
20
10
5
3
2
1
Forma 1,20970
Escala 38,0928
Média 35,7588
DP 29,6975
Mediana 28,1359
SG
Perc
en
t
Probability Plot for SGWeibull - 95% CI
1001010,1
99
90
80
70
60
50
40
30
20
10
5
3
2
1
Forma 1,09122
Escala 16,8358
Média 16,2885
DP 14,9425
Mediana 12,0327
SLP
Perc
en
t
Probability Plot for SLPWeibull - 95% CI
46
4.2. Análise frequentista dos dados SLP e SG assumindo a distribuição de Weibull na
presença de covariáveis
Usando modelos de regressão de Weibull dados por (6) com todas as covariáveis, temos na
Tabela 4 os resultados inferenciais de interesses.
Tabela 4. EMV dos parâmetros da distribuição de Weibull com covariáveis.
Covariáveis Sobrevida Livre de Progressão Sobrevida Global
Coeficiente Estimado
Erro Padrão
Valor p Coeficiente Estimado
Erro Padrão
Valor p
Intercepto 3,61 0,46 4,8E-15 3,65 0,58 3,29E-10
SEXO1 -0,67 0,21 0,002 -0,35 0,27 0,20
IDADE_CAT1 0,25 0,20 0,21 -0,05 0,24 0,83
ECOG1 -0,55 0,21 0,01 -0,64 0,26 0,01
ECOG2 -1,01 0,25 0,0001 -1,06 0,33 0,001 HISTOLOGIA1 0,34 0,27 0,21 0,07 0,29 0,82
GRAU_DIFERENCIACAO1 0,18 0,27 0,50 0,35 0,40 0,39
GRAU_DIFERENCIACAO2 -0,89 0,39 0,02 0,15 0,50 0,77
QUIMIOTERAPIA1 -1,11 0,33 0,0007 -1,95 0,46 2,11E-05
ESTADIO_T1 0,16 0,36 0,65 0,25 0,38 0,51
ESTADIO_T2 0,15 0,41 0,72 0,12 0,40 0,77
ESTADIO_N1 -0,43 0,29 0,15 -1,49 0,67 0,03
ESTADIO_N2 -0,66 0,31 0,03 -1,87 0,60 0,002
COLON_LADO1 0,23 0,17 0,18 0,22 0,22 0,30 EC1 -0,23 0,43 0,59 1,79 0,69 0,009
EC2 -0,45 0,37 0,23 1,51 0,64 0,02
MUTACAO1 0,44 0,19 0,02 -0,10 0,19 0,62
CETUXIMABE1 -0,78 0,24 0,001 -0,55 0,33 0,10
BEVACIZUMABE1 -0,23 0,24 0,33 -0,18 0,29 0,54
Log(escala) -0,68 0,11 1,41E-10 -0,62 0,12 1,5E-07
Dos resultados obtidos na Tabela 4, observa-se que as covariáveis que têm trazem evidência
de afetar o o tempo de SLP são: Sexo, ECOG, Grau de diferenciação, Quimioterapia, Estadio N,
Mutação e Cetuximabe. Também observa-se da Tabela 4 que as covariáveis que apresentam
evidencia de afetar o tempo de SG são: ECOG, Quimioterapia, Estadio N e EC.
4.3. Análise Bayesiana dos tempos de SLP e SG assumindo dados dependentes e
distribuição Weibull na presença de covariáveis usando um modelo de cópula
FGM
Assumir agora as mesmas covariáveis consideradas para os tempos de sobrevivência SLP e SG
supostos anteriormente como variáveis independentes com distribuição de Weibull, consideradas
na seção 4.2. Agora considerando uma estrutura de dependência dada por um modelo de cópula
FGM (seção 3.2).
Para uma análise Bayesiana do modelo definido por (15) e (16) assumir as seguintes
distribuições a priori para os parâmetros do modelo: 𝛼𝑗 ~ 𝑈(0,100), 𝑝𝑗 ~ 𝑈(0,2), 𝜃 ~ 𝑈(0,1) e
47
𝛽𝑗𝑙 ~ 𝑁(0,2) onde 𝑗 = 1,2 e 𝑙 = 1, 2, . . . , 9. Também foi assumido independência a priori entre
todos os parâmetros. Na simulação as amostras da distribuição a posteriori conjunta de interesse
foi usado o software OpenBugs (burn-in sample =11.000 e 1000 amostras finais tomadas de 100
em 100). A convergência do algoritmo de simulação MCMC foi monitorada a partir de traços das
amostras geradas para todos os parâmetros.A Tabela 5 apresenta os sumários a posteriori de
interesse.
Tabela 5. Estimadores Bayesianos, erros-padrões e intervalos de credibilidade 95% para os parâmetros de
regressão de Weibull para covariáveis (dados SLP e SG)
Covariável Parâmetro Média Estimada Desvio-Padrão Intervalo de confiança 95%
Limite Inferior Limite Superior
alpha1 67,69 18,25 31,45 98,13
alpha2 77,61 15,60 43,23 99,22
p1 1,59 0,17 1,27 1,92
p2 1,49 0,18 1,16 1,84
theta 0,85 0,15 0,46 0,99
SEXO beta11 -0,66 0,19 -1,03 -0,29
IDADE_CAT beta12 0,11 0,20 -0,27 0,51
ECOG beta13 -0,56 0,13 -0,81 -0,31
HISTOLOGIA beta14 0,17 0,28 -0,33 0,72
GRAU_DIFERENCIACAO beta15 -0,38 0,24 -0,84 0,11
QUIMIOTERAPIA beta16 -0,99 0,34 -1,62 -0,30
ESTADIO_T beta17 0,04 0,21 -0,36 0,45
ESTADIO_N beta18 -0,24 0,15 -0,54 0,05
COLON_LADO beta19 0,30 0,17 -0,04 0,64
EC beta110 -0,27 0,15 -0,55 0,01
MUTACAO beta111 0,41 0,19 0,03 0,78
CETUXIMABE beta112 -0,74 0,29 -1,29 -0,11
BEVACIZUMABE beta113 -0,20 0,23 -0,67 0,28
SEXO beta21 -0,23 0,22 -0,65 0,17
IDADE_CAT beta22 -0,24 0,24 -0,70 0,25
ECOG beta23 -0,69 0,15 -1,00 -0,39
HISTOLOGIA beta24 0,22 0,33 -0,38 0,97
GRAU_DIFERENCIACAO beta25 -0,02 0,25 -0,51 0,47
QUIMIOTERAPIA beta26 -1,16 0,40 -1,93 -0,28
ESTADIO_T beta27 -0,06 0,21 -0,47 0,33
ESTADIO_N beta28 -0,44 0,18 -0,80 -0,09
COLON_LADO beta29 0,38 0,22 0,00 0,80
EC beta210 0,28 0,19 -0,08 0,67
MUTACAO beta211 0,01 0,22 -0,41 0,44
CETUXIMABE beta212 -0,59 0,37 -1,30 0,20
BEVACIZUMABE beta213 -0,41 0,28 -0,96 0,16
Dos resultados da Tabela 5 podemos concluir que:
As covariáveis SEXO, ECOG, QUIMIOTERAPIA, MUTAÇÃO e CETUXIMABE tem efeito
significativo em em SLP (intervalo de credibilidade 95% para os parâmetros de regressão
associados com as covariáveis não contem o valor zero).
48
As covariáveis ECOG, QUIMIOTERAPIA e ESTADIO.N e tem efeitos significativos em SG
(intervalos de credibilidade 95% para os parâmetros de regressão beta 23, beta 26 e beta28
associados às covariáveis ECOG, QUIMIOTERAPIA e ESTADIO.N não contem o valor zero).
5. Conclusões
Dados de sobrevida multivariados, como o caso do banco de dados utilizado neste estudo,
necessitam de ferramentas estatísticas adequadas para a sua análise, que considerem a
associação entre os tempos de um mesmo indivíduo.
Modelo de cópula é uma ferramenta conveniente para estudar a estrutura de dependência
entre as variáveis observadas e cada cópula representa diferentes estruturas de dependência
(Nelsen, 1999). Neste estudo foi considerada a cópula FMG que se mostra adequada quando os
dados apresentam fraca dependência
A identificação de fatores que afetem os tempos de sobrevida de pacientes oncológicos é de
extrema importância para a evolução dos tratamentos e tecnologias. A análise considerando
distribuições Weibull com o uso de cópulas FGM sob um enfoque bayesiano, evidenciou que os
fatores: sexo, ECOG, quimioterapia, mutação, cetuximabe e estadio N podem afetar o tempo de
sobrevida livre de progressão e o tempo de sobrevida global.
Pacientes que não fizeram quimioterapia apresentaram tempos de SLP e SG menor em
relação aos pacientes que fizeram quimioterapia. Também apresentaram tempos de SLP e SG
diferente os pacientes com diferentes classificações de ECOG, de modo que pacientes com ECOG
0 (zero) apresentaram tempos de sobrevida superiores do que pacientes com ECOG 1 e 2. O
Estadio N mostrou afetar ambos os tempos de sobrevida (SLP e SG), de modo que quanto maior a
presençade células cancerígenas nos linfonodos próximos menor os tempos de sobrevida.
Nos tempos de sobrevida livre de progressão, são evidenciados maiores tempos em sexo
feminino, status de mutação KRAS mutado. O uso de Cetuximabe também mostrou evidencias de
afetar somente o tempo de sobrevida LP, porém apenas 8 pacientes fizeram uso da medicação,
podendo ser na verdade uma fator de confusão, considerando que a gravidade da doença destes
pacientes é diferente dos demais.
O uso de técnicas de cópula para dados bivariados se mostrou bastante eficiente para
evidenciar os fatores relacionados com os tempos de sobrevida dos pacientes com câncer
colorretal.
49
6. Referências
Arnold, B. C.; Strauss, D. (1988). Bivariate distributions with exponential conditionals.Journal of the American Statistical Association, 83(402), 522–527.
Block, H. W.; Basu, A. P. (1974). A continuous bivariate exponential extension. Journal of the American Statistical Association, (69), 1031–1037.
Bouvard, V. et al. (2015) Carcinogenicity of consumption of red and processed meat. The Lancet. Oncology, London, v. 16, n. 16, p. 1599-1600.
Bray F, Ferlay J, Soerjomataram I, Siegel RL, Torre LA, Jemal A Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries CA Cancer J Clin, Published online. <http://dx.doi.org/10.3322/caac.21492>
Boyle, P.; Leon, M. E. (2002) Epidemiology of colorectal cancer. British Medical Bulletin, London, v. 64, n. 1, p. 1-25.
Casella, G.; George, E. I. (1992). Explaining the Gibbs sampler. The American Statistician,(46), 167–174.
Chib, S.; Greenberg, E. (1995). Understanding the Metropolis-Hastings algorithm. The American Statistician, (49), 327–335.
Colosimo, E. A.; Giolo, S. R. (2006). Análise de Sobrevivência Aplicada. Projeto Fisher - ABE. Edgard Blucher Ltda., São Paulo.
Cox, D. R. ; Oakes, D. (1984). Analysis of Survival Data. Chapman & Hall, London.
Downton, F. (1970). Bivariate exponential distributions in reliability theory. Journal of the Royal Statistical Society, B(32), 408–417.
Fedirko, V. et al. (2011) Alcohol drinking and colorectal cancer risk: an overall and dose-response meta-analysis of published studies. Annals of Oncology, Dordrecht, v. 22, n. 9, p. 1958- 1972.
Fischer, N. I. (1997) Copulas. In: Encyclopedia os Statistical Sciences, Update v. 1, p.159-163. John Wiley Sons, New York
Freund, J. E. (1961). A bivariate extension of the exponential distribution. Journal of the American Statistical Association, (56), 971–977.
Gelfand, A. E. ; Smith, A. F. M. (1990). Sampling based approaches to calculating marginal densities. Journal of the American Statistical Association, (85), 398–409.
Gumbel, E. J. (1954). Statistical theory of extreme values and some practical applications. Applied Mathematics Series 33 (1st ed.). U.S. Department of Commerce, National Bureau of Standards
Gumbel, E. J. (1960). Bivariate exponential distributions. Journal of the American Statistical Association, (55), 698–707.
Harriss, D. J. et al. (2009) Lifestyle factors and colorectal cancer risk (2): a systematic review and meta-analysis of associations with leisure-time physical activity. Colorectal disease, Oxford, v. 11, n. 7, p. 689-701.
Hawkes, A. G. (1972). A bivariate exponential distribution with applications to reliability. Journal of the Royal Statistical Society, B(34), 129–131.
Hougaard, P. (1986). Survival models for heterogeneous populations derived from stable distributions. Biometrika, 3(73), 387–396.
INTERFARMA. Câncer no Brasil A jornada do paciente no sistema de saúde e seus impactos sociais e financeiros. 2019. <https://www.interfarma.org.br/public/files/biblioteca/cancer-no-brasil-n-a-jornada-do-paciente-no-sistema-de-saude-e-seus-impactos-sociais-e-financeiros-interfarma.pdf>
Kaplan, E. L.; Meier, P. (1958). "Nonparametric estimation from incomplete observations". J. Amer. Statist. Assn. 53 (282): 457–481.
50
Klein, J. P. ; Moeschberger, M. L. (1997). Survival Analysis: Techniques for Censoredand Truncated Data. Springer-Verlag, New York.
Lawless, J. F. (1982). Statistical Models and Methods for Lifetime Data. John Wiley, New York.
Marshall, A. W. & Olkin, I. (1967a). A generalized bivariate exponential distribution. Journal of Applied Probability, (4), 291–302.
Marshall, A. W. & Olkin, I. (1967b). A multivariate exponential distribution. Journal of the American Statistical Association, (62), 30–44.
Mathers, C. D., & Loncar, D. (2006). Projections of global mortality and burden of disease from 2002 to 2030. PLoS Medicine, 3(11), 2011–2030. https://doi.org/10.1371/journal.pmed.0030442
Ministério da Saúde do Brasil. Diretrizes Diagnósticas e Terapêuticas do Câncer de Cólon e Reto. 2014.
Mood,A.M.; Graybill,F.A.; Boes, D.C (1974) Introduction to the Theory of Statistics. Front Cover. McGraw-Hill.
Morgenstern, D. (1956). Einfache Beispiele Zweidimensionaler Verteilungen. Mitteilingsblatt fur Mathematische Statistik , 8, 234–253.
Nelsen, R. B. (1999). An Introduction to Copulas. Springer-Verlag, New York.
Paulino, C. D., Turkman, M. A. A. ; Murteira, B. (2003). Estatística Bayesiana.Fundação Calouste Gulbenkian, Lisboa.
Sandler, R. S. (1996) Epidemiology and risk factors for colorectal cancer. Gastroenterology Clinics of North America, Philadelphia, v. 25, n.4, p.717-735.
Sarkar, S. K. (1987). A continuous bivariate exponential distribution. Journal of the
American Statistical Association, (82), 667–675.
Sklar, A. (1959). Fonctions de repartition `a n-dimensions et leurs marges. Inst. Stat.
University Paris, (8), 229–231.
Spiegelhalter, D. J.; Thomas, A.; Best, N. G.; Gilks, W. R. (2003). WinBUGS User Manual (version 1.4). MRC Biostatistics Unit, Cambridge, UK.
Trivedi, P. K. ; Zimmer, D. M. (2005a). Copula Modelling. New Publishers, New York.
Trivedi, P. K. ; Zimmer, D. M. (2005b). Copula modelling: An introduction to practicioners. Foundations and trends in econometrics, 1(1), 1–111.
Walter, V. (2014) Smoking and survival of colorectal cancer patients: systematic review and meta-analysis. Annals of Oncology, Dordrecht, v. 25, n. 8, p. 1517-1525.
Weibull, W. (1951). A Statistical distribution function of wide applicability. Journal of Applied Mechanics, pages 292–297.
World Cancer Research Fundation; AMERICAN INSTITUTE FOR CANCER RESEARCH. Pancreatic Cancer 2012 report: food, nutrition, physical activity, and the prevention of colorectal cancer. Washington, DC: American Institute for Cancer Research, 2012. (Continuous Update Project CUP).
51
Apêndice A - Programa Open Bugs (Modelo de Weibull dependente com função de
copula FGM)
model { for (i in 1:N) {
lambda1[i]<- alpha1*exp(beta11*SEXO[i] +beta12*IDADE_CAT[i] +beta13*ECOG[i] +beta14*HISTOLOGIA[i]
+beta15*GRAU_DIFERENCIACAO[i] +beta16*QUIMIOTERAPIA[i] +beta17*ESTADIO_T[i] +beta18* ESTADIO_N [i] +beta19*COLON_LADO[i] +beta110*EC[i] +beta111* MUTACAO[i] +beta112*CETUXIMABE[i] +beta113*BEVACIZUMABE[i])
lambda2[i]<- alpha2*exp(beta21*SEXO[i] +beta22*IDADE_CAT[i] +beta23*ECOG[i] +beta24*HISTOLOGIA[i] +beta25*GRAU_DIFERENCIACAO[i] +beta26*QUIMIOTERAPIA[i] +beta27*ESTADIO_T[i] +beta28* ESTADIO_N [i] +beta29*COLON_LADO[i] +beta210*EC[i] +beta211* MUTACAO[i] +beta212* CETUXIMABE[i]
+beta213*BEVACIZUMABE[i]) zeros[i] <- 0 phi[i] <- -log(L[i])
zeros[i] ~ dpois(phi[i]) a1[i]<- pow(SLP[i]/lambda1[i],p1) a2[i]<- pow(SG[i]/lambda2[i],p2)
b2[i]<- exp(-a1[i]-a2[i]) b1[i]<- 1+theta-2*theta*exp(-a1[i])-2*theta*exp(-a2[i])+4*theta*b2[i] f2[i]<-((p1*p2*a1[i]*a2[i])/(SLP[i]*SG[i]))*b1[i]*b2[i]
c1[i]<- p1*a1[i]/SLP[i] c2[i]<- p2*a2[i]/SG[i] S21[i]<- (c1[i])*(b2[i])*(1+theta-2*theta*exp(-a1[i])-theta*exp(-a2[i])+2*theta*b2[i])
S22[i]<- (c2[i])*(b2[i])*(1+theta-theta*exp(-a1[i])-2*theta*exp(-a2[i])+2*theta*b2[i]) S2[i]<- (b2[i])*(1+theta*(1-exp(-a1[i]))*(1-exp(-a2[i]))) L[i]<- exp(CensuraLP[i]*CensuraG[i]*log(f2[i])+ CensuraLP[i]*(1-CensuraG[i])*log(S21[i]) + (1-
CensuraLP[i])*CensuraG[i]*log(S22[i]) + (1-CensuraLP[i])*(1-CensuraG[i])*log(S2[i])) } alpha1~ dunif(0,100)
alpha2~ dunif(0,100) theta~ dunif(0,1) p1~ dunif(0,2)
p2~ dunif(0,2) beta11~ dnorm(0,1)
beta12~ dnorm(0,1) beta13~dnorm(0,1) beta14~ dnorm(0,1)
beta15~ dnorm(0,1) beta16~dnorm(0,1) beta17~ dnorm(0,1)
beta18~ dnorm(0,1) beta19~ dnorm(0,1) beta110~ dnorm(0,1)
beta111~ dnorm(0,1) beta112~dnorm(0,1) beta113~ dnorm(0,1)
beta21~ dnorm(0,1) beta22~ dnorm(0,1)
beta23~ dnorm(0,1) beta24~ dnorm(0,1) beta25~ dnorm(0,1)
beta26~ dnorm(0,1) beta27~ dnorm(0,1) beta28~ dnorm(0,1)
beta29~ dnorm(0,1) beta210~ dnorm(0,1) beta211~ dnorm(0,1)
beta212~ dnorm(0,1) beta213~ dnorm(0,1) }
52
CAPÍTULO 6. CONCLUSÕES
A estimativa de pontos de corte ótimos (baseados na variável resposta) para covariáveis em
modelos de regressão paramétrica em análise de sobrevivência é de grande interesse em estudos
médicos. Apesar da perda de informações ao usar a dicotomização de uma variável independente
sob um abordagem de modelagem de regressão, esses pontos de corte são muito úteis para um
melhor diagnóstico em diferentes situações médicas.
Uma dessas aplicações é dada quando deseja-se evidenciar possíveis fatores que afetam a
sobrevida dos pacientes. Neste estudo, após a dicotomização das variáveis contínuas, foi possível
evidenciar a relação delas com o tempo de sobrevida. A metodologia proposta pode ser usada
para diferentes distribuições com dados censurados ou sem censura sob uma abordagem
bayesiana e usando métodos de simulação MCMC.
A crescente influência das inovações em tratamentos oncológicos no aumento do tempo
de sobrevida de pacientes após diagnóstico e tratamento de câncer faz surgir o interesse no
estudo dos dois eventos: recidiva e óbito.
No presente estudo também observou-se a necessidade da incorporação de fração de
cura, pois em uma fração dos individuos não se observou o evento de interesse. O modelo
bivariado geométrico de Basu-Dhar foi adequado ao banco de dados que necessitava de uma
modelagem estatístisca que considerasse a dependência entres os tempos observados e a
incorporação da informação de fração de cura. Se mostrou ser uma boa alternativa à dados
bivariados na presença de fração de cura, uma vez que geralmente encontramos dificuldades
computacionais para obter inferências para os parâmentros de interesse usando distribuições
como por exemplo Block-Basu ou Marshal e Olkin. No entanto, uma limitação importante do
modelo bivariado geométrico de Basu-Dhar é que suas funções de risco marginal são constantes e
isso pode ser irreal em alguns casos.
No caso dos dados de pacientes com câncer de cólon, foi aplicado um modelo de cópula
que é uma ferramenta conveniente para estudar a estrutura de dependência entre os tempos de
sobrevida, neste estudo foi considerada a cópula FMG que se mostrou adequada quando os
dados apresentam fraca dependência.
A identificação de fatores que afetem os tempos de sobrevida de pacientes oncológicos é
de extrema importância para a evolução dos tratamentos e tecnologias. A análise considerando
distribuições Weibull com o uso de cópulas FGM sob um enfoque bayesiano, evidenciou quais
53
fatores afetaram os temos de sobrevida dos pacientes e de que forma, fornecendo importantes
informações para o pesquisador especialista.
A depender do objetivo do médico/pesquisador, ferramentas estatísticas de análise de
sobrevivência são muito úteis e capazes de incorporar as caracteristicas individuais de cada
conjunto de dados.
54
APÊNDICE A
PROGRAMA OPEN BUGS (ESTUDO 1)
i. Uncensored data (Krall Data set)
model{ for(i in 1 : N) {
time[i] ~ dweib(r, mu[i]) mu[i] <- exp(beta0+beta1*step(x1[i]-tau1)+ beta2*step(x2[i]-tau2)+ beta3*step(x3[i]-tau3)+ beta4*x4[i] + beta5*step(x5[i]-tau4))
} r ~ dgamma(1,1) beta0 ~ dnorm(1,0.1) beta1 ~ dnorm(0,1) beta2 ~ dnorm(0,1) beta3 ~ dnorm(0,1) beta4 ~ dnorm(0,1) beta5 ~ dnorm(0,1) tau1 ~ dunif(1.3,1.7) tau2 ~ dunif(5,14.6) tau3 ~ dunif(45,70) tau4 ~ dunif(8,18)
}
ii. Grenne e Byar Data set
model{
for(i in 1 : N) { dtime[i] ~ dweib(r, mu[i])I(cen[i],) mu[i] <- exp(beta0+beta1*stage[i]+beta2*step(age[i]-tau1)+beta3*step(weightindex[i]-tau2)+beta4*carddisease[i]+beta5*step(systolic[i]-tau3)+beta6*step(diastolic[i]-tau4)+beta7*step(serum.hemogl[i]-tau5)+beta8*step(sz[i]-tau6)+beta9*step(sg[i]-tau7)+beta10*step(ap[i]-tau8)+beta11*bm[i]+beta12*rx[i])
} r ~ dgamma(1,1) beta0 ~ dnorm(5,0.1) beta1 ~ dnorm(0,1) beta2 ~ dnorm(0,1) beta3 ~ dnorm(0,1) beta4 ~ dnorm(0,1) beta5 ~ dnorm(0,1) beta6 ~ dnorm(0,1) beta7 ~ dnorm(0,1) beta8 ~ dnorm(0,1) beta9 ~ dnorm(0,1) beta10 ~ dnorm(0,1) beta11 ~ dnorm(0,1) beta12 ~ dnorm(0,1) tau1 ~ dunif(48,89) tau2 ~ dunif(69,152) tau3 ~ dunif(8,30) tau4 ~ dunif(4,18) tau5 ~ dunif(5.9,18.2) tau6 ~ dunif(0,69) tau7 ~ dunif(5,15) tau8 ~ dunif(0.1,999.9)
}
iii. German breast cancer Data set
model{ for(i in 1 : N) {
time[i] ~ dweib(r, mu[i])I(cen[i],)
55
mu[i] <- exp(beta0+beta1*step(age[i]-tau.age)+beta2*menopause[i]+beta3*hormone[i]+beta4*step(size[i]-tau.size)+beta5*grade[i]+beta6*step(node[i]-tau.node)+beta7*step(progrecp[i]-tau.progrecp)+beta8*step(estrrecp[i]-tau.estrrecp))
} r ~ dgamma(1,1) beta0 ~ dnorm(8,0.1) beta1 ~ dnorm(0,1) beta2 ~ dnorm(0,1) beta3 ~ dnorm(0,1) beta4 ~ dnorm(0,1) beta5 ~ dnorm(0,1) beta6 ~ dnorm(0,1) beta7 ~ dnorm(0,1) beta8 ~ dnorm(0,1) tau.age ~ dunif(21,80) tau.size ~ dunif(3,120) tau.node ~ dunif(1,51) tau.progrecp ~ dunif(0,2380) tau.estrrecp ~ dunif(0,1144)
56
APÊNDICE B
PROGRAMA OPEN BUGS (ESTUDO 2)
i. Distribuição BDBG na presença de censura e fração de cura
model {
for (i in 1:N) { difT[i] <- t1[i] - t2[i] k1[i] <- 1 - step(difT[i]) k3[i] <- equals(t1[i],t2[i]) k2[i] <- (1-k1[i])*(1-k3[i]) PT1[i] <- (1-p[1]*p[3])*pow(p[1]*p[3],t1[i]-1) PT2[i] <- (1-p[2]*p[3])*pow(p[2]*p[3],t2[i]-1) P1A[i] <- phi[1]*pow(p[1],t1[i]-1)*(1-p[1])*pow(p[2]*p[3],t2[i]-1)*(1-p[2]*p[3]) P1B[i] <- phi[1]*pow(p[2],t2[i]-1)*(1-p[2])*pow(p[1]*p[3],t1[i]-1)*(1-p[1]*p[3]) P1C[i] <- phi[1]*pow(p[1]*p[2]*p[3],t1[i]-1)*(1-p[1]*p[3]-p[2]*p[3]+p[1]*p[2]*p[3]) P2A[i] <- phi[2]*PT1[i]+phi[1]*pow(p[1],t1[i]-1)*(1-p[1])*pow(p[2]*p[3],t2[i]) P2B[i] <- phi[2]*PT1[i]+phi[1]*pow(p[2],t2[i])*pow(p[1]*p[3],t1[i]-1)*(1-p[1]*p[3]) P2C[i] <- P2A[i] P3A[i] <- phi[3]*PT2[i]+phi[1]*pow(p[1],t1[i])*pow(p[2]*p[3],t2[i]-1)*(1-p[2]*p[3]) P3B[i] <- phi[3]*PT2[i]+phi[1]*pow(p[2],t2[i]-1)*(1-p[2])*pow(p[1]*p[3],t1[i]) P3C[i] <- P3B[i] P4[i] <- phi[4]+phi[1]*pow(p[1],t1[i])*pow(p[2],t2[i])*pow(p[3],max(t1[i],t2[i]))+phi[2]*pow(p[1]*p[3],t1[i]-1)+phi[3]*pow(p[2]*p[3],t2[i]-1)P1[i] <- pow(P1A[i],k1[i])*pow(P1B[i],k2[i])*pow(P1C[i],k3[i]) P2[i] <- pow(P2A[i],k1[i])*pow(P2B[i],k2[i])*pow(P2C[i],k3[i]) P3[i] <- pow(P3A[i],k1[i])*pow(P3B[i],k2[i])*pow(P3C[i],k3[i]) L[i] <- pow(P1[i],d1[i]*d2[i])*pow(P2[i],d1[i]*(1-d2[i])) *pow(P3[i],(1-d1[i])*d2[i])*pow(P4[i],(1-d1[i])*(1-d2[i])) logL[i] <- log(L[i]) zeros[i] <- 0 zeros[i] ~ dloglik(logL[i])
} phi[1] <- (1-theta[1])*(1-theta[2]) + w phi[2] <- (1-theta[1])*theta[2] - w phi[3] <- theta[1]*(1-theta[2]) - w phi[4] <- theta[1]*theta[2] + w
} # Prior distributions theta[1] ~ dbeta(1,1) theta[2] ~ dbeta(1,1) p[1] ~ dbeta(1,1) p[2] ~ dbeta(1,1) p[3] ~ dbeta(1,1) w <- g*(min(theta[1],theta[2]) - theta[1]*theta[2]) g ~ dunif(0,1) # Means of the lifetimes m[1] <- 1/(1-p[1]*p[3]) m[2] <- 1/(1-p[2]*p[3]) # Marginal survival functions for (t in 1:120) {
S1[t] <- theta[1]+(1-theta[1])*pow(p[1]*p[3],t-1) S2[t] <- theta[2]+(1-theta[2])*pow(p[2]*p[3],t-1) }
}
ii. Distribuição exponencial bivariada Block e Basu sem a presença de covariáveis
model { lambda<- lambda1+lambda2+lambda3 lambda12<- lambda1+lambda2 lambda13<- lambda1+lambda3 lambda23<- lambda2+lambda3 a1<- (lambda*lambda1*lambda23)/lambda12 a2<- (lambda*lambda2*lambda13)/lambda12 mean1<- 1/lambda13+(lambda2*lambda3)/(lambda*lambda12*lambda13)
57
mean2<- 1/lambda23+(lambda1*lambda3)/(lambda*lambda12*lambda23) d1<-lambda2*lambda3*(2*lambda1*lambda+lambda2*lambda3) var1<-1/pow(lambda13,2)+d1/(pow(lambda,2)*pow(lambda12,2)*pow(lambda13,2)) sd1<-sqrt(var1) d2<-lambda1*lambda3*(2*lambda2*lambda+lambda1*lambda3) var2<-1/pow(lambda23,2)+d2/(pow(lambda,2)*pow(lambda12,2)*pow(lambda23,2)) sd2<-sqrt(var2) b1<-(pow(lambda1,2)+pow(lambda2,2))*lambda3*lambda+lambda1*lambda2*pow(lambda3,2) b2<- pow(lambda,2)*lambda12*lambda13*lambda23 cov12<-b1/b2 rho12<-cov12/(sd1*sd2) for (i in 1:N) { zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) f1[i]<- a1*exp(-lambda1*t1[i]-lambda23*t2[i]) f2[i]<- a2*exp(-lambda13*t1[i]-lambda2*t2[i]) S1[i]<- (lambda/lambda12)*exp(-lambda1*t1[i]-lambda23*t2[i])-(lambda3/lambda12)*exp(-lambda*t2[i]) S2[i]<- (lambda/lambda12)*exp(-lambda13*t1[i]-lambda2*t2[i])-(lambda3/lambda12)*exp(-lambda*t1[i]) Sstar1t1[i]<- (lambda*lambda1)/(lambda12)*exp(-lambda1*t1[i]-lambda23*t2[i])
Sstar2t1[i]<- (lambda*lambda13)/(lambda12)*exp(-lambda13*t1[i]-lambda2*t2[i])- (lambda*lambda3)/(lambda12)*exp(-lambda*t1[i]) Sstar1t2[i]<- (lambda*lambda23)/(lambda12)*exp(-lambda1*t1[i]-lambda23*t2[i])- (lambda*lambda3)/(lambda12)*exp(-lambda*t2[i])
Sstar2t2[i]<- (lambda*lambda2)/(lambda12)*exp(-lambda13*t1[i]-lambda2*t2[i]) L[i]<- exp(v[i]*delta1[i]*delta2[i]*log(f1[i])+ (1-v[i])*delta1[i]*delta2[i]*log(f2[i])+ v[i]*delta1[i]*(1-delta2[i])*log(Sstar1t1[i]) + (1-v[i])*delta1[i]*(1-delta2[i])*log(Sstar2t1[i]) + v[i]*(1-delta1[i])*delta2[i]*log(Sstar1t2[i]) + (1-v[i])*(1-delta1[i])*delta2[i]*log(Sstar2t2[i]) + v[i]*(1-delta1[i])*(1-delta2[i])*log(S1[i]) + (1-v[i])*(1-delta1[i])*(1-delta2[i])*log(S2[i]))
} lambda1~ dgamma(1,100) lambda2~ dgamma(1,100) lambda3~ dgamma(1,100) }
iii. Distribuição exponencial bivariada Block e Basu com a presença de covariáveis
model { for (i in 1:N) {
lambda1[i]<- alpha1* exp(beta11*idade[i]+beta12*herceptin[i]+beta13*estágio[i]+beta14*tipo.cirurgia[i]+beta15*pCR[i]+beta16*estrogênio[i]+beta17*progesterona[i]) lambda2[i]<- alpha2* exp(beta21*idade[i]+beta22*herceptin[i]+beta23*estágio[i]+beta24*tipo.cirurgia[i]+beta25*pCR[i]+beta26*estrogênio[i]+beta27*progesterona[i])
lambda[i]<- lambda1[i]+lambda2[i]+lambda3 lambda12[i]<- lambda1[i]+lambda2[i] lambda13[i]<- lambda1[i]+lambda3 lambda23[i]<- lambda2[i]+lambda3 a1[i]<- (lambda[i]*lambda1[i]*lambda23[i])/lambda12[i] a2[i]<- (lambda[i]*lambda2[i]*lambda13[i])/lambda12[i] zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) f1[i]<- a1[i]*exp(-lambda1[i]*t1[i]-lambda23[i]*t2[i]) f2[i]<- a2[i]*exp(-lambda13[i]*t1[i]-lambda2[i]*t2[i])
S1[i]<- (lambda[i]/lambda12[i])*exp(-lambda1[i]*t1[i]-lambda23[i]*t2[i])-(lambda3/lambda12[i])*exp(-lambda[i]*t2[i]) S2[i]<- (lambda[i]/lambda12[i])*exp(-lambda13[i]*t1[i]-lambda2[i]*t2[i])-(lambda3/lambda12[i])*exp(-lambda[i]*t1[i])
Sstar1t1[i]<- (lambda[i]*lambda1[i])/(lambda12[i])*exp(-lambda1[i]*t1[i]-lambda23[i]*t2[i]) Sstar2t1[i]<- (lambda[i]*lambda13[i])/(lambda12[i])*exp(-lambda13[i]*t1[i]-lambda2[i]*t2[i])- (lambda[i]*lambda3)/(lambda12[i])*exp(-lambda[i]*t1[i]) Sstar1t2[i]<- (lambda[i]*lambda23[i])/(lambda12[i])*exp(-lambda1[i]*t1[i]-lambda23[i]*t2[i])- (lambda[i]*lambda3)/(lambda12[i])*exp(-lambda[i]*t2[i])
Sstar2t2[i]<- (lambda[i]*lambda2[i])/(lambda12[i])*exp(-lambda13[i]*t1[i]-lambda2[i]*t2[i]) L[i]<- exp(v[i]*delta1[i]*delta2[i]*log(f1[i])+ (1-v[i])*delta1[i]*delta2[i]*log(f2[i])+ v[i]*delta1[i]*(1-delta2[i])*log(Sstar1t1[i]) + (1-v[i])*delta1[i]*(1-delta2[i])*log(Sstar2t1[i]) + v[i]*(1-
58
delta1[i])*delta2[i]*log(Sstar1t2[i]) + (1-v[i])*(1-delta1[i])*delta2[i]*log(Sstar2t2[i]) + v[i]*(1-delta1[i])*(1-delta2[i])*log(S1[i]) + (1-v[i])*(1-delta1[i])*(1-delta2[i])*log(S2[i]))
mean1[i]<- 1/lambda13[i]+(lambda2[i]*lambda3)/(lambda[i]*lambda12[i]*lambda13[i]) mean2[i]<- 1/lambda23[i]+(lambda1[i]*lambda3)/(lambda[i]*lambda12[i]*lambda23[i]) }
lambda3~ dgamma(1,100) alpha1~ dgamma(1,1) alpha2~ dgamma(1,1) beta11~ dnorm(0,1) beta12~ dnorm(0,1) beta13~ dnorm(0,1) beta14~ dnorm(0,1) beta15~ dnorm(0,1) beta16~ dnorm(0,1) beta17~ dnorm(0,1) beta21~ dnorm(0,1) beta22~ dnorm(0,1) beta23~ dnorm(0,1) beta24~ dnorm(0,1) beta25~ dnorm(0,1) beta26~ dnorm(0,1) beta27~ dnorm(0,1)
}
iv. Distribuição geométrica bivariada Arnold sem a presença de covariáveis
model { gamma1 <- 1-theta1-theta2 gamma2 <- 1-theta1 gamma3 <- 1-theta2 for (i in 1:N) { zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) a1[i]<- pow(gamma1,t1[i]-1) a2[i]<- pow(gamma3,t2[i]-t1[i]-1) a3[i]<- pow(gamma1,t2[i]-1) a4[i]<- pow(gamma2,t1[i]-t2[i]-1) P1[i]<- theta1*theta2*a1[i]*a2[i] P2[i]<- theta1*theta2*a3[i]*a4[i] a5[i]<- pow(gamma1,t2[i]) a6[i]<- pow(gamma2,t1[i]-t2[i]-1) S1[i]<- theta1*a1[i]*a2[i] S2[i]<- theta1*a5[i]*a6[i] a7[i]<- pow(gamma1,t1[i]) a8[i]<- pow(gamma3,t2[i]-t1[i]-1) a9[i]<- pow(gamma2,t1[i]-t2[i]) R1[i]<- theta2*a8[i]*a7[i] R2[i]<- theta2*a9[i]*a3[i] a10[i]<- pow(gamma3,t2[i]-t1[i]) U1[i]<- a10[i]*a7[i] U2[i]<- a9[i]*a5[i]
L[i]<- exp(v[i]*delta1[i]*delta2[i]*log(P1[i])+(1-v[i])*delta1[i]*delta2[i]*log(P2[i])+v[i]*delta1[i]*(1-delta2[i])*log(S1[i])+
(1-v[i])*delta1[i]*(1-delta2[i])*log(S2[i]) + v[i]*(1-delta1[i])*delta2[i]*log(R1[i]) + (1-v[i])*(1-delta1[i])*delta2[i]*log(R2[i]) + v[i]*(1-delta1[i])*(1-delta2[i])*log(U1[i]) + (1-v[i])*(1-delta1[i])*(1-delta2[i])*log(U2[i]))
} theta1<- p[1] theta2<- p[2] r<- p[3] p[1:3]~ddirich(alpha[]) mean1<-(1-theta1)/theta1 mean2<-(1-theta2)/theta2 }
59
v. Distribuição geométrica bivariada Arnold com a presença de covariáveis
model{ for (i in 1:N) { zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) a1[i] <- 1-theta[i] p1[i] <- theta[i]*pow(a1[i],t1[i]) p2[i] <- pow(a1[i],t1[i]) L[i]<- exp(delta1[i]*log(p1[i])+(1-delta1[i])*log(p2[i]))
logit(theta[i]) <-beta10+beta11*idade[i]+beta12*herceptin[i]+ beta13*estágio[i]+beta14*tipo.cirurgia[i]+beta15*pCR[i]+beta16*estrogênio[i]+beta17*progesterona[i]
mean[i]<-(1-theta[i])/theta[i] }
beta10~dnorm(0,1) beta11~ dnorm(0,1) beta12~dnorm(0,1) beta13~dnorm(0,1) beta14~dnorm(0,1) beta15~dnorm(0,1) beta16~dnorm(0,1) beta17~ dnorm(0,1)
}
vi. Distribuição geométrica bivariada Arnold com a presença de covariáveis e utilizando
distribuições a priori informativas
model { for (i in 1:N) { zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) gamma1[i] <- 1-theta1[i]-theta2[i] gamma2[i] <- 1-theta1[i] gamma3[i] <- 1-theta2[i] a1[i]<- pow(gamma1[i],t1[i]-1) a2[i]<- pow(gamma3[i],t2[i]-t1[i]-1) a3[i]<- pow(gamma1[i],t2[i]-1) a4[i]<- pow(gamma2[i],t1[i]-t2[i]-1) P1[i]<- theta1[i]*theta2[i]*a1[i]*a2[i] P2[i]<- theta1[i]*theta2[i]*a3[i]*a4[i] a5[i]<- pow(gamma1[i],t2[i]) a6[i]<- pow(gamma2[i],t1[i]-t2[i]-1) S1[i]<- theta1[i]*a1[i]*a2[i] S2[i]<- theta1[i]*a5[i]*a6[i] a7[i]<- pow(gamma1[i],t1[i]) a8[i]<- pow(gamma3[i],t2[i]-t1[i]-1) a9[i]<- pow(gamma2[i],t1[i]-t2[i]) R1[i]<- theta2[i]*a8[i]*a7[i] R2[i]<- theta2[i]*a9[i]*a3[i] a10[i]<- pow(gamma3[i],t2[i]-t1[i]) U1[i]<- a10[i]*a7[i] U2[i]<- a9[i]*a5[i]
logit(theta1[i]) <-beta10+beta11*idade[i]+beta12*herceptin[i]+beta13*estágio[i]+beta14*tipo.cirurgia[i]+beta15*pCR[i]+beta16*estrogênio[i]+beta17*progesterona[i] logit(theta2[i]) <- beta20+ beta21*idade[i]+beta22*herceptin[i]+beta23*estágio[i]+beta24*tipo.cirurgia[i]+beta25*pCR[i]+beta26*estrogênio[i]+beta27*progesterona[i] L[i]<- exp(v[i]*delta1[i]*delta2[i]*log(P1[i])+(1-v[i])*delta1[i]*delta2[i]*log(P2[i])+v[i]*delta1[i]*(1-delta2[i])*log(S1[i])+(1-v[i])*delta1[i]*(1-delta2[i])*log(S2[i])+v[i]*(1-delta1[i])*delta2[i]*log(R1[i])+(1-v[i])*(1-delta1[i])*delta2[i]*log(R2[i]) + v[i]*(1-delta1[i])*(1-delta2[i])*log(U1[i])+(1-v[i])*(1-delta1[i])*(1-delta2[i])*log(U2[i]))
} beta10~ dnorm(-1.1500,1) beta11~ dnorm(-0.6106,1) beta12~ dnorm(-0.7497,1) beta13~ dnorm(-0.7921,1)
60
beta14~ dnorm(0.1646,1) beta15~ dnorm(-0.5464,1) beta16~ dnorm(-0.3122,1) beta17~ dnorm(-0.4517,1) beta20~ dnorm(-1.1310,1) beta21~ dnorm(0.0109,1) beta22~ dnorm(-0.8977,1) beta23~ dnorm(-1.3640,1) beta24~ dnorm(0.8478,1) beta25~ dnorm(-0.7906,1) beta26~ dnorm(-0.0024,1) beta27~ dnorm(-0.7040,1)
}
vii. Distribuição geométrica bivariada Basu-Dhar sem a presença de covariáveis
model { for (i in 1:N) { zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) z1[i]<-max(t1[i]-1,t2[i]) z2[i]<-max(t1[i],t2[i]) z3[i]<-max(t1[i],t2[i]-1) log(A1[i])<-(t1[i]-1)*log(p1)+ (t2[i]-1)*(log(p2)+log(p12))+log(1-p1)+log(1-p2*p12) log(A2[i])<-(t1[i]-1)*(log(p1)+log(p2)+log(p12))+ log(1-p1*p2-p2*p12+p1*p2*p12) log(A3[i])<-(t2[i]-1)*log(p2)+ (t1[i]-1)*(log(p1)+log(p12))+log(1-p2)+log(1-p1*p12) log(P11[i])<-delta1[i]*(1-delta2[i])*(1-delta3[i])*log(A1[i])+ delta3[i]*(1-delta1[i])*(1-delta2[i])*log(A2[i])+ delta2[i]*(1-delta1[i])*(1-delta3[i])*log(A3[i]) log(P10[i])<- (t1[i]-1)*log(p1)+ t2[i]*log(p2)+log(pow(p12,z1[i])-p1*pow(p12,z2[i])) log(P01[i])<- t1[i]*log(p1)+(t2[i]-1)*log(p2)+log(pow(p12,z3[i])-p2*pow(p12,z2[i])) log(P00[i])<- t1[i]*log(p1)+t2[i]*log(p2)+z2[i]*log(p12)
log(L[i])<- v1[i]*v2[i]*log(P11[i])+v1[i]*(1-v2[i])*log(P10[i])+(1-v1[i])*v2[i]*log(P01[i])+(1-v1[i])*(1-v2[i])*log(P00[i])
} p1~ dunif(0,1) p2~ dunif(0,1) p12~ dunif(0,1) mean1<-1/(1-p1*p12) mean2<-1/(1-p2*p12)
}
viii. Distribuição geométrica bivariada Basu-Dhar com a presença de covariáveis
model {
for (i in 1:N) { zeros[i] <- 0 phi[i] <- -log(L[i]) zeros[i] ~ dpois(phi[i]) z2[i]<-max(t1[i],t2[i]) logit(p1[i]) <- beta10+beta11*idade[i]+beta12*herceptin[i]+beta13*estágio[i]+beta14*tipo.cirurgia[i]+beta15*pCR[i]+beta16*estrogênio[i]+beta17*progesterona[i] logit(p2[i]) <- beta20+beta21*idade[i]+beta22*herceptin[i]+beta23*estágio[i]+beta24*tipo.cirurgia[i]+beta25*pCR[i]+beta26*estrogênio[i]+beta27*progesterona[i] logit(p12[i]) <- beta30+beta31*idade[i]+beta32*herceptin[i]+beta33*estágio[i]+beta34*tipo.cirurgia[i]+beta35*pCR[i]+beta36*estrogênio[i]+beta37*progesterona[i] log(A1[i])<-(t1[i]-1)*log(p1[i])+ (t2[i]-1)*(log(p2[i])+log(p12[i]))+log(1-p1[i])+log(1-p2[i]*p12[i]) log(A2[i])<-(t1[i]-1)*(log(p1[i])+log(p2[i])+log(p12[i]))+ log(1-p1[i]*p2[i]-p2[i]*p12[i]+p1[i]*p2[i]*p12[i]) log(A3[i])<-(t2[i]-1)*log(p2[i])+ (t1[i]-1)*(log(p1[i])+log(p12[i]))+log(1-p2[i])+log(1-p1[i]*p12[i]) log(P11[i])<-delta1[i]*(1-delta2[i])*(1-delta3[i])*log(A1[i])+delta3[i]*(1-delta1[i])*(1-delta2[i])*log(A2[i])+ delta2[i]*(1-delta1[i])*(1-delta3[i])*log(A3[i]) log(P10[i])<- ((t1[i]-1)*log(p1[i])+ t2[i]*log(p2[i])+ t2[i]*log(p12[i])+ log(1-p1[i]))* delta1[i]+((t1[i]-1)*log(p1[i])+ t1[i]*log(p2[i])+ t1[i]*log(p12[i])+ log(1-p1[i]))*delta3[i]+ ((t2[i])*log(p1[i])+(t1[i]-1)*log(p1[i])+(t1[i]-1)*log(p12[i])+ log(1-p1[i]*p12[i]))*delta2[i]
61
log(P01[i])<- ((t1[i])*log(p1[i])+ (t2[i]-1)*log(p2[i])+ (t2[i]-1)*log(p12[i])+ log(1-p2[i]*p12[i]))*delta1[i]+((t2[i]-1)*log(p2[i])+ t1[i]*log(p1[i])+ t1[i]*log(p12[i])+ log(1-p2[i]))*delta3[i]+((t2[i]-1)*log(p2[i])+(t1[i])*log(p1[i])+(t1[i])*log(p12[i])+log(1-p2[i]))*delta2[i] log(P00[i])<- t1[i]*log(p1[i])+t2[i]*log(p2[i])+z2[i]*log(p12[i]) log(L[i])<- v1[i]*v2[i]*log(P11[i])+v1[i]*(1-v2[i])*log(P10[i])+(1-v1[i])*v2[i]*log(P01[i])+(1-v1[i])*(1-v2[i])*log(P00[i]) mean1[i]<-(1/(1-p1[i]*p12[i])) mean2[i]<-(1/(1-p2[i]*p12[i]))
} beta10~ dnorm(0,1) beta11~ dnorm(0,1) beta12~ dnorm(0,1) beta13~ dnorm(0,1) beta14~ dnorm(0,1) beta15~ dnorm(0,1) beta16~ dnorm(0,1) beta17~ dnorm(0,1) beta20~ dnorm(0,1) beta21~ dnorm(0,1) beta22~ dnorm(0,1) beta23~ dnorm(0,1) beta24~ dnorm(0,1) beta25~ dnorm(0,1) beta26~ dnorm(0,1) beta27~ dnorm(0,1) beta30~ dnorm(0,1) beta31~ dnorm(0,1) beta32~ dnorm(0,1) beta33~ dnorm(0,1) beta34~ dnorm(0,1) beta35~ dnorm(0,1) beta36~ dnorm(0,1) beta37~ dnorm(0,1)
}