anÁlise de sobrevivÊncia utilizando modelo de … · elas também podem ser agrupadas baseando-se...

37
FÁBIO ANDERSON JACQUES DOS SANTOS JULIO CESAR SANTOS ANÁLISE DE SOBREVIVÊNCIA UTILIZANDO MODELO DE COX EM DADOS DE PACIENTES QUE SOFRERAM TRANSPLANTE DE MEDULA ÓSSEA CURITIBA 2011

Upload: vukhanh

Post on 09-Nov-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

FÁBIO ANDERSON JACQUES DOS SANTOS JULIO CESAR SANTOS

ANÁLISE DE SOBREVIVÊNCIA UTILIZANDO MODELO DE COX EM DADOS DE

PACIENTES QUE SOFRERAM TRANSPLANTE DE MEDULA ÓSSEA

CURITIBA

2011

FÁBIO ANDERSON JACQUES DOS SANTOS

JULIO CESAR SANTOS

ANÁLISE DE SOBREVIVÊNCIA UTILIZANDO MODELO DE COX EM DADOS DE

PACIENTES QUE SOFRERAM TRANSPLANTE DE MEDULA ÓSSEA

Trabalho de Conclusão de Curso apresentado à

disciplina de Laboratório de Estatística do Curso

de Estatística do Departamento de Estatística do

Setor de Ciências Exatas da Universidade Federal

do Paraná.

Orientadora: Prof.ª Silvia Emiko Shimakura

CURITIBA

2011

iii

AGRADECIMENTOS

À Deus primeiramente, por ter nos concedido vida , oportunidade e capacidade para

passar por mais esta etapa, sem ele isto não seria possível.

Às nossas famílias, pelo apoio incondicional em todos os momentos de dificuldade e

conquista nesse período.

Aos nossos amigos pelo companheirismo e amizade ao longo desses anos.

Às namoradas, pela compreensão em nossa ausência devido as atividades

acadêmicas.

À professora Doutora Silvia Emiko Shimakura, orientadora, pela disposição e

competência nos ensinamentos ao longo do trabalho.

Ao professor Mestre Elias Teixeira Krainski, pela disponibilidade em aceitar o convite

para participar da banca deste trabalho.

iv

LISTA DE TABELAS

TABELA 1 - DESCRIÇÃO DAS VARIÁVEIS UTILIZADAS NO ESTUDO..................21

TABELA 2 - FREQUÊNCIA DE OBSERVAÇÕES, FALHAS E CENSURAS.............23

TABELA 3 - TESTES WILCOXON E LOGRANK.......................................................25

TABELA 4 - CORRELAÇÕES DE PEARSON...........................................................26

TABELA 5 - MODELO DE COX.................................................................................29

v

LISTA DE FIGURAS

FIGURA 1 - CURVAS DE KAPLAN-MEIER...............................................................24

FIGURA 2 - RESÍDUOS PADRONIZADOS DE SCHOENFELD................................26

FIGURA 3 - RESÍDUOS DEVIANCE VERSUS PREDITOR LINEAR........................28

FIGURA 4 - RESÍDUOS DFBETAS VERSUS PREDITOR LINEAR..........................28

vi

RESUMO

Leucemia é o câncer das células brancas do sangue, os leucócitos. Esta

doença começa na medula óssea (parte interna dos grandes ossos) e se espalha

para outras partes do corpo. O transplante de medula óssea é um tipo de tratamento

proposto para essas doenças, e consiste na substituição de uma medula óssea

doente, ou deficitária, por células normais de medula óssea, com o objetivo de

reconstituição de uma nova medula saudável. O objetivo deste trabalho foi avaliar

fatores de risco ligados aos pacientes que sofreram este tipo de procedimento. O

banco de dados EBMT (European Registry for Blood and Marrow Transplantation),

que está presente no pacote MSTATE do software R, foi utilizado como base para

os estudos. A variável resposta foi o tempo em dias até a recaída ou morte do

paciente ou até o término do acompanhamento.

Para iniciar as análises, foram utilizadas técnicas de Kaplan-Meier para

construir as curvas de sobrevivência para as covariáveis estudadas, e os testes de

logrank e Wilcoxon foram realizados para testar as diferenças entre as estimativas

das curvas. Posteriormente, o modelo de Cox foi construído para estudarmos os

fatores relacionados à variável resposta, assumindo a suposição de riscos

proporcionais. As covariáveis presentes no modelo final foram: Subtipo da doença,

Idade do paciente no ato do transplante e uma variável indicadora se houve ou não

depleção do Linfócito T. Foram feitas ainda análises de resíduos para verificar a

qualidade do modelo obtido, utilizando resíduos de Schoenfeld, deviance e dfbetas.

Para interpretar os parâmetros, foram utilizadas razões de riscos para identificar os

fatores mais influentes para aumentar ou diminuir o tempo de vida dos pacientes em

estudo.

Palavras-Chave: Transplante de medula óssea, leucemia, Kaplan-Meier modelo

de Cox.

vii

SUMÁRIO

1 INTRODUÇÃO ...................................................................................................... 8

2 REVISÃO DE LITERATURA .............................................................................. 11

2.1 CONCEITOS INICIAIS: CENSURA E TEMPO DE FALHA ............................... 11

2.2 FUNÇÕES DE INTERESSE ............................................................................. 11

2.3 MÉTODOS NÃO PARAMÉTRICOS: ................................................................ 12

2.3.1 Estimador de Kaplan-Meier ............................................................................ 12

2.4 COMPARAÇÃO DAS CURVAS DE SOBREVIVÊNCIA .................................... 13

2.4.1 Teste Logrank ................................................................................................. 13

2.4.2 Teste Wilcoxon ............................................................................................... 15

2.5 MODELO DE RISCOS PROPORCIONAIS DE COX ........................................ 15

2.5.1 Estimação dos parâmetros ............................................................................. 17

2.5.2 Pressupostos do Modelo de Riscos Proporcionais de Cox............................. 18

2.5.3 Análise de resíduos ........................................................................................ 18

2.5.3.1 Resíduos de Schoenfeld ............................................................................ 19

2.5.3.2 Resíduos Martingal ..................................................................................... 20

2.5.3.3 Resíduos Deviance .................................................................................... 20

2.5.3.4 Resíduos Dfbetas ....................................................................................... 21

2.5.4 Interpretação dos parâmetros ......................................................................... 21

3 MATERIAL E MÉTODOS ................................................................................... 23

3.1 BANCO DE DADOS ......................................................................................... 23

3.1.1 Visão Geral das Variáveis Estudadas ............................................................. 23

3.2 ANÁLISE ESTATÍSTICA ................................................................................... 24

3.2.1 Estatística descritiva ....................................................................................... 24

3.2.2 Ajuste do Modelo de Cox ................................................................................ 25

4 RESULTADOS E DISCUSSÕES ....................................................................... 26

4.1 ANÁLISES DESCRITIVAS ............................................................................... 26

4.2 MODELO DE REGRESSÃO DE COX .............................................................. 28

4.2.1 Adequação do Modelo Ajustado e Resíduos .................................................. 30

4.2.2 Parâmetros estimados pelo Modelo de Cox ................................................... 32

5 CONCLUSÃO ..................................................................................................... 34

REFERÊNCIAS ......................................................................................................... 36

ANEXOS .......................................................................... Erro! Indicador não definido.

8

1 INTRODUÇÃO

A leucemia é uma doença maligna dos glóbulos brancos (leucócitos),

geralmente, de origem desconhecida. Tem como principal característica o acúmulo

de células jovens anormais na medula óssea, que substituem as células sanguíneas

normais. A medula é o local de formação das células sanguíneas e ocupa a

cavidade dos ossos, sendo popularmente conhecida por tutano. Nela são

encontradas as células que dão origem aos glóbulos brancos, aos glóbulos

vermelhos (hemácias ou eritrócitos) e às plaquetas (INCA – 2011). Depois de

instalada, a doença progride rapidamente, exigindo início de tratamento rápido.

As leucemias podem ser agrupadas com base em quão rapidamente a

doença evolui e torna-se grave. Sob esse aspecto, a doença pode ser do tipo

crônica (que geralmente agrava-se lentamente) ou aguda (que geralmente agrava-

se rapidamente). Elas também podem ser agrupadas baseando-se nos tipos de

glóbulos brancos que elas afetam: linfóides ou mieloides. As que afetam as células

linfóides são chamadas de linfóide, linfocítica ou linfoblástica. A leucemia que afeta

as células mieloides são chamadas mieloide ou mieloblástica (INCA – 2011).

Combinando as duas classificações, existem quatro tipos mais comuns de

leucemia: “Leucemia linfóide crônica”: afeta células linfóides e se desenvolve

devagar. A maioria das pessoas diagnosticadas com esse tipo da doença tem mais

de 55 anos. Raramente afeta crianças; “Leucemia mieloide crônica”: afeta células

mieloides e se desenvolve vagarosamente, a princípio. Acometem principalmente

adultos; “Leucemia linfoide aguda”: afeta células linfóides e agrava-se rapidamente.

É o tipo mais comum em crianças pequenas, mas também ocorre em adultos;

“Leucemia mieloide aguda”: afeta as células mieloides e avança rapidamente.

Ocorre tanto em adultos como em crianças (INCA – 2011).

Neste estudo, observaremos casos com “Leucemia Mielóide Aguda”,

“Leucemia Linfóide Aguda” e “Leucemia Mielóide Crônica”.

Para muitos destes casos, o tratamento indicado é o transplante de medula

óssea. Este é um procedimento médico da área da hematologia e oncologia que

envolve o transplante de células tronco hematopoiéticas provenientes da medula

óssea do doador. A principal característica desse procedimento e o que a difere da

maioria dos transplantes de órgãos é que nele o receptor recebe por via endovenosa

um aspirado de células de medula óssea do doador, e essas células migram pelo

9

sangue até se fixarem na medula óssea do receptor e voltarem a se multiplicar e

cumprir suas funções fisiológicas no hospedeiro. Apesar de aparentemente simples,

ainda é um procedimento de risco e é indicado apenas para doenças graves. As

principais complicações são infecções, recidivas da doença anterior e a doença do

enxerto versus hospedeiro (GVHD), quando as novas células do sistema

imunológico, ao não reconhecerem as células do hospedeiro, passam a destruí-las

como se fossem uma infecção. Os linfócitos T na medula óssea ou sangue de um

doador causam a doença do enxerto versus hospedeiro. A fim de minimizar essa

reação perigosa, a medula ou a coleção de células do sangue podem ser tratadas

com agentes que possibilitam a diminuição do número de linfócitos T. Este processo,

conhecido como depleção do linfócito T, reduz a incidência e a gravidade da doença

do enxerto versus hospedeiro, ao diminuir o número de células imunológicas

causadoras da GVHD. Geralmente, anticorpos contra os linfócitos T são usados

para extraí-los da amostra das células-tronco a serem utilizadas para o transplante.

A diminuição da presença dos linfócitos T no transplante minimiza a intensidade da

GVHD. Visto que os linfócitos T auxiliam o enxerto das células-tronco e podem

suprimir células residuais do tumor no receptor, algumas células T são úteis nas

células transplantadas. Os linfócitos T também são benéficos por auxiliarem as

células-tronco hematopoéticas doadas a se fixarem e crescerem dentro da medula

óssea do receptor. Em alguns casos, os linfócitos T atacam as células da leucemia,

aumentando os efeitos de supressão do tratamento. O ataque às células residuais

do tumor faz com que se torne menos provável que a doença retorne após o

transplante. Assim, os médicos responsáveis pelo transplante devem ser cuidadosos

sobre a quantidade de células T que serão removidas durante o procedimento.

O objetivo principal do estudo será avaliar o tempo de relapso ou morte de

pacientes que sofreram transplante de medula óssea, apontando os fatores de risco

relacionados aos pacientes. Será utilizado o banco de dados europeu EBMT

(European Registry for Blood and Marrow Transplantation), que está presente no

pacote MSTATE do software R. O banco consiste em um registro com 2204

pacientes que possuem algum tipo de leucemia e que fizeram transplante de medula

óssea entre 1995 e 1998.

No tópico seguinte, apontaremos as metodologias nas quais foram baseados

estes estudos. Em seguida, serão apresentadas algumas estatísticas descritivas,

entre elas curvas de sobrevivência utilizando Kaplan-Meier para cada covariável.

10

Então testes para verificar se existe diferença entre as curvas serão realizados.

Depois, um modelo de riscos proporcionais de Cox será ajustado aos dados,

utilizando as covariáveis mais significativas. A análise de resíduos será feita para

avaliar a qualidade do modelo obtido. Para finalizar, os parâmetros serão

interpretados para observar os fatores que mais afetam a variável resposta.

11

2 REVISÃO DE LITERATURA

2.1 CONCEITOS INICIAIS: CENSURA E TEMPO DE FALHA

Em análise de sobrevivência, a variável resposta em estudo é na maioria das

vezes o tempo até a ocorrência de um evento de interesse. Este tempo é

comumente chamado de “Tempo de falha”, que no caso do estudo em questão será

o tempo em dias até o relapso ou morte do paciente que sofreu transplante de

medula óssea.

Tempo de falha - Tempo até a ocorrência de um evento de interesse (por

exemplo, reincidência ou morte do paciente em estudo após o transplante de medula

óssea).

Censura – Observação incompleta da resposta. Por exemplo: tratamento

interrompido por motivo de mudança de cidade, morte por motivo diferente do de

interesse, término do acompanhamento, etc. Se o estudo em questão não tivesse

ocorrência de censura, outra técnica estatística poderia ser aplicada, por exemplo,

uma ANOVA para comparação de tratamentos. No entanto, quando há ocorrência

de censuras não é possível aplicar os métodos clássicos, pois se deve considerar os

tempos de falha censurados.

2.2 FUNÇÕES DE INTERESSE

A função de sobrevida é muito utilizada em estudos na área da saúde e é

representada por . Sendo assim, a probabilidade de um indivíduo sobreviver por

mais do que um determinado tempo é descrita da seguinte forma:

12

ou pode-se interpretar também como a probabilidade de um indivíduo não sobreviver

até um tempo , ou seja, o complemento da função acumulada :

A função de taxa de falha, ou função de risco, é aplicada em estudos clínicos

para determinar a distribuição do tempo de vida dos indivíduos em estudo. Ela é

descrita da seguinte forma:

A taxa de falha pode ser definida como Constante (não varia ao longo do

tempo), Crescente (aumenta ao longo do tempo) ou Decrescente (diminui ao longo

do tempo). Uma propriedade importante sobre a função de risco é que ela pode ser

determinada como inversamente proporcional à função de sobrevida:

2.3 MÉTODOS NÃO PARAMÉTRICOS:

2.3.1 Estimador de Kaplan-Meier

O estimador de Kaplan-Meier, proposto por Kaplan e Meier (1958) é um

estimador não-paramétrico para estimar a função de sobrevivência, também

conhecido por estimador produto-limite. Este estimador é uma adaptação da função

de sobrevivência empírica que, na ausência de censuras, é definida como

13

é uma função escada com degraus nos tempos observados de falha de

tamanho , em que é o tamanho da amostra. Na presença de empates em um

determinado tempo , o tamanho do degrau fica multiplicado pelo número de

empates. Além disso, o estimador de Kaplan-Meier, na sua construção, considera

tantos intervalos de tempo quantos forem o número de falhas distintas. Ressalta-se

que os limites destes intervalos são os tempos de falha da amostra.

A expressão geral de é escrita em termos de probabilidades

condicionais, em que , adaptado da expressão anterior, fica definido por

sendo:

o número de falhas em

o número de indivíduos sob risco em , ou seja, os indivíduos que não

foram censurados até o instante imediatamente anterior a

, são os tempos distintos e ordenados de falha.

O estimador de Kaplan-Meier fica definido formalmente como

2.4 COMPARAÇÃO DAS CURVAS DE SOBREVIVÊNCIA

2.4.1 Teste Logrank

14

O teste logrank, apresentado em Mantel (1966) é o mais usado em análise

de sobrevivência. Ele compara a distribuição da ocorrência dos eventos observados

em cada estrato com a distribuição que seria esperada se a incidência fosse igual

em todos os estratos, ou seja, os extratos têm a propriedade de riscos proporcionais

Se a distribuição observada for equivalente à distribuição esperada, dizemos que a

curva de sobrevivência dos pacientes pertencentes ao estrato é equivalente à curva

de sobrevivência dos pacientes. O teste de duas funções de sobrevivência, em que

a hipótese nula considerada é a de igualdade entre as curvas será:

e é baseado na estatística de teste dada por

que tem uma distribuição qui-quadrado com 1 grau de liberdade para grandes

amostras, na qual é o número observado de falhas no grupo 2 em cada falha

e é o respectivo valor esperado de falhas, isto é, em que

total de falhas observadas nos grupos 1 e 2 no tempo de falha é o número de

indivíduos sob risco nos grupos 1 e 2 em e total de falhas observadas no

grupo 2 no tempo de falha . E a variância,

Para mais de duas funções de sobrevivência (r > 2), o teste logrank torna-se

uma generalização do caso de duas funções de sobrevivência na qual a estatística T

tem distribuição qui-quadrado com r – 1 graus de liberdade, em que r é o número de

grupos.

15

2.4.2 Teste Wilcoxon

Na comparação de funções de sobrevivência a seguinte forma geral inclui os

testes mais importantes na literatura e generaliza a estatística de teste T

apresentada:

com sendo os pesos que especificam o teste. Sob a hipótese nula de igualdade

entre as funções de sobrevivência, a estatística segue distribuição qui-quadrado

com 1 grau de liberdade para amostras grandes. O teste de Wilcoxon é obtido

quando se toma .

O teste de Wilcoxon, que utiliza peso igual ao número de indivíduos sob

risco, atribui pesos maiores na porção inicial do estudo. No início do estudo, todos

os indivíduos estão sob risco e saindo do estado “sob risco” à medida que falham ou

são censurados.

2.5 MODELO DE RISCOS PROPORCIONAIS DE COX

Um dos modelos de regressão mais utilizado para dados de sobrevida,

principalmente em estudo clínicos, ajusta a função de risco , considerando um

risco basal e incluindo um vetor de covariáveis , de maneira que:

16

Aqui assume-se que as covariáveis têm um efeito multiplicativo na função de

risco e, assim, a razão entre o risco de ocorrência do evento para dois indivíduos

e , com covariáveis e é:

ou seja, é constante ao longo do tempo. Por este motivo este modelo é denominado

de modelo de riscos proporcionais (RP). O modelo de RP também pode ser escrito

em termos da função de risco acumulado ou da função de sobrevida, expostos a

seguir:

O risco basal acumulado é dado por:

e pode ser estimado através da expressão:

A estimativa para a sobrevida basal pode ser estimada por:

Assumindo o pressuposto de proporcionalidade, é possível estimar os

efeitos das covariáveis sem ter que fazer qualquer suposição a respeito da

distribuição do tempo de sobrevida. O modelo de Cox é chamado semi-paramétrico,

pois não assume qualquer distribuição de probabilidade para a função de risco,

17

, assumindo apenas que as covariáveis agem multiplicativamente sobre o risco,

sendo esta a parte paramétrica do modelo.

2.5.1 Estimação dos parâmetros

O vetor de parâmetros é estimado a partir de uma verossimilhança

parcial, eliminando a função de risco e considerando apenas, a cada tempo t, a

informação dos indivíduos ainda sob risco. Esta formulação é semelhante ao modelo

não-paramétrico de Kaplan-Meier, porém permite que sejam estimados os efeitos

das covariáveis, ou seja, os efeitos de fatores de risco no tempo de sobrevida.

Os diferentes tempos de falha de uma amostra, sem considerar a

ocorrência de eventos em um mesmo tempo são ordenados da forma que:

A função de verossimilhança individual, ·, é definida por:

com representando uma variável indicadora que assume o valor 1 se o

indivíduo estiver em risco no tempo e 0, caso contrário.

A verossimilhança parcial pode ser calculada pelo produto das

verossimilhanças individuais que é expressa da seguinte forma:

em que é o indicador de falha.

18

Podemos observar que o numerador da verossimilhança parcial depende

apenas da informação dos indivíduos que experimentam o evento, enquanto o

denominador utiliza informações a respeito de todos os indivíduos que ainda não

experimentaram o evento, incluindo aqueles que serão censurados mais tarde.

2.5.2 Pressupostos do Modelo de Riscos Proporcionais de Cox

Para covariáveis com um pequeno número de categorias, o gráfico das

curvas de sobrevida estimadas através do método de Kaplan-Meier podem dar uma

idéia visual da presença ou ausência de proporcionalidade. As curvas devem ser

razoavelmente paralelas ao longo de todo o tempo indicando proporcionalidade no

risco entre as categorias. Se houver cruzamento ou uma grande variação nas

distâncias entre as curvas de diferentes categorias, isso poderá indicar ausência de

proporcionalidade. Outra maneira de verificar esta proporcionalidade seria através

dos resíduos de Schoenfeld.

2.5.3 Análise de resíduos

Para modelos de sobrevivência, a definição de resíduo não é simples e

direta como em regressão linear. O resíduo não pode ser obtido como a resposta

observada menos a esperada, pois desta forma não leva em consideração o tempo

observado de um indivíduo censurado. Algumas medidas estatísticas são propostas

para o modelo de riscos proporcionais de Cox, que são úteis na análise de

diferentes aspectos do modelo, como:

• a proporcionalidade do risco;

• a log-linearidade da relação entre razão de risco e variável

independente; e

• o efeito de pontos influentes.

19

A seguir, apresentamos alguns resíduos que podem ser utilizados para

examinar estes aspectos.

2.5.3.1 Resíduos de Schoenfeld

Em alguns casos, o efeito de uma covariável pode não ser sempre o mesmo

durante todo o tempo de observação. Nestes casos, o efeito da covariável é

chamado de tempo-dependente. Para diagnosticar este efeito utilizamos os resíduos

de Schoenfeld.

Os resíduos de Schoenfeld podem ser expressos para cada tempo de

ocorrência do evento por:

A interpretação destes resíduos é como a diferença entre os valores

observados de covariáveis de um indivíduo com tempo de ocorrência do evento e

os valores esperados em dado o grupo de risco .

O resíduo padronizado de Schoenfeld em pode ser obtido por:

onde é o índice das covariáveis e a variância de .

O gráfico dos resíduos padronizados de Schoenfeld contra o tempo de

sobrevida permite verificar se estes estão distribuídos igualmente ao longo do

tempo, ou se aparece uma forma sugestiva de não proporcionalidade, assim ferindo

o pressuposto básico do modelo de Cox. Para que o pressuposto seja satisfeito, não

deverá existir nenhuma tendência sistemática no gráfico de versus o tempo.

20

2.5.3.2 Resíduos Martingal

Os resíduos martingal, , são baseados no processo de contagem

individual e definidos por:

onde é igual ao número de eventos observados no intervalo e é o

número de eventos esperados sob o modelo ajustado no intervalo .

Resumindo, é a diferença entre o número observado de eventos para um indivíduo e

o número esperado dado o modelo ajustado.

Os resíduos martingal são úteis na avaliação da qualidade de ajuste do

modelo em duas situações importantes:

• versus índice do indivíduo: permitindo revelar indivíduos mal

explicados pelo modelo;

• do modelo nulo versus covariável com a superposição de uma

curva de alisamento: permite avaliar qual é a melhor forma funcional

da covariável no modelo.

O primeiro gráfico citado serve para apontar possíveis valores aberrantes no

estudo, dado as covariáveis. Valores de maiores (ou menores) que 0 indicam

que número de eventos observado é maior (ou menor) que o estimado pelo modelo

e conseqüentemente a sobrevida estará superestimada (ou subestimada). O

segundo gráfico citado permite observar qual é a forma funcional mais adequada de

uma covariável contínua, ou seja, se é linear ou se alguma transformação é

necessária.

2.5.3.3 Resíduos Deviance

Os resíduos deviance são uma tentativa de tornar os resíduos martingal

mais simétricos em torno de zero, facilitando a detecção de pontos atípicos. Se o

21

modelo for apropriado, esses resíduos devem apresentar-se aleatoriamente em

torno de zero. O gráfico dos resíduos de deviance versus os tempos auxiliam a

verificar a adequação do modelo ajustado e na detecção de observações atípicas.

2.5.3.4 Resíduos Dfbetas

O resíduo escore, também conhecidos como resíduos dfbeta (ou dfbetas

quando padronizados) são úteis na verificação da influência de cada observação no

ajuste do modelo e para estimação robusta da variância dos coeficientes de

regressão. A influência de cada observação deve ser proporcional à

, uma vez que a observação deve estar distante do valor médio de

, bem como ter um resíduo alto para exercer uma influência significativa no ajuste

do modelo. Para cada indivíduo pode-se calcular a diferença entre o vetor de

covariáveis estimado pelo modelo e o mesmo estimado sem o indivíduo :

, que é aproximadamente igual à matriz de resíduos

escore.

O gráfico do resíduo escore para cada covariável versus revela os

pontos de influência. O resíduo escore pode ser escalonado pelo erro padrão da

respectiva covariável, facilitando a visualização.

Uma vantagem destes resíduos sobre os outros é que eles são definidos

para todos os tempos enquanto que os demais só são definidos nos tempos de

ocorrência do evento. Esta característica é importante quando o percentual de

censuras é alto. A desvantagem é que eles não indicam o tipo de desvio da

suposição de riscos proporcionais quando existe uma indicação de falta de ajuste do

modelo.

2.5.4 Interpretação dos parâmetros

22

A propriedade de riscos proporcionais do modelo de Cox é utilizada na

interpretação dos coeficientes estimados. Tomando a razão das taxas de falhas de

dois indivíduos e com os mesmos valores para as covariáveis com exceção da

l-ésima, tem-se:

a qual se interpreta como a razão de riscos instantânea no tempo . Por exemplo,

supondo que seja uma covariável dicotômica indicando pacientes com um

determinado tipo de leucemia. O risco de morte entre esses pacientes é

vezes o risco de pacientes, por exemplo, livres da doença, mantendo as outras

covariáveis fixas.

Uma estimativa para pode ser obtida utilizando-se a propriedade de

invariância do estimador de máxima verossimilhança parcial. Na construção de

estimativas intervalares devemos obter uma estimativa do erro-padrão de ,

aqui o método delta pode ser empregado. Se o valor 1 pertencer ao intervalo

estimado, temos um indicativo de que não há evidências quanto a diferenças

significativas nos riscos.

As covariáveis contínuas utilizam uma interpretação muito parecida. Se o

efeito de uma covariável contínua for significativo e, por exemplo, para

este termo, concluímos que, ao aumentarmos em uma unidade esta covariável, o

risco avaliado fica aumentado em 10%.

23

3 MATERIAL E MÉTODOS

3.1 BANCO DE DADOS

Os dados utilizados para a realização do estudo foram obtidos do banco de

dados europeu EBMT (European Registry for Blood and Marrow Transplantation),

que é uma organização sem fins lucrativos e permite que cientistas e médicos

envolvidos no transplante clínico de medula óssea compartilhem suas experiências e

possam desenvolver estudos. O EBMT visa promover todos os aspectos associados

com o transplante de células-tronco hematopoéticas de doadores de todas as fontes

e tipos, incluindo pesquisas clínicas, educação, padronização, controle de qualidade

e desenvolvimento de novos procedimentos.

Alguns dados deste banco encontram-se disponíveis no pacote MSTATE do

software R. O banco consiste em um registro com 2204 pacientes que possuem

algum tipo de leucemia e que fizeram transplante de medula óssea entre 1995 e

1998.

A variável resposta estudada é o tempo em dias desde o transplante de

medula óssea até a recaída ou a morte do paciente, ou o final do acompanhamento.

Foram estudadas variáveis como Idade do paciente (AGE) no ato do transplante,

categorizada em 2 grupos (<=40, >40), a subclassificação do tipo da doença

(DOEN), ou seja, do tipo de Leucemia (Leucemia Mielóide Aguda, Leucemia Linfóide

Aguda e Leucemia Mielóide Crônica), variável indicadora se houve incompatibilidade

de gêneros (INCGEN) no transplante (doador sexo feminino e receptor sexo

masculino, e vice-versa) e variável indicando se ocorreu depleção do linfócito T

antes do transplante (TCD).

3.1.1 Visão Geral das Variáveis Estudadas

24

Foram estudadas quatro variáveis juntamente com a variável resposta tempo

em dias a partir do transplante até a recaída ou o óbito do paciente. A Tabela 1

apresenta uma visão geral das variáveis estudadas:

Covariável Descrição Categorias<=40>40

AML = Leucemia Mielóide AgudaALL = Leucemia Linfóide Aguda

CML = Leucemia Mielóide Crônica

Gender mismatch (Incompatibilidade)No gender mismatch (Sem incompatibilidade)

NO TCDTCD

INCGEN Incompatibilidade de gênero

TCD Depleção das células t

TABELA 1 - DESCRIÇÃO DAS VARIÁVEIS UTILIZADAS NO ESTUDO

FONTE: O Autor (2011)

AGE Idade do Paciente no ato do transplante

DOEN Subclassificação da Leucemia

3.2 ANÁLISE ESTATÍSTICA

3.2.1 Estatística descritiva

Uma tabela com freqüências observadas das covariáveis e curvas de

sobrevivência utilizando o estimador não-paramétrico de Kaplan-Meier foram

utilizadas para obter uma primeira visão de quais covariáveis seriam interessante

incluir no modelo final.

Testes de logrank e Wilcoxon foram realizados para testar a igualdade entre

as curvas estimadas.

25

3.2.2 Ajuste do Modelo de Cox

O modelo de regressão Cox é bastante utilizado em estudos médicos. A

principal razão disso é a presença de seu componente não-paramétrico. Esta

flexibilidade foi o motivo do seu uso no estudo elaborado.

A suposição básica para o uso do modelo de regressão de Cox é a

proporcionalidade das taxas de falha. Para checarmos a suposição utilizamos os

resíduos padronizados de Schoenfeld e também o método de Kaplan-Meier. Nesta

etapa observamos que não houve séria violação da suposição.

O modelo final apresentou as seguintes covariáveis: Idade do paciente

(Age), subclassificação da doença (DOEN) e variável indicadora de presença ou

ausência de TCD.

Na interpretação dos parâmetros estimados pelo modelo utilizamos a razão

dos tempos medianos de sobrevivência. Tomando uma classe específica como base

para comparação com as demais classes, por exemplo, tempo mediano de

sobrevivência do paciente com o subtipo de doença igual à CML comparado com o

subtipo de doença igual à AML (variável base).

Gráficos de resíduos foram elaborados no estudo. O resíduo deviance foi

utilizado para verificação de pontos atípicos (outliers). O resíduo dfbetas foi utilizado

para a verificação de pontos influentes no modelo.

26

4 RESULTADOS E DISCUSSÕES

A seguir demonstram-se os principais resultados obtidos a partir de uma

análise realizada com o auxílio do software R versão 2.11.1. Tendo em vista os

resultados, tem-se algumas análises descritivas a seguir com o intuito de verificar o

comportamento das covariáveis em estudo.

4.1 ANÁLISES DESCRITIVAS

Na tabela 2, temos as freqüências observadas das variáveis estudadas de

acordo com o número de falhas ou censuras.

Recaída ou morte Censura<=40 1476 495 981>40 728 346 382

AML = Leucemia Mielóide Aguda 853 285 568ALL = Leucemia Linfóide Aguda 447 164 283

CML = Leucemia Mielóide Crônica 904 392 512

Gender mismatch (Incompatibilidade) 556 216 340No gender mismatch (Sem incompatibilidade) 1648 625 1023

NO TCD 1928 706 1222TCD 276 135 141

FONTE: O Autor (2011)

RESPOSTACovariável Categorias Frequência

INCGEN

TCD

AGE

DOEN

TABELA 2- FREQUÊNCIAS DE OBSERVAÇÕES, FALHAS E CENSURAS

Para cada covariável foram construídas curvas de Kaplan-Meier a fim de

identificar se existem diferenças entre as classes. Além da análise gráfica, os testes

logrank e Wilcoxon foram realizados para comprovar essas diferenças. Os gráficos

são visualizados abaixo.

27

FIGURA 1 - CURVAS DE KAPLAN-MEIER

FONTE: O autor (2011)

Na Figura 1, podemos identificar uma diferença clara entre as classes das

variáveis TCD e AGE. A variável DOEN parece também mostrar diferença

significativa, o que será comprovado nos teste Wilcoxon e logrank, a seguir.

28

Qui-Quadrado P-valor Qui-Quadrado P-valor

4.4 0.0353 7.2 0.00747

0 0.949 0 0.836

<0.001 38.3 <0.001

3.9 0.144 8 0.0183

FONTE: O Autor (2011)

LogrankCovariável

TCD

Wilcoxon

DOEN

INCGEN

AGE 35.7

TABELA 3 - TESTES WILCOXON E LOGRANK

As covaráveis AGE e TCD apresentam diferenças significativas entre as

suas duas respectivas classes. A covariável DOEN, que é a subclassificação da

doença, pode ser considerada marginalmente significativa de acordo com o teste

Wilcoxon, porém significativo através de logrank. Isso ocorre porque o teste de

Wilcoxon considera pesos maiores para o início do estudo, quando existem mais

informações sob risco. O teste logrank considera os riscos constantes ao longo do

tempo. Como parece carregar informações importantes e os resultados apontam

para valores significativos, manteremos estas três variáveis para ajustar o modelo de

Cox.

4.2 MODELO DE REGRESSÃO DE COX

O modelo de Cox proposto conta com três das quatro covariáveis

observadas anteriormente. Como vimos através dos gráficos de Kaplan-Meier,

apenas a covariável DOEN deixa alguma suspeita de não satisfazer a suposição de

riscos proporcionais, já que a variável INCGEN claramente não obteve resultados

significativos, sendo assim excluída do estudo, e as variáveis AGE e TCD

apresentam alta significância.

Analisaremos os coeficientes de correlação de Pearson entre os resíduos

padronizados de Schoenfeld e ttg =)( para verificarmos possíveis tendências. A

29

seguir, mostraremos os gráficos de Schoenfeld na figura 2 e os resultados das

correlações na tabela 4.

Time

Bet

a(t)

for

doe

nALL

39 89 140 360 1500

-20

24

6

Time

Bet

a(t)

for

doe

nCM

L

39 89 140 360 1500

-3-2

-10

12

3

Time

Bet

a(t)

for

tcd

TC

D

39 89 140 360 1500

-20

24

6

Time

Bet

a(t)

for

age

>40

39 89 140 360 1500

-2-1

01

23

4

FIGURA 2 - RESÍDUOS PADRONIZADOS DE SCHOENFELD

FONTE: O autor (2011)

6.75e-11

4.45e-01

GLOBAL

FONTE: O Autor (2011)

0.0134

0.2053

0.1266

NA

0.151

35.642

13.752

53.485

doenALL

doenCML

TCD

6.98e-01

2.37e-09

2.09e-04

rho chisq

TABELA 4- CORRELAÇÕES DE PEARSON

Covariável p

age>40 -0.0261 0.583

.

30

Fazendo uma análise geral, mantivemos as três covariáveis no estudo, visto

que não apresentam cruzamentos bruscos em suas curvas de sobrevivência e não

possuem resíduos padronizados de Schoenfeld tão assimétricos, além de possuírem

baixos coeficientes de correlação de Pearson. Os p-valores não devem ser levados

em consideração devido ao grande tamanho de amostra.

Em um modelo alternativo, poderia ter sido ajustado um modelo de Cox

estratificando a covariável DOEN, que apresenta o maior coeficiente de correlação

de Pearson. Este método consiste em estratificar a covariável de forma que a

suposição de proporcionalidade seja válida para cada estrato. A estratificação não

causa problemas sérios nas estimativas dos parâmetros, mas pode causar perda de

eficiência das estimativas caso seja usado de forma desnecessária. Neste estudo,

consideramos o modelo de Cox como razoável para prosseguir como modelo, sem

ser necessário a estratificação.

4.2.1 Adequação do Modelo Ajustado e Resíduos

Para avaliar a adequação do modelo de Cox ajustado, vamos analisar os

resíduos deviance e dfbetas para verificar pontos atípicos e pontos de alavanca,

respectivamente.

Abaixo, na Figura 3, podemos identificar os resíduos deviance.

31

FIGURA 3 - RESÍDUOS DEVIANCE VERSUS PREDITOR LINEAR

FONTE: O autor (2011)

Os resíduos evidenciam aleatoriedade, visto que se distribuem igualmente

ao redor de zero. Não há indícios de haver pontos atípicos no modelo.

Os resíduos dfbetas mostram se existem pontos influentes em cada

covariável. Segue na Figura 4.

AML ALL CML

-0.0

050.

000

0.00

5

Doen

Influ

ênci

a pa

ra D

oen

No TCD TCD

-0.0

04-0

.002

0.00

00.

002

0.00

4

TCD

Influ

ênci

a pa

ra T

CD

<=40 >40

-0.0

050.

000

0.00

5

Age

Influ

ênci

a pa

ra A

ge

FIGURA 4 - RESÍDUOS DFBETAS VERSUS PREDITOR LINEAR

32

FONTE: O autor (2011)

Os resíduos dfbetas não evidenciam nenhum ponto de alavancagem em

nenhuma covariável.

4.2.2 Parâmetros estimados pelo Modelo de Cox

Abaixo, verificamos as estimativas para o Modelo de Cox ajustado.

0.0512

TABELA 5 - MODELO DE COX

Covariável exp(coef) lower .95

DOEN (ALL) 1.184

DOEN (CML) 0.19306 1.213 0.999

1.484

1.512 1.311 1.745

1.233

p-value

0.0321

0.0270

<0.001

coef

0.16861

upper .95

1.014 1.381

1.473

FONTE: O Autor (2011)

1.0240.20917

0.41371AGE > 40

TCD

Devemos observar o valor exp(coef), que é a razão das taxas de falhas

entre as classes de cada covariável, para realizar a interpretação dos parâmetros,

levando em conta a propriedade de riscos proporcionais do modelo.

Como todas as covariáveis são categóricas, teremos um subnível em cada

covariável como sendo o nível de referência. Para a variável DOEN, o nível de

referência foi a doença do tipo AML. Portanto, temos que o risco de recaída ou

morte após o transplante de medula óssea para pacientes com o tipo de doença ALL

é cerca de 1,184 vezes o risco de pacientes com o tipo de doença AML, e com um

nível de confiança de 95% este risco fica entre 1,014 e 1,381. Para pacientes com o

33

tipo de doença CML, o risco de recaída ou morte é 1,213 vezes o risco de pacientes

com a doença AML. O intervalo de confiança de 95% para esta razão está entre

0,999 e 1,473.

Os casos em que ocorreram TCD apresentam risco de recaída ou óbito

cerca de 1,233 o risco de pessoas que não sofreram este procedimento, com um

intervalo de confiança de 95% que fica entre 1,024 e 1,484.

Já com relação a variável idade, podemos afirmar que os pacientes com

mais de 40 anos apresentam risco de recaída ou morte após o transplante de

medula óssea de 1,512 o risco de pacientes com menos ou igual a 40 anos. O

intervalo de confiança de 95% para este risco fica entre 1,311 e 1,745.

34

5 CONCLUSÃO

Apesar da gravidade da doença, a Leucemia vem sendo tratada de várias

formas, e o transplante de medula óssea é ainda uma das formas mais indicadas

para casos graves. A análise desenvolvida teve como objetivo identificar quais são

os fatores de maior influência na recaída ou morte de pacientes que sofreram

transplante de medula óssea.

Inicialmente, foram realizadas algumas estatísticas descritivas para observar

o comportamento das covariáveis analisadas no estudo. Primeiro, foi construída uma

tabela de freqüência para analisar a distribuição das covariáveis entre suas

categorias. Curvas de Kaplan-Meier, além dos testes de logrank e Wilcoxon, foram

construídas para avaliar se havia indícios para apontar diferenças entre as

categorias de cada covariável. A avaliação final foi que as variáveis DOEN, TCD e

AGE apresentaram diferenças significativas entre suas curvas de sobrevida.

O modelo de Cox foi construído tendo por base a proporcionalidade entre os

riscos. Este pressuposto foi confirmado analisando as curvas de Kaplan-Meier, os

testes de logrank e Wilcoxon, a correlação de Pearson entre os resíduos de

Schoenfeld e ttg =)( e a análise gráfica dos próprios resíduos de Schoenfeld. Uma

forma alternativa que poderia ser proposta seria utilizar um modelo de Cox

estratificando a variável DOEN, a única que possui alguma dúvida quanto a ferir ou

não o pressuposto de proporcionalidade dos riscos. Como este pressuposto não fica

evidentemente ferido, obtivemos nossos resultados utilizando um modelo de Cox

com riscos proporcionais.

A adequação do modelo ajustado foi analisada através dos resíduos

deviance e dfbetas. Nos modelos ajustados não se observou pontos de influência ou

pontos atípicos.

Como fatores de risco ligados aos pacientes, a idade e o tipo de doença

foram bastante significativos, além da presença ou ausência do procedimento de

35

TCD. Pacientes com mais de 40 anos possuem risco de recaída ou morte de 1,512

vezes maior que os pacientes com menos de 40 anos. Se o tipo de doença for a

Leucemia Linfóide Aguda, o risco é 1,184 vezes maior do que pacientes com a

Leucemia Mielóide Aguda. Já os pacientes com Leucemia Mielóide Crônica

apresentaram risco de 1,213 o risco de pacientes com a Leucemia Mielóide Aguda.

Com relação ao TCD, os pacientes que se submeteram a este procedimento

possuem risco de recaída ou morte cerca de 1,233 vezes o risco de pacientes que

não sofreram depleção do linfócito T.

Em nossos resultados temos indícios para afirmar que pacientes com

Leucemia Mielóide Crônica, apesar de a princípio não ser tão fatal quanto as

subclassificações agudas, possuem taxa de mortalidade ou reincidência da doença

após o transplante maior que os pacientes com Leucemia Mielóide Aguda ou

Leucemia Linfóide Aguda. Este subtipo crônico da doença pode ter alguma

característica que acaba dificultando a recuperação do paciente, levando a uma

melhora com menor eficiência do que entre os casos agudos da doença.

A idade é outro fator significativo de risco, e neste estudo os pacientes com

mais de 40 anos apresentaram taxa de mortalidade ou de reincidência da doença

após o transplante consideravelmente maior do que os pacientes fora desta faixa de

idade.

A depleção do linfócito T apresentou um efeito negativo em nosso estudo.

Apesar de este ser um procedimento para evitar um tipo de doença sério, quando as

células do doador passam a atacar as células do receptor (GVHD), este processo de

diminuição das células T pode dificultar que as células-tronco doadas se fixem e

cresçam na medula óssea do receptor, aumentando o risco de rejeição e,

conseqüentemente, aumentando o número de recidivas e óbitos.

36

REFERÊNCIAS

CARVALHO, Marilia Sá; ANDREOZZI, Valeska Lima; CODEÇO, Cláudia Torres; BARBOSA,

Maria Tereza Serrano; SHIMAKURA, Silvia Emiko. Análise de Sobrevida. Teoria e

aplicações em Saúde. Rio de Janeiro: FIOCRUZ, 2005.

COLOSIMO, Enrico A.; GIOLO, Suely R. Análise de Sobrevivência Aplicada, Edgard

Blucher.

Putter H, Fiocco M, Geskus RB (2007). Tutorial in biostatistics: Competing risks and

multi-state models. Statistics in Medicine 26, 2389–2430.

SOUZA, Carmino de. Transplante de Células – Tronco Hematopoéticas do Sangue e da

Medula Óssea. Associoação Brasileira de Linfoma e Leucemia.

Normas para apresentação de documentos científicos. Universidade Federal do

Paraná, 2007

Kaplan, E.L., Meier, P. (1958). Nonparametric estimation from imcomplete

observations. Journal of the American Statistical Association.

MÄNNICH, Robert; ROCHA, Wanderson R. (2010). Análise de sobrevivência

utilizando modelo de Cox em dados de pacientes em tratamento de hemodiálise.

Universidade Federal do Paraná.

César, Maria Mônica. Medula Óssea. ADOAS - Associação Metropolitana de

Voluntários e Doadores de Sangue, 2005. Disponível no site

< http://www.adoas.com.br/news.php?nID=50>.

INCA, Instituto Nacional de Câncer, 1996 – 2011. Tipos de cancer - Leucemia.

Disponível em

http://www2.inca.gov.br/wps/wcm/connect/tiposdecancer/site/home/leucemia.

Cox DR. Regression models and life-tables. J R Statistic Soc B 1972.

37

Lumley, Thomas. Survival analysis (2011). Disponível em < http://CRAN.R-

project.org/package=survival>.

Lumley, Thomas. Survival analysis (2011). Disponível em < http://CRAN.R-

project.org/package=ebmt

Mantel, Nathan "Evaluation of survival data and two new rank order statistics arising

in its consideration.". (1966).

Liesbeth C. de Wreede, Marta Fiocco, Hein Putter (2011). mstate: An R

Package for the Analysis of Competing Risks and Multi-State Models.

Journal of Statistical Software, 38(7), 1-30. Disponível em

< http://www.jstatsoft.org/v38/i07/> .