universidade federal do rio grande do norte centro de ciências …€¦ · análise de...

52
Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra Departamento de Estatística Programa de Educação Tutorial PET Rumenick Pereira da Silva Modelo Gama Generalizado com Longa Duração: Teoria e Prática Natal-RN, junho de 2013

Upload: others

Post on 22-May-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

Universidade Federal do Rio Grande do Norte

Centro de Ciências Exatas e da Terra

Departamento de Estatística

Programa de Educação Tutorial – PET

Rumenick Pereira da Silva

Modelo Gama Generalizado com Longa Duração:

Teoria e Prática

Natal-RN, junho de 2013

Page 2: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

Rumenick Pereira da Silva

Modelo Gama Generalizado com Longa Duração:

Teoria e Prática

Monografia apresentada ao Departamento de

Estatística da Universidade Federal do Rio

Grande do Norte, em cumprimento com as

exigências legais para obtenção do título de

formação em Estatística.

Orientador:

Prof. Me. Antonio Hermes Marques da Silva Jr.

Natal-RN, junho de 2013

Page 3: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

Catalogação da Publicação na Fonte. UFRN / SISBI / Biblioteca Setorial

Centro de Ciências Exatas e da Terra – CCET.

Silva, Rumenick Pereira da.

Modelo gama generalizado com longa duração: teoria e prática / Rumenick

Pereira da Silva. - Natal, 2013.

51 f. : il.

Orientador: Prof. Me. Antonio Hermes Marques da Silva Júnior.

Monografia (Graduação) – Universidade Federal do Rio Grande do Norte. Centro

de Ciências Exatas e da Terra. Departamento de Estatística.

1. Análise de sobrevivência – Monografia. 2. Modelos com longa duração –

Monografia. 3. Modelos gama generalizado com longa duração – Monografia. 4.

Dados da área financeira e saúde – Monografia. I. Silva Júnior, Antonio Hermes

Marques da . II. Título.

RN/UF/BSE-CCET CDU: 519.24:61

Page 4: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama
Page 5: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

"A tarefa não é tanto ver aquilo que ninguém viu, mas pensar o que ninguém ainda pensou

sobre aquilo que todo mundo vê"

Arthur Schopenhauer

Page 6: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

Agradecimentos

Agradeço primeiramente à Deus, por ter me dado força para que fosse possível concluir

mais essa etapa da vida.

Quero agradecer à minha amada mãe Maria Ramos da Silva por ter sempre apoiado os

meus passos, seja na vida acadêmica ou pessoal e saiba que te amo muito mãe, você sempre

está em meu coração.

Agradeço ao meu pai Renivaldo Pereira da Silva pela sua inesgotável paciência e

tolerância quando fui negligente ou irresponsável e sei que o senhor se orgulha e continuará

sempre se orgulhando do seu filho. Serei sempre guardião da sua moral e ética, orgulho-me

muito de ter um pai com a sua postura.

Agradeço aos meus irmãos Renivaldo Pereira da Silva Júnior, Renilma Pereira da Silva

e Reniery Pereira da Silva por ter compartilhado comigo os vários momentos de aflição e pela

confiança, incentivo e acolhimento de todas as naturezas nas ocasiões necessárias e tenham

certeza que vocês contribuíram de forma significativa para conclusão deste trabalho.

A minha namorada e quase esposa Wilmara Martins da Costa, quero agradecer pela sua

infinita paciência, compreensão e saiba que nos momentos em que estive ausente você sempre

esteve presente dentro do meu coração e pensamento. Te dedico todo meu amor e que seja

para sempre.

Ao meu orientador Antonio Hermes Marques da Silva Júnior, agradeço pela sua

colaboração inestimável para que este trabalho fosse concluído. Sem sua ajuda com certeza

tudo teria sido mais difícil, pois muitas das ideias aqui expostas são suas. Muito obrigado e

boa sorte no doutorado, pois o senhor tem muito a conquistar!

Ao meu Tutor Paulo Cesar Formiga Ramos, quero agradecer pelo seu compromisso e

inestimável carinho com o seus tutorados e não se preocupe, pois seus líderes serão bem

falados por todo o mundo e apesar de o senhor esta deixando o Programa de Educação

Tutorial (PET) o seu nome estará sempre vivo e eternizado em nossas vidas “Petianas”.

Page 7: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

À Professora Dione Maria Valença, agradeço pela sua ajuda e co-orientação neste

trabalho e por ter aceitado ser minha orientadora do mestrado, pois ainda vamos publicar

muito artigos juntos, isso é apenas o começo.

Agradeço ao Professor Francisco Louzada Neto por ter disponibilizado um dos bancos

de dados para que fosse possível fazer a aplicação dos modelos aqui estudados. Além disso,

agradeço também por ter aceitado ser meu co-orientador no mestrado, saiba que é uma

satisfação muito grande.

Aos meus queridos coleguinhas do PET como diria o André Possati, em especial ao

meu amigo para todas as horas Jhonnata Carvalho, o sentimento é de muita saudade. Mas sei

que vocês Inara Françoyse, Joyce Rocha, Francimário, Isaac Jales, Fernando Maia, Paulo

César, Kalil, Josenilson, Fafá, Elias,..., estarão sempre por perto dando aquele velho auxílio

“luxuoso”.

Agradecer aos professores do Departamento de Estatística, Matemática e os dos

demais setores, em especial os professores (as): Jeanete, por ter acreditado desde o início em

minha persistência, André Pinho, por estar sempre disponível quando tinha dúvidas, Carla

Vivacqua, por mostrar aos discentes que a Estatística é mais bela do que os nossos olhos

podem ver e pelas aulas fascinantes de Planejamento de Experimento e Estatística

Multivariada, Paulo Roberto Medeiros de Azevedo, sem palavras, esse é, sem dúvida, o

melhor professor do mundo, Pledson, por zelar bem do curso de Estatística da Federal do Rio

Grande do Norte, Medeiros por ter consolidado bem a Estatística Descritiva e Documentária

na minha cabeça, a Monica Carvalho, por ter ensinado de forma excelente como fazer e

entender a Ciência e suas metodologias, a Viviane Simioli, pelas melhores aulas de Cálculo II

e Moiseszinho, por ter contribuído para meu ingresso no mestrado.

Agradeço aos amigos do Programa de Pós-graduação em Matemática Aplicada e

Estatística, em especial aos discentes: Wenia, Fábio Azevedo e Renato Tigre. Estamos apenas

no início de uma nova etapa, graça à Deus.

Agradeço também aos meus amigos do Curso de Estatística, em especial a Jailton

Paulo, Talita, Cintya Régia, Glauco e Marcos, por ter ajudado tantas vezes, as idas ao

Restaurante Universitário, serão inesquecíveis.

Page 8: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

Agradeço aos meus amigos da Residência Universitária Mipibu, em especial Valdênio

Moises, Wydemberg Araújo, Anderson Costa e Jorge Pereira, em que os dois últimos, nos

dias finais antes da defesa ajudaram a recuperar o arquivo da monografia que havia sido

excluído devido a um vírus de computador, valeu Jorge!

Por fim, agradeço ao MEC por ter me proporcionado a Bolsa PET durante este período

que estive no Curso de Estatística.

A todos que colaboraram de forma direta ou indireta!

Saudades!!!

Page 9: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

Resumo

Em análise de sobrevivência a variável em estudo é o tempo até a ocorrência de um

determinado evento de interesse. Porém, a teoria usual assume que se observado por um longo

período de tempo, todos os indivíduos irão apresentar tal evento. Mas, em algumas situações

tal apontamento não será fácil de ser considerado, pois uma proporção da população pode não

estar mais sujeita à ocorrência deste evento e, por mais longo que seja o tempo de observação,

o evento nunca ocorrerá para esta parte da população. Neste sentido, alguns modelos foram

propostos para tratar tais situações e estes são conhecidos pelo nome de modelos com longa

duração ou com fração de cura. O objetivo do presente trabalho foi estudar os modelos com

longa duração, a partir da abordagem unificada dada em Rodrigues et al. (2008) considerando

a distribuição gama generalizada para modelar os tempos de vida. Além disso, foi

desenvolvida uma rotina em linguagem R (R Development Core Team, 2013) que é mais

didática e de fácil utilização em relação às já existentes na literatura. Em seguida, as técnicas

e rotinas citadas foram aplicadas a dois conjuntos de dados. Nestes, têm-se, respectivamente,

o interesse de estimar a proporção de clientes fidelizados e a proporção de pacientes curados,

bem como a função de risco para uma das situações.

Palavras-chave: Análise de Sobrevivência; Modelos com longa duração; Modelos gama

generalizado com longa duração; Dados da área financeira e saúde.

Page 10: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

Lista de Figuras

Figura 01: Ilustração de alguns mecanismos de censura, em que (◦) representa o tempo de

falha e (•) a censura. (A) todos os pacientes experimentaram o evento até o final do estudo;

(B) alguns pacientes não experimentaram o evento de interesse até o final do estudo; (C) o

estudo finalizou após uma quantidade pré-estabelecida de falhas e (D) o acompanhamento do

paciente foi interrompido por alguma causa e alguns pacientes não experimentaram o evento

até o final do estudo.

Figura 02: Gráficos da função densidade de probabilidade, função de sobrevivência e função

risco da distribuição gama generalizada ( ) para caso exponencial.

Figura 03: Gráficos da função densidade de probabilidade, função de sobrevivência e função

risco da distribuição gama generalizada ( ) para caso Weibull.

Figura 04: Gráficos da função densidade de probabilidade, função de sobrevivência e função

risco da distribuição gama generalizada ( ) para caso Gama.

Figura 05: Gráficos da função densidade de probabilidade, função de sobrevivência e função

risco da distribuição gama generalizada ( ) para outras formas.

Figura 06: Gráfico da estimativa da sobrevivência pelo método de Kaplan-Meier para dados

referentes ao tempo até a recidiva do câncer de mama em 355 pacientes diagnosticadas e

previamente tratadas no Hospital Prof. Dr. Luiz Antônio, Unidade I da Liga Contra o Câncer,

Natal-RN, 1991- 1995.

Figura 07: Sobrevivências estimadas pelo método de Kaplan-Meier, modelo log-gama

generalizado estendido, modelo de mistura padrão log-gama generalizado estendido e modelo

de tempo de promoção log-gama generalizado estendido para os dados da instituição

financeira.

Figura 08: Função de risco ajustada através do modelo log-gama generalizado estendido para

os dados da instituição financeira.

Figura 09: Histograma e boxplot para os tempos até o óbito ou censura de 417 pacientes

diagnosticados com câncer de pele (IBRAHIM et al., 2001).

Figura 10: Sobrevivências estimadas pelo método de Kaplan-Meier, modelo log-gama

generalizado estendido, modelo de mistura padrão log-gama generalizado estendido e modelo

de tempo de promoção log-gama generalizado estendido para os dados de câncer de pele:

Page 11: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

Lista de Tabelas

Tabela 01: Casos particulares da distribuição gama generalizada, seus respectivos parâmetros,

média e variância.

Tabela 02: Casos particulares da distribuição gama generalizada, seus respectivos parâmetros,

função de sobrevivência e risco.

Tabela 03: Resumo descritivo para os tempos até a interrupção do relacionamento com a

instituição financeira segundo a variável “status”.

Tabela 04: Estimativa para os parâmetros dos modelos log-gama generalizado, mistura padrão

log-gama generalizado estendido e tempo promoção log-gama generalizado estendido para os

dados da instituição financeira.

Tabela 05: Estimativa para os parâmetros dos modelos log-gama generalizado, mistura padrão

gama generalizado estendido e tempo promoção log-gama generalizado estendido para os

dados de câncer de pele.

Page 12: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

Sumário

1 Introdução .......................................................................................................................... 1

1.1 Objetivos ...................................................................................................................... 2

2 Análise de sobrevivência ................................................................................................... 3

2.1 Conceitos básicos em Análise de Sobrevivência ......................................................... 3

2.1.1 Função de Sobrevivência ...................................................................................... 3

2.1.2 Função taxa de falha ou risco ............................................................................... 4

2.1.3 Relações entre as funções ..................................................................................... 4

2.1.4 Censura ................................................................................................................. 4

2.2 O estimador de Kaplan-Meier ...................................................................................... 5

2.3 Modelos Probabilísticos ............................................................................................... 6

2.3.1 Distribuição Gama Generalizada .......................................................................... 7

2.4 Reparametrização ....................................................................................................... 13

2.5 Estimação dos Parâmetros do Modelo ....................................................................... 17

2.5.1 Distribuição Gama Generalizada ........................................................................ 20

2.5.2 Critério de informação Akaike ........................................................................... 22

3 Modelos com longa duração ........................................................................................... 23

3.1 Modelo log-gama generalizada estendido com longa duração .................................. 24

3.1.1 Modelo de mistura padrão log-gama generalizado estendido ............................ 25

3.1.2 Modelo de Tempo de promoção log-gama generalizado estendido ................... 26

4 Aplicação .......................................................................................................................... 27

4.1 Análise dos dados da instituição financeira ............................................................... 27

5 Considerações finais ........................................................................................................ 33

6 Referências ....................................................................................................................... 34

7 Apêndice ........................................................................................................................... 38

Page 13: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

1

1 Introdução

Em análise de sobrevivência a variável em estudo comumente é o tempo até a

ocorrência de um determinado evento de interesse. Este tempo é denominado tempo de vida

ou de falha e pode ser, por exemplo, o tempo até que um paciente venha a óbito devido à

alguma doença, ou ainda o tempo até que um cliente abandone a instituição financeira. A

teoria usual assume que, se observado por um longo período de tempo, todos os indivíduos ou

itens (para caso de aplicações em áreas industriais) irão falhar em algum momento. Mas, em

algumas situações tal restrição pode ser violada, pois uma proporção da população pode não

estar mais sujeita à ocorrência deste evento e, por mais longo que seja o tempo de observação,

o evento nunca ocorrerá para esta parte da população. Neste sentido, alguns modelos foram

propostos para tratar tais situações e estes são conhecidos com o nome de modelos com longa

duração ou com fração de cura.

Neste contexto, os modelos de análise de sobrevivência com longa duração possui

vantagem em relação aos modelos de sobrevivência usuais, pelo fato de incorporar a

heterogeneidade de duas subpopulações (susceptíveis e imunes ou curados do evento de

interesse). Estes modelos podem ser utilizados quando existem indícios de que uma

porcentagem da população nunca apresentará o evento em questão.

Uma abordagem foi dada inicialmente por Boag (1949) e Berkson & Gage (1952), que

consideram uma mistura de distribuições. Neste modelo, conhecido como modelo de mistura

padrão é assumido que uma fração da população está curada e a restante não está

curada. A partir destes artigos, muitos outros foram escritos considerando a aplicação do

modelo proposto em diversas áreas como: da saúde, industrial e financeira, ver, por exemplo,

Frankel & Longmate (2002); Lam et al. (2005) e Granzotto et al. (2012).

Alternativamente, Yakovlev & Tsodikov (1996) propõem uma nova classe de modelos

que envolvem uma estrutura de riscos competitivos a qual foi estendida por Chen et al.

(1999), e que neste trabalho será referido como modelo de tempo de promoção. Uma

abordagem unificada que inclui o modelo de mistura padrão e o modelo de tempo de

promoção como casos particulares, é proposta por Rodrigues et al. (2008). Neste contexto, a

distribuição assumida para a variável latente que representa o número de causas que

competem para a ocorrência do evento em estudo, determina uma classe de modelos. As

Page 14: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

2

distribuições de Bernoulli e de Poisson representam, respectivamente, os modelos de mistura

e de tempo de promoção.

Neste trabalho serão estudados os modelos proposto por Boag (1949) e Berkson & Gage

(1952) e Yakovlev & Tsodikov (1996), tomando como base a proposta de unificação destes

apresentados em Rodrigues et al. (2008) e as pesquisas desenvolvidas por Lima (2008),

Fonseca (2009), Guedes (2011) e Carneiro (2012).

Os capítulos deste trabalho estão dispostos da seguinte forma: no Capítulo 2 são

introduzidos alguns conceitos básicos sobre Análise de Sobrevivência, o critério de

informação Akaike (AIC) para escolha de modelos, bem como a especificação da distribuição

gama generalizada proposta por Stacy (1962), passando pelas parametrizações para obtenção

da distribuição log-gama generalizada estendida, até a estimação dos parâmetros. No Capítulo

3 é discutido o modelo de sobrevivência com longa duração e também a obtenção da função

de verossimilhança para o modelo log-gama generalizado estendido com longa duração com

ênfase na abordagem unificada. No Capítulo 4 é feito uma aplicação a dois conjunto de dados

reais, sendo um deles fornecido por uma instituição financeira brasileira e o outro são dados

referentes a pacientes com câncer de pele, coletados por Ibrahim et al. (2001). No Capítulo

05 são enfatizados os principais resultados desenvolvidos ao decorrer deste trabalho, bem

como algumas sugestões para trabalhos futuros. Todos os resultados foram obtidos utilizando

o software estatístico R e as rotinas estão disponíveis no Apêndice.

1.1 Objetivos

O objetivo do presente trabalho é estudar os modelos com longa duração, a partir da

abordagem unificada dada em Rodrigues et al. (2008) considerando a distribuição gama

generalizada para modelar os tempos de vida. Além disso, desenvolver uma rotina em

linguagem R que seja amigável ao usuário. Em seguida, as técnicas e rotinas citadas serão

aplicadas a dois conjuntos de dados reais.

Page 15: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

3

2 Análise de sobrevivência

Neste capítulo são apresentados técnicas de Análise de Sobrevivência, a distribuição

gama generalizada, a distribuição log-gama generalizada estendida, bem como a estimação,

considerando estes modelos e os aspectos da função verossimilhança quando considerada a

presença de censura na amostra.

2.1 Conceitos básicos em Análise de Sobrevivência

A Análise de Sobrevivência é um conjunto de métodos estatísticos que servem para

analisar dados correspondentes ao tempo até a ocorrência de um determinado evento, como

por exemplo, o tempo até a morte ou o tempo até a cura de um paciente, ou ainda, o tempo até

que um cliente abandone a instituição de financeira.

A variável aleatória corresponde ao tempo até a ocorrência de um determinado evento

de interesse de alguma população. Para , deve-se definir o tempo de início (data de início do

estudo), a escala de medida (que é em geral o tempo do estudo) e um evento de interesse que,

por exemplo, pode ser a morte do paciente.

2.1.1 Função de Sobrevivência

Seja uma variável aleatória contínua, não negativa com função densidade de

probabilidade e função de distribuição acumulada . Define-se então, a função de

sobrevivência de como:

Note que é uma função monótona decrescente com as seguintes propriedades,

e . Funções de sobrevivência que não satisfazem estas

propriedades são denominadas funções de sobrevivência impróprias ou com longa duração,

ou, ainda, com fração de cura segundo Rodrigues et al. (2008) e são objeto de estudo deste

trabalho.

Page 16: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

4

2.1.2 Função taxa de falha ou risco

A função taxa de falha ou função risco, denotada por é definida como,

Pode-se mostrar que,

e ∫

A função risco especifica a taxa de falha instantânea a um tempo , dado que o

indivíduo sobreviveu até o tempo .

2.1.3 Relações entre as funções

Para a variável aleatória contínua e não negativa, têm-se, em termos da definição de

função de sobrevivência e de risco, exibidas anteriormente, algumas relações matemáticas

entre as funções , e . Assim, conhecendo uma delas, podem-se obter as outras

através das seguintes relações:

[ ]

2.1.4 Censura

Uma característica marcante em dados de sobrevivência é a presença de censura, que é a

observação parcial da resposta (tempo até a falha) e ocorre quando algum acontecimento

impede que o tempo até a ocorrência do evento de interesse seja observado. Por exemplo,

alguns pacientes podem desistir do tratamento ou morrer por uma causa diferente da estudada,

ou o estudo pode acabar antes que o evento ocorra para todos os pacientes. Nestes casos, o

que se sabe é que o tempo de vida é maior que o tempo observado.

Neste trabalho será considerada a censura à direita, em que este mecanismo caracteriza-

se pelo fato do tempo de ocorrência do evento de interesse está à direita do tempo registrado,

Page 17: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

5

ou seja, a falha ocorre após o início do estudo. Na Figura 01 estão apresentadas ilustrações

referentes a três tipos de censura comumente encontrados nos dados, além de uma ilustração

para caso de dados completos.

Figura 01: Ilustração de alguns mecanismos de censura, em que (◦) representa o tempo de falha e (•) a

censura. (A) todos os pacientes experimentaram o evento até o final do estudo; (B) alguns pacientes

não experimentaram o evento de interesse até o final do estudo; (C) o estudo finalizou após uma

quantidade pré-estabelecida de falhas e (D) o acompanhamento do paciente foi interrompido por

alguma causa e alguns pacientes não experimentaram o evento até o final do estudo:

2.2 O estimador de Kaplan-Meier

Quando se analisa dados censurados é necessário munir-se de uma metodologia

conveniente para tratar deste problema. Entre alguns possíveis estimadores de , o mais

utilizado, é o estimador Produto-Limite, mais conhecido como estimador de Kaplan-Meier,

Page 18: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

6

pois estes autores foram os pioneiros ao discutir suas propriedades (KAPLAN & MEIER,

1958).

Então sejam os tempos distintos de falha observados em uma amostra de

tamanho com função de sobrevivência . Suponha que itens (ou pacientes, ou

indivíduos) falham no instante ( ) e ítens são censurados no intervalo

[ nos tempos , , sendo . Denote-se também

por o número de ítens em risco em , ou seja, número de ítens que não falharam nem

censuraram no instante exatamente anterior a , que pode ser representado por

( ) . O estimador de Kaplan-Meier de , é definido para

como

{

∏(

)

∏(

)

O estimador de Kaplan-Meier é uma função escada monótona não crescente, igual a 1

quando e com decrescimento determinado pelo fator . Esta função

atinge zero no valor se, e somente se, este último valor representar uma falha. As

principais propriedades de dizem que este é um estimador consistente de e

assintóticamente normal, sob condições muito gerais. Algumas destas propriedades são

apresentadas e referidas em Lawless (2003).

2.3 Modelos Probabilísticos

Nas últimas décadas o uso de modelos probabilísticos na análise estatística de dados de

sobrevivência têm-se mostrado bastante presente na literatura. Apesar de existirem técnicas

não paramétricas que tratam deste tipo de dados, em diversas situações deseja-se ajustar

modelos paramétricos. Dentre estes, alguns ocupam uma posição de destaque por sua

comprovada adequação a várias situações práticas, e os que são usados com mais frequência

são os modelos: exponencial, de Weibull, gama e log-normal. Neste trabalho será abordada a

distribuição gama generalizada (distribuição GG) proposta por Stacy (1962), que possui como

Page 19: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

7

casos particulares os modelos citados anteriormente. Também será considerado o modelo log-

gama generalizada estendido, proposto por Farewell & Prentice (1977) e por Lawless (1980),

para estimação dos parâmetros da distribuição GG, uma vez que existem dificuldades na

estimação dos parâmetros do modelo proposto por Stacy (1962).

Caracteriza-se, a seguir, a distribuição gama generalizada, bem como sua versão

reparametrizada e propriedades até a obtenção da distribuição log-gama generalizada

estendida.

2.3.1 Distribuição Gama Generalizada

A distribuição gama generalizada foi proposta por Stacy (1962) e se tornou muito

importante na análise de dados de sobrevivência, pelo fato de representar uma família

paramétrica e apresentar diversas formas de funções de risco. Como exemplos de casos

particulares da distribuição GG, temos as distribuições, exponencial, Weibull, gama, qui-

quadrado, Rayleigh e log-normal. Além destes, outros submodelos podem ser vistos em

Lawless (2003) e Khodabin & Ahmadabadi (2010), que discorrem sobre algumas

propriedades da distribuição em estudo. Portanto, por este modelo ter como casos especiais as

distribuições supracitadas, ele é útil na discriminação entre modelos probabilísticos

alternativos para análise dos dados (COLOSIMO & GIOLO, 2006).

Desde então, a família GG tem sido largamente estudada e aplicada em diversas áreas

do conhecimento e pode-se destacar alguns estudos como, por exemplo, Rizzato (2006) que

trabalhou com o modelo gama-generalizado com fração de cura aplicado a dados clínicos;

Nadarajah (2008) que realizou uma pesquisa sobre o uso da distribuição GG em engenharia

elétrica e eletrônica; Guedes (2011) que apresentou um estudo sobre o modelo de tempo de

falha acelerado gama generalizado com fração de cura, sob uma abordagem unificada, além

de uma aplicação com dados de câncer de mama. Recentemente, Pascoa (2012), trabalhou

com as extensões da distribuição gama generalizada, propriedades e aplicações, tomando

como base os estudos desenvolvidos por Adamidis & Loukas (1998) e Cordeiro & Castro

(2011).

A função densidade de probabilidade proposta por Stacy (1962) é dada por:

(

)

[ (

)

]

Page 20: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

8

em que representa o parâmetro de escala, e são parâmetros de forma e é a função

gama (ABRAMOWITZ & STEGUN,1972), definida por:

Se é uma variável aleatória positiva com função de densidade de probabilidade dada

pela expressão apresentada acima, então tem distribuição gama generalizada com

parâmetros e , e considerem aqui a seguinte notação, .

Como citado anteriormente, vários autores estudaram as propriedades da distribuição

em questão, dentre os quais se sobressaem, pelo aprofundamento da temática, Stacy &

Mihram (1965), Prentice (1974), Valença (1994), Lawless (1980, 2003) e Khodabin &

Ahmadabadi (2010). Temos que o r-ésimo momento, a média, variância e função geradora de

momentos da distribuição GG, são dados, respectivamente, por:

[ ]

(

)

(

)

{

(

)

[ (

)]

}

e

[ ]

∑ (

)

Outras formas opcionais para escrever a função geradora de momentos podem ser

encontradas em Pascoa (2012). Na Tabela 01 são apresentadas algumas das distribuições que

são casos particulares da gama generalizada, seus respectivos parâmetros, média e variância.

Page 21: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

9

Tabela 01: Casos particulares da distribuição gama generalizada, seus respectivos parâmetros, média

e variância:

Distribuição Média Variância

Exponencial

Rayleigh 2 √ 1 √

(

)

Qui-quadrado

2 2

Weibull (

) { (

) [ (

)]

}

Gama

Log-normal (

) [ ]

Nota: representa o parâmetro de escala da distribuição de Rayleigh, é o número de grau de liberdade da

distribuição qui-quadrado, e são dados, respectivamente, por:

e

√ (LAWLESS,

1980).

A função de distribuição acumulada, de sobrevivência e taxa de falha ou risco são

apresentadas a seguir:

[ (

)

]

( )

[ (

)

]

e

( )

∫ ( )

em que,

é a função gama incompleta definida em Abramowitz & Stegun (1972), que pode ser

facilmente implementada em vários pacotes estatísticos como, por exemplo: R, SAS e Ox. No

caso do Software R a função está implementada com o nome de Rgamma no pacote zipfR

(EVERT & BARONI, 2007). Já a função de densidade de probabilidade, a função de

sobrevivência e a função risco, estão implementadas no pacote VGAM (YEE, 2010) e

Page 22: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

10

flexsurv (JACKSON, 2013). Na Tabela 02 estão as funções de sobrevivência e risco de

alguns casos particulares dessa família paramétrica que a distribuição GG representa.

Tabela 02: Casos particulares da distribuição gama generalizada, seus respectivos parâmetros, função

de sobrevivência e risco:

Distribuição

Exponencial [ (

)]

Rayleigh 2 √ 1 [ (

√ )

]

Qui-quadrado 1 2

[

(

)]

( )

( )

Weibull [ (

)

]

(

)

Gama [ (

)]

(

)

∫ (

)

Log-normal [

]

√ {

(

)

}

[

]

Nota: representa o parâmetro de escala da distribuição de Rayleigh, é o número de grau de liberdade da

distribuição qui-quadrado, e são dados, respectivamente, por:

e

√ (LAWLESS,

1980). é a função distribuição acumulada da normal padrão.

Como ilustração da flexibilidade da distribuição GG, seguem alguns gráficos da função

densidade de probabilidade, função de sobrevivência e função risco da distribuição em

questão.

Page 23: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

11

Figura 02: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da

distribuição gama generalizada ( ) para caso exponencial:

Figura 03: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da

distribuição gama generalizada ( ) para caso Weibull:

Page 24: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

12

Figura 04: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da

distribuição gama generalizada ( ) para caso Gama:

Figura 05: Gráficos da função densidade de probabilidade, função de sobrevivência e função risco da

distribuição gama generalizada ( ) para outras formas:

Page 25: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

13

2.4 Reparametrização

Seja uma variável aleatória com distribuição gama generalizada com densidade dada

pela expressão proposta por Stacy (1962). Prentice (1974) mostrou que a variável aleatória

pode ser reescrita em função de outra variável aleatória , em que . Logo, a

variável fica da seguinte forma:

Sendo assim, tomando , têm-se que:

( )

e denote-se que tem distribuição log-gama generalizada com parâmetros e . Então,

tomando , têm-se que tem distribuição log-gama com parâmetros e , pois

. Temos que tem densidade, média e variância dada por:

[ ]

[ ] [ ]

[ ]

em que, e representam respectivamente as funções digama e trigama

assintóticas ( ) (ABRAMOWITZ & STEGUN, 1972).

Prentice (1974) também considerou um parâmetro de transformação , ,

pois quando a distribuição da variável aleatória tende para a distribuição log-

normal, define um ponto , em que a distribuição de aproxima-se da distribuição

normal e mostra que o valor de para o qual a distribuição de mais se aproxima da

distribuição normal é .

Considerando-se uma padronização da variável aleatória W, ao usar uma aproximação

de primeira ordem para variância, isto é, tomando

, têm-se que o desvio padrão será

dado por

, que é igual a quando . Portanto, segue a padronização:

Page 26: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

14

Então, ao substituir a expressão de na de e tomando

e

têm-

se que:

Assim, pode-se rescrever a variável aleatória como:

(

)

Portanto, a densidade de Y pode ser obtida como,

[ (

) ]

em que

|

|

é o jacobiano da transformação, pois e são maiores que zero.

Logo, substituído o ponto (

) na , têm-se:

{ [ (

) ] [ (

) ]}

Prentice (1974) estendeu esse modelo para valores de . A densidade para este caso é

dada por:

{

{ [ (

) ] [ (

) ]}

√ {

(

) }

em que, , pois

.

Uma reparametrização alternativa foi proposta por Farewell & Prentice (1977) e por

Lawless (1980), sendo que a média e a variância são aproximadas, respectivamente, pelo

primeiro termo das expressões da [ ] e [ ], da seguinte forma:

e

Page 27: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

15

Assim,

tem função de densidade,

{

{ }

√ {

}

Por outro lado, substituindo a expressão de na equação

, temos que

a variável pode ser escrita como,

[ ]

Então, tomando

e

têm-se que,

com função de densidade dada por,

{

{ (

) [ (

)]}

√ {

(

) }

Se é uma variável aleatória com função de densidade de probabilidade dada pela

expressão acima, então denota-se que tem distribuição log-gama generalizada estendida

com parâmetros e . A média e a variância de são dadas, respectivamente, por:

[ ] { [

]

[ ] {

Page 28: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

16

A função de distribuição acumulada e de sobrevivência para distribuição gama

generalizada estendida são, respectivamente,

{

( )

{ }

( )

{ }

{

( )

{ }

( )

{ }

em que

e é a função de distribuição da normal padrão.

Considerando a mudança de variável na expressão de , têm-se

que:

{

A função de sobrevivência ainda pode ser escrita considerando a função integral gama

incompleta (ABRAMOWITZ & STEGUN, 1972) e fazendo

. Então, seguem,

respectivamente, a função integral gama incompleta e a função de sobrevivência da

distribuição gama generalizada estendida,

Page 29: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

17

{

{ [ (

)]}

{ [ (

)]}

(

)

Como casos particulares do modelo gama generalizado estendido, temos os modelos

exponencial ( ), de Weibull ( ), log-normal ( ) e gama generalizada

reparametrizado ( ).

Será tratado a seguir, o problema de estimação dos parâmetros da distribuição log-gama

generalizada estendida que vem sendo utilizada para modelagem de dados, ao invés da gama

generalizada, devido às simplificações na estimação dos parâmetros (VALENÇA, 1994) e

(RIZZATO, 2006).

2.5 Estimação dos Parâmetros do Modelo

Uma vez assumido que a distribuição geradora dos tempos de falha e/ou censura dos

indivíduos observados na amostra é conhecida. Então o problema agora consiste na estimação

de quantidades desconhecidas que estão atreladas a essa distribuição, estas quantidades

denominam-se parâmetros.

Por exemplo, considere que o tempo de falha/censura de um tipo de componente

eletrônico tem distribuição exponencial com parâmetro , mas o valor exato de é

desconhecido. Se o tempo de falha/censura de vários componentes de mesmo tipo são

observados, e com estes ou outra fonte relevante de informação que esteja disponível, é

possível fazer inferência sobre o valor desconhecido do parâmetro .

Neste trabalho será utilizado o método de máxima verossimilhança para estimação dos

parâmetros, pois este incorpora com facilidade a presença de dados censurados e possui

propriedades ótimas em grandes amostras (COLOSIMO & GIOLO, 2006) e (VALENÇA,

2013). Intuitivamente o estimador de máxima verossimilhança consiste em gerar a estimativa

do parâmetro que, à luz da amostra é o valor que tem maior probabilidade de gerar o resultado

visto na mesma. Em outras palavras, é o valor ou o conjunto de valores que melhor explica a

informação observada na amostra.

Page 30: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

18

A seguir, serão definidos alguns conceitos relacionados ao método de máxima

verossimilhança, a fim de que seja possível obter estimadores para os parâmetros.

Definição (Função de verossimilhança): Suponha que os dados são realizações de um

vetor aleatório com função de probabilidade ou densidade de probabilidade ( ). A

função de verossimilhança para , dados os valores observados é a função ( )

(BOLFARINE & SANDOVAL, 2010) e (BONAT et al., 2012). Em outras palavras, a função

de verossimilhança é dada pela expressão da distribuição conjunta de todas as variáveis

aleatórias envolvidas no modelo, porém vista como função dos parâmetros, uma vez que os

dados são observados, essas quantidades são fixas. Para cada particular valor do parâmetro,

seja escalar ou vetor, a verossimilhança é uma medida de compatibilidade, plausibilidade ou

similaridade com a amostra observada.

No caso em que os elementos de são independentes, a função de verossimilhança é

dada pela expressão do produto das funções de densidade de cada variável individualmente,

ou seja,

( ) ∏ ( )

Definição (Estimador de máxima verossimilhança): É o valor de que maximiza a função

de verossimilhança ( ) (BOLFARINE & SANDOVAL, 2010) e (BONAT et al., 2012).

Como dito, a verossimilhança é uma medida de compatibilidade da amostra observada com

um particular vetor de parâmetros. Desta forma, é natural definir como estimador para o vetor

de parâmetros , aquele particular vetor, , que tenha a maior compatibilidade com a amostra,

ou seja, o vetor que maximiza a função de verossimilhança.

De posse dos conceitos apresentados anteriormente considere dois cenários, para os

quais deseja-se fazer a estimação dos parâmetros. Um deles consiste em analisar apenas

tempos de falha e o outro, os tempos de falhas e censuras. Neste último caso, será considerado

que o mecanismo gerador da censura é aleatório ou tipo I, o primeiro é mais conhecido como

censura aleatória (VALENÇA, 2013). Para estes casos temos as respectivas funções de

verossimilhança:

Page 31: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

19

Função de verossimilhança: Sem censura

Considere que, em um estudo de sobrevivência n ítens são colocados em teste e que,

associado a cada ítem, têm-se uma v.a. que representa o tempo de vida. Sendo assim, a

função de verossimilhança para o caso em que não há censura é dado por:

( ) ∏ ( )

Deve-se salientar que esta expressão mostra que a contribuição de cada observação,

quando não tem censura, é a sua função de densidade.

Função de verossimilhança: Com censura aleatória ou tipo I

Agora considere que, em um estudo de sobrevivência, n ítens são colocados em teste e

que associado a cada ítem, têm-se uma v.a. que representa tempo de vida ou tempo até a

censura. Santos (2012) e Valença (2013) mostram que a função de verossimilhança que

considera a presença de censura nos dados é dada por:

( ) ∏ [ ]

[ ]

em que, é a função de densidade, é a função de sobrevivência e é o

indicador de censura, definido da forma abaixo,

{

Note que a contribuição de cada observação censurada não é, contudo, a sua função de

densidade, pois a informação que se tem em relação a um ítem censurado é que o seu tempo

de vida/falha é maior que o observado. Desta forma, é plausível definir que a contribuição

desses para verossimilhança será a função de sobrevivência. Note também que se for

considerado que itens falharam então ∑ , logo têm-se censuradas.

Nas condições apresentadas acima e considerando o logaritmo da função de

verossimilhança, deseja-se encontrar os estimadores de máxima verossimilhança, ou seja, o

vetor de valores que maximizam ( ) ou equivalentemente [ ( )]. Quando ( )

Page 32: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

20

for contínua e diferenciável os valores podem ser encontrados resolvendo o sistema de

equações simultâneas:

( ) [ ( )]

Com muita frequência, o sistema de equações apresentado acima não pode ser resolvido

analiticamente e a obtenção dos estimadores de máxima verossimilhança requer a utilização

de métodos interativos. Chambers (1977) descreve vários métodos que podem ser usados

nesta situação. Uma técnica utilizada com bastante frequência é o Método de Newton-

Raphson.

2.5.1 Distribuição Gama Generalizada

Como citado anteriormente, existem algumas dificuldades para fazer a estimação dos

parâmetros da distribuição proposta por Stacy (1962), o que não ocorre quando se utiliza a

distribuição log-gama generalizada estendida, apresentada na subseção 2.4. Desta forma, ao

considerar a densidade e a sobrevivência da log-gama generalizada estendida será tratado dois

esquemas de estimação, em que um deles consiste no fato de levar em conta apenas tempos de

falha e o outro caracteriza por incluir tempos de falha e censura.

Função e estimador de máxima de verossimilhança: Sem censura

Seja , uma amostra aleatória com distribuição log-gama generalizada

estendida e vetor de parâmetros desconhecidos . O logaritmo da função de

verossimilhança para é dado por:

( ) [ ( )] ∑ ( )

{

[ ]} ∑{ (

) [ (

)]}

Para se obter os estimadores de máxima verossimilhança, basta resolver,

simultaneamente, as equações:

Page 33: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

21

( )

{

( )

( )

( )

No caso de têm-se os estimadores de máxima verossimilhança da distribuição

normal,

e √∑

Função e estimador de máxima de verossimilhança: Com censura aleatória ou tipo I

Seja , uma amostra aleatória com distribuição log-gama generalizada

estendida e vetor de parâmetros desconhecidos , em que . A cada

observação associa-se um indicador de censura , isto é,

{

Então, o logaritmo da função de verossimilhança considerando censura aleatória ou tipo

I, é dada por:

( ) [ ( )] ∑ [ ]

∑ [ ]

{

∑ {

( )

{ (

) [ (

)]}}

∑ { { [ (

)]}}

∑ {

( )

{ (

) [ (

)]}}

∑ { { [ (

)]}}

∑ {

√ [

(

) ] }

∑ [ (

)]

Page 34: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

22

2.5.2 Critério de informação Akaike

Para seleção dos modelos, foi utilizado o Critério de Informação Akaike (AIC). Então,

assumindo que um modelo é indexado pelo vetor de parâmetros , o critério AIC, definido

por Akaike (1973) é dado pela expressão,

[ ( )]

em que representa o número de parâmetros que indexam o modelo .

Page 35: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

23

3 Modelos com longa duração

Na teoria de análise de sobrevivência usada com maior frequência, um dos principais

pressupostos dos modelos paramétricos é que, se os indivíduos forem acompanhados pelo

período suficiente de tempo, todos irão apresentar o evento de interesse (RODRIGUES et al.,

2008). Ou seja, quando os tempos desses indivíduos tendem para o infinito, a probabilidade

de não apresentarem o evento de interesse vai para zero ( ). Mas, do ponto de

vista prático, em algumas situações não será razoável considerar tal pressuposto na análise

dos dados, pois pode ocorrer que um percentual significativo dos indivíduos não apresente o

evento em estudo.

Neste contexto, surgiram os modelos conhecidos da literatura com o nome de modelos

de sobrevivência com longa duração ou com fração de cura, que assumem que um percentual

de indivíduos observados no estudo podem ser considerados curados ou imunes ao evento de

interesse. Em outras palavras, mesmo que observado por um longo período de tempo estes

indivíduos não apresentaram o evento. Como ilustração, considere os seguintes exemplos: em

estudos da área médica um provável evento de interesse pode ser a recorrência de

determinado tipo de câncer, em que, após aplicação de alguns tratamentos uma parte dos

indivíduos em estudo pode não apresentar o retorno da doença, ou seja, estes podem ser

considerados curados (o que justifica a denominação de modelos com “fração de cura”). Já

em estudos da área de criminologia, um possível evento é o tempo até um ex-detento reincidir

no crime, entretanto, alguns deles estarão reabilitados e não tornarão a cometer crimes.

Um indicativo da presença de indivíduos imunes na população é a ocorrência de um alto

percentual de censura à direita no fim do estudo. Mas, Maller e Zhou (1996) advertem que o

tempo de acompanhamento deve ser suficientemente grande para que se possa ter indícios

reais de que uma proporção dos indivíduos seja realmente imune ou curado. Uma forma de

visualizar a possível existência de indivíduos imunes nos dados é construindo o gráfico da

sobrevivência estimada pelo método não paramétrico de Kaplan & Meier (1958), pois quando

a curva estimada se mantem a um nível aproximadamente constante e estritamente maior do

que zero durante um período de tempo razoável, há fortes evidências de que existe uma

proporção de indivíduos não susceptíveis ao evento de interesse. Segue, na Figura 06 um

exemplo com dados referentes ao tempo até a recidiva do câncer de mama de 355 pacientes

analisados por Macedo & Valença (2009) inicialmente.

Page 36: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

24

Figura 06: Gráfico da estimativa da sobrevivência pelo método de Kaplan-Meier para dados

referentes ao tempo até a recidiva do câncer de mama em 355 pacientes diagnosticadas e previamente

tratadas no Hospital Prof. Dr. Luiz Antônio, Unidade I da Liga Contra o Câncer, Natal-RN, 1991-

1995:

Assim, modelar estes dados ignorando a existência de uma parcela de imunes na

população pode conduzir o pesquisador a conclusões distorcidas. Desta forma, a fim de dar tal

tratamento correto aos dados foram estudados os modelos com longa duração proposto por

Boag (1949), Berkson & Gage (1952) e Yakovlev & Tsodikov (1996), considerando a

proposta de unificação de Rodrigues (2008), os resultados apresentados por Lima (2008),

Fonseca (2009), Guedes (2011) e Carneiro (2012) e o modelo log-gama generalizado

estendido.

3.1 Modelo log-gama generalizada estendido com longa duração

Nesta subseção, serão apresentados os modelos de mistura padrão log-gama

generalizado e tempo de promoção log-gama generalizado, suas funções de densidade de

probabilidade, sobrevivências, riscos e verossimilhanças.

Page 37: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

25

3.1.1 Modelo de mistura padrão log-gama generalizado estendido

Considerando a unificação proposta por Rodrigues et al. (2008) e a distribuição log-

gama generalizada estendida, temos que a função de sobrevivência, densidade e risco

impróprias (com mistura padrão) são dadas por:

e

em que e são, respectivamente, a função de sobrevivência e densidade da

distribuição log-gama generalizada estendida e é a proporção de indivíduos imunes ou

curados. Temos que a função de verossimilhança e o logaritmo da função de verossimilhança

para o modelo estudado são, respectivamente, dados por:

( ) ∏ [ ]

[ ]

;

( )

{

∑ {

{ (

) [ (

)]}}

∑ { { [ (

)]}}

∑ {

{ (

) [ (

)]}}

∑ { { { [ (

)]}}}

∑ {

√ [

(

) ] }

∑ [ (

)]

Para mais informações sobre a obtenção da função de verossimilhança consulte

Rodrigues et al. (2008), Rizzato (2008), Guedes (2011) e Carneiro (2012).

Page 38: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

26

3.1.2 Modelo de Tempo de promoção log-gama generalizado estendido

Considerando a unificação proposta por Rodrigues et al. (2008) e a distribuição log-

gama generalizada estendida, temos que a função de sobrevivência, densidade e risco

impróprias (caso tempo de promoção) são dadas por:

{ [ ]}

e

em que e são, respectivamente, a função de sobrevivência e densidade da

distribuição log-gama generalizada estendida e é a proporção de indivíduos imunes

ou curados. Temos que a função de verossimilhança e o logaritmo da função de

verossimilhança para o modelo estudado são, respectivamente, dados por:

( ) ∏ [ ]

[ ]

;

( )

{

∑ {

( )

{ (

) [ (

)]}}

∑ { { [ (

)]}}

∑ { { [ (

)]}}

∑ {

( )

{ (

) [ (

)]}}

∑ { [ (

)]}

∑ { [ (

)]}

∑ {

√ [

(

) ] }

∑ (

)

∑ (

)

Para mais informações sobre a obtenção da função de verossimilhança consulte

Rodrigues et al. (2008), Lima (2008), Fonseca (2009), Guedes (2011) e Carneiro (2012).

Page 39: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

27

4 Aplicação

Neste capítulo, considera-se a aplicação da metodologia descrita nas seções anteriores

em dois conjuntos de dados reais, sendo uma destas bases fornecida por uma instituição

financeira brasileira e a outra de dados coletados por Ibrahim et al. (2001) referente a

pacientes com câncer de pele. Para análise dos dados serão consideras as rotinas em

linguagem R apresentadas no Apêndice. Então, seguem as respectivas análises dos dados

supracitados, salientando que, no presente estudo, não foram consideradas covariáveis nos

modelos a serem ajustados.

4.1 Análise dos dados da instituição financeira

O primeiro conjunto de dados a ser analisado representa 65.535 cadastros de clientes,

em que o interesse é observar o tempo até que este deixe a instituição financeira, isto é, deixar

de ter relacionamento com a empresa. A base de dados é composta por duas variáveis, uma

representa o tempo e a outra o status, sendo que o status é descrito em duas categorias e neste

caso é definido da seguinte forma: quando o indivíduo deixa a instituição o seu tempo é dito

observado, já no caso em que o cliente é ainda ativo, o seu tempo é dito censurado.

Para os dados disponibilizados, têm-se a presença de 41.787 censuras que representam

63,76% dos clientes, ou seja, há evidência de que uma proporção de indivíduos é imunes ao

evento de interesse, que neste caso é interromper o relacionamento com a instituição. O tempo

máximo observado no estudo foi 2.770 dias e o mínimo foi de 14 dias. Na tabela que segue

têm-se um resumo descritivo do tempo segundo a variável “status”.

Tabela 03: Resumo descritivo para os tempos até a interrupção do relacionamento com a instituição

financeira segundo a variável “status”:

Medidas descritivas Tempo (em dias)

Observado Censurado Geral

Mínimo 14 60 14

1ª Quantil 93,75 1.399 653

Mediana 316 1.399 1399

Média 497,4 1.385 1064

3ª Quantil 941,5 1.399 1399

Máximo 2.632 2.770 2770

Assim, foram ajustados os modelos de Berkson & Gage (1952) e Yakovlev & Tsodikov

(1996) para os dados de sobrevivência na presença de longa duração. A seguir, são

Page 40: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

28

apresentados os resultados dos ajustes aos dados, ao considerar a distribuição log-gama

generalizada estendida para tempos de sobrevivência. Na Tabela 04, temos as estimativas dos

parâmetros para estes modelos, os erros padrões das estimativas e os valores do Critério de

Informação Akaike (AIC).

Tabela 04: Estimativa para os parâmetros dos modelos log-gama generalizado, mistura padrão log-

gama generalizado estendido e tempo promoção log-gama generalizado estendido para os dados da

instituição financeira:

Modelo log-gama generalizado estendido

Parâmetros Estimativas Erro padrão AIC

5,351910 0,027336

418190,6 1,894641 0,009716

-3,534891 0,053419

Modelo de mistura padrão gama generalizado estendido

5,351226 0,005104

418192,8 1,894378 0,009717

-3,536078 0,053431

0,000205 2,776977

Modelo de tempo de promoção gama generalizado estendido

7,187160 0,014460

418220,9 11,378500 0,081606

-21,74199 1,833708

<0,000000 6,013027

Pode-se observar na Tabela 04 que, quando considerado o modelo log-gama

generalizado para análise dos dados, as estimativas dos parâmetros em relação ao modelo de

mistura padrão log-gama generalizado são praticamente as mesmas, ou seja, dando indícios

reais que não exista uma fração de indivíduos imunes. Além disso, têm-se evidência de que a

proporção estimada de clientes ativos é aproximadamente zero, quando considerados os

modelos com longa duração supracitados. No tocante da seleção do modelo, levando-se em

consideração o Critério de Informação Akaike, o modelo log-gama generalizado estendido

sem longa duração é o mais adequado para o ajuste dos dados. A figura abaixo mostra o

gráfico da estimativa da curva de sobrevivência pelo método de Kaplan-Meier e pelos

modelos citados na tabela acima, com suas respectivas estimativas dos parâmetros.

Page 41: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

29

Figura 07: Sobrevivências estimadas pelo método de Kaplan-Meier, modelo log-gama generalizado

estendido, modelo de mistura padrão log-gama generalizado estendido e modelo de tempo de

promoção log-gama generalizado estendido para os dados da instituição financeira:

Desta forma, considerando o modelo log-gama generalizado estendido, foi estimada a

função de risco, ao considerar as estimativas dos parâmetros apresentadas na Tabela 04.

Observa-se que o risco do cliente em abandonar a instituição após um ano de contato, diminui

significativamente e tende a zero ao longo dos dias.

Figura 08: Função de risco ajustada através do modelo log-gama generalizado estendido para os

dados da instituição financeira:

Page 42: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

30

5.2. Análise dos dados de câncer de pele (IBRAHIM et al., 2001)

O segundo conjunto de dados a ser analisado é parte de um estudo sobre melanoma

cutâneo (câncer de pele). Os pacientes que foram incluídos no estudo no intervalo de tempo

de 1991 a 1995, foram acompanhados até 1998. Os dados coletados por Ibrahim et al. (2001)

representam os tempos de sobrevivência (ou morte/censura) de 417 pacientes. A base de

dados é composta por duas variáveis, sendo que uma representa o tempo e a outra o “status”,

que neste caso é descrito da seguinte forma, quando os pacientes veem a falecer o seu tempo é

dito observado, já no caso em que o paciente estava vivo ao final do estudo ou saiu do

tratamento antes de terminá-lo, o seu tempo é dito censurado.

O percentual de observações censuradas foi de 56%. Ou seja, como a proporção de

indivíduos censurada é relativamente alta, sugere que exista uma quantidade de pacientes que

possam ser considerados curados (ou imunes) do câncer. O tempo máximo observado no

estudo foi 7,01 anos e o mínimo foi de 0,15 anos. Na figura que segue estão apresentados o

histograma e boxplot para tempos até o óbito ou censura dos pacientes diagnosticados com

câncer de pele.

Figura 09: Histograma e boxplot para os tempos até o óbito ou censura de 417 pacientes

diagnosticados com câncer de pele (IBRAHIM et al., 2001):

Page 43: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

31

Portanto, foram ajustados os modelos de Berkson & Gage (1952) e Yakovlev &

Tsodikov (1996) para os dados de sobrevivência na presença de longa duração. A seguir, são

apresentados os resultados dos ajustes aos dados, considerando a distribuição log-gama

generalizada estendida para tempos de sobrevivência. Na Tabela 05 temos as estimativas dos

para estes modelos, os erros padrões das estimativas e os valores do Critério de Informação

Akaike.

Tabela 05: Estimativa para os parâmetros dos modelos log-gama generalizado, mistura padrão gama

generalizado estendido e tempo promoção log-gama generalizado estendido para os dados de câncer

de pele:

Modelo log-gama generalizado estendido

Parâmetros Estimativas Erro padrão AIC

1,007554 0,194551

1063,857 1,519981 0,055361

-1,169060 0,318813

Modelo de mistura padrão gama generalizado estendido

0,652613 0,143455

1057,409 0,761222 0,125513

0,293462 0,288898

0,487532 0,082666

Modelo de tempo de promoção gama generalizado estendido

0,851048 0,128436

0,749907 0,160835 1057,159

0,370916 0,303077

0,483676 0,089932

Pode-se observar na Tabela 05 que, quando considerado o modelo log-gama

generalizado para análise dos dados às estimativas dos parâmetros em relação ao modelo de

mistura padrão log-gama generalizado são evidentemente diferentes, ou seja, dando indícios

reais que exista uma fração de indivíduos curados em torno de 48%. No tocante à seleção do

modelo e levando em consideração o Critério de Informação Akaike, o modelo de tempo de

promoção log-gama generalizado estendido é o mais adequado para o ajuste dos dados, pois é

o que tem menor valor AIC. A figura abaixo mostra o gráfico da estimativa da curva de

sobrevivência pelo método de Kaplan-Meier e pelos modelos citados na tabela acima com

suas respectivas estimativas dos parâmetros. Observe que a curva do modelo de tempo de

promoção log-gama generalizado estendido é semelhante à curva do modelo de mistura

padrão.

Page 44: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

32

Figura 10: Sobrevivências estimadas pelo método de Kaplan-Meier, modelo log-gama generalizado

estendido, modelo de mistura padrão log-gama generalizado estendido e modelo de tempo de

promoção log-gama generalizado estendido para os dados de câncer de pele:

Assim, deve-se considerar o modelo de tempo de promoção log-gama generalizado para

o ajuste dos dados de câncer de pele, pois este seria o mais adequado quando considerado o

AIC. Mas, graficamente os modelos mistura padrão e tempo promoção se ajustam bem à

curva empírica da sobrevivência. Portanto, considerando tal modelo, têm-se que

aproximadamente 48,37% dos indivíduos estão livres da doença.

Page 45: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

33

5 Considerações finais

Neste trabalho monográfico foi estudado o modelo gama generalizado com longa

duração, dando ênfase na abordagem unificada. Os modelos com longa duração foram

destacados pelo fato de que estes possuem vantagem em relação aos modelos de análise de

sobrevivência usuais, pois incorporam a possibilidade de cura. Além disso, foi estudada com

bastante detalhamento a distribuição gama generalizada, desde a função distribuição proposta

por Stacy (1962) até a reparametrização proposta por Farewell & Prentice (1977) e Lawless

(1980).

Para estimação dos parâmetros da distribuição gama generalizada foi considerada a

distribuição log-gama generalizada estendida, pois quando ajustado este modelo os resultados

são mais satisfatórios e não tem problemas de convergência nos algoritmos usados para a

maximização da função de verossimilhança. Foram programadas rotinas em linguagem R (R

DEVELOPMENT CORE TEAM, 2013) com auxilio do pacote flexsurv (JACKSON

2013) para fazer a estimação de tais parâmetros, rotinas estas que constituem uma grande

contribuição para a análise de sobrevivência, uma vez que são relativamente simples e de fácil

compreensão em relação às já disponíveis na literatura. No Apêndice, são apresentadas as

rotinas para estimação dos parâmetros para as distribuições log-gama generalizado estendido,

com longa duração dos tipos mistura padrão e tempo de promoção.

Os resultados das aplicações foram satisfatórios, pois os modelos ajustados descrevem

bem o comportamento dos dados quando comparados com a curva de sobrevivência estimada

pelo método de Kaplan-Meier. Contudo, ainda deve-se realizar um estudo de simulação para

verificar as propriedades dos estimadores dos parâmetros do modelo gama generalizado com

longa duração quando considerados amostras pequenas. Desta forma, como proposta para

trabalhos futuros pode-se pensar em um estudo de simulação. Além disso, explorar os efeitos

de covariáveis na fração de cura e no tempo médio de vida dos itens e comparar com os

resultados apresentados em Ortega et al. (2009) e Guedes (2011) para os dados de Ibrahim et

al. (2001).

Page 46: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

34

6 Referências

ABRAMOWITZ, Milton; STEGUN, Irene A. Handbook of mathematical functions: with

formulas, graphs, and mathematical tables. New York: Dover, 1972. 1045 p.

ADAMIDIS, K.; LOUKAS, S.. A lifetime distribution with decreasing failure rate. Statistics

& Probability Letters, Amsterdam, v. 39, n. 1, p.35-42, 15 jul. 1998. Disponível em:

<http://www.sciencedirect.com/science/article/pii/S0167715298000121>. Acesso em: 11 mar.

2013.

BERKSON, J. e GAGE, R. P. The likelihood ratio, Wald, and Lagrange multiplier tests:

an expository note. Journal of the American Statistical Association. 1952, p.501-515.

BOAG, J. W. Maximum likelihhod estimates of the proportion of patients cured by

cancer therapy. Journal of the Royal Statistical Society. 1949, p. 15-53.

BOLFARINE, Heleno; SANDOVAL, Mônica Carneiro. Introdução à inferência estatística. 2ª

ed. Rio de Janeiro: SBM, 2010. (coleção Matemática aplicada).

BONAT, Wagner Hugo et al. Métodos Computacionais para Inferência com Aplicação

em R. Piracicaba: Rbras, 2012. 161 p. Publicado na Reunião Anual da Região Brasileira da

Sociedade Internacional de Biometria.

CARNEIRO, Hérica Priscila de Araújo. Testes de Hipóteses em Modelos de Sobrevivência

com Fração de Cura. Dissertação de mestrado em Estatística. Natal: UFRN, 2012.

CHAMBERS, J. M. Computational Methods for Data Analysis. New York: Wiley, 1977.

CHEN, M. H.; IBRAHIM, J. G.; SINHA, D. A new baysian model for survival data with a

surviving fraction. Journal of the American Statistical Association, 94, p. 909-919, 1999.

Christopher Jackson (2013). flexsurv: Flexible parametric survival models. R package

version 0.2. http://CRAN.R-project.org/package=flexsurv.

COLOSIMO, Enrico Antônio; GIOLO, Suely Ruiz. Análise de sobrevivência aplicada. São

Paulo, SP: E. Bücher, 2006. 369 p.

Page 47: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

35

CORDEIRO, Gauss M.; CASTRO, Mário de. A new family of generalized distributions.

Journal Of Statistical Computation And Simulation, London, p. 883-898. 01 jul. 2011.

Disponível em: <http://www.tandfonline.com/doi/abs/10.1080/00949650903530745>. Acesso

em: 11 mar. 2013.

FAREWELL, Vern T.; PRENTICE, Ross L. A Study of Distributional Shape in Life

Testing. American Statistical Association and American Society for Quality, vol. 15, p 69-75,

1977.

FONSECA, R. S. Modelos de Sobrevivência com Fração de Cura e Omissão nas

Covariáveis. Biblioteca Digital de Teses e Dissertações da UFRN, 2009.

GUEDES, Alysson Lívio Vasconcelos. Modelo de Tempo de Falha Acelerado com Fração

de Cura: Uma abordagem unificada. 2011. 61 f. Dissertação (Mestre em Matemática

Aplicada e Estatística) - Programa de Pós-graduação em Matemática Aplicada e Estatística,

Universidade Federal do Rio Grande do Norte, Natal, 2011.

IBRAHIM, J.G. et. al. Bayesian survival analysis. Encyclopedia of Biostatistics, 2001.

KAPLAN, E. L.; MEIER, P. Noparametris estimation from incomplete observations.

Journal of the American Statistical Association. p. 457-481, 1958.

KHODABIN, Morteza; AHMADABADI, Alireza. Some properties of generalized gamma

distribution. Mathematical Sciences, Iran, v. 4, n. 1, p.9-28, 2010. Disponível em: <http://

mathscience.kiau.ac.ir/Content/Vol4No1/2.pdf>. Acesso em: 11 mar. 2013.

LAWLESS, J. F. Statistical models and methods for lifetime data. 2nd ed. Hoboken, N.J:

Wiley-Interscience, 2003. 630 p. (Wiley series in probability and statistics)

LAWLESS, J. F.. Inference in the Generalized Gamma and Log Gamma Distributions.

Technometrics, Wisconsin, v. 22, n. 3, p.409-419, 01 ago. 1980. Disponível em: <http:

//www.jstor.org/stable/2334737>. Acesso em: 11 mar. 2013.

LIMA, Rafael Ribeiro de. Modelos de Sobrevivência com Fração de Cura e Erro de

Medida nas Covariáveis. Dissertação de mestrado em Estatística. Natal: UFRN, 2008.

Page 48: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

36

MACEDO, C.P.C.; VALENÇA, D.M.. Aplicação do Modelo de Cox Para Identificar

Fatores de Risco em Pacientes com Câncer de Mama. Revista Brasileira de Estatística,

2009.

MALLER, Ross A; ZHOU, Xian. Survival analysis with long-term survivors. Chichester

Inglaterra: Wiley, c1996. 278 p. (Wiley Series in Probability and Statistics).

NADARAJAH, S. On the use of the generalized gamma distribution. International Journal

of Eletronic, New York, v. 95, p.1029-1032, 2008.

ORTEGA, Edwin M. M.; CANCHO, Vicente G.; PAULA, Gilberto A.. Generalized log-

gamma regression models with cure fraction. Lifetime Data Analysis, New York, v. 15,

p.79-106, 2009.

PASCOA, Marcelino Alves Rosa de. Extensões da Distribuição Gama Generalizada:

Propriedades e aplicações. 2012. 145 f. Tese (Doutor em Ciências) - Escola Superior de

Agricultura Luiz de Queiroz, Piracicaba, 2012. Disponível em: <http://www.teses.

usp.br/teses/disponiveis/11/11134/tde-30052012-091940/pt-br.php>. Acesso em: 11 mar.

2013.

PRENTICE, R. L.. A Log Gamma Model and Its Maximum Likelihood Estimation.

Biometrika, London, v. 61, n. 3, p.539-544, 01 dez. 1974. Disponível em: <http://www.

jstor.org/stable/2334737>. Acesso em: 11 mar. 2013.

STACY, E. W. A Generalization of the Gamma Distribution. The Annals Of Mathematical

Statistics, Michigan, v. 33, n. 3, p.1187-1192, 1962. Disponível em: <http://www.jstor.

org/stabl/2237889>. Acesso em: 11 mar. 2013.

STACY, E. W.; MIHRAM, G. A.. Parameter Estimation for a Generalized Gamma

Distribution. Technometrics, New York, v. 7, n. 3, p.349-358, 01 ago. 1965. Disponível em:

<http://www.jstor.org/stable/1266594>. Acesso em: 11 mar. 2013.

Evert, Stefan and Baroni, Marco (2007). “zipfR: Word frequency distributions in R.” In

Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics,

Posters and Demonstrations Sessions, pages 29-32, Prague, Czech Republic. (R package

version 0.6-6 of 2012-04-03).

Page 49: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

37

R Core Team (2013). R: A language and environment for statistical computing. R

Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-project.org/.

RIZZATO, Fernanda Buhrer. Modelos de regressão log-gama generalizado com fração de

cura. 2006. 73 f. Dissertação (Mestre em Agronomia) - Escola Superior de Agricultura Luiz

de Queiroz, Piracicaba, 2007. Disponível em: <http://www.teses.usp.br/teses/disponiveis/11

/11134/tde-19032007-152443/pt-br.php>. Acesso em: 11 mar. 2013.

RODRIGUES, Josemar et al. Teoria Unificada de Análise de Sobrevivência. São Paulo:

ABE, 2008.

SANTOS, Paulo Cerqueira dos. Análise de Sobrevivência na presença de Censura

Informativa. Dissertação de mestrado em Estatística. Belo Horizonte: UFMG, 2012.

VALENÇA, Dione Maria. Análise de Sobrevivência. Natal-RN: Departamento de Estatística

da UFRN, 2013. (Notas de aula).

VALENÇA, Dione Maria. O Modelo de Regressão Gama Generalizada para Discriminar

entre Modelos Paramétricos de Tempo de Vida. Dissertação de mestrado em Estatística.

São Paulo: UNICAMP/IMECC, 1994.

YAKOVLEV, A. Y.; TSODIKOV, A. D. Stochastic Models of Tumor Latency and Their

Biostatistical Applications. World Scientific, New Jersey, 1996.

Yee TW (2010). VGAM: Vector Generalized Linear and Additive Models. R package version

0.9-0, URL http://CRAN.R-project.org/package=VGAM.

Page 50: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

38

7 Apêndice

Nesta seção são apresentadas as rotinas utilizadas nas análises dos conjuntos de dados

referenciados nos resultados. Com já enunciado, foi utilizado o pacote flexsurv

(JACKSON, 2013), que está disponível no repositório do R Core Team (2013). Para

ajustar os modelos estudados com o uso da função flexsurvreg é necessário que estejam

disponíveis nos padrões do R Core Team (2013) as funções densidade de probabilidade, a

função distribuição acumulada e uma lista de argumentos. Essa lista é composta por: nome da

distribuição, nomes dos parâmetros, nome do parâmetro ao qual será indexado as possíveis

covariáveis, funções especificando as transformações para os parâmetros, se for o caso,

funções especificando transformações inversas para os parâmetros, se for o caso, e uma

função dos tempos para que seja possível calcular chutes iniciais para os algoritmos de

otimização. A função flexsurvreg utiliza o algoritmo optim para maximizar as funções

de verossimilhança, desta forma, todos os argumentos desta classe podem ser passados como

argumentos para o flexsurvreg. Segue os algoritmos considerados nesse estudo. Em caso

de dúvidas, por favor, consultar o tutorial do pacote flexsurv ou enviar um e-mail para

[email protected].

##############################################################

# Modelo de mistura padrão Gama Generalizado

# Função densidade de probabilidade:

dgengammaMP <- function(x, mu, sigma, Q, p , log.=FALSE){

ret <- (1-p)* dgengamma(x, mu, sigma, Q, log = FALSE)

if(log.) return(log(ret)) else return(ret)

}

# Função de distribuição acumulada:

pgengammaMP <- function(q, mu, sigma, Q, p , lower.tail =

TRUE, log.=FALSE){

if (lower.tail)

ret <- 1 - (p + (1-p) * pgengamma(q, mu, sigma, Q,

lower.tail = FALSE, log.p = FALSE))

else ret <- p + (1-p) * pgengamma(q, mu, sigma, Q,

lower.tail = FALSE, log.p = FALSE)

if(log.) return(log(ret)) else return(ret)

}

# Lista de argumentos para função flexsurvreg:

custom.gengammaMP <- list(name = "gengammaMP",

pars = c("p","mu","sigma","Q"),

location = c("mu"),

transforms = c(function(x)log(x/(1-

x)), identity, log, identity),

Page 51: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

39

inv.transforms =

c(function(x)exp(x)/(1+exp(x)), identity, exp, identity),

inits = function(t){

lt <- log(t[t > 0])

c(p, mean(lt), sd(lt), 0)})

##############################################################

# Modelo de tempo promoção Gama Generalizado

# Função densidade de probabilidade:

dgengammaTP <- function(x, mu, sigma, Q, p , log.=FALSE){

ret <- p*dgengamma(x, mu, sigma, Q, log = FALSE)*

exp(-p*pgengamma(x, mu, sigma, Q, lower.tail = TRUE, log =

FALSE))

if(log.) return(log(ret)) else return(ret)

}

# Função de distribuição acumulada:

pgengammaTP <- function(q, mu, sigma, Q, p , lower.tail =

TRUE, log.=FALSE){

if (lower.tail)

ret <- 1 - exp(-p*pgengamma(q, mu, sigma, Q, lower.tail =

TRUE, log.p = FALSE))

else ret <- exp(-p*gengamma(q, mu, sigma, Q, lower.tail =

TRUE, log.p = FALSE))

if (log.) return(log(ret)) else return(ret)

}

# Lista de argumentos para função flexsurvreg:

custom.gengammaTP <- list(name = "gengammaTP",

pars = c("p", "mu", "sigma", "Q"),

location = c("mu"),

transforms = c(log, identity, log,

identity),

inv.transforms = c(exp, identity,

exp, identity),

inits = function(t){

lt <- log(t[t > 0])

c(p, mean(lt), sd(lt), 0)})

# Ajuste para o modelo de mistura padrão Gama Generalizado:

p <- 1-mean(status)# Chute inicial para fração de curados

ajust <- flexsurvreg(Surv(time, status)~1, data=dados, dist =

custom.gengammaMP, method="BFGS")

ajust

Page 52: Universidade Federal do Rio Grande do Norte Centro de Ciências …€¦ · Análise de sobrevivência ± Monografia. 2. Modelos com longa duração ± Monografia. 3. Modelos gama

40

# Ajuste para o modelo de tempo promoção Gama Generalizado:

p <- 1-mean(status)# Chute inicial para fração de cura

ajust <- flexsurvreg(Surv(time, status)~1, data=dados, dist =

custom.gengammaTP, method="BFGS")

ajust

Observação1: O chute inicial para fração de cura ou termo de longa duração é definido como

uma variável global e é definido nas rotinas com a letra p. Lembrando, que no caso do

modelo de tempo promoção a fração de cura é definida como sendo exp(-p).

Observação2: Para o ajuste dos modelos foi utilizado o algoritmo “BFGS” do optim, pois

no estudo de simulação este apresentou melhores resultados. Caso o algoritmo “BFGS” não

esteja convergindo, um alternativa é usar outros algoritmos para maximização da função de

verossimilhança ou adicionar aos argumentos do flexsurvreg o comando control =

list(fnscale = 2500), como segue abaixo.

p <- 1-mean(status)# Chute inicial para fração de curados

ajust <- flexsurvreg(Surv(time, status)~1, data=dados, dist =

custom.gengammaTP, method="BFGS", control = list(fnscale =

2500))

ajust