estimac˘ao param~ etrica do modelo de mistura com...

15
ESTIMAC ¸ ˜ AO PARAM ´ ETRICA DO MODELO DE MISTURA COM FRAGILIDADE GAMA NA PRESENC ¸A DE COVARI ´ AVEIS Jhon Franky Bernedo GONZALES 1 Vera Lucia Damasceno TOMAZELLA 1 Jo˜aoPauloTACONELLI 1 RESUMO: Neste artigo ´ e apresentada uma abordagem param´ etrica para o modelo de mistura padr˜ao com fragilidade gama na presen¸ca de covari´ aveis. Este modelo possui uma vantagem em rela¸c˜ ao aos modelos de sobrevivˆ encia usuais (tradicionais), em que permite incorporar a heterogeneidade de duas subpopula¸c˜ oes (imunes e suscept´ ıveis) ao evento de interesse. Al´ em disso, incorporamos covari´ aveis tanto na propor¸c˜ ao de curados quanto na fun¸c˜ ao de sobrevivˆ encia dos suscept´ ıveis. Uma abordagem semi-param´ etrica para esse modelo foi proposta por Peng e Zhang (2008a), mas, diferentemente deles, neste trabalho assumimos a distribui¸c˜ ao Weibull para a fun¸c˜ ao de sobrevivˆ encia para os indiv´ ıduos em risco o que torna o modelo param´ etrico. Apropor¸c˜ ao de cura foi modelada por meio de modelos de regress˜ao binomial com diferentes fun¸c˜ oes de liga¸c˜ ao. Foi utilizado o software R como ferramenta para fazer inferˆ encias do modelo proposto. Os procedimentos desenvolvidos foram aplicados a dois conjuntos de dados reais. PALAVRAS-CHAVE: An´alise de sobrevivˆ encia; fragilidade; fra¸c˜ ao de cura; distribui¸c˜ ao Weibull;distribui¸c˜ ao gama; regress˜ao. 1 Introdu¸c˜ ao Experimentos em que a resposta representa o tempo at´ e a ocorrˆ encia de um evento de interesse ocorrem com frequˆ encia em diversas ´areas de conhecimento, como, por exemplo, as ´areas m´ edica, financeira e industrial. T´ ecnicas estat´ ısticas tradicionais, como an´alise de variˆ ancia ou modelos de regress˜ao, poderiam ser apropriadas para este tipo de estudo, mas nem sempre existe a garantia de que todos 1 Universidade Federal de S˜ao Carlos – UFSCar, Centro de Ciˆ encias Exatas e Tecnol´ ogicas, Departamento de Estat´ ıstica, Caixa Postal 676, CEP: 13.565-905, S˜ ao Carlos, S˜ ao Paulo, Brasil, E-mail: [email protected] / [email protected] / [email protected] Rev. Bras. Biom., S˜ao Paulo, v.31, n.2, p.233-247, 2013 233

Upload: others

Post on 17-Aug-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

ESTIMACAO PARAMETRICA DO MODELO DE MISTURA COMFRAGILIDADE GAMA NA PRESENCA DE COVARIAVEIS

Jhon Franky Bernedo GONZALES1

Vera Lucia Damasceno TOMAZELLA1

Joao Paulo TACONELLI1

RESUMO: Neste artigo e apresentada uma abordagem parametrica para o modelo de

mistura padrao com fragilidade gama na presenca de covariaveis. Este modelo possui

uma vantagem em relacao aos modelos de sobrevivencia usuais (tradicionais), em que

permite incorporar a heterogeneidade de duas subpopulacoes (imunes e susceptıveis) ao

evento de interesse. Alem disso, incorporamos covariaveis tanto na proporcao de curados

quanto na funcao de sobrevivencia dos susceptıveis. Uma abordagem semi-parametrica

para esse modelo foi proposta por Peng e Zhang (2008a), mas, diferentemente deles,

neste trabalho assumimos a distribuicao Weibull para a funcao de sobrevivencia para

os indivıduos em risco o que torna o modelo parametrico. A proporcao de cura foi

modelada por meio de modelos de regressao binomial com diferentes funcoes de ligacao.

Foi utilizado o software R como ferramenta para fazer inferencias do modelo proposto.

Os procedimentos desenvolvidos foram aplicados a dois conjuntos de dados reais.

PALAVRAS-CHAVE: Analise de sobrevivencia; fragilidade; fracao de cura; distribuicao

Weibull; distribuicao gama; regressao.

1 Introducao

Experimentos em que a resposta representa o tempo ate a ocorrencia de umevento de interesse ocorrem com frequencia em diversas areas de conhecimento,como, por exemplo, as areas medica, financeira e industrial. Tecnicas estatısticastradicionais, como analise de variancia ou modelos de regressao, poderiam serapropriadas para este tipo de estudo, mas nem sempre existe a garantia de que todos

1Universidade Federal de Sao Carlos – UFSCar, Centro de Ciencias Exatas e Tecnologicas,Departamento de Estatıstica, Caixa Postal 676, CEP: 13.565-905, Sao Carlos, Sao Paulo, Brasil,E-mail: [email protected] / [email protected] / [email protected]

Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013 233

Page 2: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

os elementos da amostra terao experimentado o evento de interesse no momento dacoleta dos dados, o que torna a informacao para tais indivıduos incompleta.

O conjunto de metodos estatısticos que lida com informacao parcial da resposta(denominada censura) e conhecido como analise de sobrevivencia (Colosimo e Giolo,2006), e o tempo ate a ocorrencia do evento de interesse e comumente denominadotempo de falha. Os trabalhos historicamente mais importantes nessa area sao oestimador nao parametrico de Kaplan-Meier (Kaplan e Meier, 1958) e o modelo deriscos proporcionais de Cox (Cox, 1972).

A partir do momento em que avancos em areas medicas se tornaram maisfrequentes, um numero maior de pacientes passou a ser considerado curado, ouimune a doenca estudada. Diante disso, estimar a proporcao de curados tambempassou a ser algo de bastante relevancia. Os trabalhos apresentados por Boag (1949)e Berkson e Gage (1952), que falam sobre o modelo de mistura padrao, formaram abase do que veio a se chamar modelo de sobrevivencia de longa duracao (ou modelode sobrevivencia com fracao de cura).

Varios autores vem discutindo a respeito de modelos envolvendo misturas dedistribuicoes e fracao de cura. Por exemplo, Farewell (1977) abordou o modelode mistura Weibull e investigou como os fatores de risco( por exemplo idade aoprimeiro parto) afetam o tempo de desenvolvimento do cancer de mama, sendo queposteriormente utilizou o modelo de riscos proporcionais de Cox (Farewell, 1982).

Peng e Dear (2000) utilizaram um modelo que assume a proporcionalidade dosriscos para modelar o efeito das covariaveis sobre o tempo de falha dos pacientesnao curados de um ponto de vista semiparametrico.

Quando utiliza-se a abordagem parametrica nos modelos de mistura, enecessario assumir uma distribuicao de probabilidade para o tempo de falha dospacientes nao curados. As funcoes densidade e de sobrevivencia sao obtidas dadistribuicao assumida, em que podem depender de um ou mais parametros comopode ser visto em Farewell, (1982), Farewell e Sprott (1986), Peng et al. (1998)entre outros.

Os modelos de cura assumem implicitamente que todos os indivıduos quesofreram o evento de interesse pertencem a uma populacao homogenea. Noentanto, existe um grau de heterogeneidade induzida por fatores de risco naoobservados. Nestas circunstancias, e necessario considerar modelos que incorporamheterogeneidade nao observavel entre os indivıduos, como o modelo de fragilidade(ver Vaupel et al., 1979). Os modelos de fragilidade sao caracterizados pela inclusaode um efeito de aleatorio, que e, uma variavel aleatoria nao observavel tais comofatores ambientais, geneticos ou informacoes que por alguma razao nao foramconsideradas no planejamento. Uma forma de incorporar esse efeito aleatorio eintroduzi-lo na funcao de risco com o objetivo de controlar a heterogeneidadenao observavel das unidades em estudo, inclusive a dependencia das unidades quecompartilham os mesmos fatores de risco.

O fato de considerar a variavel aleatoria nao observavel introduzida na funcaode risco faz com que o modelo englobe duas fontes de variacao para os dados.A primeira delas que gera a heterogeneidade entre as observacoes e causada por

234 Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013

Page 3: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

covariaveis individuais nao observaveis que nao foram incluıdas no planejamento emestudo, por circunstancias praticas ou por serem conhecidas como sendo fatores derisco. A segunda fonte de variacao proveniente das covariaveis comuns a indivıduosde um mesmo grupo que quando nao observadas geram dependencia entre os tempos.Hougaard(1991) mostrou que e vantajoso considerar as duas fontes de variabilidade.

Neste contexto, Longini e Halloran (1996) propuseram o modelo de misturapadrao com fragilidade e Price e Manatunaga (2001) estudaram diferentes modelosde fragilidade e observaram que o modelo de mistura padrao com fragilidade gamatem um melhor ajuste em relacao ao modelo de mistura de mistura padrao. Peng eZhang (2008a) estenderam o modelo de Longini e Halloran (1996) ao introduziremcovariaveis no modelo de mistura padrao com fragilidade. No modelo proposto porPeng e Zhang (2008a), e considerada a fragilidade gama e a abordagem e semi-parametrica.

A proposta deste trabalho e considerar o modelo de mistura padrao comfragilidade gama para analisar dados de sobrevivencia com fracao de cura einformacoes observaveis e nao observaveis entre os indivıduos. Alem dissoassumimos uma distribuicao parametrica para os tempos de vida dos indivıduosem risco, desta forma consideramos uma abordagem parametrica para a estimacaodos parametros do modelo.

Aqui o tempo de vida dos indivıduos em risco segue uma distribuicao Weibulle, alem disso, a proporcao de pacientes nao curados e modelada atraves de modelosde regressao binomial com funcoes de ligacao logito, probito e complemento log-log,a fim de verificar se existe vantagens em considerar alguma delas.

Este artigo esta organizado como segue na Secao 2 serao apresentados osmodelos: de mistura padrao, o modelo de fragilidade e o modelo de mistura padraocom fragilidade na presenca de covariaveis. Na Secao 3 apresentamos o metodoinferencial aplicado para os modelos. Para ilustrar a aplicabilidade do modelo,na Secao 4 foram utilizados dois conjuntos de dados reais em que a estimacaodos parametros foi realizada por meio do metodo de maxima verossimilhanca e naSecao 5 concluımos o artigo.

2 Formulacao do modelo

Em diversos experimentos notamos que a curva de sobrevivencia estabiliza-seem um patamar estritamente maior que 0. Este fato ocorre com frequencia cadavez maior na area clınica, em que novos tratamentos tem conseguido prolongarou mesmo curar diversos tipos de tumores, e a proporcao de indivıduos que naoexperimentam o evento de interesse recebe o nome de curados (ou sobreviventes delonga duracao). Tal conceito tambem pode ser utilizado em outras areas, bastandopara isso que uma parcela dos elementos nao venha a falhar em longos perıodos deobservacao.

2.1 Modelo de mistura padrao na presenca de covariaveis

Seja M o numero de causas para a ocorrencia do evento de interesse para umindivıduo da populacao. Assumimos queM e desconhecido e segue uma distribuicao

Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013 235

Page 4: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

de Bernoulli, com distribuicao de probabilidade

P [M = m; θ] = θm(1− θ)1−m, 0 ≤ θ ≤ 1. (1)

A funcao geradora de probabilidade de M e dada por Ap(s) = 1 − θ + θs,0 ≤ s ≤ 1, assim o modelo de mistura padrao (MP), e dado por (Tsodikov et al.,2003)

Spop(t) = Ap(S(t)) = 1− θ + θS(t), (2)

em que 1 − θ representa a incidencia de curados e S(t) a funcao de sobrevivenciados indivıduos em risco. E interessante notar que S(t) e uma funcao propria, masSpop(t) e impropria, pois:

limt→∞

Spop(t) = 1− θ.

As funcoes de densidade e de risco populacional sao dadas por

fpop(t) = − 1

dtSpop(t) = θf(t) e hpop(t) =

fpop(t)

Spop(t)=

θf(t)

1− θ + θS(t). (3)

O modelo (2) pode ser estendido por considerar efeito de covariaveis. Denotamospor z e x as covariaveis que podem ter efeitos na fracao de cura e na funcao desobrevivencia, respectivamente. Assim, o modelo em (2) pode ser reescrito por

Spop(t|x,z) = 1− θ(z) + θ(z)S(t|x), (4)

em que 1 − θ(z) e a probabilidade de um indivıduo ser curado dependendo dacovariavel z e S(t|x) e a funcao de sobrevivencia da distribuicao do tempo de falhade pacientes nao curados, dependendo de x.

Kuk e Chen (1992) introduziram covariaveis em S(t|x) assumindo que osindivıduos nao curados seguem um modelo de risco proporcionais de Cox, isto e,h(t|x) = h0(t) exp(x

′β). Considerando o modelo em (4) temos que

Spop(t|x, z) = 1− θ(z) + θ(z)S0(t)exp(x′β), (5)

em que S0(t) e a funcao de sobrevivencia base e β representa o vetor de parametrosassociados ao vetor de covariaveis x. No entanto, outros pesquisadores consideramcovariaveis so na fracao de cura (Rodrigues et al., 2009). Assim o modelo dado em(4) pode ser reescrito na forma

Spop(t|z) = 1− θ(z) + θ(z)S(t), (6)

em que no restante do artigo o modelo dado anteriormente sera considerado comoo modelo de mistura padrao.

Para modelar os efeitos das covariaveis na taxa de cura, definimos b comosendo o vetor de parametros desconhecidos que serao estimados para as covariaveis

236 Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013

Page 5: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

associadas a fracao de cura e utilizamos o modelo de regressao binomial com tresfuncoes de ligacao: logito, probito e complemento log-log dadas, respectivamente,por

θ(z) =exp(bz)

1 + exp(bz),

θ(z) = Φ(bz) e

θ(z) = exp(− exp(bz)),

em que Φ corresponde a funcao de distribuicao acumulada de uma distribuicaonormal padrao.

A funcao densidade da populacao para o modelo com funcao de sobrevivenciadado em (5) e dada por

fpop(t|x, z) = θ(z)f0(t) exp(x′β) S0(t)

exp(x′β)−1, (7)

em que f0(t) e a funcao de densidade base. O modelo dado em (5) e conhecidocomo modelo de mistura padrao de riscos proporcionais.

2.2 Modelo de mistura padrao com fragilidade

Em analise de sobrevivencia, incorporar a heterogeneidade nao observadaentre os indivıduos recebe o nome de fragilidade. Neste trabalho, o termo defragilidade atuara na funcao de sobrevivencia dos indivıduos nao imunes, como umcomplemento as covariaveis observadas, ajudando desta forma a estimar a funcaode sobrevivencia populacional de maneira mais precisa.

Clayton (1978) introduziu o termo de fragilidade ao modelo de Cox (1972) deforma multiplicativa, ou seja, a variavel aleatoria que representa a fragilidade, W ,ira agir multiplicativamente na funcao de risco base, assim temos

h(t|W ) = Wh0(t), (8)

em que h0(t) e a funcao de risco base, W e uma variavel aleatoria nao observavel,denominada variavel de fragilidade que aumenta o risco individual se W > 1 oudiminui se W < 1. Intuitivamente, quanto maior o valor do termo da fragilidademais “fragil”seria o indivıduo, e por consequencia, maior sua probabilidade de falha(Vaupel et al,. 1979).

A funcao de risco individual h(t|W ) e interpretada como a funcao de riscocondicional dada a fragilidade W . Assim, a funcao de sobrevivencia condicional afragilidade W e dada por:

S(t|W ) = exp

(−∫ t

0

h(s|W )ds

)= exp

(−W

∫ t

0

h0(s)ds

)= exp (−WH0(t)) ,

Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013 237

Page 6: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

em que H0(t) representa a funcao de risco base acumulada no instante t.Para obter a funcao de sobrevivencia nao condicional S(t) utilizamos a

transformada de Laplace, assim temos

S(t) = E {S(t|W )} =

∫ ∞

0

exp(−wH0(t))g(w)dw = LW (H0(t)), (9)

em que g(w) e a funcao densidade da variavel de fragilidade e LW (H0(t)) e atranformada de Laplace aplicada no ponto H0(t), o que mostra a importancia destatransformacao nos modelos de fragilidade (Wienke, 2010).

Um ponto importante esta relacionado a identificabilidade dos modelos defragilidade univariados, de acordo com Elbers e Ridder (1982), e necessario quea distribuicao do termo da fragilidade W , tenha media finita para o modelo seridentificavel e a variancia da variavel da fragilidade e interpretada como uma medidade heterogeneidade da populacao.

Pelo fato que o termo da fragilidade W e uma variavel aleatoria podemosconsiderar diferentes distribuicoes de probabilidade como por exemplo a distribuicaogama, log-normal, Gaussiana inversa entre outras. Caracterısticas gerais dasdistribuicoes para o termo da fragilidade foram estudadas por Hougaard (1995).

Neste trabalho assumimos a distribuicao gama para o termo da fragilidade.A vantagem de considerar a distribuicao gama se deve a forma fechada dadistribuicao de Laplace o que torna uma expressao analıtica tratavel para a funcaode sobrevivencia nao condicional.

2.2.1 Modelo de mistura padrao com fragilidade gama

Longini e Halloran (1996) propoem o modelo de mistura padrao comfragilidade, em que o efeito das variaveis aleatorias nao observadas e consideradopara os indivıduos que estao em risco. Assim, levando em conta que a variavel dafragilidade segue uma distribuicao gama com media 1 e variancia 1/σ temos que afuncao de sobrevivencia nao condicional para os indivıduos nao curados e definidapor

S(t) = LW (H0(t)) =

(1 +

H0(t)

σ

)−σ

.

Na presenca de covariaveis, a distribuicao dos indivıduos em risco considerandoa fragilidade gama e definida por

S(t|x) =(1 +

H0(t) exp(x′β)

σ

)−σ

. (10)

Substituindo (10) em (4) obtemos a funcao de sobrevivencia populacional comfracao de cura e fragilidade gama na presenca de covariaveis e dada por

Spop(t|x, z) = 1− θ(z) + θ(z)

(1 +

H0(t) exp(x⊤β)

σ

)−σ

, (11)

238 Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013

Page 7: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

em que x e z sao vetores de covariaveis associadas a funcao de sobrevivencia dosnao curados e a fracao de cura respectivamente.

A funcao densidade da populacao associada a (11) e dada por

fpop(t|x, z) = θ(z)

(1 +

H0(t) exp(x′β)

σ

)−σ−1

h0(t) exp(x′β). (12)

O modelo dado em (11) foi estudado por Peng e Zhang (2008a) considerandouma abordagem semi-parametrica. No presente artigo, consideramos umaabordagem parametrica, assumindo para a funcao de risco base a distribuicaoWeibull, h0(t) = αλ (tλ)

α−1em que α > 0 e λ > 0.

3 Inferencia

Para determinar a funcao de verossimilhanca, consideremos para a i-esimaobservacao os dados observados (ti, δi,xi, zi), em que ti denota o tempo observado,δi e a variavel indicadora de censura, com δi = 1 se ti e nao censurado e δi = 0 casocontrario, xi e zi representam o vetor de covariaveis que tem efeito na distribuicaolatente e na taxa de cura, respectivamente. Assim, a funcao de verossimilhancabaseada nos dados observados supondo censura nao informativa e dada por

L(ϑ;D) =n∏

i=1

{fpop(ti;ϑ)}δi{Spop(ti;ϑ)}1−δi , (13)

em que ϑ = (σ, b′,β′,γ′)′, D = (t, δ,x, z), t = (t1, . . . tn)⊤ , x = (x1, . . . ,xn)

⊤,z = (z1, . . . ,zn)

⊤. Para o modelo de mistura padrao com fragilidade, fpop(ti;ϑ) eSpop(ti;ϑ) sao definidos em (12) e (11), respectivamente. Para os outros modelos,as funcoes fpop(ti;ϑ) e Spop(ti;ϑ) serao correspondentes ao modelo escolhido.

A estimacao dos parametros do modelo ϑ sera feita atraves da maximizacaodo logaritmo da funcao de verossimilhanca, ℓ(ϑ;D) = log(L(ϑ;D)). O processo deestimacao empregado e similar para as tres funcoes de ligacao. Para a estimacaoda probabilidade de cura, basta substituir os parametros pelas estimativas obtidas,de acordo com as covariaveis e a funcao de ligacao utilizada. Consideramos desviospadroes assintoticos das estimativas dos parametros, que sao obtidos atraves dainversao da matriz de informacao observada.

Com relacao a identificabilidade do modelo de mistura padrao com fragilidade,Peng e Zhang (2008b) consideram duas situacoes distintas: uma quando osconjuntos de covariaveis z e x, sao identicos, e a outra quando sao conjuntosdistintos. Eles mostraram que o modelo e identificavel se a fracao de cura e modeladapor uma funcao nao constante, isto e, considerando covariaveis na taxa cura elevando em conta a condicao que a distribuicao da fragilidade seja proveniente deuma famılia completa. A identificabilidade tambem e garantida quando os doiscomponentes do modelo envolvem as mesmas covariaveis.

Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013 239

Page 8: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

4 Aplicacoes em dados reais

Nesta secao aplicaremos os modelos apresentados para dois conjuntos de dadosreais : o modelo de mistura padrao (6), o modelo de mistura padrao de riscosproporcionais (MP-RP) (5) e o modelo de mistura padrao com fragilidade gama(MPF-Gama) (11). Toda a programacao utilizada neste trabalho foi desenvolvidaem linguagem de programacao R (R Core Team, 2013).

4.1 Aplicacao em dados de melanona

O conjunto de dados provem de um estudo com portadores de melanoma, quefoi realizado com o objetivo de avaliar a eficacia da aplicacao de uma dosagem altade interferon alfa-2b como forma de prevenir a recorrencia do cancer de pele. Ospacientes foram incluıdos no estudo entre 1991 e 1995, tendo sido acompanhados ate1998. Para maiores detalhes do conjunto de dados pode ser consultado Kirkwoodet al. (2000).

Neste conjunto de dados temos que a variavel resposta T representa o tempoate a morte de paciente ou tempo de censura. Nesta amostra temos n = 417pacientes, com 56% de observacoes censuradas. Consideramos a variavel nodulocomo variavel preditora, esta covariavel e categorizada em 4 categorias (1: n = 82;2: n = 87; 3: n = 137; 4: n = 111).

As estimativas de maxima verossimilhanca (EMV) e os desvios padrao (DP)para os parametros do modelo de mistura padrao com fragilidade gama dado em(11) sao apresentados na Tabela (1).

Tabela 1 – EMV e DP para os parametros do modelo de mistura padrao comfragilidade gama considerando diferentes funcoes de ligacao

ParametrosLogito Probito Clog-Log

EMV DP EMV DP EMV DP

α 2, 4285 0, 3015 2, 4301 0, 3021 2, 4301 0, 3022λ 0, 3312 0, 0586 0, 3311 0, 0587 0, 3292 0, 0587σ 0, 6645 0, 3487 0, 6603 0, 3478 0, 6555 0, 3453β1 0, 5402 0, 1675 0, 5408 0, 1678 0, 5456 0, 1686b0 −0, 6777 0, 3886 −0, 4214 0, 2427 0, 1148 0, 2670b1 0, 3789 0, 1230 0, 2364 0, 0760 −0, 2794 0, 0926

Observamos que as estimativas dos parametros da distribuicao Weibull tiveramvalores muito proximos para as diferentes funcoes de ligacao, e, como era de seesperar, b0 e b1, que dependem da funcao de ligacao escolhida, tiveram valoresdistintos de acordo com a funcao de ligacao.

Na Tabela (2), apresentamos os criterios de selecao de modelo AIC e BIC.Para cada modelo ajustado observamos que os valores dos criterios de selecao saobastante similares para cada funcao de ligacao. Por exemplo, para o modelo MPtemos que o valor AIC para a funcao de ligacao logito, probito e Clog-log saoproximos. De maneira analoga acontece com o valor do BIC para cada funcao de

240 Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013

Page 9: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

ligacao. De acordo com os criterios utilizados, observamos que o ajuste do modelo demistura padrao de riscos proporcionais tem um comportamento melhor em relacaoao modelo de mistura padrao, porem o modelo de mistura com fragilidade gamatem um melhor ajuste em relacao aos outros dois modelos.

Tabela 2 – Criterios AIC e BIC para os modelos ajustados

Funcoes de ligacaoLogito Probito Clog-Log

Modelo AIC BIC AIC BIC AIC BIC

MP 1043, 182 1059, 314 1043, 175 1059, 308 1043, 708 1059, 840

MP-RP 1038, 943 1059, 108 1038, 934 1059, 100 1039, 326 1059, 492

MPF-Gama 1024, 081 1048, 280 1024, 038 1048, 237 1024, 361 1048, 559

O valor estimado da variancia da variavel que representa a fragilidade e dadopor 1/σ = 1/0, 66 = 1, 51, o que mostra que existe a heterogeneidade nao observadanos indivıduos e portanto a inclusao do termo de fragilidade e justificada.

A Tabela (3) mostra a fracao de curados para cada nıvel da covariavel categoriado nodulo, calculada atraves das respectivas estimativas de b0 e b1 aplicadas a cadafuncao de ligacao.

Tabela 3 – Estimativas das proporcoes de cura para o modelo MPF-Gamaconsiderando a covariavel nodulo e diferentes funcoes de ligacao.

CategoriaLogito Probito Clog-log

do Nodulo1 0, 574 0, 573 0, 5722 0, 480 0, 480 0, 4733 0, 387 0, 387 0, 3844 0, 302 0, 300 0, 307

Notamos que as estimativas da proporcao de curados sao proximas para omodelo de mistura com fragilidade, independente da funcao de ligacao escolhida.

Na Figura (1) apresentamos a estimativa nao parametrica de Kaplan-Meier(K-M) da funcao de sobrevivencia (linha contınua), e as estimativas da funcao desobrevivencia da populacao Spop(t|.) obtidas para os tres modelos parametricos,em que os indivıduos que pertencem a cada nıvel da covariavel foi estudada.Observamos que o ajuste do modelo de mistura padrao nao e tao satisfatorio emrelacao aos outros dois modelos. Entretanto em alguns trechos iniciais da curvade sobrevivencia, o modelo de mistura com fragilidade tem uma aderencia melhorem relacao aos outros dois modelos. As estimativas da funcao de sobrevivenciada populacao dos modelos ajustados apresentados na Figura (1) foram feitasconsiderando a funcao de ligacao logito.

Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013 241

Page 10: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

0 1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

(a)

Tempo (anos)

Fun

ção

de s

obre

vivê

ncia

MP dado em (6).

0 1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

(b)

Tempo (anos)

Fun

ção

de s

obre

vivê

ncia

MP-RP dado em (5).

0 1 2 3 4 5 6 7

0.0

0.2

0.4

0.6

0.8

1.0

(c)

Tempo (anos)

Fun

ção

de s

obre

vivê

ncia

MP-Gama dado em (11).

Figura 1 – Estimativas de K-M (linhas continuas) estratificadas por categoria davariavel nodulo (1-4, de cima para baixo) e as estimativas parametricasda funcao de sobrevivencia da populacao Spop(t|.) para os tres modelosajustados.

4.2 Aplicacao para os dados do tempo do segundo nascimento decriancas na Noruega

Os dados para esta segunda aplicacao foi analisado por Aalen et al., (2008), saoparte do registro medico de nascimentos na Noruega em 1997. O tempo T representao tempo entre o nascimento do primeiro e do segundo filho de um mesmo casal.Neste cenario, um evento que pode influenciar o tempo para o segundo nascimentodo segundo filho do casal e a perda (falecimento) do primeiro filho no intervalo doprimeiro ano de vida da crianca.

Neste conjunto de dados temos n = 53.543 mulheres que tiveram seu primeirofilho no perıodo 1983 a 1997. Adotamos a perda do primeiro filho no primeiro ano,x, como a covariavel no modelo (1 = sim; 0 = nao) e denotamos por δ a variavelindicadora de censura, em que δ = 1 indica se a mulher teve um segundo filho eδ = 0 caso contrario. Analisamos os dados considerando os tres modelos descritos

242 Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013

Page 11: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

anteriormente.

Na Figura (2a) observamos a estimativa da funcao de sobrevivencia peloestimador nao parametrico de Kaplan-Meier para o tempo ate o nascimento dosegundo filho, considerando a covariavel x. A curva superior representa o grupodas maes em que o primeiro filho sobreviveu no primeiro ano e a curva inferiorrepresenta os casais que perderam o filho no primeiro ano. Notamos que na Figura(2a) as curvas de K-M se estabilizam em torno do quarto ano apos o nascimentodo primeiro filho isto nos leva a suposicao que uma porcentagem de maes nao teraoum segundo filho o que nos motiva a considerar a metodologia proposta.

Na Tabela (4) apresentamos as estimativas dos parametros para o modelo demistura padrao com fragilidade (11). Observamos que as estimativas dos parametrosda distribuicao Weibull e da variavel de fragilidade sao iguais e as estimativas parao vetor de parametros b em θ(.) sao diferentes para as funcoes de ligacao.

Tabela 4 – EMV e DP para os parametros do modelo de mistura padrao comfragilidade gama considerando diferentes funcoes de ligacao.

ParametrosLogito Probito Clog-Log

EMV DP EMV DP EMV DP

α 5, 229 0, 090 5, 229 0, 090 5, 229 0, 090λ 0, 378 0, 003 0, 378 0, 003 0, 378 0, 003σ 0, 267 0, 016 0, 267 0, 016 0, 267 0, 016β1 3, 539 0, 203 3, 539 0, 204 3, 539 0, 203b0 1, 443 0, 081 0, 874 0, 046 −1, 551 0, 073b1 −0, 052 0, 169 −0, 030 0, 096 0, 047 0, 152

Na Tabela (5), apresentamos os criterios de selecao de modelo AIC e BIC paraeste conjunto de dados. Para cada modelo ajustado observamos que os valores doscriterios de selecao sao iguais para cada funcao de ligacao dentro de cada modelo.De acordo com os criterios AIC e BIC o modelo de mistura padrao de riscosproporcionais tem um desempenho melhor em relacao ao modelo de mistura padrao.Contudo, o modelo de mistura com fragilidade gama tem um melhor ajuste emrelacao aos outros modelos.

Tabela 5 – Criterios AIC e BIC para os modelos ajustados

ModeloFuncoes de ligacao

Logito Probito Clog-LogAIC BIC AIC BIC AIC BIC

MP 86916, 03 86951, 58 86912, 47 86948, 02 86912, 46 86948, 02

MP-RP 86774, 52 86818.96 86774.52 86818.96 86774.52 86818.96

MP-Gama 53706, 73 53760, 05 53706, 73 53760, 05 53706, 73 53760, 05

Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013 243

Page 12: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

A estimativa da variancia da variavel que representa a fragilidade e1/σ = 1/0, 267 = 3, 745, assim concluımos que existe heterogeneidade nao observadaentre os indivıduos e, portanto, a inclusao do termo de fragilidade e justificada.Intuitivamente a heterogeneidade nao observada pode estar relacionado por exemplocom a idade das maes, isto pelo fato que a idade das mulheres esta ligado com afertilidade delas e neste trabalho nao foi considerado a idade como variavel preditora.

Na Figura (2) apresentamos os ajustes dos modelos de mistura padrao, misturapadrao de riscos proporcionais e o modelo de mistura com fragilidade gama.Observamos que o modelo de mistura padrao nao tem um ajuste tao bom paraos dados quanto o modelo de mistura com fragilidade gama:

0 2 4 6 8 10 12 14

0.0

0.2

0.4

0.6

0.8

1.0

Tempo(anos)

S(t

)

Estimativas de K-M

0 2 4 6 8 10 12 14

0.0

0.2

0.4

0.6

0.8

1.0

Tempo(anos)

S(t

)

MP dado em (6)

0 2 4 6 8 10 12 14

0.0

0.2

0.4

0.6

0.8

1.0

Tempo(anos)

S(t

)

MP-RP dado em (5)

0 2 4 6 8 10 12 14

0.0

0.2

0.4

0.6

0.8

1.0

Tempo(anos)

S(t

)

MP-Gama dado em (11).

Figura 2 – Estimativas de K-M (linhas continuas) estratificadas pela covariavelperda do primeiro filho no primeiro ano (0-1, de cima para baixo)e estimativas parametricas da funcao de sobrevivencia da populacao,Spop(t|.), para os tres modelos.

244 Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013

Page 13: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

Conclusoes

Neste trabalho foi apresentado o modelo de mistura padrao com fragilidadena presenca de covariaveis sob um ponto de vista parametrico isto e adotando umadistribuicao de probabilidade para os indivıduos em risco. Assim, motivados pelaflexibilidade da distribuicao Weibull em acomodar diversas formas para a taxa defalha, foi considerado que os indivıduos em risco sao modelados por essa distribuicaoe a estimacao dos parametros foi baseada no metodo de estimacao de maximaverossimilhanca.

Para aplicacao da metodologia apresentada nos consideramos dois conjuntosde dados reais da literatura em que o atrativo para utilizar os conjuntos de dadosfoi a suspeita de dados de longa duracao ou fracao de curados, como tambem aheterogeneidade entre fatores de risco nao observados dos indivıduos em risco. Porexemplo, no primeiro conjunto de dados estudado relacionado com melanoma avariavel considerada foi nodulo mas poderıamos ter considerado tambem outrasvariaveis tais como idade, sexo entre outras em que a importancia dessas variaveisnao observadas e justificada pela inclusao do termo de fragilidade no modelo.

De acordo com os resultados obtidos pelo ajuste dos modelos considerados,observamos que no primeiro conjunto de dados as estimativas dos parametrosda funcao de sobrevivencia para os indivıduos em risco considerando as funcoesde ligacao logito, probito e complemento log-log sao proximas entre elas, poremno segundo conjunto de dados relacionado ao tempo ate o segundo nascimentode criancas na Noruega nos observamos que as estimativas dos parametros saoiguais embora o tamanho de amostra para este conjunto de dados e maior que oprimeiro. Intuitivamente a escolha da funcao de ligacao nao afeta as estimativasdos parametros, pelo menos nos dados considerados neste artigo.

Alem disso, baseado na estimativa da variancia do termo da fragilidade W ,para o conjunto de dados de melanoma obervamos que 1/σ = 1, 51 e para o conjuntode dados de segundo nascimento observamos uma variancia de 1/σ = 3, 745 pode-seafirmar que existe heterogeneidade entre os indivıduos e desta forma o modelo demistura com fragilidade gama e uma alternativa para o modelo de mistura padraoe o modelo de mistura de riscos proporcionais.

Agradecimentos

Esta pesquisa foi parcialmente financiada pela FAPESP e pela CAPES.

GONZALES, J. F. B.; TOMAZELLA, V. L. D.; TACONELLI, J. P. Parametricestimation of the mixture model with gamma frailty in the presence of covariates.Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013.

Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013 245

Page 14: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

ABSTRACT: In this article we present a approach parametric to standard mixture

model with frailty in the presence of covariates. This model has an advantage over

the usual(traditional) survival models, which allows incorporating the heterogeneity of

two subpopulations (immune and susceptible) to the event of interest. Furthermore,

variables incorporated in cure rate and the survival function of susceptible individuals.

A semi-parametric approach for this model was proposed by Peng and Zhang (2008a),

but, unlike them, in this work we assume a Weibull distribution for the survival function

for individuals at risk which makes the parametric model. The cure rate was modeled

through binomial regression models with different link functions. We explored the use

of the R software as a tool to make inferences of the proposed model. The procedures

developed were applied to two real data sets.

KEYWORDS: Survival analysis; frailty; fraction cure; Weibull distribution, gamma

distribution; regression.

Referencias

AALEN, O. O.; BORGAN, Ø.; GJESSING, H. K. Survival and Event HistoryAnalysis: a Process Point of View. New York: Springer, 2008.

BERKSON, J.; GAGE, R. P. Survival curve for cancer patients following treatment.Journal of the American Statistical Association, v.47, p.501-515, 1952.

BOAG, J. W. Maximum likelihood estimates of the proportion of patients cured bycancer therapy. Journal of the Royal Statistical Society. Series B (Methodological),v.11, p.15-53, 1949.

CLAYTON, D. G. A model for association in bivariate life tables and itsapplication in epidemiological studies of familial tendency in chronic diseaseincidence. Biometrika, v.65, p.141-151, 1978.

COLOSIMO, E. A.; GIOLO, S. R. Analise de Sobrevivencia Aplicada. Sao Paulo:Edgard Blucher, 2006.

COX, D. R. Regression models and life-tables . Journal of the Royal StatisticalSociety. Series B (Methodological), v.34, p.187-220, 1972.

ELBERS, C.; RIDDER, G. True and spurious duration dependence: Theidentifiability of the proportional hazard model. The Review of Economic Studies,v.49, p.403-409, 1982.

FAREWELL, V. T. A model for binary variable with time-censored observations.Biometrika, v.38, p.43-46, 1977.

FAREWELL, V. T. The use of mixture models for the analysis of survival datawith long-term survivors. Biometrics, v.38, p.1041-1046, 1982.

FAREWELL, V. T.; SPROTT, D. Mixture models in survival analysis: are theyworth the risk?. The Canadian Journal of Statistics, v.14, p.257-262, 1986.

246 Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013

Page 15: ESTIMAC˘AO PARAM~ ETRICA DO MODELO DE MISTURA COM ...jaguar.fcav.unesp.br/RME/fasciculos/v31/v31_n2/A5_Vera_Jhon.pdf · riscos proporcionais de Cox (Cox, 1972). A partir do momento

HOUGAARD, P. Modelling heterogeneity in survival data. Journal of AppliedProbability, v.28, p.695-701, 1991.

KAPLAN, E. L.; MEIER, P. Nonparametric estimation from incompleteobservations. Journal of the American Statistical Association, v.53, p.457-481, 1958.

KIRKWOOD, J. M. et al. High- and low-dose interferon alfa-2b in high-riskmelanoma: First analysis of intergroup trial e1690/s9111/c9190. Journal of ClinicalOncology, v.18, p.2444-2458, 2000.

KUK, A. Y. C.; CHEN, C. A mixture model combining logistic regression withproportional hazards regression. Biometrika, v.79, p.531-541, 1992.

LONGINI, I. M.; HALLORAN, M. E. A frailty mixture model for estimating vaccineefficacy. Applied Statistics, v.45, p.165-173, 1996.

MALLER, R. A.; ZHOU, S. Survival Analysis with Long-Term Survivors. New York:Wiley, 1996. 304p.

PENG, Y.; DEAR, K. B. G. A nonparametric mixture model for cure rateestimation. Biometrics, v.56, p.237-243, 2000.

PENG, Y.; DEAR, K. B. G.; DENHAM, J. W. A generalized f mixture model forcure rate estimation. Statistics in Medicine, v.17, p.813-830, 1998.

PENG, Y.; ZHANG, J. Estimation method of the semiparametric mixture curegamma frailty model. Statistics in Medicine, v.27, n.25, p.5177-5194, 2008a.

PENG, Y.; ZHANG, J. Identifiability of a mixture cure fraitly model. Statistics &Probability Letters, v.78, p.2604-2608, 2008b.

PRICE, D. L.; MANATUNGA, A. K. Modelling survival data with a cured fractionusing frailty models. Statistics in Medicine, v.20, p.1515-1527, 2001.

RODRIGUES, J.; de CASTRO, M.; CANCHO, V.; BALAKRISHNAN, N. COM-Poisson cure rate survival models and an application to a cutaneous melanoma data.Journal of Statistical Planning and Inference, v.139, p.3605-3611, 2009.

R Core Team. R: A Language and Environment for Statistical Computing. Vienna,Austria, 2013.

TSODIKOV, A. D.; IBRAHIM, J. G.; YAKOVLEV, A. Y. Estimating cure ratesfrom survival data: an alternative to two-component mixture models. Journal ofthe American Statistical Association, v.98, p.1063-1078, 2003.

VAUPEL, J.; MANTON, K.; STALLARD, E. The impact of heterogeneity inindividual frailty on the dynamics of mortality. Demography, v.16, n.3, p.439-454,1979.

WIENKE, A. Frailty Models in Survival Analysis. Boca Raton, FL: Chapman &Hall/CRC, 2010.

Recebido em 06.05.2013.

Aprovado apos revisao em 31.10.2013.

Rev. Bras. Biom., Sao Paulo, v.31, n.2, p.233-247, 2013 247