análise de sobrevivência im - ufrj professor: dani gamerman
Post on 17-Apr-2015
104 Views
Preview:
TRANSCRIPT
Análise de Sobrevivência
IM - UFRJ
Professor: Dani Gamerman
1. CONCEITOS ESTATÍSTICOS EM SOBREVIVÊNCIA
1.1 Introdução
Análise de Sobrevivência é o estudo de indivíduos (itens observados) onde um evento bem definido (falha) ocorre depois de algum tempo (tempo de falha). Exemplos: (i) tempo de falha de equipamentos industriais (engenharia) (ii) tempo de sobrevida de um paciente (medicina) (iii) tempo de duração do período de desemprego ou greve (economia) Definindo algumas características: (i) as variáveis de resposta são não-negativas (ii) principalmente univariados e contínuos (iii) presença comum de censura Primeiramente, é importante ter uma definição precisa de tempo de falha. Isto requer especificações sobre: origem do tempo de falha unidade de medida do tempo (calendários, tempo de operação, milhagem, número de ciclos) falha (mais fácil na medicina: morte, não tão fácil na engenharia).
Exemplo: tempo de falha de um carro Questões a serem feitas: Quando começar a contar o tempo? Como medir o tempo de falha? O que é falha? Nós devemos estudar melhor todas essas especificações.
1.2 Resultados em Sobrevivência
1) Descritiva vs Inferência Estatística Em algumas aplicações, características descritivas simples como média simples, função de sobrevivência e gráficos de probabilidades são suficientes. Em outras aplicações, intervalos de confiança ou taxa de influência de determinadas variáveis são exigidas.
2) Censura Um sistema pode falhar mesmo antes que todos os itens tenham falhado em um determinado tempo. Este fato tem determinadas razões. Os itens são normalmente censurados à direita. Mas podem ainda ser censurados à esquerda ou podemos determinar um intervalo de censura(mais difícil de analisar)
3) Paramétrico ou Não-Paramétrico Ambos serão vistos no curso. E ainda os Semi-Paramétricos serão apresentados.
4) Amostras Simples vs Modelos de Regressão Se os itens pertencem à mesma população (são similares), então uma análise de amostras simples deve ser utilizada. Se os itens não são da mesma população e se suas diferenças podem ser contadas (máquinas submetidas a pressões distintas), então estas diferenças devem ser consideradas na Análise. Variáveis para medir tais diferenças (pressão) são denominadas variáveis explanatórias ou covariáveis. Ambos serão vistos no decorrer do curso.
5) Clássica vs Bayesiana Ambas serão rapidamente revisadas e vistas neste curso. Modelos Bayesianos tiveram no passado a desvantagem de que sua Análise através de Modelos de Regressão requeriam muito esforço computacional . Isto, com o tempo, foi se tornando cada vez menos importante. Métodos bayesianos são importantes em estudos de sobrevivência porque freqüentemente temos informações de experiências anteriores que podem usualmente serem combinadas com os dados e incorporadas à análise.
1.3 Sistema Reparáveis e Não-Reparáveis
Outra importante definição, embora somente depois será vista neste curso. Considere o experimento com um sistema reparável e os seguintes tempos de falha cumulativos: 203, 286, 481, 873, 1177, 1438, 1852, 2091, 2295, 2632. Vejamos alguns itens interessantes sobre se a taxa de falha aumenta ou diminui com o tempo. Se o sistema é tomado como não reparável, então o tempo entre falhas é considerado. Um exemplo de análise simples na Figura 1.1 indica o aumento da taxa de falha. Conforme o tempo passa, é mais provável que uma máquina deste tipo venha a falhar. Para sistemas reparáveis o exemplo da análise simples na Figura 1.2 indica taxa de falha constante em relação ao tempo. Se os tempos entre falhas são ordenados e o sistema é reparável, a Figura 1.3 indica que a taxa de falha é decrescente. Sistemas reparáveis com processo de tempo de falha ideais não serão vistos neste curso.
t1
H(t1
)
0 100 200 300 400
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Figura 1.1 – Função de Risco Acumulada dos Tempos entre Falhas.
t2
H(t2
)
0 500 1000 1500 2000 2500
0.0
0.2
0.4
0.6
0.8
1.0
Figura 1.2 – Proporção de Falhas vs Tempo de Falha.
t3
H(t3
)
0 500 1000 1500 2000 2500
0.0
0.2
0.4
0.6
0.8
1.0
Figura 1.3 – Proporção de Falhas vs Tempo de Falha (Ordenados)
1.4 Componentes e Sistemas Reparáveis
Neste curso, trataremos de componentes reparáveis sem referência aos sistemas que podem conter tais componentes. Porém, é importante afirmar que Sistemas Reparáveis também são uma importante área de estudo. Os sistemas mais simples são: Sistemas em Série: o sistema só funciona se todas as componentes funcionarem. Sistemas Paralelos: o sistema só falha se todas as componentes falharem Sistemas k out of n : o sistema só funciona se pelo menos k das n componentes funcionarem(se k=1 paralelo e se k=n série). Esses sistemas formam grande parte dos grupos de sistemas chamados Sistemas Coerentes. Para entender o conceito de sistemas coerentes é útil definir o indicador de funcionamento xi para a componente i e a função de estrutura das n componentes do sistema: 1, se o sistema funciona. (x1,x2,...,xn) = 0, caso contrário.
Sistemas coerentes têm função de estrutura que satisfaz: (i) (1,1,..., 1)=1 (ii) (0, 0,..., 0)=0 (iii) é não-decrescente nesses argumentos. Outros sistemas são: Sistemas multi-estados: onde as componentes podem estar em vários estados (não só funcionando ou falhando) Sistemas load-sharing: onde a carga do sistema é distribuída entre as componentes que funcionam.
1.5 Distribuições Binomial e Hipergeométrica
Análises estatísticas simples são obtidas se os tempos de falha são dicotomizados: funcionar até certo tempo (digamos tempo de falha): defeituoso.
funcionar além deste tempo: não-defeituoso. Distribuições Binomial e Geométrica são para um número X de itens defeituosos em uma amostra de tamanho n e probabilidade p do item ser defeituoso. Se uma amostra com reposição (ou que não seja de uma população muito grande), a distribuição Binomial é obtida como:
P(X=k) = n pk(1-p)n-k onde 0 k n k
E(X)=np e Var(X)=np(1-p)
Quando p é desconhecido, podemos estimá-lo como:
P = X/n e Var(X) = np(1-p)
Para n grande, np5 e n(1-p)5, a Binomial é aproximada pela distribuição Normal com momentos conforme os descritos anteriormente. Para uma aproximação ao nível de significância 100(1-)%, o intervalo de confiança para p é dado por:
(X/n - z/2 (X(n-X)/n3)1/2, X/n + z/2 (X(n-X)/n3)1/2)
onde z/2 é o quartil(1-/2) da distribuição N(0,1). Outra aproximação para n grande e =np (p pequeno) é a distribuição de Poisson com média . Equivalentemente testando a independência e constância de p. Se as amostras são sem reposição e de uma população finita, a distribuição Hipergeométrica é obtida como:
n N-n P(X=k)= k K-k k=0,1,..,K
N K
onde N é o tamanho da população e K é a população de itens defeituosos.
E(X)=np e Var(X)=np(1-p)N-n para p=K/N N-1
1.6 Processos de Poisson
Usado particularmente para sistemas reparáveis. Assume-se primeiramente que é observada uma série de ocorrências em linha. (As ocorrências devem ser falhas sucessivas do sistema e a linha representa o tempo real). Assume-se que: (i) as falhas ocorrem em intervalos disjuntos e independentes (ii) ocorrência = falha (iii) a taxa de falha é uma constante . Então se X é o número de falhas num intervalo de tamanho s, X tem distribuição de Poisson com média s. Também, os tempos entre falhas são independentes e exponencialmente distribuídos com MTFB -1. Isto indica que a exponencial com linha base (solo) é a distribuição para o tempo de falha. Isto pode ser generalizado para permitir taxas de falha não constantes. Processo de Poisson não-homogêneo.
2. DISTRIBUIÇÕES DE PROBABILIDADE
2.1 Introdução
Em muitas áreas de aplicação da estatística, o ponto inicial para avaliação da variável de interesse é a distribuição Normal. Isto pode resultar de uma consideração pragmática pura ou da argumentação baseada no Teoria do Limite central, que diz que se uma variável aleatória é a soma de um grande número de pequenos efeitos , então a distribuição é aproximadamente Normal. No contexto de sobrevivência, o caso da normalidade é muito menos usado. Para que possamos entender, tempos de vida e resistência são quantidades positivas. Do ponto de vista do modelo, é natural começar a pensar no processo de Poisson, idéias já discutidas na sessão 1.6, baseado na distribuição Exponencial. Contudo esta distribuição tem uma limitada aplicabilidade na prática, generalizações da Exponencial como a Gamma e a Weibull já provarão ter maior valor prático em modelos de sobrevivência. Estas e outras distribuições de probabilidade comumente encontradas em estudos de sobrevivência são discutidas nas sessões 2.3 à 2.7. Outros aspectos centrais da discussão sobre análise de sobrevivência são as funções de sobrevivência e de risco, e a natural ocorrência de dados censurados. Estes assuntos são discutidos nas sessões 2.2 e 2.8.
Finalmente neste capítulo colocamos os resultados probabilísticos em contexto de análise de dados. Contudo métodos gerais para ajustar distribuições de probabilidades são desenvolvidos no Capítulo 3, algumas técnicas básicas são apresentadas na sessão 2.9 à 2.11.
2.2 Conceitos Iniciais para a Distribuição de Sobrevivência
Chamaremos de T a variável aleatória que representará o tempo de falha dentro do nosso estudo. Aqui a noção de tempo é usada de maneira genérica. Ele pode ser realmente tempo ou qualquer outra variável não negativa, desde que haja um número qualquer de falhas ou quebras associado a variável.Denotamos :sendo a distribuição de T e denotamos :
sendo a Função de Sobrevivência de T. Note que alguns autores definem F(t) e S(t) por Pr(T<=t) e Pr(T>t) respectivamente. Na prática isto não faz diferença para os resultados que se seguem quando T é uma variável continua, este caso será considerado a partir de agora. Nós iremos assumir que T tem a função de densidade :
)Pr()( tTtF
)(1)Pr()( tFtTtS
tal que a probabilidade da unidade falhar em um curto espaço de tempo [t , t+t) é :
Considere a probalidade condicional do item falhar naquele instante [t , t+t) e não ter falhado até o tempo t :
Podemos pensar como a probabilidade do item iminentemente falhar em t. A função h(t) é dada por :
esta é a função de risco, de taxa de falha, ou hazard e é um indicador natural da propensão a falha após uma unidade de tempo ter transcorrido. A função de taxa de falha acumulada é dada por :
e concluímos que :
dt
tdS
dt
tdFtf
)()()(
ttftTt )()Pr(
)(
)()|Pr(
tS
ttfttTt
)(
)()(
tS
tfth
t
duuhtH0
)()(
))(exp()( tHtS 2.1
Note que f, F, S, h e H são funções tais que o conhecimento de uma delas nos permite o cálculo de todas as outras. Alguns casos típicos são discutidos aqui :• Se h(t)= é constante então H(t)= t e S(t)=exp(-t ) é a distribuição de sobrevivência exponencial com parâmetro . A densidade correspondente é f(t)= exp(-t).• Se h(t) é uma função crescente de t , então T é dito ter uma taxa de falha crescente (IFR). Isto á apropriado quando a unidade medida tem relação com fadiga ou danos cumulativos.• Se h(t) é uma função decrescente de t, então T é dito ter um taxa de falha decrescente (DFR). Isto pode ocorrer, por exemplo, quando o processo diminui a quantidade produzida ao longo do tempo diminuindo o risco de falha. Isto é comum em alguns ambientes de produção de componentes eletrônicos.• Outro caso comum mencionado é o “bat-tub harzard” onde a função de taxa de falha é decrescente inicialmente e depois torna-se crescente. Isto costuma acontecer em linha de produção onde os componentes iniciais tem uma qualidade melhor que os finais provocando este tipo de oscilação na taxa de falha.
2.3 A Distribuição Exponencial
Como mencionado na sessão 1.6, a distribuição exponencial é o ponto natural de início para uma distribuição de sobrevivência. Relembrando temos que a Distribuição de Sobrevivência, hazard e função de densidade tem a seguinte forma:
onde é um parâmetro positivo, freqüentemente chamado de taxa, e onde t>0. Note também que a distribuição exponencial tem média 1/ e variância 1/ 2. A forma da densidade é a mesma para todos os , e 1/ age como um parâmetro de escala. Então, por exemplo, se o tempo de sobrevivência, T, de um certo tipo de componente é medido em minutos e ele é distribuído exponencialmente com taxa igual , então T*=T/60 medido em horas é distribuído exponencialmente com taxa 60 . Uma outra formulação comum é termos a parametrização = 1/ no lugar de . A Figura 2.1 mostra duas densidades da distribuição exponencial com diferentes taxas.
),exp()(
)(
)exp()(
ttf
th
ttS
2.2
As funções hazard correspondentes são apresentadas na Figura 2.2. Nós iremos mostrar que a Distribuição Exponencial é um caso especial das Famílias de Distribuições Weibull e Gamma.
2.4 Distribuições Weibull e Gumbel
Uma variável aleatória Weibull (W. Weibull (1939,1951)) possui a seguinte função de sobrevivência:
para t>0 e onde e são parâmetros positivos, sendo um parâmetro de escala e um parâmetro de forma. Note que quando =1, obtemos uma Distribuição Exponencial com parâmetro =1/ .
)exp()(
ttS 2.3
A função de falha (hazard) da Weibull é :
Então temos DFR para <1, constante para =1 e IFR para >1. Em particular, para 1<<2 a função de falha se aproxima de uma função linear e para =2 a função é linear; para >2 a função cresce rapidamente acima de uma função linear. A função de taxa de falha (hazard) da Weibull para diferentes valores dos parâmetros é mostrada na Figura 2.3. A função de densidade da Weibull é
para t > 0.
1)( tth
)exp()( 1
t
ttf 2.4
A média e a variância são dadas por :
0
1
1
1
)exp()(
,
)12(var
)1(
duuux
onde
iancia
media
x
2.5
veja , por exemplo, Abramowitz and Stegun (1972, CAPITULO 6). Um programa em fortran para calcular a equação 2.5 é dado em Griffiths and Hill (1985, pp. 243-6), que é baseado em um programa anterior de Pike e Hill (1966). Quando é grande (>5), a média e a variância são aproximadamente e 1.642/ respectivamente. A forma da densidade depende de . Na Figura 2.4 são mostradas algumas funções de densidade da Weibull para diferentes valores de .
A Distribuição Weibull é provavelmente a mais utilizada das distribuições em análise de sobrevivência. Uma possível explicação para isto se deve ao seu comportamento nos extremos da distribuição, à possibilidade de variarmos o seu formato e em particular a possibilidade de utilizá-la como uma generalização da Exponencial. A Distribuição de Gumbel tem a seguinte função de sobrevivência :
para , onde é o parâmetro de locação e é o parâmetro de escala. Esta distribuição também começa com limite de distribuição mínimo, veja Galambos (1978), e tem uma taxa de falha exponencial crescente. Em alguns casos permite valores negativos com probabilidades positivas. Mais comumente a distribuição de Gumbel é gerada através de Log(t) quando T tem uma distribuição Weibull. A relação entre os parâmetros da Gumbel e da Weibull é a seguinte :
A função de densidade da Gumbel é a seguinte :
])/)exp[(exp()( xxS 2.6
x
/1
)log(
)()/)exp(()( 1 xSxxf
para , e tem a mesma forma para todos os parâmetros. Note que a média e a variância da Gumbel são - e (2/6)2, respectivamente, onde =0.5772 é a constante de Euler, e a distribuição é negativamente inclinada. A densidade e a taxa de falha (harzard) para a distribuição de Gumbel com =0 e =1 é mostrada nas Figuras 2.5 e 2.6 respectivamente.
x
2.5 Distribuições Normal e Lognormal
A distribuição Normal é a distribuição mais comumente utilizada em Estatística. Em confiabilidade é geralmente usada como um modelo para log T. A função de densidade da distribuição lognormal é descrita pela equação abaixo:
As funções de Sobrevivência e de Risco podem ser escritas somente em termos de integrais. Algumas densidades e funções de risco são plotadas na figura 2.9 e 2.10. A função de Risco é crescente para valores de t próximos de zero e eventualmente decrescente quando .
²²(log
expt²
)t(f22
1
2/²exp)( TE 12 ²)exp(²exp)T(Var
t)(a )(b
25.1)(1)(0)(2)(
1log49.2
dcba
emédiacomnormalõesdistribuiçparadensidadedeFunçõesFigura
25.1=ρ)d( 1=ρ)c(.50=ρ)b(520.= ρ)a(
e1médiacomnormallogõesdistribuiç4parariscodeFunções10.2figura
)(a )(b
)(c )(d
)(c )(d
2.6 Distribuições Gama e Gama Generalizada
A distribuição Gama é descrita pela equação abaixo:
Densidades são positivas (ver figura 2.11) mas tendem para normal quando é grande. As funções de Sobrevivência e risco podem ser escritas somente em termos de integrais. A função de risco é decrescente para , constante para (exponencial) e crescente para(ver figura 2.12). A Gama é obtida como a distribuição do -ésimo tempo de falha em um processo de Poisson .
2
1ρρ
σ
ρ=)T(Vare
λ
ρ=)T(E
)tλexp(t)p(Γ
λ=)t(f
1<ρ
1=ρ
)(a )(b
)(b)(c )(d
5.0=ρ)d( 2.5=ρ)c(1.5=ρ)b(0.5= ρ)a(
e1médiacomgamaõesdistribuiç4paradensidadedeFunções11.2figura
)(a )(b
A distribuição gama generalizada é descrita pela equação abaixo:
A distribuição gama generalizada inclui os seguintes casos especiais:
)(c )(d
5.0=ρ)d( 2.5=ρ)c(1.5=ρ)b(0.5= ρ)a(
e1médiacomgamaõesdistribuiç4parariscodeFunções12.2figura
t(expt
)t(f
:lExponencia)iii(
:Weibull)ii(
:Gama)i(
2.7 Distribuição Exponencial por Partes
Uma generalização da distribuição exponencial
Temos abaixo a função de Risco:
Vantagem: Pode-se aproximar qualquer função de Risco desejada. Desvantagem: Grande número de parâmetros (“não-paramétrica”)
,,),0( 21 IIemdepartiçãonaBaseado
],0[,
],0[,
],0[,
)( 222
11
mmm tIt
tIt
tIt
th
iiii
m
ii
i
jjjji
iiii
iii
IttttTtT
kTE
kemittkonde
ttktf
miitttktS
,)(exp)/Pr(
)()(
1,...,2,)-(exp
)-(-exp)(
,...,1,,)-(-exp)(
11
11
11
2
11
1
1-
11-
1-
1-
2.8 Censura
Observações incompletas freqüentemente ocorrem nos estudos de sobrevivência e confiabilidade. Nos testes de confiabilidade é comum aguardar até todos os itens falharem. Nos estudos de sobrevivência, pacientes abandonam o tratamento ou continuam vivos depois do final dos estudos. Isso resulta em algumas observações incompletas, ditas censuradas. Tipos comuns de censura a direita:
Tipo I: Observações são acompanhadas até um tempo c fixado inicialmente.Tipo II: Observações são acompanhadas até obter-se um número pré-determinado de falhas.Tipo III: Aleatória à direita: Associado aos tempos de falha existem onde observa-se apenase
onde é o tempo de falha observado, e independentes
iT s'Ci
) C, T min( = Yi i i
)(,0
)(,1
censuradoCT
censuradonãoCTX
ii
iii
iY
iT s'Ci
2.9 Métodos dos Momentos para Dados Simples: Sem Censura
Métodos informais (métodos formais serão apresentados no próximo capítulo) Baseado nos momentos e estimativas simples
Suponha que t1,...,tn sejam tempos de falha observados.
Exemplo 2.1: T – número de milhões de revoluções de rolimã até a falha. Dados: 17.88, 28.92, 33.00, 41.52, 42.12, 45.60, 48.40, 51.84, 51.96, 54.12, 55.56, 67.80, 68.64, 68.64, 68.88, 84.12, 93.12, 98.64, 105.12, 105.84, 127.92, 128.04, 173.40 (ordenados por conveniência) Média amostral: = 72.22 e desvio padrão amostral (s.d.): st = 37.49
Recai segundo §2.3 que a média e o s.d. coincidem no modelo exponencial.
Neste caso, /st se aproxima de 2, logo o modelo exponencial não é apropriado.Para ajustar Weibull e lognormal, é mais fácil trabalhar com xi = log ti.Novamente, média amostral: = 4.150 e s.d. amostral:
sx = 0.534.
t
t
x
Estes cálculos valem para a média μ –γσ e s.d. πσ/√6 da Gumbel, trazendo assim os momentos estimados = 0.416 e = 4.390.
Em termos dos parâmetros da Weibull, temos: = exp( ) = 80.64
e = 1/ =2.40, diferente do 1.
De forma similar, os parâmetros estimados da lognormal são = 4.150 e = 0.534.
Outra aproximação é baseada na função de sobrevivência empírica dada por
é um estimador não paramétrico de S(t)
n possui distribuição binomial com média S(t) e , segundo §1.15, um IC a 100%(1-α) para S(t) dado por
De forma similar, a função de taxa de falha acumulada empírica é dada por
Onde o s.d. é dado por
σ~
μ~
α~
μ~
η~ σ~
μ~ σ~
( )tS
n
YstdenúmerotS ti
'__ˆ
( )tS( )tS
21
2
21
2
ˆ1ˆˆ,
ˆ1ˆˆ
n
tStSztS
n
tStSztS
tStH ˆlogˆ
21
ˆ
ˆ1
tSn
tS
Os gráficos destas funções empíricas podem ser usados para checar a adequação das hipóteses dos parâmetros.
Assuma os tempos ordenados t(1) < ... < t(n) .
• Salto de 1 / n tempo t(i).
• Realocado por 1- (i – 0.5) / n . (Outra forma possível) Modelo Weibull: S(t) = exp {- (t / α)}
Log S(t) = - (t / α) log{-log S(t)}= log t – log α
Se o modelo Weibull é apropriado, então o gráfico de
é aproximadamente uma linha reta.
Inicialmente os parâmetros estimados serão obtidos a partir de :
- log α = intercepto
= coeficiente angular
Modelo lognormal: , – função de distribuição de N(0,1).
Se o modelo lognormal for apropriado, então o gráfico de (log t(i), -1{(i-0.5)/n}) será uma linha reta.
n
itS i
1--1ˆ
ii tSt ˆloglog,log
ttS
log1
t
tSlog
11
Inicialmente os parâmetros estimados serão dados por :
-μ / σ= intercepto
1 / σ = coeficiente angular
Estes gráficos são dados nas figuras 2.13 e 2.14 do exemplo 2.1.Inicialmente os parâmetros estimados são (entre parênteses por momentos): Weibull: =2.3(2.4) e α = 77.3(80.6)
Lognormal: μ = 4.2(4.15) e σ = 0.56(0.53)
Diferentemente do baseado pelo método dos momentos, o gráfico das probabilidades pode ser usado com censura.
Eles são definidos por t < t (r ), para r tempos de falha (não censurados).
2.10 Estimador do Produto-Limite
O estimador do produto-limite (PL) ou de Kaplan-Meyer é um estimador não paramétrico da função de sobrevivência.
Ele coincide com a função empírica de sobrevivência quando não há censura.
a1 < ... < ak – k tempos de falha distintos (a0 = 0)
d1, ...dk – número de falhas em cada tempo de falha (d0=0)
n1 < ... < nk – número de itens em risco em cada tempo de falha (nk = 0)
O estimador do PL é:
Esta é uma função escada começando do 1 para t = 0 e alterando-se a cada ak.
É como se a distribuição de falhas se concentrasse nos pontos a1, ... , ak.
De acordo com a teoria assintótica , média e variância de são dados por
S(t) e
H(t) pode ser estimado de forma similar por
De forma mais simples e intuitiva, podemos estimar H(t) usando
que é relacionado ao estimador .
Pode-se utilizar análise gráfica do estimador do PL para avaliação da adequação de modelos Weibul e log-normal.
taj j
j
jn
dtS
:
1ˆ
tS
tS
taj jjj
j
jdnn
d
:
tStH ˆlogˆ
taj n
d
j j
jtH:
~
j
jn
djah )(
~
Exemplo 2.3: Resistência de corda a uma certa tensão (em unidades codificadas).
Principais interesses:
• Qual a confiabilidade de uma corda após 53 unidades de tensão ?
• O modelo de distribuição Weibull é apropriado ?
Da tabela 2.2 ,
e
Um IC de 95% para S(53) é dado por
(0.6849-1.69x0.0725, 0.6849+1.69x0.0725)=(0.54,0.83)
Fora 3 pontos isolados a figura 2.17 parece com uma linha reta.
Investigação similar com modelo lognormal apresenta os mesmos resultados.
6849.0)53(ˆ S 22 0725.00112.06849.0))53(ˆ( SVar
Tabela 2.1 Resistência de 48 cordas
Observações não censuradas36,3 41,7 43,9 49,9 50,1 50,8 51,9 52,1 52,3 52,352,4 52,6 52,7 53,1 53,6 53,6 53,9 53,9 54,1 54,654,8 54,8 55,1 55,4 55,9 56,0 56,1 56,5 56,9 57,157,1 57,3 57,7 57,8 58,1 58,9 59,0 59,1 59,6 60,460,7
Observações censuradas pela direita29,6 33,4 35,0 40,0 41,9 42,5
Tabela 2.2 Cálculo da amostral daExemplo 2.3
j aj nj dj (nj-dj)/nj S(aj+0) dj/(nj(nj-dj))0 48 0 1,0000 1,0000 0,00001 36,3 44 1 0,9773 0,9773 0,0005 2 41,7 42 1 0,9762 0,9540 0,0006 3 43,9 39 1 0,9744 0,9295 0,0007 4 49,9 38 1 0,9737 0,9051 0,0007 5 50,1 37 1 0,9730 0,8806 0,0008 6 50,8 36 1 0,9722 0,8562 0,0008 7 51,9 35 1 0,9714 0,8317 0,0008 8 52,1 34 1 0,9706 0,8072 0,0009 9 52,3 33 2 0,9394 0,7583 0,0020
10 52,4 31 1 0,9677 0,7338 0,0011 11 52,6 30 1 0,9667 0,7094 0,0011 12 52,7 29 1 0,9655 0,6849 0,0012 13 53,1 28 1 0,9643 0,6605 0,0013
A aproximação do erro padrão de S(53) , vem da equação (2.21) e tabela 2.2
3.0 3.5 4.0 4.5 5.0
-3-1
1
Weibull
log(t)
log
(-lo
g(l1
))
3.0 3.5 4.0 4.5 5.0
-20
12
Lognormal
log(t)
l2
3. MÉTODOS ESTATÍSTICOS PARA AMOSTRAS SIMPLES
3.1 Introdução
Final do último capítulo: métodos estatísticos simples. Este capítulo: métodos mais formais, máxima verossimilhança, inferência bayesiana dinâmica.
3.2 Estimação por Máxima Verossimilhança: Generalidades
Suponha uma amostra de tempos de vidas
de uma certa população. Todos os possuem densidade , onde Caso as observações não sejam censuradas então, a função de verossimilhança é
para observações censuradas (a direita): A contribuição para a verossimilhança é a probabilidade de sobrevivência após o tempo de censura. Separando os dados em conjuntos disjuntos: C - itens censurados e U - para itens não censurados.
ntt ,...,1sti `
( )θ\tf m ,...,1
n
iitfL
1
\
Ci
iUi
i tStfL \\
Para outras formas de censura existem outras expressões.
É mais conveniente trabalhar com Estimativa da máxima verossimilhança (EMV) de
Normalmente são obtidos resolvendo
Assumindo que q(p;θ) como o quantil 1-p de T, ou seja, Pr(T≥ q(p;θ) = S(q(p;θ)) = p
Ll log
( ) ( ).θlou ,θL omaximizand θ é θ
mj
l
j
,...,1 , 0
( ) ( ) .φ de EMV o é θg=φ uma, a uma ação transformumafor θg=φ Se
. ˆp;q é p;q de EMV O
( )
( )m<kj,<1 ,
θθ∂
θl∂=J com J =V
∞→n quando ,V,θN~θ :aassintótic teoriaPela
jkkj
21-
. vcomo denotado e V matriz da k)(j, elemento o :Notação jk
mkj,1 , J com J V
n quando ,V,N~ˆ :aassintótic teoriaPela
21-
jkkj
l
J é a informação observada da matriz Em particular,
O EMV possui muitas vantagens sobre todos os outros métodos clássicos de estimação:• Ele é universal;• Ele é invariante;• Ele possui boas propriedades assintóticas: Consistência, normalidade assintótica e eficiência;• Distribuição assintótica é facilmente encontrada.
3.3 Máxima Verossimilhança (MV) estimação : ilustrações
. vcomo denotado e V matriz da k)(j, elemento o :Notação jk
( )
( ) ( )
( )11
2
m
1=j
m
1=kjk
kj
v θ∂
θg∂
à se-reduz φ de aassintótic a variância 1,=m um para ,particular Em
vθ∂
θg∂
∂
θg∂,φN~φ
:é oassintótic resultado o , θg = φ mação transforuma Para
∑∑
, tlog xsendo , observados são t,..., t vidade temposque Suponha iin1
( ) ( )
( )
( )0<
λ
r=
λ∂
λl∂
tλ
r=
λ∂
λl∂
tλλrlog = λl
:lExponencia ãoDistribuiç
.censurados sãor -n e censurados são não itensr Onde
22
2
n
1=ii
n
1=ii
∑
∑
r
λ aassintótic a variâncicom
t
r=λpor dado máximo de ponto um é 0=l′ para soluçãoA
2
n
1=ii∑
( ) ( )
( )
( )σ
μxexpμx+μr+xσr=
σ∂
l∂
σ
μxexp+r=
μ∂
l∂
σ
μxexp
σ
μr
σ
x+σlogr=σ,μl
:Gumbel da formato noou
tα
1tlog1η+αlogηrηlogr=α,ηl
WeibullãoDistribuiç
in
1=ii
|U∈ii
n
1=i
i
n
1=i
i
U∈i
i
n
1=i
ηiη
U∈ii
∑∑
∑
∑∑
∑∑
μ depois e σ determinar para usados são numéricos Métodos
) μ envolve não ( 0=
σ
xexp
σ
xexpxi
σ+xr
1
σ
xexp
r
1logσ=μ
satisfaz EMV o Portanto,
∑
∑∑
∑
n
1=i
i
in
1=in
1=ii
n
1=i
i
σ
μxexp
σ
μxr=
σ∂
l∂
σ
μxexp
σ
μx=
σ∂μ∂
l∂
σ
r=
μ∂
l∂
: são ) aassintótic a variância para usado ( EMV do derivada segundaA
i
2n
1=i
i2
2
in
1=i
i2
22
2
∑
∑
( )( )
( ) . σ,μN log que visto
ajustada, ãodistribuiç uma de através estimadosser podem quantis Os
0.56) & (0.534 0.522=σ e ) 4.2 & (4.150 4.150=μ :Normal-Log Modelo
0.435) & (0.416 0.476=σ e ) 4.35 & (4.390 4.405=μ : Gumbel Modelo
gráficas) sestimativa & (momentos
ML de sestimativa das osacompanhad 2.1 exemplo no dados Os :3.2 Exemplo
. λl deplot um mostra 3.1 Figura
0.137.=λs.e e 0.434=λ : lexponencia Modelo
23.05=t e 10=r 13=n possuem 2.2 exemplo do dados Os : 3.1 Exemplo ∑ i
Figura 3.1 Log-Verossimilhança para o tempo de vida de um componente de um avião com distribuição Exponencial. A reta no gráfico foi feita para mostrar o intervalo de confiança 95% para lambda, baseado em W.
Note a grande diferença na calda
Lambda
Lo
g-V
ero
ssim
ilha
nça
0.2 0.4 0.6 0.8 1.0 1.2
-26
-24
-22
-20
( ) ( )
) parenteses entre
estão (s.e quantis dos sestimativa as reúne abaixo 3.2 A tabela
1.0=1.282-Φ com σ1.282-μexp
é Normal-log ãodistribuiç uma de 0.1 quantil do EMV O
Quantil Weibull Log-Normalmediana 68.7(8.0) 63.4(6.9)
10% inferior 28.1(6.3) 32.5(4.8)
3.4 Intervalos de Confianças e Testes
n está divida dentro (das
dimensões ma e mb.
Nós interessa testar a Hipótese H:
( é um EMV de (é um EMV dede H.
Estão disponíveis dois procedimentos: 1) Onde temos para H , que:W(
) =
2{
ma),
é aproximadamente. Grandes valores de W grandes diferenças em comum com log – máxima verossimilhança grande suporte contra H. O teste da relação da MV rejeita H se W(
( (ma)
onde ( (ma) é 1 - quantil de
ma As regiões de confiança para são dadas por:{ :W(
ma)}
2) Seja VA a variância assintótica de Então:W*(
VA-
1
distribuição aproximada ma) de H.
As regiões de confianças e os testes são obtidos a partir das informações acima com W* substituindo W.
^)B(θ
^)A(θ
^)A(θ
^)B(θ
^)B(θ
^)A(θ
^)A(θ
^)A(θ^
)A(θ^
)A(θ
^)A(θ
Em particular, para θ(A) escalar, a região de confiança torna-se: [ - z /2 VA
½, + z /2 VA ½] ( um intervalo)
onde é usado o fato de ( 1) = [N(0,1)]. Embora W e W* sejam assintoticamente equivalentes e geralmente similares, preferimos W pela re-parametrização acima e por ser invariante. Exemplo 3.1 (cont.): Temos o modelo exponencial, onde θ(A) = , ma = 1 é W*( ) = 2{- 18.35 - 10log +
23.05}O intervalo de confiança (IC = 95%) baseado em W* é dado por: {:W()£ 3.84}=[.22,.76] e como 3.84 = 0.5
2(1). (Figura 3.1)
Então o intervalo de confiança (IC = 95%) baseado em W*é:[.434 – 1.96 x .137, .434+1.96 x .137] = [0.17,0.70](simétrico) O intervalo de confiança (IC=95%) é dado por: [0.21,0.74] baseado em 2r2r). Exemplo 3.2 (cont.): Desejamos testar a hipótese H de exponencialidade. Usando o modelo Gumbel temos:Bma e H é W*(1) = 49.56 >> 3.84 H0 rejeitado.
Logo, W(1) = 15.50 confirma a rejeição de H como esperado.
^)( A
^)( A
O Exemplo 3.2 considera a hipótese de recursividade: onde a Exponencial é um caso especial da Gumbel. São mais difíceis de considerar a hipótese de não – recursividade para o tratamento clássico estatístico.
3.5 Bondade do Ajuste
Enfoque formal: Encaixar o modelo dentro de uma classe de modelos ( Exemplo 3.2) ou usar a forma excelente. Técnicas Gráficas Plote o gráfico de QQ: Seja e , parâmetros de locação e escala, (onde é estimador do PL) e Fé a
função de distribuição para =e= O plote dos pontos [aj , F
pj)] deveria ser linear.
Plote PP: junte os pontos (pj , F aj ). (esta linha
deveria ser y = x) Pode ser usado fora do modelo de locação de escala. Plote SP: Para estabilizar a variabilidade de PP, plote a transformação y = (2/)sin-1x em ambos os eixos. As figuras 3.2 e 3.3 mostra os dados do exemplo 2.3 plotado em PP e SP.
^
θ
G o o d n e s s - o f f i t
F i g u r a 3 . 2 P l o t e P P d a W e i b u l l p a r a o s d a d o s d a r e s i s t ê n c i ad a m a d e i r a
F i g u r a 3 . 3 P l o t e S P d a W e i b u l l p a r a o s d a d o s d a r e s i s t ê n c i ad a m a d e i r a
0 . 0 0
0 . 2 0
0 . 4 0
0 . 6 0
0 . 8 0
1 . 0 0
0 . 0 0 0 . 2 0 0 . 4 0 0 . 6 0 0 . 8 0 1 . 0 0
V a l o r e s O b s e r v a d o s
Valore
s Espe
rados
0 . 0 0
0 . 2 0
0 . 4 0
0 . 6 0
0 . 8 0
1 . 0 0
0 . 0 0 0 . 2 0 0 . 4 0 0 . 6 0 0 . 8 0 1 . 0 0
V a l o r e s O b s e r v a d o s
Valore
s Espe
rados
3.6 Elementos de Estatística Bayesiana
Incorpora informação subjetiva sobre o problema (experiência anterior). É feita através da especificação de uma distribuição a priori P(). Informação a priori vaga: a análise é guiada pela informação dos dados. Assuma, como antes, uma amostra t = ( t1, , tn ) com densidade f (t ;). Isto é combinado com a priori e leva a
Fórmula de Bayes Válido para e t discreto e contínuo. P( t) é a densidade a posteriori (dado os dados t). Como t é constante, A fórmula de Bayes pode ser simplificada em
A constante removida P(t) pode ser recuperada por
Estimativas a posteriori para são obtidas através de medidas de locação de P( | t). Exemplo: Considere os dados do exemplo 2.2 com modelo exponencial
)(
);()()|( 1
tp
tfptP
n
ii
)()()|( LptP
dLptP )()()(
É conveniente atribuir a priori (distribuição gama).
Combinada com a verossimilhança de forma simples (priori conjugada).
Para especificar os valores de a e b assuma que acredita-se que está próximo de 0.5 e que é pouco provável que ele seja menor que 0.2. Então, tome a moda da priori igual a 0.5 e P(< 0.2) 0.05 a = 3 e b = 4. A posteriori é | t ~ Gamma (13, 27.05) com moda 0.444 e média 0.481 (figura 6.1).
O desvio padrão a posteriori (priori) é 0.133 (0.175).
e)( -23.0510 L
e)( b-1 ap
λ05.2712λ-23.0510λ-41-3 eλ∝ ) eλ)( eλ ( ∝ t)| λp(
Regiões de confiança são facilmente obtidas da posteriori. Particularmente úteis são as regiões de maior densidade a posteriori (HPD). Por exemplo, o intervalo HPD de 95% para todo é [0.231, 0.758]. Interpretação da região HPD é simples diferentemente das regiões de confiança clássicas. Inferência sobre funções paramétricas são obtidas de maneira similar. Assuma interesse na confiabilidade em um certo tempo t0 . Para o modelo exponencial isto é S ( t0 ; ) = e-lt0, uma função de . A posteriori completa de S ( t0 ; ) pode ser obtida. Como exemplo, 0.01 = Pr ( < 0.225 | t) = Pr (S ( t0 ; ) > e-0.225 t0 | t) a probabilidade a posteriori de que S (t0; ) exceda e-0.225 t0 é 0.01. Predição: assuma que se está interessado no tempo de vida S de um novo item. Inferência deve ser baseada na distribuição de S | ( t1, ... ,tn ). (S independente de t dado ) Por exemplo, a densidade do tempo de vida de um novo item é
d t)| p( )| p(s d t)| p( t), | p(s t)| p(s
(a constante de proporcionalidade é 0.481). Informação a priori vaga é usualmente representada por adequados valores pequenos dos parâmetros da priori conjugada. No exemplo, pequenos valores de a e b, como 0.5. O intervalo de 95% de confiança a priori é [0.001, 5.024]. (muito grande) A posteriori é Gama (10.5, 23.55) com média 0.446 e desvio padrão 0.138. O limite de uma distribuição a priori vaga é uma priori não informativa. No exemplo, isso é obtido fazendo a, b 0 => p(l) l-
1 (priori imprópria). A posteriori é Gama (10, 23.05) com média 0.434 e desvio padrão 0.137. (similar aos resultados da inferência por máxima verossimilhança). A priori não informativa é um meio para obtenção da posteriori na ausência de informação a priori.
14
0
)05.27(1305.2712
0
)037.01()()( ) |p(s
sdedee ss
3.7 Outros Tópicos em Inferência Bayesiana (§6.4 do livro texto) Especificação de prioris Não é necessário que a especificação seja muito precisa. Próxima seção: análise Bayesiana com especificação a priori parcial. Verificação de inconsistências: análise pré-posteriori.Análise conjugada é conveniente mas nem sempre apropriada. Prioris não informativas devem ser usadas com cuidado: pode levar a absurdos. Parâmetros de distúrbio Suponha que os parâmetros são divididos em () onde é de interesse é somente necessário (distúrbio) e pode ser eliminado facilmente via
Densidade marginal
Exemplo: tempos de falha Weibull com S(t) = e-t
A verossimilhança é com
dtptp )|,()|(
r
i
si
r etL1
)()(),(
n
iits
1
)(
Assuma que a priori é
Integrando com relação a temos
Entre chaves: p(t | ) - verossimilhança marginal (ou integrada) de .
Fator de Bayes Considere um teste Bayesiano de uma dada hipótese H. Se H é uma região então Pr(H | t) reflete a crença em H a posteriori. Para o exemplo em §3.6 e H : < 0.25, temos Pr(H | t) = Pr( < 0.25 | t) = 0.2 => H é rejeitada Similarmente, pode-se usar a razão de chances a posteriori dada por
A primeira razão do lado direito é a razão de chances a priori e o segunda é o fator de Bayes. Isso representa a razão relativa de verossimilhanças entre as duas hipóteses H e . Maiores valores do fator de Bayes maior apoio dos dados em H. O fator de Bayes é útil quando deseja-se testar hipóteses nulas bilaterais H : = 0
)]([
1
11 )()|,()(),( sbr
ii
rarba etptpepp
ra
r
ii
r
sb
t
ptp)]([
1)()|(
)|()Pr(
)|()Pr(
)|Pr(
)|Pr(
HtpH
HtpH
tH
tH
H
Note que Pr(H | t) será sempre 0. Há alguma controvérsia a respeito de quão adequado é testar hipóteses nulas bilaterais. No exemplo, o fator de Bayes para H : l = 0.25 é 0.81 a crença no valor 0.25 é reduzida pelos dados.
3.8 Modelos Bayesianos Dinâmicos Baseado em uma distribuição exponencial por partes para os tempos de falência com suposição explícita de conexão entre intervalos. Distribuição E. P. (Exponencial por Partes): o risco é constante nos intervalos. É geralmente razoável assumir funções de risco contínuas algumas conexão entre valores de risco em intervalos sucessivos. Forma matemática adotada para simplicidade: passeio aleatório na escala log
wi - termo de perturbação permitindo o aumento da incerteza como um movimento direto do intervalo. Conseqüências deste modelo:(1) Preserva a posição: (2) Aumento da incerteza :
iiii1ii W=)w(Vare0=)w(Eondew+λlog=λlog
Um artifício útil para determinar valores para Wi´s: fatores de desconto controlam a quantidade de informação (medida de precisão) passando direto dos intervalos. Fator de desconto é um número entre 0 e 1(geralmente fechado para 1). 1) se o desconto é fechado para 0 – nenhuma informação passa direto do intervalo. Estimação M.V. (máxima verossimilhança) com distribuição E.P. (exponencial por partes), estimador P.L. (produto-limite ou Kaplan Meyer). 2) se o desconto é 1 – toda informação passa direto do intervalo Parâmetros são os mesmos tempo de falência exponencial. Função de verossimilhança
De §2.7, a verossimilhança para um dado indivíduo é onde Xi é o indicador da falência no intervalo Ii bi é o tempo observado em Ii, para este indivíduo. Para uma amostra de tamanho n, a verossimilhança é
}λbexp{λ iixii
∞
1=iΠ
i
∞
1=i
L=L Π
onde onde di é o número de indivíduos observados até a falha em Ii ai é o tempo total observado em Ii para a amostra Li é a verossimilhança para λi baseado nos eventos observados em Ii dado Di-1, a informação do intervalo anterior (ver final de §2.7).De fato, o produto das verossimilhanças vai de i = 1 a i = N onde N é o indexador do último intervalo com tempo de falência observado (censurado ou não censurado).
Análise Seqüencial e Distribuições a Priori Assuma que A Priori assumida para
Conseqüentemente: aumento da incerteza Atualização da distribuição de λi feita direta da fórmula de Bayes.
}aλexp{λ=L iidii
i
)γ,α(G~Dλ 1i1i1ii
1≤c<0onde)γc,αc(GéDλ i1ii1ii1ii
)Dλ(E=)Dλ(E)1 1i1i1ii
)Dλ(Varc=)Dλ(Var)2 1i1i1
i1ii
e (análise conjugada)
As análises procedem do aumento de i para i+1 como antes dito. Inicia em i = 0 indo para i = N, o último intervalo com informação de dados.{ci} controla a suavidade da função risco:ci → 0: sem passagem de informação ci = 0: passagem total de informação
Especificação dos ci´s
Dado que Usando o método Delta Da relação entre sucessivos λ´s: Usando novamente o método Delta dado
}λaexp{λ}λγcexp{λ∝ iidii1ii
1αci
i1ii
}λ)a+γc(exp{λ∝ ii1ii1d+αc
ii1ii
i1iiii L)Dλ(E∝)Dλ(p
)a+γc,d+αc(G~Dλ i1iii1iiii
)γ,α(G~Dλ 1i1i1i1i
1i1i1i
1i
1i1i1i α
1=)Dλ(logVare)
γ
αlog(=)Dλ(logE
i1i
1i1i1i
1i1ii W+
α
1=)Dλ(logVare)
γ
αlog(=)Dλ(logE
)W+α
1()
γ
α(=)Dλ(logVare)
γ
α(=)Dλ(E i
1i
2
1i
1i1ii
1i
1i1ii
De onde um obtém Geralmente, Wi é selecionado proporcional ao tamanho de Ii. Quanto maior o intervalo, mais informação é perdida. A proporcionalidade constante é W, a variância da perturbação supera uma unidade de tempo. Fatores de desconto são associados diretamente com W: tem que ser especificado só a primeira vez para um modelo dado. Inferência Inferência é baseada na distribuição predita de um novo tempo de falência S baseado em DN, o (total) de informação do dado. Interesse particular: sobrevivência predita e risco predito Estes são obtidos após a integração fora dos λ´s com respeito a sua distribuição suavizada (ou filtrada) Estas distribuições são obtidas via um algoritmo recursivo.
Modelo de Seleção Um modelo é especificado pela escolha de :1) Priori para 2) fator de desconto3) grade de intervalos
1i1ii )Wα+1(=c
)Ds(S N
)Ds(h N
)Dλ(p Ni
01 Dλ
Modelos M1 e M2 podem ser comparados via seus fatores de Bayes
Cada verossimilhança marginal é obtida após a integração fora dos parâmetros como segue facilmente obtido.
)Mt(p
)Mt(p
2
1
∏N
1=i1ii )M,D}Iemobservadoseventos{(p=)Mt(p
i1ii
N
1=i1iii λd)M,Dλ(p)M,D,λ}Iemobservadoseventos{(p= ∏∫
i1ii
N
1=ii λd)M,Dλ(pL= ∏∫
Tempo de Falência do Sistema de TelecomunicaçãoPeríodo de Observação de 20 de Maio de 1985 a 31de Outubro de 1985
( Z = dias da instalação para a falência, cancelamento ou data de encerramento)c = censurado e u = não censurado
Z Z Z Z Z Z
164c 2u 45u 147c 139c 135c3u 155c 150c 101c 139c 135c164c 155c 150c 146c 139c 135c164c 155c 150c 1u 139c 1u163c 139u 149c 143c 138c 134c
163c 152c 149c 143c 40u 13u163c 152c 149c 143c 138c 134c163c 152c 149c 142c 138c 134c163c 152c 149c 10u 138c 134c163c 94u 149c 141c 138c 134c
77u 151c 149c 141c 138c 133c162c 151c 149c 141c 138c 133c162c 151c 149c 34u 138c 133c73c 151c 115u 140c 138c 133c63u 151c 148c 140c 137c 133c
161c 151c 148c 140c 137c 64c160c 151c 147c 140c 137c 133c160c 151c 147c 140c 137c 133c67u 90c 147c 140c 137c 133c141c 151c 147c 140c 137c 133c
156c 151c 147c 54u 137c
3.9 O Estimador Atuarial
Utilizado em tabelas de mortalidade onde muitas vezes dados estão agrupados. Assume-se que a distribuição é contínua e divide-se o tempo em intervalos geralmente iguais onde a taxa de falha é constante. Ex: Em tabela de mortalidade, divide-se tempo (tempo de vida de população) em intervalos 0 – 1, 1 – 5 (ou 0 – 5), 5 – 10, 10 – 15, ... anos. Raramente faz-se divisão ano a ano. Suponha que a população tem n indivíduos morrendo em um ano com idades y1, ..., yn. (Não há censura)
Se o indivíduo morre no intervalo i , sua contribuição à verossimilhança é:
A verossimilhança total é dada pelo produto das contribuições individuais
11
1
1
iijjj tytt
i
ji ee
verossimilhança fatora em i
onde di = # de mortes no intervalo i
indivíduo k morre antes do intervalo i)
(indivíduo k morre no intervalo i)
(indivíduo k morre depois do intervalo i)
é o tempo total em risco no intervalo i
Por analogia, na estimação do modelo exponencial, o EMV de i é:
Se todos os indivíduos morrem no final dos intervalos,
n
kiki
i
i
xd
i
e 1
1
ikii
iikik
ik
ik
tytt
ttyty
ty
x
,
;,
,0
1
11
1
ikx
ik
i
x
di
k
iiiik rttx 1
onde ri = # de indivíduos observados no intervalo i.
Se também há censura, fórmulas não se alteram (apenas ri será diferente).
Vamos supor agora que a censura também está sujeita a um mecanismo: Aleatório cuja taxa é constante ao longo dos mesmos intervalos Independente do mecanismo de falha (mortalidade) Inferência acima não é alterada pela independência. Normalmente, em tabelas de mortalidade, dados são fornecidos em forma grupada, isto é, só são fornecidos: di = # de mortes no intervalo i
mi = # de censuras no intervalo i Temos 3 grupos de indivíduos em cada intervalo:
i) ri – di – mi - sobrevivem ao intervalo i
ii) di - morrem no intervalo i
iii) mi - são censurados no intervalo i
Vamos supor que taxa de censura é i no intervalo i
Já vimos que verossimilhança fatora em verossimilhanças condicionais à história passada. A contribuição dada à verossimilhança do intervalo i de cada um dos 3 grupos acima dada sobrevivência até o início do intervalo é dada por:
(i) Pr (Y > ti , C > ti | Y > ti-1 , C > ti-1)
(ii) Pr (Y ti , C > Y | Y > ti-1 , C > ti-1)
(iii) Pr (Y > C , C ti | Y > ti-1 , C > ti-1)
falha
(iii) (i) ti
(ii)
ti-1 censura
ti
De fundo bi = ti – ti-1 temos:
(i) Pr(Y>ti | Y>ti-1).Pr(C>ti | C>ti-1) = exp{-bii}exp{-bii}
= exp{-bi(i+i)}
(ii)
y ic
t
t iY dcdytCcftYyfi
i11 ||
1
y iii
t
t iii dcdytctyi
i11 expexp
1
i
i
t
t iiiii dytcty1
11 expexp
iiiii
i b
exp1
iiiii
i b
exp1(iii) , por analogia a (ii)
Logo, a verossimilhança do intervalo i é dada por
( ) ( ) ( ) ( )[ ]iiiii
ii
ii
ii
iiiiiiii θ+λbexp1log{m+d+
θ+λ
θlogm+
θ+λ
λlogd+θ+λbmdr
Nenhum outro fator de verossimilhança depende de i e i
EMV de i e i podem ser obtidos a partir da verossimilhança
acima dando
e
i
iii
iii
ii r
mdr
mdb
dlog
i
iii
iii
ii r
mdr
mdb
mlog
Normalmente, é pequeno
Fazendo aproximação temos
Equivale a assumir que mortes e censuras se distribuem uniformemente nos intervalos. A probabilidade de sobrevivência a um intervalo é
e pode ser estimada por
No caso específico de uma tabela de mortalidade, n é bastante grande e a única informação é d1, d2, ..., ou seja,
número de mortos em cada intervalo.
Podemos calcular ri pois , mas xik não
são fornecidos.
Os problemáticos são os indivíduos que morrem (ou são censurados) no intervalo. Suposição: Dada a massa de indivíduos, é razoável supor que indivíduos morrem (ou são censurados) aleatoriamente no intervalo.
i
ii
r
md
2
1log2x
xx
|2 ii
i
iiii
ii rb
d
mdrb
d
iibii etYtS 1|
|iiii rdb ee
ij
ji dr
Logo, para esses indivíduos é tomada como
se não há censura
Como ri = ri+1 + di temos
onde Di = { indivíduos que morrem no intervalo i}
Si = {indivíduos que morrem após intervalo i}
A suposição acima é razoável: da é falha apenas no
intervalo 0-1 ano onde a tendência à falha é nitidamente maior perto de 0.
22intervalo
no morrem queindivíduos de #
11
1
ii
iiii tt
dttt
1111
2
iiii
iii
Sik
Dik
kik ttrt
ttdxxx
ii
111
2
iii
iii ttr
ttd
211
iiii
drtt
( )2
drtt= ii1ii
|1 iii rtt
Logo, i é usualmente estimada por
A probabilidade de sobrevivência a um intervalo é
e pode ser estimada por
Muitas vezes é pequeno. Fazendo a expansão de
Taylor em torno de 0, obtemos que é denotado por ou
e substituindo esses valores em
temos o estimador atuarial
Observe que o estimador atuarial difere do estimador PL pela troca de ri por quanto t = ti , i = 1, 2, ...
Nos outros pontos ele é contínuo e o PL é tipo escada 1
0
|1 iii
L
rtt
d
11|
iii ttii etYtS
|1 iiiii rdtt ee
|i
i
r
d
|1
|
i
ird
r
de ii
ip~ iq~1
i
jjji tYtStS
11|
i
jji ptS
1
~
3.10 O Estimador Bayesiano Quando não se assume nenhuma distribuição específica para os tempos de falha a própria Fd F ou a f.s. S torna-se o parâmetro da distribuição. Convenciona-se dizer que o problema é não paramétrico pois a dimensão do parâmetro é infinita. Temos que construir priori sobre F(t) ( ou S(t) ), t [0;) Ferguson (1973): Seja uma medida finita R+, isto é, ( [a,b] ) = c > 0, ( [a,b]A ) c e ( [0,) ) <
Ex: ( [0,) ) = 1 <
A distribuição P é um processo de Dirichlet se qualquer partição B1, ..., Bk de R+, Pr(B1), ..., Pr(Bk) tem
distribuição Dirichlet com parâmetro ((B1), ..., (Bk) )
A
udueA
kk D ,,~,, 11~
onde 1 = (A1), ..., k = (Ak)
e, portanto,
é uma amostra aleatória de um
processo de Dirichlet se:
Pr(X1A1, ..., XnAn | P(A1), ..., P(An) ) =
Pode se mostrar que
O processo de Dirichlet funciona como a priori para a distribuição amostral. Assim, por exemplo,
Logo tem densidade
e
corresponde ao valor esperado a priori para F.
k
ii
ip1
~
1)(
nXXX ,,1~
n
iiAP
1
;0
Pr 111
AAX
21;~;0Pr DttF
11 21 )(1)()( tFtFtFf
;0
;0)(
21
1
t
tFE
Se não há censura na amostra, a distribuição é conjugada e a posteriori de P também é um processo de Dirichlet com parâmetro onde:
, se é contínuo, não é mais.
Se há censura, a distribuição não é conjugada e a forma da posteriori complica. Pode-se obter a esperança a posteriori de F(t) ou S(t), t > 0
Usando essa esperança como estimador temos
yl < t yl+1
c = k, ..., m onde y1, ..., yk são as observações não-censuradas
yk+1, ..., ym são os diferentes valores das observações
censuradasck+1, ..., cm são o número de observações censuradas =
yk+1, ..., ym
r(t) = # de observações à vista em t Se não há censura,
yi-1 t yi , i = 1, ..., n
n
ii tyItt
1
)(tS
l
kj jjj
ii
cyry
yry
n
trttS
1 ;
;
;0
0;)(
n
jnttS
;0
1;)(
No caso geral, se 0, estimador PL Quando se > 0, comporta-se da seguinte forma
A(n) Abordagem completamente não paramétrica sugerida por Hill (1968) baseada na hipótese A(n): Sejam X1, ..., Xn+1 permutáveis com distribuição P.
Suponha que observa-se X1 = x1, ..., Xn = xn onde x1 < x2
< ... < xn (possível pela permutabilidade)
Sejam I(0), ..., I(n) intervalos dados por I(i) = (xi, xi+1)
onde x0 = 0 e xn+1 =
)(tS
)(tS
Então a distribuição preditiva de Xn+1 dado X1 = x1, ...,
Xn = xn dá
Eventuais empates nos xi’s podem ser separados
acrescentando pequeno a um deles
No caso de censura a situação complica pois não conhecemos todos os xi’s. Resolve-se também de uma
forma não paramétrica.
Suponha
x4 e x5 são tempos de censura.
O objetivo é calcular as probabilidades preditivas para I(0), I(1), I(2), I(3). Isso é feito considerando todos os possíveis valores (não censurados) de x4 e x5.
1
1)(Pr 1 n
iIX n
Supondo que x4 I(1) e x5 I(2) temos sob a hipótese
A(5) que a probabilidade
de I(0) é , de I(1) é , de I(2) é e de I(3) é Se supomos, por exemplo,
61
31
61
61 3
16
16
1
61
Implícito nos cálculos acima: Falha dos censurados poderia ocorrer em qualquer ponto no intervalo de censura, ou seja, o ponto de censura é trazido de volta até o início do intervalo. Ex.: x4 poderia ocorrer em qualquer ponto de I(1)
O cálculo é portanto uma aproximação (que fornece cota superior).Defina Z1, ..., ZN – tempos de falha a ser observados
Z – tempos de falha a ser previsto n < N – número de falhas observadas
– valores observados de falha yn+1, ..., yN – valores observados de censura
IEC = {Zj > yj, j = n+1, ..., N} Info. Exata de Censura
IPC = { Zj > Uj, j = n+1, ..., N} Info. Parcial de Censura
onde Ui é o maior xi | xi < yi
Ex.: No exemplo, temos x1 < y4 < x2 < y5 < x3 U4 = x1 e
U5 = x2
Ao invés de calcularmos Qi = Pr( Z I(i) | IEC, ),
i = 0, 1, ..., n calcularemos
nxxx ,,1~
Pi = Pr( Z I(i) | IPC,
Como IEC IPC, Qi = Pr( Z I(i) | IEC, IPC, ) =
Como, dado IPC, pouca informação adicional sobre IEC é fonecida por [Z I(i)] principalmente em amostras moderadas ou grandes, Qi Pi.
Para o cálculo dos Pi, define-se ci - # de observações
censuradas em I(i)
, i = 0, 1, ..., n
i = 1 / (N - (i - 1) - Ci)
Então P0 = 0 e , i = 0, 1, ...,
n-1
~x
) x IPC, |Pr(IEC
) x IPC, |IEC I(i), ZPr(
~
~
iP
) x IPC, |Pr(IEC
) I(i), Z,x IPC, |IEC Pr(
~
~
i
kki cC
0
i
jjiiP
111 1
Prova: (i = 0): Se c0 = 0, C0 = 0 e A(N) P0 = 1 / (N+1)
Se c0 0, sob IPC, essas c0 observações são
colocadas no início de I(0) e portanto não trazem nenhuma info. Podemos considerar apenas N-c0 = N-C0 observações
restantes. A(N-C0) P0 = 1 / (N-C0+1)
Sob IPC, c1 observações são colocadas no início de
I(1) e para o cálculo da parcela acima (condicional a Z > x1) não trazem nenhuma info. assim como x1.
Podemos então sob A(N – 1 – c0 – c1) = A(N – 1 – C1)
obter Pr( Z I(1) | Z > x1 , IPC, ) = 1
~x
Logo,
O mesmo raciocínio pode ser seguido e usando indução mostra-se o resultado. A substituição de IEC por IPC faz com que
i = Pr( Z I(i) | Z > xi , IPC, ) produzam cotas
superiores para Pr( Z I(i) | Z > xi , IEC, )
Observe que
Cotas inferiores podem ser obtidas se censuras são trazidas para cima. IPCI = {Zj > Uj , j = n+1, ..., N} Info. Parcial de
Censura Inferior onde Uj é o menor xi | xi > yj
Nesse caso Q0 Pr( Z I(0) | IPCI, ) ,
por A(N)
011 1 P
~x
~x
1
1
N~x
Assim como
Podemos definir Pr( Z I(i) | Z > xi , IPCI, )
Por analogia com temos que , i = 0, 1, ..., n
com C-1 = 0
Definindo então Pi = , = Pr( Z I(i) | IPCI, )
temos
Além disso,
= Pr( Z I(1) | Z > x1 , IPCI, ) Pr( Z I(1) | Z >
x1 , IEC, )
Multiplicando as duas inequações tem-se
( ) ( )i
1=j
sj
s1+i
i
1=jj1+i1+i λ1λ=λ1λ=P
Ii ~
x
si
1)1(
1
i
Ii CiN
siP I
iP~x
I1 ~
x
~x s
1
Em geral
4. MODELOS DE REGRESSÃO PARA DADOS DE CONFIABILIDADE
4.1 Introdução Até agora, itens pertencem a mesma população. Às vezes, outras variáveis afetam os tempos de falha. Exemplos: tensão, pressão, temperatura (confiabilida-de), idade, tratamento, sexo (análise de sobrevivência). Estas variáveis são chamadas covariáveis, e devem ser incorporadas ao modelo. Elas podem ser contínuas (tensão, pressão, temperatura, idade) ou discretas (tratamento, sexo). De agora em diante, analisaremos dados de falha com covariáveis (regressão). Em confiabilidade, a maioria dos modelos são baseados na distribuição Weibull. Outra opção é a lognormal: após a transformação log nos tempos de falha, podemos fazer uso da teoria normal e da regressão padrão. Em geral, prefere-se a distribuição Weibull devido a facilidade do seu uso com dados censurados e devido a forma da função taxa de falha. Propósito do estudo: determinar o quanto T é afetado por x (covariáveis). Exemplo: x – tensão; T pode decrescer com x. § 4.2 a 4.6 descrevem diferentes modelos.
§ 4.7 a 4.9 lidamos com modelos baseados na distribuição Weibull. Capítulo 5 lida com modelos de taxa de falha proporcional. Capítulo 6 lida com modelos Bayesianos dinâmicos.
4.2 Modelos de Tempo de Vida Acelerado (ALM)
Suponhamos tempos de falha sujeitos a uma carga. ALM: tempo de falha é o produto de uma função da carga e do tempo de falha padrão. Tempo de falha padrão: tempo de falha para um nível padrão de carga Pr (T t x) = S (t; x) = S0 (t x )aonde S0 é a sobrevivência básica (padrão) e x é uma função positiva de x. Quando x está no nível básico: x = 1. Para outros valores de x, tempo de falha é acelerado (multiplicado) por x. Exemplo: S0 é exponencial unidade (S0 (t) = e t ) e x = x
S (t; x) = S0 (t x ) = exp {t x
No ALM: Tyx tem distribuição básica ou log T = log
yx + log W, aonde W ~ P (não depende de x).
Uma especificação comum é log yx = xTb (similar aos modelos lineares normais). A função taxa de falha h (t; x) é
A adequação do ALM pode ser preliminarmente avaliada pelos seguintes gráficos: 1) Sendo log T = log yx + “termo de erro”, o gráfico de log T versus x deve fornecer uma indicação da forma de y. 2) Se os dados podem ser agrupados em k grupos homogêneos, os gráficos das estimativas das funções de sobrevivência versus log t devem ser cópias horizontais deslocadas de S0 quando
Sj (t) = S0 (t x) = S0 {exp (log t + log j )} = s0 (log t + log j )
3) Também no ALM com k grupos, os quantis são
proporcionais. Isto é, se qj (p) é o p-ésimo quantil do
grupo j então qj (p) j = qk (p) k porque S0 (qj (p) j) = Sj
(qj (p)) = p, j.
Os quantis 0.1, 0.2, ..., 0.9 para todos os grupos podem
ser estimados de .
t
tS
t
xtSxth x0log;log;
x h0 (t x )
Podemos fazer o gráfico dos quantis estimados para o
grupo j, j = 2, ..., k versus os do grupo 1. Os gráficos
devem ser aproximadamente lineares com inclinação
1 /j . Equivalentemente, os gráficos dos log-quantis devem ser linhas paralelas. Os gráficos também poderão ser feitos versus a média dos quantis (ao invés de versus os quantis do grupo 1).
4.3 Modelos de Taxas de Falha Proporcionais (PHM)
PHM: a taxa de falha é acelerada, isto é, h (t; x) = h0
(t) x aonde h0 é a função taxa de falha básica (padrão) e x é uma função positiva de x. Quando x está no nível básico: x = 1.
Este nome vem do fato (não depende de t). Uma especificação comum é log yx = xTb. Assim, h (t; x) = h0 (t) exp{xTb}. A função de sobrevivência é
2
1
2
1
;
;
x
x
xth
xth
S (t; x) = t dtxth0;exp = t
x dtth00
exp = xtS0
Se S (t; x) é um ALM e um PHM então
S (t; x) = Sa 0 (t y ax) =
e a única solução possível é a sobrevivência da Weibull
Sa 0 (t) = Sp 0 (t) = exp {t h } com .
Gráficos preliminares podem novamente serem feitos
depois da separação dos dados em k grupos.
Assim, temos que
log Sj (t) = y j log S0 (t) ou log {log S j (t)} = log y j +
log {log S0 (t)}
e os gráficos de devem ser múltiplos mutuamente na
escala log ou devem ser cópias verticais deslocadas de
cada um na escala log-log.
4.4 Modelos de Razão de Chances Proporcionais (POM)
POM: a função taxa de falha satisfaz
Após diferenciar em relação a t,
A razão taxa de falha é x quando t = 0 e tende a 1 quando t .
pxtS p
0
axpx
jS
tS
tS
xtS
xtSx
0
01
;
;1
tS
xtS
tS
xtS
th
xthx
000 1
;1;;
ocorre diminuição do efeito de x na taxa de falha a
medida que o tempo cresce.
Avaliações preliminares podem ser feitas baseadas nos
gráficos .
4.5 Generalizações
A relação PHM log {log S j (t)} = log j + log {log S0 (t)} pode ser generalizada como
1 {log S j (t)} = g 1 (j ) + 1 {log S0 (t)}. Isto inclui o POM como o caso especial: 1 (u) = log {(1 u) / u}. A relação ALM log q j = log q 0 log ( j / 0) pode ser generalizada como 2 (q j ) = 2 (q 0) g 2 ( j / 0). Outras generalizações são: 1) ALM generalizado aonde y x também depende de t.
2) PHM generalizado aonde aonde s (l ) é a família
Box-Cox de transformações em s.
3) Modelo de deslocamento no tempo: h (t; x) = h0 (t +
yx) – taxa de falha de ação atrasada.
4) Modelo de taxa de falha polinomial: h (t; x) = y 0x +
y 1x t + ... + y qx t q.
5) Modelo de taxa de falha por partes: h (t; x) = h i (t;
x), para t I i, i = 1, ..., N.
jj SS ˆˆ1
6) Covariáveis dependentes do tempo: x pode depender do tempo em alguns casos.
4.6 Modelos Bayesianos dinâmicos (DMB) (cf Gamerman, 1991)
DMB combina modelos de taxas de falha proporcionais (PHM) com distribuição exponencial por partes (similar ao modelo de taxa de falha por partes). Do PHM, temos que h (t; x) = h0 (t) y x. Assuma que h0 (t) = exp {b i, 0}, t I i. Também, generalize y x para y i, x, para que dependa de t. Uma especificação comum é y i, x = exp {xTb i}. O modelo pode ser escrito como h (t; x) = exp {xTb i}, aonde b i agora inclui uma primeira componente b i, 0 e xT agora inclui uma primeira componente 1. O modelo é completado com a relação entre os parâmetros em intervalos sucessivos, como em § 3.8.
b i = G i b i1 + w i aonde E(w i) = 0 e Var (w i) = Wi. A matriz evolução G i fixa a parte determinística da evolução e o termo de erro w i controla o aumento na incerteza a medida que o tempo passa. Exemplos: 1) G i = I, é a matriz identidade (passeio aleatório simples);
2) G i = diag (1, G i 1) aonde
(modelo de crescimento generalizado). A variância pode novamente ser especificada através dos fatores de desconto. Pode ter uma para cada parâmetro mas o mais comum é ter uma para o parâmetro de base b i, 0 e uma para os coeficientes de regressão. Geralmente, esta última é próxima a 1 (se 1, o modelo se torna PHM). Se não há presença de covariáveis, o modelo se torna o mesmo de § 3.8.
10
)(11
ii
ItamanhoG
4.7 Modelos Baseados na Distribuição Weibull
O Modelo de Regressão Weibull pode ser escrito como:
Pode, também, ser escrito como:
x
txtS exp; onde T
x xlog
}exp{)(0ttS
)(; 0 axtSxtS ondex
ax 1
ALM
pxtS )(0 onde
xpx
1 PHM
WT x 1
loglog
Sabemos que W ~ Gumbel e ainda que é somente um fator escala, mas também pode ser dependente de x.
Estimação e Testes
Regressão Linear Simples:
Estimador de Mínimos Quadrados pode ser usado.Procedimento similar pode ser usado para regressões múltiplas.Mais formalmente, o Estimador de Máxima Verossimilhança pode ser calculado como no capítulo 3: parâmetros são estimados, variâncias assintóticas obtidas e testes de hipóteses calculados via Teste da Razão de Máxima Verossimilhança.
Esses cálculos podem ser manuseados por GLIM.
Plot de ResíduosPPplot pode ser usado como em 3.5
Os dados transformados convergem para uma amostra de variáveis aleatórias U(0,1).Os ui’s são chamados resíduos generalizados.Também, zi = log(-log ui) tem distribuição Gumbel.Um plot de probabilidade pode ser construído como segue:
onde: w
w
xx
eeTwT
wW
expPrlogPr)Pr(
xx 10log
,; iii xtSu
• Ordene os zi’s em zi:n, ..., zn:n
• Faça o gráfico zi:n contra log{- log(1-pi:n)} onde pi:n é:
Dados não censurados
• Checar se o gráfico é da forma y=x
Resíduos generalizados são também proveitosos quando plotados contra covariáveis (ver 4.8)
n
iou
n
5.01
Jjij jn
jn
n
n
, 5.1
5.05.01 Dados censurados
4.8 Um Exemplo: Resistências de Fibras de Carbono e Pacotes
Dados das tabelas 4.1 e 4.2 são analisados.
2,247 2,640 2,842 2,908 3,099 3,126 3,245 3,328 3,355 3,383 3,572 3,581 3,6813,726 3,727 3,728 3,783 3,785 3,786 3,896 3,912 3,964 4,050 4,063 4,082 4,3114,118 4,141 4,216 4,251 4,262 4,326 4,402 4,457 4,466 4,519 4,542 4,555 4,6844,632 4,634 4,636 4,678 4,698 4,738 4,832 4,924 5,043 5,099 5,134 5,359 5,4735,571 5,684 5,721 5,998 6,060
1,901 2,132 2,203 2,228 2,257 2,350 2,361 2,396 2,397 2,445 2,454 2,454 2,4842,518 2,522 2,525 2,532 2,575 2,614 2,616 2,618 2,624 2,659 2,675 2,738 2,7402,856 2,917 2,928 2,937 2,937 2,977 2,996 3,030 3,125 3,139 3,145 3,220 3,2233,235 3,243 3,264 3,272 3,294 3,332 3,346 3,377 3,408 3,435 3,493 3,501 3,5373,554 3,562 3,628 3,852 3,871 3,886 3,971 4,024 4,027 4,225 4,395 5,020
1,312 1,314 1,479 1,552 1,700 1,803 1,861 1,865 1,944 1,958 1,966 1,997 2,0862,021 2,027 2,055 2,063 2,098 2,140 2,179 2,224 2,240 2,253 2,270 2,272 2,2742,301 2,301 2,339 2,359 2,382 2,382 2,426 2,434 2,435 2,478 2,490 2,511 2,5142,535 2,554 2,566 2,570 2,586 2,629 2,633 2,642 2,648 2,684 2,697 2,726 2,7702,773 2,800 2,809 2,818 2,821 2,848 2,880 2,954 3,012 3,067 3,084 3,090 3,0963,128 3,233 3,433 3,585 3,585
1,339 1,434 1,549 1,574 1,589 1,613 1,746 1,753 1,764 1,807 1,812 1,84 1,8521,852 1,862 1,864 1,931 1,952 1,974 2,019 2,051 2,055 2,058 2,088 2,125 2,1622,171 2,172 2,18 2,194 2,211 2,27 2,272 2,28 2,299 2,308 2,335 2,349 2,3562,386 2,39 2,41 2,43 2,431 2,458 2,471 2,497 2,514 2,558 2,577 2,593 2,6012,604 2,62 2,633 2,67 2,682 2,699 2,705 2,735 2,785 2,785 3,02 3,042 3,1163,174
(d) Length 50mm
Tabela 4.1(a) Length 1mm
(b) Length 10mm
(c) Length 20mm
2,526 2,546 2,628 2,628 2,669 2,669 2,710 2,731 2,731 2,731 2,752 2,752 2,7932,834 2,834 2,854 2,875 2,875 2,895 2,916 2,916 2,957 2,977 2,998 3,060 3,0603,060 3,080
2,485 2,526 2,546 2,546 2,567 2,628 2,649 2,669 2,710 2,731 2,752 2,772 2,7932,793 2,813 2,813 2,854 2,854 2,854 2,895 2,916 2,936 2,936 2,957 2,957 3,0183,039 3,039 3,039 3,080
2,110 2,260 2,340 2,440 2,510 2,510 2,570 2,570 2,610 2,610 2,610 2,650 2,6702,710 2,710 2,710 2,750 2,750 2,750 2,750 2,770 2,770 2,790 2,830 2,830 2,8302,870 2,870 2,900 2,900 2,920 2,940
1,889 2,115 2,177 2,259 2,279 2,320 2,341 2,341 2,382 2,382 2,402 2,443 2,4642,485 2,505 2,505 2,526 2,587 2,608 2,649 2,669 2,690 2,690 2,710 2,751 2,7512,854 2,854 2,875
(c) Length 150mm
(d) Length 300mm
Tabela 4.2(a) Length 20mm
(b) Length 50mm
Sob ALM, a distribuição de logT:
1) Variam em locação de um pro outro.2) Tem a mesma variância.
Variância amostral dos dados da tabela 4.1são: 0.042, 0.040, 0.045 e 0.037 => estaticamente equivalentes
figura 4.1 é o gráfico 2 da seção 4.2: variação horizontal.
Figuras 4.2e 4.3: linear (particularmente na figura 4.3).Gráficos de contra log t deve ser:
•Cópias verticais da mesma curva, sob PHM;•Linhas paralelas, sob modelo de regressão Weibull (ver seção 4.7)
figura 4.4 mostra gráfico de contra log t para dados da tabela 4.1com linhasWeibull (ajuste por Máxima Verossimilhança separadamente em cada amostra).
Figura 4.6 mostra o mesmo gráfico para os dados da tabela 4.2
Sob POM, devem ser cópias verticais uma da outra (ver figura 4.5)
))ˆlog(log( jS
))ˆlog(log( jS
Agora, nesta Seção, vamos nos concentrar em Weakest Link Hypotesis:
onde Sr é a função de sobrevivência para fibra de comprimento r.
WLH pode ser implementada nos seguintes modelos Weibull:
M1 – como em M0 mas com
M2 – como em M1 mas com
(modelo log-linear no parâmetro escala da distribuição Gumbel);
M3 – distribuição Weibull separada para cada comprimento.
LL tStSWLH )]([)(: 1
LL t
t
t
tLtSM expexp)(
10 onde
1
1
LttL
10,1
LttL
Llogloglog 1
A função de verossimilhança pode ser obtida para cada modelo e na maioria dos casos, maximizá-la não é difícil. Os valores maximizados da função log-verossimilhaça são:
l0 = -229.1 (2 parâmetros)l1 = -227.7 (3 parâmetros)l2 = -227.6 (4 parâmetros)l3 = -220.1 (8 parâmetros)
Teste de hipótese H1: =1 é calculado via estatística de razão de verossimilhança:
é aceita.
(O Estimador de Máxima Verossimilhança sob M1 é 0.90)
Dados da tabela 4.2: valores maximizados da log-verossimilhança são:
84.3)23(8.24.12)(2 205.0011 xllW
1H
l0 = 21.8 (2 parâmetros)l1 = 29.6 (3 parâmetros)l2 = 31.5 (4 parâmetros)l3 = 35.8 (8 parâmetros)
Teste de H1 agora tem W1 = 15.6 > 3.84 => M0 rejeitado
O Estimador de Máxima Verossimilhança de sob M1 é 0.58
WLH não necessariamente implica modelo Weibull
PHM também é possível.
4.9 Análise Bayesiana de Dados de Confiança
Como mencionado anteriormente, as análises de grande amostra de máximo verossimilhança oferecem resultados similares à análise bayesiana com vaga informação a priori.
Exemplo: A estimativa de máximo verossimilhança 0,58 de ξ para os dados da tabela 4.2 é uma aproximação da média da posteriori de ξ.
Os testes de níveis de significância não possuem complemento bayesiano.
O teste de hipótese bayesiano pode ser feito da seguinte maneira:
1) Constrói-se a região de máxima densidade a posteriori 100(1-α)% do parâmetro de interesse (ξ, no exemplo anteriormente citado);
2) Observa-se se esta região contém o valor do parâmetro especificado por H (1, no exemplo anterior);
3) Aceita-se H se este for o caso ou rejeita-se H, caso contrário.
Também, para grandes amostras, a razão de máxima posteriori pode ser aproximada pela razão de máxima verossimilhança, se a priori for vaga.
Exemplo: Considere os dados da tabela 6.1 do modelo Weibull.
onde W ~ GumbelWatemperaturt 2/11)2.273(log
5. TAXA DE FALHA PROPORCIONAL
5.1 Introdução
Baseada no documento de Cox (1972).
Concentrada em análise de sobrevivência em vez de confiança.
O modelo linear de taxa de falha proporcional assume que
Cada variável x afeta a taxa de falha, oscilando para cima e para baixo.
A análise depende das pressuposições dos parâmetros feitos em h0.
Se a taxa de falha de base acumulada , então:
onde y=logG(t).
}exp{)();( 0 Txthxth
)]([);(0 tGtH
)}exp()(exp{);( 0 TxtHxtS
)}exp()]([exp{ TxtG
)}logexp(exp{ Txy
Segue que z = ηy + log α + xT β ~ Gumbel e
y = -η-1 log α – xT(-η-1 β) + η-1z
sendo que esta é a fórmula do modelo log-linear de regressão da Weibull.
Pode-se usar outras fórmulas para h0 e a que possuir o
melhor ajuste, pode então, ser utilizada.
5.2 Análise do Modelo Semiparamétrico de Taxa de Falha Proporcional
De agora em diante, h0 não será especificado.
Assume-se n itens, r tempos de falha distintos e Ri é o
conjunto de risco, ou seja, o grupo de itens que tem chances de falhar um pouco antes de t(i).
β é estimado pela função de verossimilhança:
r
iRl
Tl
Ti
i
x
xL
1 )(
)(
)exp(
)exp()(
Há muitas justificativas para a verossimilhança acima:
1) Cox (1972) originalmente considerou análises condicionais dos tempos de falha . A probabilidade condicional do item (i) falhar dado que conhecemos as falhas anteriores é:
A verossimilhança é formada pelo produto das probabilidades condicionais.
(Basicamente, usa-se )
2) Também, é obtida por Kalbfleisch & Prentice (1973) como a verossimilhança
marginal de β baseada nos postos das observações.
Se L(β ) é tratado como a verossimilhança, então a teoria da máximo verossimilhança pode ser aplicada:
i) O estimador de máximo verossimilhança é obtido maximizando L(β );
ii) Sua variância assintótica é obtida pela 2ª derivada de l(β). Computacionalmente:
Primeiro, calcula-se ;
ii Rl
Tl
Ti
Rlll
ii
x
x
xth
xth
)exp(
)exp(
);(
);(
)(
)(
)()(
)()(
r
iiir AAAAA
1111 ),...,Pr(),...,Pr(
)exp( Tl x
Então, acumula-se o decréscimo dos tempos de falha pra obter , i = 1,...r.
L(β ) é formado pelo produto dos termos λ(i)/ci.
O log de verossimilhança e suas derivadas são:
Onde
e
A maximização numérica é usada para obter .
Há pacotes computacionais que podem nos auxiliar, por exemplo, o R.
Observações Empatadas:
Dados empatados complicam os cálculos da verossimilhança.
iRl
lic
r
ii
Ti cxl
1)( )log()(
r
iii vx
d
dl
1)( )(
)(
r
i
Tiii vvA
d
ld
12
2
)()(
iRl
lli
i xc
v 1
iRl
Tlll
ii xx
cA 1
Uma aproximação razoável neste caso é:
Onde di é o número de tempos que falham em t(i) e s(i) é
a soma das covariâncias que dependem destes tempos.
A aproximação é boa se di /n(i) for pequeno.
As covariâncias que dependem dos tempos são substituídas de x(l) por x(l) (t(i)).
5.3 Estimação de Sobrevivência e Função de Taxa de Falha
A taxa de sobrevivência de base é obtida por um método não paramétrico junto com o estimador do produto limite, como:
onde
Também, o estimador de H0 é dado por .
Os métodos do capítulo 3 podem ser aplicados aqui para verificar as formas paramétricas para S0 .
r
iRl
dTl
Ti
i
ix
sL
1 )( )]exp([
)exp()(
ttj
Rll
j
j
i
)(:^
^
)1(
)exp(^^
ll x
)(log)(^
0
^
0 tStH
5.4 Métodos de Verificação
As suposições da taxa de falha proporcional podem ser verificadas
pelos dados e modelos de ajuste:
Depois do ajuste, o gráfico do log vs. t deve ter paralelas verticais.
O resíduo pode ser definido por um item não censurado como:
e por um item censurado, e deve ser somado por 1.
Se os resíduos se comportam como amostras de uma distribuição exponencial de média 1, o ajuste é adequado.
Deve-se ter cautela, pois os resíduos podem estar adequados mesmo quando a taxa de falha proporcional não estiver.
Também, o gráfico dos resíduos vs. as variáveis pode não se encaixar no modelo.
)exp()();( 0 Tjj xthxth
)exp()(^^
0 TxtHe
5.5 Exemplos Numéricos Tabela 4.3 contem dados de falha sob stress Figura 4.7 indica a influencia da taxa de stress na falha h(t;x) = h0(t)em(x) para alguma função m de x caso m(x)= -β log x ,temos que β^ =0,2069 com erro padrão assintótico = 0,0457 => forte efeito da taxa de stress Figura 5.1 mostra um gráfico de log^H0(t) vs log t
indicando Weibull A checagem da hipótese de modelo de taxas proporcionais é feita segundo estratificação sugerida em §5.4 Isto leva ao gráfico na Figura 5.2 (paralelismo vertical= OK) Checagem da linearidade em log x é feita através de um estimador não paramétrico dos efeitos de x
onde zj(x) é um indicador de que x está no nível j.Este modelo não é estimável (uma constante pode sempre ser adicionada ao αj)
5
1ijj xzxm
Mas se torna estimável ao se impor uma restrição (Σαj
=0 ou αk =0, para algum k)
O valor maximizado de l é –177,00 em oposição a-178,19 sob o modelo linear.W = 2 (-177,00+178,19) = 2,38 < 7,81 = χ2
0,05(4-1) => modelo linear aceito
Tabela 4.4 contem dados de tempo de falha de fibras Figura 4.8 contem PH plots para diferentes níveis de stress. Dando indicação de que o efeito dos lotes nos tempos de falha do modelo proposto é
onde S é o nível de stress e zj é o indicador do lote j , j = 1,..,7
7
10 logexp;
ijj zSthxth
Tabela 4.3 Teste de força em bilhas de liga de Tungstênio
0,1 1676 2213 2283 2297 2320 2412 2491 2527 2599 2693 2804 28611 1895 1908 2178 2299 2381 2422 2441 2458 2476 2528 2560 297010 2271 2357 2458 2536 2705 2783 2790 2827 2837 2875 2887 2899100 1997 2068 2076 2325 2384 2752 2799 2845 2899 2922 3098 31621000 2540 2544 2606 2690 2863 3007 3024 3068 3126 3156 3176 3685
Coluna 1: Taxa de Stress em MNm-2seg-1 ; Colunas 2-13: Tempo de falha
Figura 4.7 Plot da Weibull para dados de tungestênio, com linhas ajustadas pela Weibull
Figura 5.1
*
*
***
**
**
**
7.4 7.5 7.6 7.7 7.8 7.9 8.0
-3-2
-10
1
Log do tempo de falha sob as taxas de stress 0.1(*),1(+),10(-),100(x),1000(o)
Lo
g(lo
g(p
rob
ab
ilid
ad
e d
e s
ob
reviv
ência
))
+
-
-
--
---
----
x
x
xx
xx
xx
xx
o
o
oo
ooo
o
*
****
* ** * **
7.4 7.6 7.8 8.0 8.2
-4-3
-2-1
01
2
Log do tempo de falha sob as taxas de stress 0.1(*),1(+),10(-),100(x),1000(o)
log
(Fun
ção
de
taxa
de
falh
a a
cum
ula
da
)
+
-
--
--
------
x
xx
xx
xxxxxx
o
oo
oo
ooooo
o
Figura 5.2
Procedimentos iterativos funcionarão melhor caso iniciem com bons valores iniciais. Estes podem ser obtidos através da MV com Weibull ou por mínimos quadrados.γ^ =32,586 com erro padrão assintótico igual a 3,097 => forte efeito da taxa de stress. O teste para efeito do lote é baseado na Razão de MV entre M0: não há efeito do lote e M1: existe efeito do lote A maximização das log verossimilhanças são –320,119 e –261,775 que nos trazemW =2(-261,775+320119)=116,69 >> χ2
α(7)=> o efeito do
lote é significante.
xx x xx
xx xxxxxxx
xxxxxxxxxxxxxx
xx xxxxxxxxxxxxxxx
xxxxxxxxxxx
7.6 7.8 8.0 8.2
-4-3
-2-1
01
23
log(tempo de falha)
log(
Fun
ção
de ta
xa d
e fa
lha
acum
ulad
a)
A hipótese de modelo de taxas proporcionais é testada pela estratificação dos dados através dos lotes. A figura 5.3 mostra o gráfico do log^Hj aproximado
por PH A figura 5.4 mostra o gráfico do log^H0 vs log t , onde
linearidade indica Weibull Também é possível investigar a interação entre o stress e os lotes. Isto é feito através da inclusão de 7 covariáveis zj log S no modelo
A maximização da log-verossimilhança é –259,241 com W=5,07 (não significante)
Ajustando uma linha reta na figura 5.4 teremos log^H0(t)= -11,19 + 1,533logtEH^j(T)=15,296T1,533S32,586eα^j , j = 1,...,8 (α8 = 0)
Exemplo : o tempo médio de falha previsto para S= 23,4 e j = 4 é T = 7,4 anos.
Tabela 4.4 Dados de Falha de fibra de Kevlar
Stress Lote Tempo Stress Lote Tempo Stress Lote Tempo Stress Lote Tempo29,7 2 2,2 29,7 5 243,9 27,6 2 694,1 25,5 1 11.487,329,7 7 4,0 29,7 4 254,1 27,6 4 876,7 25,5 5 11.727,129,7 7 4,0 29,7 1 444,4 27,6 1 930,4 25,5 4 13.501,329,7 7 4,6 29,7 8 590,4 27,6 6 1.254,9 25,5 1 14.032,029,7 7 6,1 29,7 8 638,2 27,6 4 1.275,6 25,5 4 29.808,029,7 6 6,7 29,7 1 755,2 27,6 4 1.536,8 25,5 1 31.008,029,7 7 7,9 29,7 1 952,2 27,6 1 1.755,5 23,4 7 4.000,029,7 5 8,3 29,7 1 1.108,2 27,6 8 2.046,2 23,4 7 5.376,029,7 2 8,5 29,7 4 1.148,5 27,6 4 6.177,5 23,4 6 7.320,029,7 2 9,1 29,7 4 1.569,3 25,5 6 225,2 23,4 3 8.616,029,7 2 10,2 29,7 4 1.750,6 25,5 7 503,6 23,4 5 9.120,029,7 3 12,5 29,7 4 1.802,1 25,5 3 1.087,7 23,4 2 14.400,029,7 5 13,3 27,6 3 19,1 25,5 2 1.134,3 23,4 6 16.104,029,7 7 14,0 27,6 3 24,3 25,5 2 1.824,3 23,4 5 20.231,029,7 3 14,6 27,6 3 69,8 25,5 2 1.920,1 23,4 6 20.233,029,7 6 15,0 27,6 2 71,2 25,5 2 2.383,0 23,4 5 35.880,029,7 3 18,7 27,6 3 136,0 25,5 3 2.442,5 23,4 1 41.000,029,7 2 22,1 27,6 2 199,1 25,5 8 2.974,6 23,4 1 41.000,029,7 7 45,9 27,6 2 403,7 25,5 2 3.708,9 23,4 1 41.000,029,7 2 55,4 27,6 2 432,2 25,5 8 4.908,9 23,4 1 41.000,029,7 7 61,2 27,6 1 453,4 25,5 2 5.556,0 23,4 4 41.000,029,7 5 87,5 27,6 2 514,1 25,5 6 6.271,1 23,4 4 41.000,029,7 8 98,2 27,6 6 514,2 25,5 8 7.332,0 23,4 4 41.000,029,7 3 101,0 27,6 6 541,6 25,5 8 7.918,7 23,4 4 41.000,029,7 2 111,4 27,6 2 544,9 25,5 6 7.996,0 23,4 8 41.000,029,7 6 144,0 27,6 8 554,2 25,5 8 9.240,3 23,4 8 41.000,029,7 2 158,0 27,6 1 664,5 25,5 8 9.973,0 23,4 8 41.000,0
Stress em Mpa; Numero do lote; Tempo de falha em horas(* caso dado censurado)
Figura 4.8 plot da Weibull para dados de fibra de Kevlar sob pressão , com linhas ajustadas pela Weibull
Figura 5.3 Log da função de taxa de falha acumulada para dados da fibra de Kevlar: modelo estratificado . Lotes 1-8
+
++++
+++++
+++++++ +++ ++++
++ ++ +++++++++
2 4 6 8 10 12
-5-4
-3-2
-10
1
Log do tempo de falha nos níveis de stress 29.7(+),27.6(-),25.5(x),23.4(o)
Lo
g(-
log
(pro
ba
bili
da
de
de
so
bre
vivê
ncia
))
-
--- - - --
-------- -- --
---
x
xxx xx
xxxxxxx
xxxxxxxxx x
o
oooo
oooo
o
11
1111
1 1 11 1
0 2 4 6 8 10 12
-6-4
-20
24
log(tempo de falha)
log
(Funçã
o d
e ta
xa d
e fa
lha
acum
ula
da
)
2222
2 2 2 2 22 22222 2 222 2 2
33
333 3 3 3 3
3
44
4444
444 4 4
55
55
55
5
66
66 66
6 666 6
77
7 7 7 7 7 77
8888
8 8 8 8888
Figura 5.4 Log da Log da função de taxa de falha acumulada para dados da fibra de Kevlar
Em geral:
i = 0, 1, ..., n-2
o
oo o
o oooo
o ooooo oo oo o oo oo o ooo ooo o ooo oooooooooo
ooooo ooo oooooo oo oooooo oo o oo ooooo oooooooo oo ooo o oo oo o
0 2 4 6 8 10 12
-10
-50
5
log(tempo de falha)
log
(Funçã
o d
e ta
xa d
e fa
lha
acum
ula
da
)
6. MODELOS BAYESIANOS DINÂMICOS
6.1 Introdução
Os modelos PH (Proportional Harzard Model) são razoáveis em alguns casos, porem muitas as vezes modelos mais genéricos são requeridos.
Os enfoques utilizados são :
1 - Parametrização das mudanças entre as faixas de estimação. Exemplo :
2 - Estimação independente por partes em cada intervalo.
O primeiro enfoque exige uma suposição forte em torno dos dados enquanto o segundo não exige nada ,porem as informações contidas nos intervalos anteriores são desconsideradas.
Modelos dinâmicos permite mapearmos as mudanças entre as diferentes faixas sem a necessidade de fortes suposições e permitindo que os dados orientem a direção do modelo.
kte 0
Modelos dinâmicos provem uma abordagem para os modelos de PHM.
6.2 Elementos do Modelo
Distribuição Exponencial por Partes
A Distribuição Exponencial por Partes é usada para tempo de falha baseada na função de densidade Harzard :
, onde o primeiro componente (baseline) e o primeiro componente .
Fatorização Temporal da verossimilhança
Os dados podem ser divididos ao longo do mesmo intervalo Ii . Cada intervalo prove a verossimilhança baseado na condicional das informações obtidos do intervalo anterior.
iTx
i exth );( ..2,1, iIt i
0,ii BB 1tx
Esta é a verossimilhança do intervalo Ii condicionado em Di-1,F(Ii) é o conjunto de itens que falharam no intervalo Ii ,R(Ii) é o conjunto de itens que estavam em risco antes Ii mais não falharam em Ii eL é o conjunto de parâmetros
6.3 Desenvolvendo a Análise
Evolução Paramétrica
Como descrito em 4.6, parâmetros sucessivos podem ser calculados via
N
Iiiq
N
Iiwi
N
Ii
DtSDtpL
onde
LLTFL
11
11
1
),|(),|(
:
WbW
e
Itamanhobi
WwVar
wE
onde
wGi
ii
i
ii
i
iiii
)(
)(
0)(
,
)( 1
O valor de W indica o potencial de mudança dos b´s por unidade de tempo.
W 0 conduz ao um modelo estático.W-1 0 grande potencial de mudança conduzindo a modelos independentes.
Assume-se que : (especificação parcial)
A priori para o intervalo Ii é onde
Novamente, o valor de Wi (ou W) podem ser definidos como fatores de desconto.
Verossimilhança e Atualização
A verossimilhança Li pode ser escrita como :
],[~| 11 iiii CmD
],[~| 1 iiii PD
iiT
iiii
iii
WbGCbGP
mbGi
)()(
)(
1
1
i
i
iiqq
i
i
iww
i
r
jij
IRq
tt
IFw
ttwi LeeLi
1)(
))((
)(
))(()( 1)(
1)(
Onde
Onde é o valor constante da hazard para o item s em Ii , ri é o numero do item em Iidij é o indicador de falha para o item em j ,tij é o tempo de sobrevivência do indivíduo j em Ii .
Uma analise baysiana completa envolve a especificação da prior para até a integração numérica de cada intervalo Ii , alternativamente, especificações parciais podem ser utilizadas. A atualização é efetuada em ciclos através dos intervalos e dentro de cada intervalo através de seus itens. O calculo envolvendo esta analise esta especificado abaixo:
))(()(
1)(
))((
)(
))(()(
1)(
1)(
1)(
][
iijj
iij
i
i
iiqq
i
i
iww
i
ttjiij
r
jij
IRq
tt
IFw
ttwi
eL
LeeLi
)()( T
sxsi e
oD|1
1,1~
| jii D
ijj
i ZRG ~
)(log:..
1,1)( | ji
ji D
ijl
jij
i D ,1)( |
jii D ,1~
| 1 jj
jij
ii D ,1)(
~
,|
LINEAR BAYES
MEDIAi
SAIDA
Passo 1 : Dado obtemos :
Passo 2 : Aproximar por uma Gamma utilizando os dados do Passo 1. Parâmetros e ;
Passo 3 : Atualizar, usando a informação do Lij para ;
Passo 4 : Use os métodos lineares de bayes e a relação entre e para obter
Passo 5 : Defina ai,j+1 = mij e Pi,j+1=Cij e repita os passo anteriores;
Passo 6 : Quando j=rij , todos os itens Li tem sido processado. Evolui para o próximo intervalo.
],[~| 1;1 ijijjii CD
;
,
],[~|log 1,1)(
jijT
jij
ijT
jij
ijijjij
i
xCxq
axf
onde
qfD
1,1)( | ji
ji D
1)( ijij q )(1)( ijfij eqij
],[~| 1,1)(
iijijijijjij
i ttGD
)(log ji i
];,[~| ,1~
ijijjii CmD
O procedimento acima tem como resultado a especificação parcial da distribuição :
Este procedimento continua ate In , o ultimo intervalo com informações.
Smoothing É mais conveniente trabalhar com a distribuição de
Ela gera resultados mais precisos e é utilizada na predição.Existem distribuições Smoothing obtidas via algoritmos recursivos.
Com valores iniciais
,...;2,1,|~
iDii
.,..,1,|~
NiDNi
iiTii
Niiii
Tiii
Ni
iNiii
Tiii
Ni
Ni
Nini
CbGPCPPbGCCC
amPbGCmm
então
CmD
)()()(
)()(
],[~|
11111
111
11111
~
NNN mm N
NN CC
6.4 Predição de Ocorrências Futuras
Dois casos devem ser considerados :
1) Predição dos itens que sobraram e ainda não falharam 2) Predição de novos itens.Para o caso 2, a distribuição de sobrevivência predita é S(W\DN) onde ,
O fato acima pode ser obtido da seguinte forma :
Obtido de
Aproximados pela distribuição de .
i
i
jNjjNiN
Iw
com
DtWtSDtWwSDWS
1
111 ),|(),|()|(
0 1
))((
0 111
),|(
),|(),,|(),|(
1kNkk
tw
kNkkNkkNi
dDtWpe
dDtWpDtWwSDtWwS
kk
),|( 1 Nkk DtWp ),|( 1 Nkk DtWp
Nk D|
Se então,
Cálculos parecidos são utilizados para a distribuição preditora a posteriori .
Devemos verificar se a especificação da priori e razoável.
6.5 Ilustrações
Exemplo 1 : Dados de 90 pacientes com câncer gástrico divididos em dois grupos de tratamento : Quimioterapia e Radioterapia / somente quimioterapia.
PHM ajustado com 2 covariáveis : x1 - Indicador de tratamento e x2=x1*t. Isto é equivalente a assumir um modelo de regressão com os coeficientes .
Os estimadores MLE são :
),(~| kkNk GD
i
i
j i
i
i
iN
Iw
btwDwS ii
1
1
)1()1()|(
)|( 0DwS
t211
2711.1^
1 0794.0^
2
Os estimadores MLE são :
Analises dinâmicas foram feitas com :
1 - Priori Vaga
2 - dados obtidos pelos tempos observados de falha.
3 - evolução do erro da variância , dado por :
Para a variação foi utilizado um crescimento linear com em 4.6 .
Figura 1 mostra as estimativas do coeficiente de regressão.
2711.1^
1 0794.0^
2
];10,0[~| 23
01 ID
0016.00
00biWi
1
Figura 2 mostra a curva de sobrevivência predita.
Figura 3 mostra estimativas para as taxas de mudança de .
Exemplo 2 : Dados de 300 desempregados que foram acompanhados durante um ano na Inglaterra. Esta é uma amostra de um grande estudo feito por Germerman e West (1987). As covariáveis selecionadas são x1 ~ idade e x2 ~ faixa de renda.Analises dinâmicas foram feitas com :
1 - Priori
2 - Intervalos Semanais;
3 - Evolução do erro da variância Wi=7*diag(10-2,10-5,10-3).
1
)];)025.0(,)0125.0(,1(,)25.0,025.0,1[(~| 2201 diagD T
Figura 4 mostra preposteriori par 4 hipotéticos indivíduos.
Figura 5 mostra estimativas paramétricas(priori estava muito forte).
Figura 6 mostra predição para os mesmos 4 indivíduos.
top related