mtbf - meam time between failure

35
Tolerância a Falhas: medidas Taisy Silva Weber 2005

Upload: lkosby

Post on 25-Jul-2015

198 views

Category:

Documents


24 download

DESCRIPTION

Análise de falhas

TRANSCRIPT

Page 1: MTBF - Meam Time Between Failure

Tolerância a Falhas:medidas

Taisy Silva Weber2005

Page 2: MTBF - Meam Time Between Failure

Taisy Weber 2

Medidas

taxa de defeitoscurva da banheiratempos médios (mean times)

MTTF, MTBF, MTTRexemplos de cálculo de tempos médios

confiabilidadedisponibilidadecobertura Barry Johnson,

cap. 1, livro-texto Pradhan96

Page 3: MTBF - Meam Time Between Failure

Taisy Weber 3

Comportamento ideal x real

ideal

real

t0 ttempo de vida

sem a ocorrência de qualquer defeito

reparo

t0 ttempo de vida

defeito

Page 4: MTBF - Meam Time Between Failure

Taisy Weber 4

O que medir?

t0 treparoreparo

funcionamentofuncionamento funcionamento

tempo entre 2 defeitostempo até o primeiro defeito

com que freqüência ocorrem defeitos?qual o tempo entre um defeito e outro?qual o tempo até o primeiro defeito?qual o tempo gasto para reparar cada defeito?quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo?quais as chances do sistema estar funcionando em um determinado instante?

Page 5: MTBF - Meam Time Between Failure

Taisy Weber 5

Taxa de defeitos

número esperado de defeitos em umdado período de tempo (failure rate)

com que freqüência ocorrem defeitos?

taxa de defeitosgeralmente assumido valor constantena verdade não é constanteboa aproximação: curva da banheira

unidade:defeitos por unidade de tempo

função:z(t) - hazard function, hazard rate ou taxa de defeitos

Page 6: MTBF - Meam Time Between Failure

Taisy Weber 6

Curva da banheirafases de mortalidade infantil e envelhecimento muito pequenas comparadas ao período de vida útil

fase de envelhecimento

mortali-dadeinfantil

período de vida útil

taxa de defeitos(defeitos por unidade de tempo)

tempo

taxa de defeitosconstante

válido para hardware

Page 7: MTBF - Meam Time Between Failure

Taisy Weber 7

Mortalidade infantil

alta taxa de defeitos que diminui rapidamente no tempo

componentes fracos e mal fabricados

burn-in: remoção de componentes fracosoperação acelerada de componentes antes de colocá-los no produto finalsó entram em operação componentes que sobreviveram à mortalidade infantil

mortalidade infantil é uma fase de curto período de duração

Page 8: MTBF - Meam Time Between Failure

Taisy Weber 8

Envelhecimento

taxa de defeitos aumenta rapidamente com o tempo

devido ao desgaste físico do componenteconhecendo o início da fase de envelhecimento é possível substituir o componente

sistema volta a operar na fase de vida útil

envelhecimento é também uma fase de curto período de duração ideal é evitá-la

Page 9: MTBF - Meam Time Between Failure

Taisy Weber 9

Tempo de vida útil

λ − taxa de defeitos constanteunidade: defeitos por horaλ corresponde ao tempo de vida útilessa fase apresenta um serviço mais previsível em relação a falhas

relação exponencial entre confiabilidade e tempo

usa λ − taxa de defeitos constanteválido para hardware

será visto mais adianteR(t) = e -λt

Page 10: MTBF - Meam Time Between Failure

Taisy Weber 10

Curva da banheira em software

software comporta-se diferente do hardwaremelhor usar erros que falhas

erros são constantemente removidostaxa de defeitos continua caindo com o tempoconfiabilidade aumenta com o tempo

envelhecimento de software ?obsolescência dos programasalterações nas plataformas

exceto se forem efetuadas alterações, adaptações, mudança de plataforma (sisop e hardware)

Page 11: MTBF - Meam Time Between Failure

Taisy Weber 11

Tempos médios

t0 treparoreparo

funcionamentofuncionamento funcionamento

tempo entre 2 defeitostempo até o primeiro defeito

com que freqüência ocorrem defeitos?qual o tempo entre um defeito e outro?qual o tempo até o primeiro defeito?qual o tempo gasto para reparar cada defeito?quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo?quais as chances do sistema estar funcionando em um determinado instante?

taxa de defeitos

Page 12: MTBF - Meam Time Between Failure

Taisy Weber 12

Medidasmean time to failure

mean time between failures

mean time to repair

MTTFtempo esperado até a primeira ocorrência de defeito

MTTRtempo médio para reparo do sistema

MTBFtempo médio entre defeitos do sistema

Page 13: MTBF - Meam Time Between Failure

Taisy Weber 13

MTTF - mean time to failure

tempo esperado de operação do sistema antes da ocorrência do primeiro defeito

exemplo:considera-se N sistemas idênticos colocados em operação a partir do tempo t=0mede-se o tempo de operação ti de cada um atéapresentar defeitoMTTF é o tempo médio de operação

NtMTTF i

N

i∑

=

=1

quanto maior a quantidade de amostras N, mais próximo do valor real será o MTTFestimado

Page 14: MTBF - Meam Time Between Failure

Taisy Weber 14

MTTFtempo até defeito tempo até defeito tempo até defeito

t0 tfuncionamentofuncionamento funcionamento

para um único sistema o procedimento é semelhante:ti para a ser ∆ti , o intervalo de tempo em operação entre os defeitos, e N o número de defeitos

NtMTTF i

N

i∑

=

=1

ou MTTF = 1/λconsiderando R(t) = e -λt

Page 15: MTBF - Meam Time Between Failure

Taisy Weber 15

MTTF: Exemplograndemente simplificado

t0 = 0 t1 = 6h t2 = 32h t3 = 48h

1h0,5h

tempo até 3º defeito (∆t3) = 15 htempo até 1º defeito (∆t1) = 6 h

tempo até 2º defeito (∆t2) = 25,5 h

MTTF = (∆t1+ ∆t2+ ∆t3) / nº defeitos MTTF = 46,5 / 3 = 15,5 htaxa de defeitos (λ) = 1/MTTF = 0,064 def/h

Page 16: MTBF - Meam Time Between Failure

Taisy Weber 16

MTTR - mean time to repair

tempo médio de reparo do sistemadifícil de estimar

geralmente usa-se injeção de falhasinjeta-se uma falha de cada vez e mede-se o tempo

nova constante µtaxa de reparosµ = número de reparos por hora

em sistemas de alta disponibilidade, éimportante diminuir o tempo de reparo para aumentar a disponibilidade do sistema

MTTR = 1 µ

Page 17: MTBF - Meam Time Between Failure

Taisy Weber 17

MTTR

Ri tempo de reparo da falha i

n número de falhas

t0 t

reparoreparo

MTTR = ∑ Ri/n ou MTTR = 1/µ sendo µ = taxa de reparon

i=1

quanto maior o número de amostras, melhor

Page 18: MTBF - Meam Time Between Failure

Taisy Weber 18

MTTR: Exemplograndemente simplificado

t0 = 0 t1 = 6h t2 = 32h t3 = 48h

1h0,5h

tempo de reparo do 1º defeito (R1) = 0,5 htempo de reparo do 2º defeito (R2) = 1 h

MTTR = (R1+ R2) / nº reparos MTTR = 1,5 / 2

MTTR = 0,75 h

Page 19: MTBF - Meam Time Between Failure

Taisy Weber 19

Mean Time Between Failure

MTBF = MTTF + MTTRdiferença numérica pequena em relação a MTTF

os tempos de operação são geralmente muito maiores que os tempos de reparona prática valores numéricos muito aproximados (tanto faz usar um como outro)

considera-se:reparo coloca sistema em condições ideais de operação se o MTBF for maior que o tempo

até obsolescência?

Page 20: MTBF - Meam Time Between Failure

Taisy Weber 20

MTBF

t0 tfuncionamentofuncionamento funcionamento

tempo entre 2 defeitos

MTBF = ∑ ∆di/n ou MTBF = MTTF + MTTRn

i=1

Page 21: MTBF - Meam Time Between Failure

Taisy Weber 21

MTBF: Exemplograndemente simplificado

t0 = 0 t1 = 6h t2 = 32h t3 = 48h

1h0,5h

tempo entre o início e o 1º defeito (∆d1) = 6 htempo entre 1º e 2º defeitos (∆d2) = 26 htempo entre 2º e 3º defeitos (∆d3) = 16h

MTBF = (∆d1+∆d2+∆d3)/nº defeitosMTBF = 48 / 3MTBF = 16 h

Page 22: MTBF - Meam Time Between Failure

Taisy Weber 22

Demais medidas

tt0 reparoreparo

com que freqüência ocorrem defeitos?qual o tempo entre um defeito e outro?qual o tempo até o primeiro defeito?qual o tempo gasto para reparar cada defeito?quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo?quais as chances do sistema estar funcionando em um determinado instante?

funcionamentofuncionamento funcionamento

tempo entre 2 defeitostempo até o primeiro defeito

taxa de defeitosMTBF

MTTFMTTR

Page 23: MTBF - Meam Time Between Failure

Taisy Weber 23

Confiabilidade e taxa de defeitos

N componentest0 tN componentes idênticos, operacionais em t0

Nf ( t ) número de componentes com defeito em t

No ( t ) núm. de componentes operacionais em t

R( t ) = No ( t ) / N = No ( t ) / (No ( t ) + Nf ( t ) )

confiabilidade: a probabilidade que um componente tenha sobrevivido no intervalo

Q(t) é a não confiabilidade

Q( t ) = Nf ( t ) / N = Nf ( t ) / (No ( t ) + Nf ( t ))

R( t ) = 1,0 - Q( t ) = 1 - Nf ( t ) / N

Page 24: MTBF - Meam Time Between Failure

Taisy Weber 24

Confiabilidade e taxa de defeitosR( t ) = 1,0 - Q( t ) = 1 - Nf ( t ) / N

fazendo a diferencial da confiabilidade em relação ao tempodNf ( t ) / dt é a taxa instantâneaem que componentes estão falhando.Dividindo esta taxa por No( t )

dR( t )/dt = (- 1/N) dNf ( t ) / dtdNf ( t ) dt = (- N) dR( t ) / dt

z(t) = dNf ( t )/dt . 1/No( t ) = (- N/ No( t )) . dR( t )/dt R( t ) = No ( t ) / N

z(t) - hazard function ou taxa de defeitosz(t) = - 1/R(t) . dR( t )/dt dR( t )/dt = - R(t) . z(t)

R(t) = e - z(t)dtsolução geral dessa equação é

R(t) = e -λtconsiderando z(t) constante então:

Page 25: MTBF - Meam Time Between Failure

Taisy Weber 25

Confiabilidadeprobabilidade de que um sistema funcione corretamente durante um intervalo de tempo [t0,t]

para um taxa de defeitos constante λ a confiabilidade R(t) varia exponencialmente em função do tempo

sistema na fase de vida útil: taxa de defeitos constante λ

R(t) = e- λt

é a mais usada relação entre confiabilidade e tempoválida principalmente para componentes eletrônicosdiscutível se vale para software:

conforme o software vai sendo usado, bugs vão sendo descobertos e a confiabilidade do software aumenta

exponential failure law

Page 26: MTBF - Meam Time Between Failure

Taisy Weber 26

Confiabilidade:distribuição de Weibull

se taxa de defeitos varia com o tempoz(t) distribuição de Weibull

importante para modelagem de software onde a confiabilidade pode inclusive aumentar com o tempo

z(t) = αλ(λt)α-1 para α>0 e λ>0

R(t) = e –(λt)α

para α=1 z(t) = constante = λpara α>1 z(t) = aumenta com o tempopara α<1 z(t) = diminui com o tempo

α e λ são constantes que controlam a variação de z(t) no tempo

Page 27: MTBF - Meam Time Between Failure

Taisy Weber 27

Confiabilidade

taxa de defeitos constantepara: α=1 λ=0,1

0

0,2

0,4

0,6

0,8

1

1 3 5 7 9 11 13 15 17 19

tempo

Taxa de defeitos Confiabilidade

confiabilidade diminui com o tempo

Page 28: MTBF - Meam Time Between Failure

Taisy Weber 28

Confiabilidadetaxa de defeitos diminui com o tempopara: α=0,6 λ=0,1

0

0,2

0,4

0,6

0,8

1

1 3 5 7 9 11 13 15 17 19

tempo

Taxa de defeitos Confiabilidade

confiabilidade diminui com o tempomas não tão acentuadamente

Page 29: MTBF - Meam Time Between Failure

Taisy Weber 29

Confiabilidadetaxa de defeitos aumenta linearmente com o tempopara: α=2 λ=0,1

00,20,40,60,8

11,2

1 3 5 7 9 11 13 15 17 19

tempo

Taxa de defeitos Confiabilidade

confiabilidade diminui com o tempo acentuadamente

Page 30: MTBF - Meam Time Between Failure

Taisy Weber 30

Disponibilidade

probabilidade do sistema estar operacional no instante t (disponível para o trabalho útil)

alternância entre funcionamento e reparoA(t) = R(t) quando reparo tende a zero

lembrar que MTBF = MTTF + MTTRintuitivamente

A(t) = top / (top+ treparo)A(t):availability

toptempo de operação normal

treparo tempo de reparo

Page 31: MTBF - Meam Time Between Failure

Taisy Weber 31

Disponibilidade

MTBF = MTTF + MTTRA(t) = top / (top+ treparo)

genericamenteA(t) = MTTF / (MTTF + MTTR)

nessa relação, o significado de alta disponibilidade fica mais claro

diminuindo o tempo médio de reparo, aumenta a disponibilidade

Page 32: MTBF - Meam Time Between Failure

Taisy Weber 32

fault coverage Cobertura

cobertura de falhashabilidade do sistema de realizar detecção, confinamento, localização, recuperação ...habilidade do sistema de tolerar falhas

geralmente se refere a habilidade de realizar recuperação de falhas

significado matemático:probabilidade condicional que dada uma falha o sistema se recupere

extremamente difícil de calcular

significado intuitivo

Page 33: MTBF - Meam Time Between Failure

Taisy Weber 33

Cobertura

geralmente assumido valor constantedeterminação:

listar falhas possíveis e falhas que o sistema pode tolerar e calcular o percentual

usada no modelo de Markovmuito usada também em experimentos de injeção de falhas

falhas simuladas são injetadas no sistema e se observa a reação do mecanismo de TF

relação entre falhas injetadas e falhas percebidas pelo mecanismo de TF

Page 34: MTBF - Meam Time Between Failure

Taisy Weber 34

Problemas com medidas

defeitos são eventos aleatóriospodem demorar muito para ocorrer, não ocorrer ou ocorrer em um momento não apropriado

custo de avaliação experimental é altonecessária uma grande quantidade de amostrasnecessário tempo grande de avaliação

é importante avaliar durante o projeto do sistemainjeção de falhas

Page 35: MTBF - Meam Time Between Failure

Taisy Weber 35

Bibliografia para medidas

capítulo de livroJohnson, Barry. An introduction to the design na analysis of the fault-tolerante systems, cap 1. Fault-Tolerant System Design. Prentice Hall, New Jersey, 1996