tempo médio entre avarias (mtbf – mean time between ... · tempo médio entre avarias (mtbf –...

13
Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica Nº 78 Por Wendy Torell Victor Avelar

Upload: lythien

Post on 18-Nov-2018

234 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações

Aplicação Técnica Nº 78

Por Wendy Torell Victor Avelar

Page 2: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0

2

Sumário Executivo O Tempo Médio Entre Avarias (MTBF) é um termo de fiabilidade frequentemente utilizado

por várias indústrias e a sua banalização levou a que algumas fizessem uma má utilização

generalizada do mesmo. Ao longo dos anos, o significado original do termo sofreu adulte-

rações, o que levou a alguma confusão e dúvida. O MTBF é em grande parte baseado

em pressupostos e na definição de avaria, e a atenção a estes factos é fundamental para

uma correcta interpretação. Este documento explica as complexidades e equívocos relati-

vamente ao MTBF, bem como os métodos existentes para o calcular.

Page 3: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0

3

Introdução O Tempo Médio Entre Avarias (MTBF) é utilizado há mais de 60 anos como base para várias decisões.

Ao longo dos anos, foram desenvolvidos mais de 20 métodos e procedimentos para previsões de ciclos

de vida. Portanto, não admira que o MTBF tenha sido objecto de infindáveis e complicados debates. Se há

área em que isso é particularmente evidente é na concepção de instalações cruciais de equipamento TI e

telecomunicações. Para casos em que alguns minutos de período de inactividade são suficientes para

causar impacto negativo no valor de mercado de uma empresa, é vital que as infra-estruturas físicas de

suporte ao ambiente em rede sejam fiáveis. Sem uma compreensão cabal do MTBF, a fiabilidade projecta-

da da empresa pode não ser atingida. Este documento explora os vários aspectos do MTBF, com recurso a

vários exemplos, numa tentativa de simplificar a complexidade inerente ao assunto e clarificar os equívocos.

O que é uma avaria? Quais são os pressupostos? Estas questões devem ser respondidas imediatamente após examinar qualquer valor de MTBF. Sem

responder a estas perguntas, de pouco vale a discussão. O MTBF é muitas vezes citado sem que se

adiante uma definição de avaria. Esta prática não só é enganadora, como é completamente inútil. Era

o mesmo que definir o consumo de combustível de um automóvel como “quilómetros por depósito” sem

especificar a capacidade do depósito em litros ou outra medida qualquer. Para desfazer esta ambiguidade,

poderíamos dizer que existem duas definições fundamentais de avaria:

1) Cessação da capacidade de o produto executar a sua função como um todo.1 2) Cessação da capacidade de um determinado componente executar a sua função, sem impedir a

capacidade de o produto funcionar como um todo.2

Os dois exemplos seguintes mostram se um determinado modo de avaria de um produto é ou não classifi-

cado como avaria, consoante a definição escolhida.

Exemplo 1:

Se falhar um disco redundante de um sistema RAID, tal não impede que o sistema RAID continue a desem-

penhar a sua função de fornecimento de dados cruciais. Contudo, a falha no disco impede um dos compo-

nentes do sistema de discos de executar a função de fornecimento de capacidade de armazenamento.

Como tal, se pela definição 1 isto não pode ser considerado avaria, pela definição 2 já se passa o contrário.

1 IEC-50 2 IEC-50

Page 4: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0

4

Exemplo 2:

Se o inversor de uma UPS falhar e a UPS mudar para bypass estático, a avaria não impede que a UPS

execute a sua função de alimentação de energia para a carga crucial. No entanto, a falha no inversor

impede um dos componentes do sistema UPS de executar a função de fornecimento de alimentação

condicionada. Tal como no exemplo anterior, isto só é considerado avaria pela definição 2.

Se só existissem duas definições era bastante fácil definir avaria. Mas, infelizmente, quando está em causa

a reputação de um produto, a questão torna-se quase tão complicada como para o MTBF. Mas há mais que

duas definições para avaria. Na realidade, há infinitas. Os fabricantes podem ter inúmeras definições para

avaria, conforme o tipo de produto. Aqueles que são guiados pela qualidade despistam todo o género de

avarias, por uma questão de controlo do processo, o que entre outras vantagens, elimina os defeitos do

produto. Assim sendo, é necessário colocar mais questões para poder definir correctamente avaria.

A incorrecta utilização do produto pelo cliente é considerada avaria? Quem concebe o produto pode descu-

rar vários factores humanos que potenciem um uso incorrecto do mesmo pelos utilizadores. As quebras

de corrente provocadas por um técnico de vendas do serviço contam como avarias? A própria concepção

do produto pode aumentar a probabilidade de avaria de um procedimento já de si arriscado? Se um LED

(Díodo emissor de luz) de um computador falhasse, isso era considerado avaria mesmo que não impedisse

o funcionamento do computador? Se um consumível, como por exemplo uma bateria, se gastar ou deixar

de funcionar antes do tempo previsto, isso é considerado avaria? Os danos durante o transporte do produ-

to são considerados avarias? Tal facto pode indiciar um empacotamento mal pensado pelos fabricantes.

A importância da definição de avaria deve ser, portanto, uma evidência para todos e deve também ser

compreendida antes de se tentar interpretar qualquer valor de MTBF. São questões como as acima coloca-

das que lançam os fundamentos sobre os quais devem assentar as decisões de fiabilidade.

Costuma-se dizer que os engenheiros nunca se enganam; apenas formulam pressupostos errados. Os

mesmo se pode dizer dos que tentam calcular os valores de MTBF. São necessários pressupostos para

simplificar o processo de cálculo do MTBF. Seria praticamente impossível recolher os dados necessários

para calcular um número exacto. Todavia, todos os pressupostos devem ser realistas. Ao longo do docu-

mento são descritos alguns pressupostos usados no cálculo do MTBF.

Page 5: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0

5

Definição de Fiabilidade, Disponibilidade, MTBF e MTTR O MTBF tem influência tanto sobre a fiabilidade como sobre a disponibilidade. Antes de expor os métodos

de MTBF, é importante ter uma base sólida sobre estes conceitos. Em muitos casos, desconhece-se ou

interpreta-se mal a diferença entre fiabilidade e disponibilidade. Os conceitos de elevada disponibilidade

e elevada fiabilidade andam muitas vezes de mãos dadas, mas nunca querem dizer a mesma coisa.

Fiabilidade é a capacidade que um sistema ou componente tem de executar as suas funções sob

determinadas condições e durante um certo período de tempo [IEEE 90].

Por outras palavras, é a probabilidade de um sistema ou componente levar a cabo a sua missão dentro do

tempo previsto e sem avarias. Uma missão aérea é o exemplo perfeito para ilustrar este conceito. Quando

um avião parte para a sua missão, só existe um objectivo em mente: completar o voo, dentro do previsto e

em segurança (sem falhas catastróficas).

A Disponibilidade, por seu turno, é o grau a que um sistema ou componente está operacional

e acessível, quando é necessária a sua utilização [IEEE 90].

Pode ser vista como a probabilidade de o sistema ou componente estar em posição para executar determi-

nada função sob certas condições e numa dada altura. A disponibilidade é determinada pela fiabilidade do

sistema, assim como o seu tempo de recuperação quando ocorre uma avaria. Quando os sistemas têm

períodos operacionais longos e contínuos (por exemplo, um centro de dados com 10 anos), as avarias são

inevitáveis. A disponibilidade é muitas vezes tida em conta, porque quando há uma avaria a variável crucial

passa a ser a rapidez com que o sistema recupera. Pegando no exemplo do centro de dados, a variável

crucial é ter uma concepção de sistema fiável, mas quando ocorre uma avaria o aspecto mais importante

a ter em conta é pôr o equipamento TI e os processos de novo a funcionar, fazendo-o com a máxima

rapidez, para reduzir ao mínimo o período de inactividade.

Page 6: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0

6

MTBF, ou Tempo Médio Entre Avarias, é a medida básica para a fiabilidade do sistema. A unidade costuma

ser exprimida em horas. Quando maior o MTBF, maior a fiabilidade do produto. A Equação 1 mostra esta

relação.

⎟⎠⎞

⎜⎝⎛−

= MTBFTempo

eeFiabilidad Equação 1

Um equívoco vulgar em relação ao MTBF é dizer que é equivalente ao número estimado de horas de

funcionamento antes de uma falha do sistema, ou seja, ao “tempo de validade”. Não é invulgar, no entanto,

ver um número de MTBF na ordem de 1 milhão de horas e seria irrealista pensar que o sistema poderia

funcionar ininterruptamente 100 anos sem uma única avaria. Estes números são muitas vezes elevados por

se basearem na taxa de avaria do produto durante o seu período de “vida útil” ou “vida normal” e parte-se

do princípio de que as avarias se manterão a esta taxa indefinidamente. Durante esta fase, os produtos têm

a mais baixa (e constante) taxa de avaria. Na realidade, o facto de ser um produto gastável determinaria

uma vida mais curta que o número apresentado de MTBF. Como tal, não deve ser estabelecida correlação

directa entre o tempo de vida do produto e a taxa de avaria ou o MTBF. É bastante provável ter um produto

com elevadíssima fiabilidade (MTBF) e baixo tempo estimado de vida. Veja-se por exemplo um ser humano:

A verdade é que os seres humanos não têm taxas de avaria constantes. À medida que as pessoas enve-

lhecem, mais problemas surgem (vão perdendo capacidades). Como tal, a única maneira correcta de

calcular um MTBF compatível com o tempo de vida era esperar que toda uma amostra de população de

pessoas de 25 anos atingisse a fase final da vida. Só então se poderia calcular a respectiva esperança

de vida. Penso que será consenso geral que o número rondaria os 75 - 80 anos.

Mas qual é afinal o MTBF das pessoas de 25 anos, é 80 ou 800 anos? Ambos! Mas como é que uma

mesma população pode ter valores de MTBF tão díspares? É tudo uma questão de pressupostos!

Existem 500.000 pessoas de 25 anos na amostra de população.

No período de um ano, recolhem-se dados sobre o número de avarias (mortes)

nesta amostra da população.

A vida funcional da população é de 500.000 x 1 ano = 500.000 pessoas ano.

Durante o ano morreram 625 pessoas.

A taxa de avaria é de 625 mortes / 500.000 pessoas ano = 0,125 % / ano.

O MTBF é a inversão da taxa de avaria ou 1 / 0,00125 = 800 anos.

Assim, mesmo que as pessoas de 25 anos tenham valores elevados de MTBF,

a sua esperança de vida (vida útil) é muito mais curta e não se correlaciona.

Page 7: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0

7

Tendo em conta que o MTBF de 80 anos reflecte melhor a vida do produto (neste caso os seres humanos),

será este o melhor método? Intuitivamente, assim parece. No entanto, há muitas variáveis que limitam a

praticabilidade deste método no que respeita a produtos comercializáveis, como sejam os sistemas UPS.

A maior limitação é o tempo. Para pô-lo em prática, todo o conjunto da amostra teria de avariar, e o que

acontece é que para muitos produtos isto se dá no espaço de 10 - 15 anos. Além disso, mesmo que fosse

mais sensato esperar este tempo para calcular o MTBF, era complicado localizar os produtos. Por exemplo,

como é que um fabricante pode saber se os produtos ainda estão em funcionamento, se estes deixarem de

ser utilizados sem que isso seja comunicado?

Por último, mesmo que tudo acima descrito fosse possível, a tecnologia muda com tal rapidez, que na altura

em que o número fosse comunicado, já não teria qualquer utilidade. Quem é que ia querer saber o MTBF

de um produto já ultrapassado por várias novas versões?

MTTR, ou Tempo Médio de Reparação (ou recuperação), é o tempo estimado de recuperação do sistema

perante uma avaria. Pode abranger o tempo que leva a diagnosticar o problema, o tempo que leva a che-

gar um técnico ao local e o tempo que leva a reparar fisicamente o sistema. Tal como no caso do MTBF,

a unidade do MTTR é expressa em horas. Como se vê pela Equação 2, o MTTR tem impacto sobre a

disponibilidade e não a fiabilidade. Quando maior o MTTR, maior a avaria do sistema. Pondo de maneira

mais simples, quanto mais tempo leva a recuperar o sistema, menos disponibilidade ele tem. A fórmula

abaixo ilustra a forma como o MTBF e o MTTR influenciam a disponibilidade geral do sistema. Se o MTBF

aumentar, a disponibilidade também aumenta. Se o MTTR aumentar, a disponibilidade diminui.

)(idadeDisponibil

MTTRMTBFMTBF

+= Equação 2

Para as Equações 1 e 2 serem válidas, é preciso efectuar um pressuposto básico ao analisar o MTBF de

um sistema. Ao contrário dos sistemas mecânicos, a maioria dos sistemas electrónicos não tem peças

móveis. Como tal, é geralmente aceite que os sistemas ou componentos electrónicos possuem taxas

de avaria constantes durante o seu período de vida útil. A Figura 1, designada como “curva da banheira”

da taxa de avaria, mostra a base do pressuposto de taxa de avaria constante mencionado anteriormente.

O “período útil normal” ou “período de vida útil” da curva é a fase em que o produto está a ser usado.

É nessa altura que a qualidade do produto está a uma taxa de avaria constante em relação ao tempo.

As origens de avaria nesta fase podem ir desde defeitos indetectáveis, a factores de segurança mal conce-

bidos de origem, maior esforço aleatório que o esperado, factores humanos ou avarias naturais. Perío-

dos amplos de selecção dos componentes pelos fabricantes, manutenção cuidada e substituição imedia-

ta das peças gastas, devem chegar para prevenir o género de curva de declínio que se vê no “período de

desgaste”. A discussão anterior fornece alguma base no que respeita aos conceitos de fiabilidade e dispo-

nibilidade e respectivas diferenças, permitindo uma interpretação devida do MTBF. A secção seguinte

discute os vários métodos de previsão do MTBF.

Page 8: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0

8

Figura 1 – Curva da banheira que mostra as taxas de avaria constantes

0

Taxade

avaria

Zona de taxaconstante de avaria

Período deavaria precoce

Período devida normal

Período dedesgaste

Tempo

Métodos de prever e estimar o MTBF Os termos “previsão” e “estimativa” são muitas vezes usados para designar a mesma coisa, o que é incor-

recto. Os métodos que prevêem o MTBF calculam um valor com base apenas na concepção do sistema,

o que é normalmente feito no início do ciclo de vida do produto. Os métodos de previsão são úteis quando

há poucos ou nenhuns dados no terreno, como é o caso do Vaivém Espacial ou de novas linhas de produ-

tos. Quando existem dados suficientes, não se devem usar os métodos de previsão, mas sim métodos que

estimam o MTBF, porque estes representam medições de avarias que ocorreram de facto. Os métodos que

estimam o MTBF calculam um valor com base numa amostra estudada de sistemas semelhantes, que é

normalmente retirada de um grande conjunto acabado de colocar no mercado. O método de estimativa é

de longe o mais utilizado para o calcular o MTBF, principalmente por ser baseado em produtos reais, que

estão sujeitos a um uso efectivo no terreno. Todos estes métodos são de natureza estatística, o que significa que fornecem apenas uma aproximação

do MTBF real. Não existe um método padronizado para toda a indústria. É, portanto, fundamental que o

fabricante compreenda e escolha o método mais adequado à respectiva aplicação. Os métodos abaixo

apresentados, muito embora não constituam uma lista completa, dão uma ideia das várias maneiras de

calcular o MTBF.

Métodos de previsão da fiabilidade Os primeiros métodos de previsão da fiabilidade surgiram por volta dos anos 40, através de um cientista

alemão chamado Braun e um matemático alemão de seu nome Eric Pieruschka. Na tentativa de fazer face

a inúmeros problemas de fiabilidade da bomba voadora V-1, Pieruschka ajudou Von Braun na modelação

da fiabilidade da bomba voadora, criando desta forma o primeiro modelo documentado de previsão da

fiabilidade. Posteriormente, a NASA, na sequência do crescimento da indústria nuclear, incentivou o apro-

fundamento no terreno das análises de fiabilidade. Actualmente há vários métodos de previsão do MTBF.

Page 9: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0

9

MIL-HDBK 217 Publicado pelo exército americano em 1965, o Guia Militar 217 foi criado para fixar um padrão para esti-

mar a fiabilidade de equipamentos e sistemas electrónicos militares, de maneira a aumentar a fiabilida-

de do equipamento em estruturação. Estabelece uma base para comparar a fiabilidade de duas ou

mais concepções semelhantes. O Guia Militar 217 também é designado de Mil Standard 217, ou simples-

mente 217. Há duas maneiras de prever a fiabilidade segundo o 217: Previsão pela contagem das peças ou

Previsão de análise de esforço das peças.

A Previsão pela contagem das peças é geralmente usada para prever a fiabilidade do produto no início

do ciclo de desenvolvimento, para obter uma estimativa aproximada de fiabilidade em relação ao objectivo

ou especificação de fiabilidade. É calculada uma taxa de avaria contando literalmente os componentes

semelhantes de um produto (ex: condensadores), que são agrupados nos vários tipos de componentes

(ex: condensadores de película). O número de componentes de cada grupo é depois multiplicado por uma

taxa de avaria genérica e um factor de qualidade existente no 217. Por último, somam-se as taxas de avaria

dos diferentes grupos de peças para obter uma taxa de avaria final. Por definição, a Contagem das peças

parte do princípio que todos os componentes estão em série e requer que as taxas de avaria dos compo-

nentes que não estejam em série sejam calculadas à parte.

A Previsão de análise de esforço das peças é normalmente usada muito mais tarde no ciclo de desenvolvi-

mento, quando a concepção dos circuitos reais e o hardware estão próximos da produção. Há semelhanças

com a Contagem das peças, porque também se somam as taxas de avaria. Contudo, no Esforço das peças,

a taxa de avaria para todo e qualquer componente é calculada individualmente com base nos níveis de

esforço específicos a que cada componente é sujeito (ex: humidade, temperatura, vibração, voltagem). De

forma a atribuir os níveis de esforço correctos a cada um dos componentes, a concepção de um produto e o

seu ambiente esperado têm de ser bem documentados e compreendidos. O Método de esforço das peças

dá normalmente uma taxa de avaria mais baixa que o Método de contagem das peças. Devido à extensão

de análise necessária, este método, a comparar com os outros, consome imenso tempo.

Actualmente o 217 quase não é usado. Em 1996, o exército americano decretou que se devia deixar

de utilizar o MIL-HDBK-217, porque “provou ser falível, e a sua utilização pode conduzir a previsões de

fiabilidade erradas e enganadoras”3. O 217 foi excluído por várias razões, mas a maior parte prende-se

com o facto de a fiabilidade dos componentes melhorar imenso com os anos, ao ponto de já não ser o

principal factor de avaria dos produtos. As taxas de avaria dadas pelo 217 são mais cautelosas (elevadas)

que as dos componentes electrónicos existentes hoje em dia. Uma investigação exaustiva das avarias

actuais dos produtos electrónicos revelaria que as causas mais prováveis de avaria estariam na má aplica-

ção (erro humano), controlo de processos ou concepção do produto.

3 Cushing, M., Krolewski, J., Stadterman, T., and Hum, B., 1996, “U.S. Army Reliability Standardization

Improvement Policy and Its Impact”, IEEE Transactions on Components, Packaging, and Manufacturing Technology, Part A, Vol. 19, No. 2, pp. 277-278.

Page 10: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0

10

Telcordia O modelo de previsão de fiabilidade Telcordia evoluiu a partir da indústria de telecomunicações e conquis-

tou o seu espaço através de uma série de alterações ao longo dos anos. Foi desenvolvido primeiro pela

Bellcore Communications Research sob o nome de Bellcore, como forma de estimar a fiabilidade do equi-

pamento de telecomunicações. Embora o Bellcore se baseasse no 217, os seus modelos de fiabilidade

(equações) foram alterados em 1985 de maneira a reflectir as experiências no terreno, de equipamentos

de telecomunicações. A última versão do Bellcore foi o TR-332 Número 6, de Dezembro de 1997. A SAIC

comprou posteriormente o Bellcore em 1997 e rebaptizou-o de Telcordia. A última versão do Modelo de

previsão Telcordia foi o SR-332 Número 1, lançada em Maio de 2001. Disponibiliza vários métodos de

cálculo para além dos presentes no 217. Actualmente, o Telcordia continua a ser aplicado como ferramen-

ta de concepção de produtos nesta mesma indústria.

HRD5 O HRD5 é o Guia para a fiabilidade dos dados de componentes electrónicos que é utilizado nos siste-

mas de telecomunicações. O HRD5 foi desenvolvido pela British Telecom e é usado principalmente no

Reino Unido. É semelhante ao 217, só que não cobre tantas variáveis ambientais, e fornece um modelo

de previsão de fiabilidade que abrange um espectro mais vasto de componentes electrónicos, incluindo

telecomunicações.

RBD (Diagrama de blocos de fiabilidade) O Diagrama de blocos de fiabilidade, ou RBD, é um desenho representativo e uma ferramenta de cálcu-

lo usada para modelar a disponibilidade e fiabilidade do sistema. A estrutura de um diagrama de blocos de

fiabilidade determina a interacção lógica de avarias no sistema e não necessariamente a sua interligação

lógica ou física. Cada bloco pode representar a falha de um componente individual, subsistema ou qualquer

outra avaria representativa. O diagrama pode representar todo um sistema ou qualquer subconjunto ou

combinação desse sistema, o que implica uma análise de avaria, fiabilidade ou disponibilidade. Também

serve como ferramenta de análise para mostrar como cada um dos elementos funciona e afecta a operacio-

nalidade do sistema.

Modelo de Markov O modelo de Markov possibilita a capacidade de analisar sistemas complexos, como arquitecturas eléctri-

cas. Os modelos de Markov também são conhecidos como diagramas de estado espacial ou gráficos de

estado. Pode definir-se estado espacial como o conjunto de todos os estados em que um sistema pode

estar. Ao contrário dos diagramas de blocos, os gráficos de estado fornecem uma representação mais

exacta do sistema. Os gráficos de estado abrangem ramificações das avarias dos componentes, assim

como vários estados que os diagramas de blocos não conseguem representar, como o estado de uma UPS

a funcionar com bateria. Para além do MTBF, os modelos de Markov fornecem uma série de outras medi-

das de sistema, incluindo a disponibilidade, MTTR, a probabilidade de estar num determinado estado numa

dada altura, e muitas outras.

Page 11: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0

11

FMEA / FMECA A FMEA (Análise de modos e efeitos de avarias – Failure Mode and Effects Analysis) é um processo

usado para analisar os modos de avaria de um produto. Esta informação é depois usada na determinação

do impacto de cada avaria no produto, conduzindo a uma concepção melhorada do produto. A análise pode

ser aprofundada se for atribuído um nível de gravidade a cada um dos modos de avaria, passando a cha-

mar-se FMECA (Análise de modos, efeitos e criticidade de avarias – Failure Mode, Effects and Critica-

lity Analysis). A FMEA utiliza uma abordagem de baixo para cima. Por exemplo, no caso de uma UPS,

a análise começa com o componente ao nível da placa de circuito e vai subindo na escala até abranger

o sistema todo. Para além de ser usada como ferramenta de concepção de produto, também pode ser

utilizada para calcular a fiabilidade do sistema geral. Para muitas das peças de equipamento, os dados de

probabilidade necessários aos cálculos podem ser difíceis de obter, especialmente se tiverem vários esta-

dos ou modos de funcionamento.

Árvore de falhas A análise por árvore de falhas foi uma técnica desenvolvida pela Bell Telephone Laboratories para execu-

tar aferições de segurança no Sistema de Controlo de Lançamento do Minuteman. Foi mais tarde aplicada

às análises de fiabilidade. As árvores por falhas podem ajudar a dissecar os vários passos dos aconteci-

mentos, no que respeita às falhas ou ao funcionamento normal, que conduzem até à falha ao nível dos

componentes ou ao acontecimento indesejado que está a ser investigado (abordagem de cima para baixo).

A fiabilidade é calculada através da conversão da árvore por falhas final num conjunto de equações equiva-

lente, que por sua vez se obtém através da álgebra de acontecimentos, também conhecida como álgebra

booleana. Tal como na FMEA, os dados de probabilidade necessários aos cálculos podem ser difíceis de

obter.

HALT O Teste de Vida Ultra-rápido (HALT – Highly Accelerated Life Testing) é um método usado para aumentar

a fiabilidade geral de uma concepção de produto. O HALT é usado para aferir o tempo que um produto

demora a atingir literalmente o ponto de ruptura, pela submissão a condições extremas meticulosamente

medidas e controladas, por exemplo de temperatura ou de vibração. É usado um modelo matemático para

estimar o tempo real que um produto no terreno demoraria a ter falhas. Embora o HALT permita estimar o

MTBF, a sua principal função é melhorar a fiabilidade da concepção do produto.

Métodos de estimativa de fiabilidade Método de Previsão de Itens Semelhantes Este método permite estimar, de forma rápida, a fiabilidade com base em dados históricos de fiabilidade de

itens semelhantes. A eficácia deste método depende acima de tudo do grau de semelhança entre o novo

equipamento e o actualmente existente, ou seja, aquele para o qual existem dados no terreno. Deve haver

similaridade de processos de fabrico, ambientes de funcionamento, funções do produto e concepção. Este

método de previsão é especialmente útil para produtos que seguem uma linha evolutiva, já que tira partido

da experiência passada no terreno. Todavia, as diferenças apresentadas pelas novas concepções devem

ser meticulosamente estudadas e tidas em conta para a previsão final.

Page 12: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0

12

Método de Medição de Dados no Terreno O método de medição de dados no terreno baseia-se na experiência factual de produtos no terreno. Este

método é talvez o mais utilizado pelos fabricantes, por ser parte integrante do programa de controlo de

qualidade. Estes programas são muitas vezes designados no geral como Gestão de crescimento de fiabili-

dade. Pela despistagem da taxa de avaria de produtos no terreno, o fabricante consegue rapidamente

identificar e combater os problemas, suprimindo os defeitos dos produtos. Como é baseado em avarias

reais no terreno, este método abarca modos de avaria que escapam por vezes aos métodos de previsão.

O método consiste em seguir um grupo de amostragem de novos produtos e recolher os dados de avaria.

Uma vez recolhidos os dados, calcula-se a taxa de avaria e o MTBF. A taxa de avaria é a percentagem de

um conjunto de unidades que se estima que vão “falhar” num ano civil. Para além de os dados serem

usados para controlo de qualidade, eles servem igualmente para informar clientes e parceiros sobre a

fiabilidade e processos de qualidade dos produtos. Como é um método muito banalizado entre fabricantes,

serve como base de comparação de valores MTBF. Tais comparações permitem aos utilizadores avaliarem

as diferenças de fiabilidade entre produtos, o que é um instrumento importante na hora de fazer especifica-

ções ou tomar decisões de compra. Tal como em qualquer outra comparação, é imperativo que as variáveis

fundamentais sejam iguais para todos os sistemas em avaliação. Quando isto não acontece, é mais prová-

vel que se tomem decisões erradas e que daí resultem impactos financeiros negativos.

Page 13: Tempo Médio Entre Avarias (MTBF – Mean Time Between ... · Tempo Médio Entre Avarias (MTBF – Mean Time Between Failures): Explicações e Normalizações Aplicação Técnica

©2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicação pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperação de qualquer natureza, sem a autorização por escrito do proprietário dos direitos de autor. www.apc.com Rev 2004-0

13

Conclusões MTBF é uma palavra de gíria vulgarmente utilizada pela indústria TI. São lançados números sem a devida

compreensão daquilo que representam. Embora o MTBF seja um indicador de fiabilidade, nada tem a ver

com a vida útil estimada de um produto. Em última análise, um valor de MTBF de pouco ou nada serve se

a avaria for indefinida e os pressupostos forem irrealistas ou não existirem de todo.

Referências 1. Pecht, M.G., Nash, F.R., “Predicting the Reliability of Electronic Equipment”, Procedimentos do IEEE,

Vol. 82, No. 7, Julho 1994

2. Leonard, C., “MIL-HDBK-217: It’s Time To Rethink It”, Electronic Design, 24 Outubro, 1991

3. http://www.markov-model.com

4. MIL-HDBK-338B, Electronic Reliability Design Handbook, 1 Outubro, 1998

5. IEEE 90 – Institute of Electrical and Electronics Engineers, Dicionário informático standard do

IEEE: Compilação dos glossários informáticos standard do IEEE. New York, NY: 1990

Acerca dos autores: Wendy Torell é Engenheira de Disponibilidade da APC em W. Kingston, RI. Faz consultadoria na área

de estratégias científicas de disponibilidade e concepção de práticas para optimizar a disponibilidade dos

ambientes de centros de dados. Completou o bacharelato em Engenharia mecânica pela Union College

em Schenectady, NY. Wendy é uma Engenheira de qualidade certificada pela ASQ.

Victor Avelar é Engenheiro de Disponibilidade da APC. É responsável pela consultoria de disponibilidade

e análise de arquitecturas eléctricas e concepção de centros de dados para clientes. Victor completou

o bacharelato em Engenharia mecânica no Rensselaer Polytechnic Institute em 1995 e é membro da

ASHRAE e da Sociedade americana para a qualidade (ASQ).