mecanismo de falhas

34
Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação

Upload: smcarvalho

Post on 25-Jun-2015

307 views

Category:

Education


2 download

DESCRIPTION

mecanismo de falhaq

TRANSCRIPT

Page 1: Mecanismo de falhas

Tolerância a Falhas

Carlos Oberdan Rolim

Ciência da Computação

Page 2: Mecanismo de falhas

Técnicas para alcançar dependabilidade

Técnicas e métodos para alcançar a dependabilidade desejada

Page 3: Mecanismo de falhas

Tolerância a Falhas

Prevenção e remoção de falhas não são suficientes quando sistema exige alta confiabilidade ou alta disponibilidade;

Sistema deve ser construído usando técnicas de tolerância a falhas;

Page 4: Mecanismo de falhas

Tolerância a Falhas

Duas classes de técnicas de tolerância a falhas:

Mascaramento:

Falhas não se manifestam como erros (são mascaradas na origem)

Detecção, localização e reconfiguração.

Page 5: Mecanismo de falhas

Fases de Aplicação das técnicas de Tolerância a Falhas

Page 6: Mecanismo de falhas

Primeira Fase: detecção de Erro

Falha primeiro se manifesta como um erro;

Antes da manifestação como erro, a falha está latente e não pode ser detectada;

Ex. mecanismo de detecção: Duplicação e comparação.

Page 7: Mecanismo de falhas

Detecção: Duplicação e comparação

Page 8: Mecanismo de falhas

Segunda Fase: Confinamento

Da ocorrência da falha, até o erro ser detectado, pode haver “espalhamento” de dados inválidos;

O confinamento estabelece limites para a propagação do dano;

Page 9: Mecanismo de falhas

Segunda Fase: Confinamento

Decisões de projeto;

Sistemas, por natureza, não provêem confinamento;

Durante o projeto devem ser previstas e implementadas restrições ao fluxo de informações;

Estabelecer interfaces de verificação para detecção de erro.

Page 10: Mecanismo de falhas

Terceira Fase: Recuperação

Ocorre após a detecção;

Troca do estado atual incorreto para um estado livre de falhas;

Page 11: Mecanismo de falhas

Terceira Fase: Recuperação

Técnicas de Recuperação

Page 12: Mecanismo de falhas

Terceira Fase: Recuperação

Recuperação por retorno e por avanço

Page 13: Mecanismo de falhas

Quarta Fase: Tratamento

Localizar a origem da falha;

Localizar a falha de forma precisa;

Reparar a falha;

Recuperar o restante do sistema.

Page 14: Mecanismo de falhas

Quarta Fase: Tratamento

Localizar:

Localização Grosseira e rápida: aplicada sobre um módulo ou subsistema;

Localização Fina: onde o componente falho é determinado

Para os dois tipos de localização é usado diagnóstico.

Page 15: Mecanismo de falhas

Quarta Fase: Tratamento

Diagnóstico: Teste de comparação entre resultados gerados com resultados previstos:

Manual: executado por um operador local ou remoto;

Automático: executado pelos componentes livres de falha do sistema.

Page 16: Mecanismo de falhas

Quarta Fase: Tratamento

Após a localização, a falha é reparada através da remoção do componente danificado, o reparo pode ser:

Manual

Automático

Page 17: Mecanismo de falhas

Quarta Fase: Tratamento

Automático:

Degradação Gradual: Reconfiguração para operação com menor número de componentes;

Substituição: por outro componente disponível no sistema. (usada em sistemas com longos perídos de missão sem possibilidade de reparo manual, sondas espaciais e satélites.

Page 18: Mecanismo de falhas

Mascaramento de Falhas

Garante resposta mesmo na presença de falhas;

A falha não se manifesta como erro;

Em caso de falhas permanentes, a localização e o reparo da falha são necessários

Page 19: Mecanismo de falhas

Mecanismos para Mascarar Falhas

Page 20: Mecanismo de falhas

Redundância

Redundância para aumento de confiabilidade é quase tão antiga como a história dos computadores;

Todas as técnicas de tolerância a falhas envolvem alguma forma de redundância;

Na indústria nacional, o termo utilizado para designar um sistema tolerante a falhas é sistema redundante

Page 21: Mecanismo de falhas

Redundância

Redundância de Informações;

Redundância Temporal;

Redundância de Hardware;

Redundância de software;

Page 22: Mecanismo de falhas

Redundância

Serve tanto para detecção de falhas quanto para mascaramento;

O grau de redundância é diferente para cada caso;

Para mascarar falhas são necessários mais componentes do que para detectar falhas.

Page 23: Mecanismo de falhas

Redundância de Informação

Bits ou sinais extras são armazenados ou transmitidos junto ao dado;

Servem para deteção de erros ou mascaramento de falhas

Ex.:

Códigos de paridade;

Checksums;

Códigos de duplicação;

Códigos cíclicos.

Page 24: Mecanismo de falhas

Redundância Temporal

Repete a computação no tempo;

Evita custos de Hardware;

Aumenta o tempo necessário para realizar uma computação

Usada em sistemas onde o tempo não é crítico;

Page 25: Mecanismo de falhas

Redundância Temporal

Aplicações usuais:

Detecção de falhas transitórias: repetindo a computação;

Detecção de falhas permanentes: repete-se a computação com dados codificados e decodifica-se o resultado antes da comparação;

Page 26: Mecanismo de falhas

Redundância de Hardware

Baseada da replicação de componentes físicos:

Page 27: Mecanismo de falhas

Redundância de Hardware Passiva

Os elementos redundantes são usados para mascarar falhas;

Todos os elementos executam a mesma tarefa;

O resultado é determinado por votação;

Ex:

TMR (triple modular redundancy) e NMR (redundância modular com n módulos)

Page 28: Mecanismo de falhas

Redundância de Hardware Passiva

Page 29: Mecanismo de falhas

Redundância de Hardware Passiva

Soluções para contornar a fragilidade do votador:

Construir o votador com componentes de alta confiabilidade;

Triplicar o votador;

Realizar a votação por software;

Page 30: Mecanismo de falhas

Redundância de Hardware Passiva

TMR com votador Triplo

Page 31: Mecanismo de falhas

Redundância de Hardware Passiva

TMR apresenta uma confiabilidade maior que um sistema de um único componente até a ocorrência da primeira falha permanente;

Depois perde a capacidade de mascarar falhas, apresentando confiabilidade menor que um sistema de um único componente;

Page 32: Mecanismo de falhas

Redundância de Hardware Passiva

Com o tempo, TMR apresenta uma confiabilidade pior do que um sistema não redundante;

TMR é ideal para períodos não longos de missão, suporta apenas uma falha permanente

Ideal para falhas temporárias... Uma de cada vez...

Page 33: Mecanismo de falhas

Redundância de Hardware Passiva

Confiabilidade de TMR

Page 34: Mecanismo de falhas

Redundância de Hardware Passiva

NMR (Redundância Modular Múltipla) é a generalização de TMR

TMR é um caso especial de NMR;

O computador de bordo do ônibus espacial é um exemplo de NMR, com n igual a 4 e votação por software.