modelo de falhas
DESCRIPTION
TRANSCRIPT
Modelo de falhasSistemas Distribuídos 2011.2
DIÓGENES RICARDO, ANDRÉ COSTA, BRUNO AUGUSTO, ERISSONSAULO, LUCAS HENRIQUE,VANESSA CLERÍCIA
Conceito
• Define e classifica as falhas, fornecendo uma base para a análise de seus efeitos em potencial e para projetar sistemas capazes de tolerar certos tipos de falhas e continuar funcionando
Conceitos Básicos
• Defeito – Sistema não cumpre o que foi especificado• Erro – Estado do sistema causado por uma falha
Ocorrência de falhas
• Estes atributos podem ocorrem tanto em Processos de sistema como em canais de comunicação
Definições
• A tolerância a falhas é a propriedade de um sistema distribuído que lhe permite recuperar da existência de falhas, sem introduzir comportamentos incorretos.
Um sistema deste tipo pode mascarar as falhas e
continuar a operar, ou parar e voltar a operar
mais tarde, de forma coerente, após reparação
da falha.
Definições
• Disponibilidade - mede a fração de tempo em que um serviço está a operar corretamente, isto é, de acordo com a sua especificação.
Para um sistema ser altamente disponível (highly available) deve combinar um reduzido número de falhas com um curto período de recuperação das falhas (durante o qual não está disponível).
Definições
• Confiabilidade - mede o tempo desde um instante inicial até à primeira falha, isto é, o tempo que um sistema funciona corretamente sem falhas.
Um sistema que falha com grande frequência e recupere
rapidamente tem baixa confiabilidade, mas alta disponibilidade.
Definições
• Pontualidade - Em sistemas de tempo real é a garantia de que o sistema é capaz de obedecer a constrangimentos temporais, isto é, a capacidade que o sistema tem de garantir limites para o tempo que as diferentes ações levam a executar.
Classificação
• Falhas por omissão• De envio• De recebimento
• Falhas arbitrárias• Falhas de tempo• Falhas de resposta• Valor• Transição de estado
• Falhas por queda
Falhas de omissão e arbitrárias
Falhas de tempo
Tipos
• Transiente
– Ocorre uma vez e depois desaparece
– Se a operação for repetida, a falha não acontecera novamente• Intermitente
– Ocorre e desaparece por “sua própria vontade”.
– Difícil de diagnosticar;• Permanente
– Continua a existir até que o componente faltoso seja substituído
Mascaramento de Falha por Redundância
• Técnicas para mascarar falhas• Redundância de informação
– Bits extras são adicionados para permitir recuperação de bits deteriorados• Redundância de tempo para falhas de omissão
– Uma ação é realizada e, então, se for preciso, ela é executada novamente.• Redundância física
– Componentes físicos replicados são usados
Confiabilidade na comunicação Um para Um
• O termo comunicação confiável é definido em termos de validade e integridade: • Validade: qualquer mensagem do buffer de envio é entregue ao buffer de recepção de
seudestino, independente do tempo necessáriopara tal.
• Integridade: a mensagem recebida é idêntica à enviada e nenhuma mensagem é entregue duas vezes.
• A tarefa para preservar a Integridade vem de duas premissas:• Qualquer protocolo que retransmita mensagens, mas não rejeite uma mensagem que
entregue duas vezes.
• Usuários mal-intencionados que podem injetar mensagens modificadas, reproduzir mensagens antigas ou falsificar mensagens.
Estratégias de Tolerância a Falhas
• Resiliência de Processos
– Replicação de processos em grupos
– Grupos Simples ou Hierárquicos• Comunicação Confiável Cliente-Servidor
– Falhas de Comunicação
– Canal de Comunicação pode exibir falhas por queda, por omissão, arbitrarias
– TCP(ponto-a-ponto); RPC• Comunicação Confiável de Grupo
– Como implementar entrega confiável de mensagens a todos os processos?• Comprometimento Distribuído
– Envolve a realização de uma operação por cada membro de um grupo de processos ou por absolutamente nenhum.
FIM