planejamento (e recuperação) de desastres por rodrigo campos

35
Planejamento de Desastre CMG Brasil 2014 [email protected] @xinu

Upload: joao-galdino-mello-de-souza

Post on 28-Jun-2015

274 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Planejamento de Desastre!CMG Brasil 2014

[email protected]!@xinu

Page 2: Planejamento (e recuperação) de Desastres por Rodrigo Campos

$ whoami• Orgulhosamente crimpando cabos desde 1992

• Descobri o que era colisão de IP quando meu chefe acreditou que o aniversário dele seria uma boa subnet em 1993

• Derrubei um portal web inteiro testando uma versão experimental de Linux em S/390 em 1999

• Já vi equipamentos high end falhando espetacularmente devido a bugs e erros operacionais (1992,1993,1994,1995,1996,1997,1998,…,2014,…)

• Tem sido sofrido mas adoro o meu trabalho!

Page 3: Planejamento (e recuperação) de Desastres por Rodrigo Campos

“Lasciate ogni speranza, voi ch'entrate"

Dante Alighieri no vestíbulo do inferno

Page 4: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Sh*t happens

Page 5: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Na noite de 27 de Outubro de 2011 uma série de erros derrubou um cluster

inteiro de serviços na nuvem.

Page 6: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Todos os clientes foram afetados.

Page 7: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Levamos 72 horas para recuperar os serviços.

Page 8: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Alguns clientes perderam seus dados para sempre…

Page 9: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Um sumário

• Equipamento High-end

• Totalmente redundante

• Alta disponibilidade

• Todos os ovos em uma cesta muito cara

Page 10: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Um sumário• O time de engenharia contrariou todas as

tendências em sistemas distribuídos e optou por uma arquitetura centralizada para storage

• Todas as VMs seriam armazenadas na SAN, em um único frame de Storage de última geração

• A disponibilidade seria garantida por componentes totalmente redundantes do Storage

• Seria mais fácil de gerenciar…

Page 11: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Raio da Explosão

210

NetworkStorage

ServersVirtualization

Guest OSMiddleware

RuntimeData

Application

Page 12: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Raio da Explosão

210

NetworkStorage

ServersVirtualization

Guest OSMiddleware

RuntimeData

Application

Power Supply

Page 13: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Lições Aprendidas

Page 14: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Uptime != DisponívelComponente Downtime por ano

99% 3,65 dias

99,9% 8,76 horas

99,99% 52,56 minutos

99,999% 5,26 minutos

Page 15: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Tempo de ReparoPara cada componente que falha no ambiente o tempo de reparo de suas dependências pode e irá exceder o SLA do componente.

!

eg.: se o fornecimento de energia tiver 99 ,9999% (31 ,5 segundos / ano) a disponibilidade do ambiente será bem menos do que isso.

Page 16: Planejamento (e recuperação) de Desastres por Rodrigo Campos

• Impacto baixo, controlado • Geralmente documentado • Método e ferramentas para

correção conhecidos • Geralmente o time de operações

atua independentemente

Falhas

Page 17: Planejamento (e recuperação) de Desastres por Rodrigo Campos

• Alto impacto • Caótico e inesperado • Métodos e ferramentas

disponíveis podem não ser suficientes

• É um problema de tecnologia e de negócio

Desastres

Page 18: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Existem falhas e desastres

• Algumas empresas lidam com as duas situações da mesma forma

• Não faça isso… • Não há como se planejar para

tudo

Page 19: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Até onde você precisa ir?

• Muitas vezes terá de fazer uma “escolha de Sofia” • Seus sistemas de BI precisam de um plano de

recuperação de desastre? • Seu CMS precisa de um plano de recuperação de

desastre? • Todos precisam do mesmo nível de desempenho do seu

site principal?

Page 20: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Até onde você precisa ir?

• Warroom no Datacenter • Telefones? Impressoras? Agendas (de papel)? • Ativo-Ativo, Ativo-Passivo

• Impactos profundos na arquitetura de rede e storage

Page 21: Planejamento (e recuperação) de Desastres por Rodrigo Campos

A linha do tempo

Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise

Post-Mortem

Downtime

Horas Dias

Semanas ∞

Page 22: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Quem decide se é um desastre?

• Resposta rápida: ninguém.

• Você deve ter um processo documentado para categorizar incidentes

• Se não houver tal procedimento você dependerá de julgamento humano

Page 23: Planejamento (e recuperação) de Desastres por Rodrigo Campos

High PriorityMedium Priority

Medium PriorityLow Priority

Valor de Negócio

Abra

ngên

cia

Quem decide se é um desastre?

Page 24: Planejamento (e recuperação) de Desastres por Rodrigo Campos

High Priority

Medium Priority

Medium Priority

Low Priority

Valor de Negócio

Abra

ngên

cia

Quem decide se é um desastre?

Page 25: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Regra #1-Não entre em pânico

Temos um desastre

Page 26: Planejamento (e recuperação) de Desastres por Rodrigo Campos

• Reação típica: LIGUE PARA TODOS AGORA!!

• Não faça isto…

• Comece a pensar em turnos

• Tenha uma política de comunicação definida

Temos um desastre

Page 27: Planejamento (e recuperação) de Desastres por Rodrigo Campos

A linha do tempo

Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise

Post-Mortem

• Garanta retenção automatizada de logs • Tenha um processo de registro de

mudança eficiente • Sistemas de relacionamento de eventos

são essenciais

Page 28: Planejamento (e recuperação) de Desastres por Rodrigo Campos

A linha do tempo

Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise

Post-Mortem

• Chame seus SMS • Chame o fornecedor se for o caso • Mantenha um staff operacional mínimo • Comece a pensar em turnos • Alimentação e condições de trabalho • Hospedagem e transporte

Page 29: Planejamento (e recuperação) de Desastres por Rodrigo Campos

A linha do tempo

Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise

Post-Mortem

• Estabeleça um ponto de contato responsável por cada componente

• Estabeleça checkpoints e um período de tempo entre eles

• Dentro do possível libere os especialistas e tire tarefas operacionais deles

• Mantenha a área de negócio ciente

Page 30: Planejamento (e recuperação) de Desastres por Rodrigo Campos

A linha do tempo

Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise

Post-Mortem

• Reforce e alinhe expectativas claras do que está contemplado no seu plano

• Mantenha a rotina de checkpoints • Revise a escala de plantões e

acionamentos

Page 31: Planejamento (e recuperação) de Desastres por Rodrigo Campos

A linha do tempo

Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise

Post-Mortem

• Exercite a cautela ao notificar os clientes internos e externos de que o serviço foi recuperado

• Tenha uma rotina de check-up definida

Page 32: Planejamento (e recuperação) de Desastres por Rodrigo Campos

A linha do tempo

Detecção Diagnóstico Recuperação Operação Degradada Recuperação Análise

Post-Mortem

• Defina um processo de post-mortem antes do incidente

• O mesmo deve ser conciso e não pode ser um “dossiê"

• Inicie o plano de retorno ao site principal

Page 33: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Um plano não testado é só um pedaço de papel

Page 34: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Testes no século XXI

• Em produção… sim, em produção

• Netflix Chaos Monkey

• Blazemeter

• SOASTA

Page 35: Planejamento (e recuperação) de Desastres por Rodrigo Campos

Perguntas