racionalização e otimização de energia em computação na nuvem
DESCRIPTION
TRANSCRIPT
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Racionalização e Otimização de
Energia em Computação na Nuvem
Bruno Domingues
Virtualização e Gerenciamento de Potência
• A virtualização abstrai completamente o hardware físico para o SO
guest (exceto no caso de Paravirtualização)
• Ex. Se o SO transaciona para o nível S3 do ACPI (i.e. sleep to
memory) isso acontecerá com o vCPU e não terá nenhum efeito no
servidor físico;
• Grande desafio de mapear a potência entre o servidor físico e a
máquina virtual e desta para o físico:
– Dificuldade de definir o rateio de consumo do servidor físico com as máquinas
virtuais;
– Dificuldade de estabelecer um quota de consume de potência nas máquinas virtuais
de forma a viabilizar o balanço entre desempenho vs. consumo.
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Gerenciamento de Potência vs. Gerenciamento de Energia
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Níveis de Maturidade – Gerenciamento de Potência
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Nível Modelo de Uso Benefícios Caso de Uso
1 Monitoramento do consumo de
energia em tempo real
Evita “colapso” do DC com
informações atualizadas e em
tempo real do consumo de
potência
Monitoração do consumo de potência
em tempo real;
Gerencia os hot spots do DC;
Agendamento de potência e
temperatura;
Tendências e previsões de consumo.
2
Guard rail de Potência: aumenta a
segurança criando um limite superior
de forma a evitar que o consumo de
potência exceda um determinado
limite
Limite de potência
determinístico e garantida de
consumo máximo de potência
em um conjunto de máquinas
Maximiza a população de servidores
por rack e otimiza o CapEx por rack
disponível quando o rack está sob limite
orçamentário com negligenciável
impacto de desempenho por servidor.
3
Limite de Potência Estático: opera
os servidores sob um permanente
limite superior
Operação sob condições
adversas de disponibilidade de
potência
Maximiza o aproveitamento do rack em
termos de desempenho quando há
limitante de potência;
Otimização da aplicação de potência;
Compensação do desempenho da
aplicação;
Continuidade de Negócio: continuidade
da operação em caso de racionamento
de energia.
4
Limite de Potência Dinâmico:
ajusta o consumo do servidor de
acordo com o perfil da demanda de
carga
Otimiza a infraestrutura para
permitir entregar exatamente o
SLA com a disponibilidade de
QoS
Define o ponto de limite de potência de
acordo com a demanda da aplicação;
Suporte a múltiplas classes de serviços.
5 Gerenciamento de Energia Corta custos de eletricidade
Reconfiguração dinâmica para melhor
aproveitamento de potência
proporcional a computação
6 Gerenciamento de Potência do DC
integrado
Realiza a otimização de potência
nos servidores, elementos de
rede e armazenamento
Uso dos dados coletados dos sensores
para otimizar a refrigeração dentro de
certos valores
Evolução Tecnológica dos Servidores x86
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Otimização do Rack
Provisionar um rack de servidores com limite de 4KW
– Objetivo: Instalar o máximo de servidores sem extrapolar o limite de 4KW
• Método Tradicional (heurístico):
– Com base na especificação da fonte de potência , 650W;
– Se usa 400W como estimação segura (muitas vezes aferido em laboratório);
– Permite instalar 10 servidores = 4.000W (400W/servidor).
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
• Com monitoramento de Potência: − Avaliação histórica apresenta que raras vezes
excedem 250W/servidor;
− Define-se um limite agressivo de
250W/servidor com um limite global de
4KW para eliminar casos de boot storm, por
exemplo;
− Permite a instalação de 16 servidores,
aumentando a densidade em 60%
Antes Depois
Racionamento de Energia
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Potência
(watts)
Día 1 Día 2 Tempo
Potência
disponível
Emergencia
Consumo não satisfeito
Consumo com base na demanda
• Define guard rail de forma a evitar consumo de potência acima da
capacidade oferecida;
• Em casos de crises de fornecimento de energia, permite o DC operar
por períodos maiores sem negação de serviço mesmo com menor
desempenho.
Desastres Naturais
• Data : 3/11/2011 14:46
• Escala: 9.0
– Evento mais severo da história do Japão
– 4o mais severo desde 1900
• Mega tsunami impactou o NE do Japão
– Invadiu 6km a partir da paria
– Parede de 40,5m no distrito de Iwate
• Imediatamente depois do terremoto
– Perdia 21GW de geração de energia elétrica (Tokyo Electric Power Co.)
Japan Meteorological Agency Danos as plantas elétrias
Créditos: Tokyo & Tohoku Electric Power; Tokyo Electric Power Co. Inc.
Antes de 3/11 Depois
52GW
31GW
△21GW
Mapa térmico - otimização
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Medindo o Ganho Energético
P não gerenciado
P atual
t1 t t2
Consumo de Potência
do Servidor
Note que mecanismos que permitem economia significativa de potência
pode não promover ganhos de economia de energia
Computação Proporcional a Potência
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
0
50
100
150
200
250
300
350
400
450
500
Pbase Pmax
Co
nsu
mo
de
Po
tên
cia
(W)
Potência Proporcional a Computação
5300
5400
5500
5600
E5-2600
Pspread
Patual = Pbase + PspreadL
Estratégia de Desligar Servidores
1
2
3
4
5
6
#Servidores
Total N = 7
Servidores
ativos
Servidores
desligados
Hora do dia 4:00 AM 4:00 AM
CPU idle (W) Cluster (W) Pmin (W)
5300 405 2835 14%
5400 360 2520 14%
5500 225 1575 14%
5600 150 1050 14%
E5-2600 96 672 14%
1.0
0.5
1.0 0.5
Consumo de potência
normalizado
Eficiência Normalizada (MIPS/Watts)
Eficiência = 1 em 1.0 de utilização de CPU
Área típica de operação de
Data Centers Consumo de CPU
normalizado
Eficiência em função da demanda
1.0
0.5
1.0 0.5
Consumo de potência
normalizado
Eficiência Normalizada (MIPS/Watts)
Eficiência = 1 em 1.0 de utilização de CPU
Área típica de operação de
Data Centers Consumo de CPU
normalizado
Eficiência de um cluster de “n” servidores em função da
demanda
Estratégias de Economia de Energia
• O padrão ACPI define três níveis para realizar o parking dos
servidores não utilizados no cluster:
– S3: sleep to memory: normalmente consome ~10% do valor de pico e leva ~2min
para voltar ao estado S0;
– S4: hibernation: normalmente consome ~3% do valor de pico e o tempo para voltar
a S0 varia de acordo com a quantidade de memória e capacidade de I/O;
– S5: soft off: consome ~3% (o mesmo que em S4) e pode levar aproximadamente
15min para a maioria dos ambientes;
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Servidores ativos Servidores estacionados
N1
N2
Nn Nn
N2
N1
Estratégia de Platôs
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
100%
Servidores sem
limitação
70%
Servidores com
power capping
50%
Idle
10%
Standby (S3)
5%
Hibernado/desligado
(S4/5)
Consumo de potência como
uma % da carga máxima
Gestão Energética: Prova de Conceito na Telefónica I+D
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
0
20
40
60
80
100
120
0:0
0:0
0
0:3
0:0
0
1:0
0:0
0
1:3
0:0
0
2:0
0:0
0
2:3
0:0
0
3:0
0:0
2
3:3
0:0
0
4:0
0:0
0
4:3
0:0
1
5:0
0:0
0
5:3
0:0
1
6:0
0:0
0
6:3
0:0
1
7:0
0:0
0
7:3
0:0
0
Load (Injector
threads)
Tamanho do Grupo
N=2
Sumário
• Gerenciamento de Potência e Gestão de Energia no Data Center é uma
disciplina pouco explorada mas que paga os seus dividendos
• Evoluir nos modelos de maturidade, que trazem os maiores retornos
leva tempo: necessita vivencia no ambiente de como essas
características influenciam no consumo de potência e como criar
mecanismos que trazem retorno sem impactar o negócio;
• Melhor gerenciamento de potência/gestão de energia é o caminho para
incorporar a conta de energia ao custo de VMs – o real pay-as-you-go
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.
Obrigado!
Proibida cópia ou divulgação sem
permissão escrita do CMG Brasil.