big data na nuvem
Post on 21-May-2015
1.631 Views
Preview:
DESCRIPTION
TRANSCRIPT
Big Data na AWS Eduardo Horai
AWS Solutions Architect
Vários Tutoriais , treinamentos e mentoria em
português
Inscreva-se agora !!
http://awshub.com.br
Agenda
1. Introdução a Big Data
2. Transformando dado em informação
3. Analítico e Computação nas nuvens
4. Ecossistema Big Data
5. Infraestrutura tecnológica para Big Data
Introdução a Big Data
1
Uma das definições de Big Data
Quando a quantidade de dados começa a ficar tão grande que você tem
que começar a inovar no jeito de coletar, armazenar, organizar, analisar
e compartilhar a informação.
Geração
Coleta e Armazenamento
Análise e processamento
Compartilhamento
O custo da geração de dados está caindo…
Geração
Coleta e Armazenamento
Análise e processamento
Compartilhamento
custo baixo,
alta transferência
Geração
Coleta e Armazenamento
Análise e processamento
Compartilhamento
custo baixo,
alta transferência
extremamente
limitado
Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011
IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares
Dados gerados
Disponivel para análise
Volume de dados
Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011
IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares
Elasticidade e alta escalabilidade
+
Sem capital adiantado
+
Paga apenas por uso
+
Disponível por demanda
Remove
todos os
limites
=
Geração
Coleta e Armazenamento
Análise e processamento
Compartilhamento
custo baixo,
alta transferência
extremamente
limitado
Geração
Coleta e Armazenamento
Análise e processamento
Compartilhamento
Acelerado
Big Data
Tecnologias e técnicas para
trabalhar de forma produtiva com
dados, em qualquer escala
Transformando dado
em informação
2
Operador Nacional do
Sistema Elétrico Sérgio Mafra
Gerente de Inovação em TI
• O Operador Nacional do Sistema Elétrico (ONS) é uma empresa privada, responsável pelo planejamento e operação da geração e transmissão de energia elétrica no Sistema Interligado Nacional (SIN).
• Com cerca de 800 funcionários, em 5 localidades (Rio de Janeiro, Recife, Florianópolis e Brasília), o ONS é uma empresa intensiva em informações com uso contínuo de modelos matemáticos que requer HPC (High Performance Computing e Big Data)
“A Amazon Web Services permitiu provisionar clusters de alto
desempenho em minutos, rodando em paralelo, reduzindo
significantemente o tempo total de processamento”.
“Com isso, percebemos
que a AWS é
magicamente, muito
mais rápida, elástica e barata que nossos blades
atuais” - Sérgio Mafra
• Prover ao ONS uma plataforma de maior capacidade de processamento, permitindo obter uma redução no tempo de solução dos modelos matemáticos, com custo adequado ao tempo de utilização, de fácil gestão do ambiente em cluster e que fosse transparente para a organização.
• Permitir o “time-to-market” para a área de TI, detendo o conhecimento e a responsividade às demandas inesperadas provenientes das áreas da organização.
O Desafio
“Scotty, We Need More Power”
• Redução de cerca de 40% no tempo de resolução dos modelos matemáticos de planejamento eletro-energéticos, com custo 30% inferior.
• Condição de analisar 5 estratégias de utilização dos modelos Newave/Decomp em prazo recorde (1 semana), com a execução de 600 casos. O prazo on-premises seria de 3 semanas, incompatível com o compromisso acordado com o MME.
Sobre a o Papel da AWS e Benefícios
alcançados
Big Data Corp. Thoran Rodrigues
CEO
• MercadoPago é a plataforma de pagamentos do Mercado Livre, utilizada em mais de cem mil sites de toda a América Latina.
• O MercadoPago precisava de uma visão real do e-commerce no Brasil, tanto no âmbito estratégico quanto no tático. Para alcançar essa visão, a tecnologia tem um papel fundamental.
“Com o AWS, conseguimos montar uma
visão inédita do e-commerce brasileiro”.
“Sem o AWS, teria sido
financeiramente inviável executar
esse projeto”
O Desafio
• O mercado de e-commerce no Brasil sofre da falta de informação. Não existem números precisos sobre a quantidade de sites, muito menos da participação de mercado dos diferentes prestadores de serviço (plataformas, meios de pagamento, etc.)
• Para se obter essas informações de maneira efetiva, é necessário um processo massivo de coleta e processamento de informações.
Sobre o Papel da AWS e Benefícios
alcançados
PARAGRAFO RESUMO CASO _ KEY WORDS
de BENEFICIO, DESAFIO VENCIDO –
RESUMO DO CASO EM UM PARAGRAFO
• Com o AWS, foi possível montar um processo escalável que visita quase todos os sites da internet brasileira (2.5 Milhões) 1x por semana.
• Do ínico do projeto até hoje, já foram mais de 16 bilhões de páginas visitadas, mais de 700TB de dados processados, e já poupamos mais de R$ 250 mil com a AWS.
• Montamos o 1º mapa compreensivo da web brasileira.
Analítico e
computação nas nuvens
3
Geração
Coleta e Armazenamento
Análise e processamento
Compartilhamento
Geração
Coleta e Armazenamento
Análise e processamento
Compartilhamento
S3, Glacier,
Storage Gateway,
DynamoDB,
Redshift, RDS,
HBase
Geração
Coleta e Armazenamento
Análise e processamento
Compartilhamento
EC2 &
Elastic MapReduce
Geração
Coleta e Armazenamento
Análise e processamento
EC2 & S3,
CloudFormation,
Elastic MapReduce,
RDS, DynamoDB, Redshift
Compartilhamento
Geração
Coleta e Armazenamento
Análise e processamento
AWS Data Pipeline
EC2 & S3,
CloudFormation,
Elastic MapReduce,
RDS, DynamoDB, Redshift
EC2 &
Elastic MapReduce
S3, Glacier,
Storage Gateway,
DynamoDB,
Redshift, RDS,
HBase
Compartilhamento
Geração
Coleta e Armazenamento
Análise e processamento
AWS Data Pipeline
EC2 & S3,
CloudFormation,
Elastic MapReduce,
RDS, DynamoDB, Redshift
EC2 &
Elastic MapReduce
S3, Glacier,
Storage Gateway,
DynamoDB,
Redshift, RDS,
HBase
Compartilhamento
Elastic Map Reduce
Hadoop gerenciado,
processamento analítico
Input data
S3, DynamoDB, Redshift
Elastic
MapReduce
Código
Input data
S3, DynamoDB, Redshift
Elastic
MapReduce
Código Name
node
Input data
S3, DynamoDB, Redshift
Elastic
MapReduce
Código
Name
node
Input data
Elastic
cluster
S3, DynamoDB, Redshift
S3/HDFS
Elastic
MapReduce
Código
Name
node
Input data
S3/HDFS Queries
+ BI
Via JDBC, Pig, Hive
S3, DynamoDB, Redshift
Elastic
cluster
Elastic
MapReduce
Código
Name
node
Output
Input data
Queries
+ BI
Via JDBC, Pig, Hive
S3, DynamoDB, Redshift
Elastic
cluster
S3/HDFS
Output
Input data
S3, DynamoDB, Redshift
1. Clusters elásticos
10 horas
6 horas
Capacidade máxima
2. Rápido, provisionamento dinâmico
(muito) fácil.
Parte pesada e difícil é
removida...
3. E ainda o mesmo Hadoop
Ecosystem robusto. Databases, machine learning, segmentation,
clustering, analytics, metadata stores,
exchange formats, and so on...
4. Agilidade para experimentos
Tipos de instâncias Flexibilidade no tipo da instância & número.
5. Otimização de custo
Feito para Spot. Computação baseada no seu preço.
1. Clusters elásticos
2. Rápido, provisionamento dinâmico
3. Mesmo Hadoop
4. Agilidade para experimentos
5. Otimização de custos
Ecossistema Big Data
4
Dados, dados, (espalhados) em todo lugar... dados em silos (isolados)
S3
DynamoDB EMR
HBase on EMR RDS
Redshift
On-premises Logs de App
“Como eu transfiro meus dados para a nuvem?”
Mobilidade dos dados
Gerados e armazenados na AWS
Transferência de dados entrante é gratuito
Multipart upload para S3
Media física (EUA apenas)
AWS Direct Connect
Replicação de AMIs e snapshots
“Como eu integro meus dados para
melhores resultados?”
S3
DynamoDB EMR
HBase on EMR RDS
Redshift
On-premises Logs de App
S3
DynamoDB EMR
HBase on EMR RDS
Redshift
On-premises Logs de App
S3
DynamoDB EMR
HBase on EMR RDS
Redshift
On-premises Logs de App
S3
DynamoDB EMR
HBase on EMR RDS
Redshift
On premises Logs de App
S3
DynamoDB EMR
HBase on EMR RDS
Redshift
On premises Logs de App
S3
DynamoDB EMR
HBase on EMR RDS
Redshift
On premises Logs de App
S3
DynamoDB EMR
HBase on EMR RDS
Redshift
On premises Logs de App
Pedidos
do dia
Acesso do
usuário
ERP/Prod
utos
Histórico de
compras
Recomendações
de compra Analítico de
recomendação
AWS Data Pipeline Orquestração de muitos dados
Esqueleto de um pipeline
Pipelines complexos
aws.amazon.com/datapipeline
aws.amazon.com/big-data
Infraestrutura tecnológica
para Big Data
5
Bruno Domingues
Arquiteto de Soluções Senior, Intel
Analysis of Data Can Transform Society
Create new business
models and improve
organizational
processes.
Enhance scientific
understanding, drive
innovation, and
accelerate medical cures.
Increase public safety
and improve
energy efficiency with
smart grids.
Democratizing Analytics gets Value out of Big Data
Unlock Value in
Silicon
Support Open
Platforms
Deliver Software Value
Intel at the Intersection of Big Data
Enabling exascale computing on massive data
sets
Helping enterprises build open
interoperable clouds
Contributing code and fostering ecosystem
HPC Cloud Open Source
Intel at the Heart of the Cloud
Server
Storage
Network
Reinventing Supercomputing
On Demand
Scale-Out Platform Optimizations for Big Data
Cost-effective performance
•Intel® Advanced Vector Extension Technology
•Intel® Turbo Boost Technology 2.0
•Intel® Advanced Encryption Standard New
Instructions Technology
Intel® Advanced Vector Extensions Technology
1 : Performance comparison using Linpack benchmark. See backup for configuration details. For more legal information on performance forecasts go to http://www.intel.com/performance
81
• Newest in a long line of
processor instruction
innovations
• Increases floating point
operations per clock up to
2X1 performance
Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark,
are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should
consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other
products.
Intel® Turbo Boost Technology 2.0
More Performance Higher turbo speeds maximize
performance for single and
multi-threaded applications
Intel® Advanced Encryption
Standard New Instructions
• Processor assistance for performing AES encryption 7 new instructions
• Makes enabled encryption software faster and stronger
Power of the Platform built by Intel
Richer
user
experiences
4HRS
50% Reduction
10MIN
80% Reduction 50%
Reduction 40% Reduction
TeraSort for
1TB sort
Intel®
Xeon®
Processor
E5 2600
Solid-State
Drive 10G
Ethernet Intel® Apache
Hadoop
Previous
Intel®
Xeon®
Processor
Cloud
Intelligent Systems
Clients
Virtuous Cycle of Data-Driven Experience
Get 600 Hours of Free
Supercomputing Time!
www.powerof60.com
What can you
do in 60 minutes?
Resumo
1. Introdução a Big Data
2. Transformando dado em informação
3. Analítico e Computação nas nuvens
4. Ecossistema Big Data
5. Infraestrutura tecnológica para Big Data
Obrigado!
ehorai@amazon.com
aws.amazon.com/elasticmapreduce
aws.amazon.com/datapipeline
aws.amazon.com/big-data
top related