big data na nuvem

Big Data na AWS Eduardo Horai

AWS Solutions Architect

Vários Tutoriais , treinamentos e mentoria em

português

Inscreva-se agora !!

http://awshub.com.br

Agenda

1. Introdução a Big Data

2. Transformando dado em informação

3. Analítico e Computação nas nuvens

4. Ecossistema Big Data

5. Infraestrutura tecnológica para Big Data

Introdução a Big Data

Uma das definições de Big Data

Quando a quantidade de dados começa a ficar tão grande que você tem

que começar a inovar no jeito de coletar, armazenar, organizar, analisar

e compartilhar a informação.

Geração

Coleta e Armazenamento

Análise e processamento

Compartilhamento

O custo da geração de dados está caindo…

Geração

Compartilhamento

custo baixo,

alta transferência

Geração

Compartilhamento

custo baixo,

alta transferência

extremamente

limitado

Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011

IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares

Dados gerados

Disponivel para análise

Volume de dados

Gartner: User Survey Analysis: Key Trends Shaping the Future of Data Center Infrastructure Through 2011

IDC: Worldwide Business Analytics Software 2012–2016 Forecast and 2011 Vendor Shares

Elasticidade e alta escalabilidade

Sem capital adiantado

Paga apenas por uso

Disponível por demanda

Remove

todos os

limites

Geração

Compartilhamento

custo baixo,

alta transferência

extremamente

limitado

Geração

Compartilhamento

Acelerado

Big Data

Tecnologias e técnicas para

trabalhar de forma produtiva com

dados, em qualquer escala

Transformando dado

em informação

Operador Nacional do

Sistema Elétrico Sérgio Mafra

Gerente de Inovação em TI

• O Operador Nacional do Sistema Elétrico (ONS) é uma empresa privada, responsável pelo planejamento e operação da geração e transmissão de energia elétrica no Sistema Interligado Nacional (SIN).

• Com cerca de 800 funcionários, em 5 localidades (Rio de Janeiro, Recife, Florianópolis e Brasília), o ONS é uma empresa intensiva em informações com uso contínuo de modelos matemáticos que requer HPC (High Performance Computing e Big Data)

“A Amazon Web Services permitiu provisionar clusters de alto

desempenho em minutos, rodando em paralelo, reduzindo

significantemente o tempo total de processamento”.

“Com isso, percebemos

que a AWS é

magicamente, muito

mais rápida, elástica e barata que nossos blades

atuais” - Sérgio Mafra

• Prover ao ONS uma plataforma de maior capacidade de processamento, permitindo obter uma redução no tempo de solução dos modelos matemáticos, com custo adequado ao tempo de utilização, de fácil gestão do ambiente em cluster e que fosse transparente para a organização.

• Permitir o “time-to-market” para a área de TI, detendo o conhecimento e a responsividade às demandas inesperadas provenientes das áreas da organização.

O Desafio

“Scotty, We Need More Power”

• Redução de cerca de 40% no tempo de resolução dos modelos matemáticos de planejamento eletro-energéticos, com custo 30% inferior.

• Condição de analisar 5 estratégias de utilização dos modelos Newave/Decomp em prazo recorde (1 semana), com a execução de 600 casos. O prazo on-premises seria de 3 semanas, incompatível com o compromisso acordado com o MME.

Sobre a o Papel da AWS e Benefícios

alcançados

Big Data Corp. Thoran Rodrigues

• MercadoPago é a plataforma de pagamentos do Mercado Livre, utilizada em mais de cem mil sites de toda a América Latina.

• O MercadoPago precisava de uma visão real do e-commerce no Brasil, tanto no âmbito estratégico quanto no tático. Para alcançar essa visão, a tecnologia tem um papel fundamental.

“Com o AWS, conseguimos montar uma

visão inédita do e-commerce brasileiro”.

“Sem o AWS, teria sido

financeiramente inviável executar

esse projeto”

O Desafio

• O mercado de e-commerce no Brasil sofre da falta de informação. Não existem números precisos sobre a quantidade de sites, muito menos da participação de mercado dos diferentes prestadores de serviço (plataformas, meios de pagamento, etc.)

• Para se obter essas informações de maneira efetiva, é necessário um processo massivo de coleta e processamento de informações.

Sobre o Papel da AWS e Benefícios

alcançados

PARAGRAFO RESUMO CASO _ KEY WORDS

de BENEFICIO, DESAFIO VENCIDO –

RESUMO DO CASO EM UM PARAGRAFO

• Com o AWS, foi possível montar um processo escalável que visita quase todos os sites da internet brasileira (2.5 Milhões) 1x por semana.

• Do ínico do projeto até hoje, já foram mais de 16 bilhões de páginas visitadas, mais de 700TB de dados processados, e já poupamos mais de R$ 250 mil com a AWS.

• Montamos o 1º mapa compreensivo da web brasileira.

Analítico e

computação nas nuvens

Geração

Compartilhamento

Geração

Compartilhamento

S3, Glacier,

Storage Gateway,

DynamoDB,

Redshift, RDS,

Geração

Compartilhamento

Elastic MapReduce

Geração

EC2 & S3,

CloudFormation,

Elastic MapReduce,

RDS, DynamoDB, Redshift

Compartilhamento

Geração

AWS Data Pipeline

EC2 & S3,

CloudFormation,

Elastic MapReduce,

Elastic MapReduce

S3, Glacier,

Storage Gateway,

DynamoDB,

Redshift, RDS,

Compartilhamento

Geração

AWS Data Pipeline

EC2 & S3,

CloudFormation,

Elastic MapReduce,

Elastic MapReduce

S3, Glacier,

Storage Gateway,

DynamoDB,

Redshift, RDS,

Compartilhamento

Elastic Map Reduce

Hadoop gerenciado,

processamento analítico

Input data

S3, DynamoDB, Redshift

Elastic

MapReduce

Código

Input data

Elastic

MapReduce

Código Name

Input data

Elastic

MapReduce

Código

Input data

Elastic

cluster

S3/HDFS

Elastic

MapReduce

Código

Input data

S3/HDFS Queries

Via JDBC, Pig, Hive

Elastic

cluster

Elastic

MapReduce

Código

Output

Input data

Queries

Via JDBC, Pig, Hive

Elastic

cluster

S3/HDFS

Output

Input data

1. Clusters elásticos

10 horas

6 horas

Capacidade máxima

2. Rápido, provisionamento dinâmico

(muito) fácil.

Parte pesada e difícil é

removida...

3. E ainda o mesmo Hadoop

Ecosystem robusto. Databases, machine learning, segmentation,

clustering, analytics, metadata stores,

exchange formats, and so on...

4. Agilidade para experimentos

Tipos de instâncias Flexibilidade no tipo da instância & número.

5. Otimização de custo

Feito para Spot. Computação baseada no seu preço.

1. Clusters elásticos

2. Rápido, provisionamento dinâmico

3. Mesmo Hadoop

4. Agilidade para experimentos

5. Otimização de custos

Ecossistema Big Data

Dados, dados, (espalhados) em todo lugar... dados em silos (isolados)

DynamoDB EMR

HBase on EMR RDS

Redshift

On-premises Logs de App

“Como eu transfiro meus dados para a nuvem?”

Mobilidade dos dados

Gerados e armazenados na AWS

Transferência de dados entrante é gratuito

Multipart upload para S3

Media física (EUA apenas)

AWS Direct Connect

Replicação de AMIs e snapshots

“Como eu integro meus dados para

melhores resultados?”

DynamoDB EMR

HBase on EMR RDS

Redshift

DynamoDB EMR

HBase on EMR RDS

Redshift

DynamoDB EMR

HBase on EMR RDS

Redshift

DynamoDB EMR

HBase on EMR RDS

Redshift

On premises Logs de App

DynamoDB EMR

HBase on EMR RDS

Redshift

DynamoDB EMR

HBase on EMR RDS

Redshift

DynamoDB EMR

HBase on EMR RDS

Redshift

Pedidos

do dia

Acesso do

usuário

ERP/Prod

Histórico de

compras

Recomendações

de compra Analítico de

recomendação

AWS Data Pipeline Orquestração de muitos dados

Esqueleto de um pipeline

Pipelines complexos

aws.amazon.com/datapipeline

aws.amazon.com/big-data

Infraestrutura tecnológica

para Big Data

Bruno Domingues

Arquiteto de Soluções Senior, Intel

Analysis of Data Can Transform Society

Create new business

models and improve

organizational

processes.

Enhance scientific

understanding, drive

innovation, and

accelerate medical cures.

Increase public safety

and improve

energy efficiency with

smart grids.

Democratizing Analytics gets Value out of Big Data

Unlock Value in

Silicon

Support Open

Platforms

Deliver Software Value

Intel at the Intersection of Big Data

Enabling exascale computing on massive data

Helping enterprises build open

interoperable clouds

Contributing code and fostering ecosystem

HPC Cloud Open Source

Intel at the Heart of the Cloud

Server

Storage

Network

Reinventing Supercomputing

On Demand

Scale-Out Platform Optimizations for Big Data

Cost-effective performance

•Intel® Advanced Vector Extension Technology

•Intel® Turbo Boost Technology 2.0

•Intel® Advanced Encryption Standard New

Instructions Technology

Intel® Advanced Vector Extensions Technology

1 : Performance comparison using Linpack benchmark. See backup for configuration details. For more legal information on performance forecasts go to http://www.intel.com/performance

• Newest in a long line of

processor instruction

innovations

• Increases floating point

operations per clock up to

2X1 performance

Software and workloads used in performance tests may have been optimized for performance only on Intel microprocessors. Performance tests, such as SYSmark and MobileMark,

are measured using specific computer systems, components, software, operations and functions. Any change to any of those factors may cause the results to vary. You should

consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other

products.

Intel® Turbo Boost Technology 2.0

More Performance Higher turbo speeds maximize

performance for single and

multi-threaded applications

Intel® Advanced Encryption

Standard New Instructions

• Processor assistance for performing AES encryption 7 new instructions

• Makes enabled encryption software faster and stronger

Power of the Platform built by Intel

Richer

experiences

50% Reduction

80% Reduction 50%

Reduction 40% Reduction

TeraSort for

1TB sort

Intel®

Xeon®

Processor

E5 2600

Solid-State

Drive 10G

Ethernet Intel® Apache

Hadoop

Xeon®

Processor

Intelligent Systems

Clients

Virtuous Cycle of Data-Driven Experience

Get 600 Hours of Free

Supercomputing Time!

www.powerof60.com

What can you

do in 60 minutes?

Resumo

1. Introdução a Big Data

2. Transformando dado em informação

3. Analítico e Computação nas nuvens

4. Ecossistema Big Data

5. Infraestrutura tecnológica para Big Data

Obrigado!

ehorai@amazon.com

aws.amazon.com/elasticmapreduce

aws.amazon.com/datapipeline

aws.amazon.com/big-data

big data na nuvem

Technology

io e big data

postgres big data

apostila sobre big data

big data e cloud computing: conhecendo mais sobre big data e...

big data na ufsm

sparsi big data

processamento em big data

aula big data

data warehouse e big...

big data e computação em nuvem na aws

big data - pós graduação arquitetura de nuvem - ufrn -...

importÂncia e aplicabilidade da abordagem multivariada na...

palestra big data scti

big data - uma introdução

big data na nuvem: tecnologias convergentes€¦ · como...

big data v1 - cel · 1. introducción al concepto de big...

big data instituto big data brasil crie

etl em big data

cargo data e horário da prova - arquivos.qconcursos.com ·...

contexto de big data, ciência de dados e kdd - pós...