cloud computing e big data

Cloud Computing e Big Data

Rodolpho Ugolini - @rugolini

Amazon Web Services

Sem despesas de

capital antecipadas

Pague apenas

pelo que usa

Infraestrutura

Self-Service

Escalabilidade

simples e

automática

Agilidade e Time

to Market

Baixo custo

O que é Computação em Nuvem

Deploy

Deep experience in

building and

operating global web

scale systems

About Amazon

Web Services

…passou a oferecer Cloud Computing?

Como a Amazon…

Trafego do mês de Novembro da amazon.com

Quanto de capacidade devemos provisionar?

Infrestrutura Tradicional não é mais suficiente

Ambientes de Testes Volume de Dados

Eventos Sazonais Picos de Demanda

Desperdício

Insatisfação do cliente

Infraestrutura de computação tradicional é cara e

complexa

Precisamos de capacidade ajustável!

... e torça para que tudo dê certo...

Existe um outro jeito!

Plataforma de Computação AWS

Serviços Básicos

Compute Storage Database Networking

Infraestrutura Global Regiões

Zonas de Disponibilidade Pontos de

Distribuição CDN

Disponivel Globalmente

Region

US-WEST (N. California) EU-WEST (Ireland)

ASIA PAC

(Tokyo)

ASIA PAC

(Singapore)

US-WEST (Oregon)

SOUTH AMERICA (Sao

Paulo)

US-EAST (Virginia)

GOV CLOUD

Serviços Básicos

Compute Storage Database Networking

Infraestrutura Global Regiões

Zonas de Disponibilidade Pontos de

Distribuição CDN

Sua Aplicação

Sistema Operacional

Apoiando-se nos ombros do gigante…

A cada dia, a AWS adiciona o

equivalente em capacidade

computacional, ao que era

necessário para manter a

Amazon.com de 2000

APIs e Automação

Automação Escale capacidade automaticamente

Utility computing

Compute

Storage

Security Scaling

Database

Networking Monitoring

Messaging

Workflow

Load Balancing

Backup CDN

4/12/2008 4/14/2008 4/15/2008 4/16/2008 4/18/2008 4/19/2008 4/20/2008 4/17/2008 4/13/2008

40 a 5000 em 3 dias

Pico de 5000

instancias

Divulagação

Lançamento da

Integração com

Facebook

40 instancias

Seu “Data Center” pessoal

250,000

500,000

750,000

1000,000

1 Trilhão

Pico de 750 mil transações por segundo

Objetos armazenados no S3

A análise de grandes volumes de dados está se tornando a

grande barreira para inovação, competição

e produtividade.

O que é Big Data?

Gerados por computador – estruturados, semi-estruturados ou não-estruturados

Logs (web sites, jogos)

Sensores (tempo, água)

Imagens/vídeos (cameras, segurança)

Gerados por pessoas Blogs/Resenhas/Emails/Fotos

Redes Sociais

Facebook, Linkedin, Twitter

Big Data está ficando cada vez maior

2.7 Zetabytes em 2012

Mais de 90% não estruturada

Dados espalhados em diversos silos

Precisamos de ferramentas para lidar com Big Data!

Onde se vê Big Data

Mídia/

Propaganda

Anuncios Dirigidos

Processa-mento de vídeos e imagens

Óleo e Gás

Análise Sismica

Varejo

Recomen-dações

Análise de Transações

Telecom

Cobrança

Log de Ligações

Uso dos Produtos

Instituições Financeiras

Simulações de Monte

Análise de Riscos

Segurança

Anti-virus

Detecção de Fraudes

Reconheci-mento de Imagens

Marketing e Jogos

(sobretudo social)

Analise Comporta-

mental

Análise de Uso

Métricas “In-game”

O que é Hadoop?

Apache Hadoop Sistema de storage distribuído e tolerante a falhas

(HDFS)

Usa um algoritmo chamado MapReduce para realizar análises estatísticas exaustivas sobre um grande conjunto de dados distribuídos

Benefícios-chave Custo mais baixo – Escala linearmente

Provado em escala– Petabytes em milhares de nós

Flexível – Dados podem ser armazenados com ou sem schema

"Hadoop é um storage confiável e um sistema analítico"

HDFS MapReduce

RDBMS MapReduce (Hadoop)

Schema definido Schema não requerido

Explora índices para

recuperação rápida

Análises rápidas de dados e

performance uniforme de

queries

SQL apenas Suporta SQL + outras

linguagens

Não escala linearmente Escalabilidade linear para

reads + writes

Implantar um cluster hadoop é difícil

http://eddie.niese.net/20090313/dont-pity-incompetence/

Big Data requer infraestrutura flexível

Infraestrutura física leva a hardware e software estático e planejado para atender picos…

…e muitas vezes acaba gerando longas filas de processamento

Data Warehouse Elástico

Aumenta

para 25

instancias

Data Warehouse

(Estável)

Data Warehouse

(Processo Batch)

Diminui

instancias

Data Warehouse

(Estável)

Input data

Elastic

MapReduce

Input data

Elastic

MapReduce

Code Name

Input data

Elastic

MapReduce

Code Name

Input data

Elastic

cluster

Elastic

MapReduce

Code Name

Input data

Elastic

cluster

Elastic

MapReduce

Code Name

Input data

Elastic

cluster

HDFS Queries

Via JDBC, Pig, Hive

Elastic

MapReduce

Code Name

Output

S3 + SimpleDB

Input data

Elastic

cluster

HDFS Queries

Via JDBC, Pig, Hive

Output

S3 + SimpleDB

Input data

OBRIGADO! aws.amazon.com

Rodolpho Ugolini

Amazon Web Services

@rugolini

cloud computing e big data

big data

jdbc

west

hadoop

pig

amazon

estvel

Education

soluções online cloud computing

introduction to cloud computing

cloud computing evolution

artigo cloud computing pdf

monografia cloud computing unifor

big data e cloud computing perpectivas de uso em ... · 3....

catálogo cloud computing 2014

cloud computing - pratices & patterns

tcc - cloud computing

cloud computing: apresentação da bt brasil no evento cloud...

cloud computing e data centers – estado da arte e...

curso sobre cloud computing

big data e cloud computing: conhecendo mais sobre big data e...

apresentação cloud computing

cloud computing 2.0.1

cloud computing, grid computing, virtualization

palestra cloud-computing

cloud computing-curso-dia3

cloud computing - eucalyptus

cloud computing-curso-dia1