tendências de big data

61
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. © 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Thiago Paulino | Arquiteto de Soluções 2016 Padrões de Arquitetura e Melhores Práticas de Big Data na AWS Tendências de Big Data

Upload: amazon-web-services-latam

Post on 14-Apr-2017

298 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Thiago Paulino | Arquiteto de Soluções

2016

Padrões de Arquitetura e Melhores Práticas de Big Data na AWSTendências de Big Data

Page 2: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

O que esperar dessa sessão?

• Desafios de Big Data• Como simplificar o processamento dos dados?• Que tecnologias devo utilizar?

• Porque?• Como?

• Arquitetura de Referência• Padrões de Desenho

Page 3: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Big Data crescendo, sempre

Volume

Velocidade

Variedade

Page 4: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Evolução de Big Data

Batch•Relatórios

Tempo Real•Alertas

Predição• Forecast

Page 5: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Várias ferramentas

Glacier

S3 DynamoDB

RDS

EMR

Redshift

Data Pipeline

Kinesis Cassandra Kinesis-

enabled app

Lambda ML

ElastiCache

DynamoDBStreams

SQS

Elastic SearchKinesis Firehose

Page 6: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Diferencie-se

• Empresas muito parecidas• Pense com números• “Erre certo”

http://amzn.to/1Wb1Lrw

Page 7: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

http://imdb.to/1kRJDgn

Diferencie-se

• Empresas muito parecidas• Pense com números• “Erre certo”

Page 8: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Existe uma arquitetura de referência?Que ferramentas deveria utilizar?

Como? Por quê?

Page 9: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Princípios Arquiteturais

• “Data Bus” Desacoplado• Dados → Armazenamento→ Processamento→ Respostas

• Ferramenta certa para o trabalho certo• Estrutura de dados, latência, taxa de transferência, padrões de

acesso• Usar idéias com Arquitetura Lambda

• Log imutável (append-only), batch/speed/serving layer• Aproveitar serviços gerenciados da AWS

• Baixa ou nenhuma administração• Big data ≠ $$$$$$

Page 10: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Simplificando o processamento de Big Data

Ingerir /Coletar

Armazenar Processar /Analizar

Consumir / Visualizar

dados respostas

Tempo para as respostas (Latência)Taxa de transferência

Custo

Page 11: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Ingerir /Coletar

Page 12: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Tipos de Dados

• Transacional• Leituras e escritas em BD

(OLTP)• Cache

• Search• Logs• Streams

• Arquivos• Arquivos de log (/var/log)• Coletores de logs e frameworks

• Stream• Logs• Sensores & dados de IoT

BD

Armazenamento de Arquivos

Armazenamento de Streams

A

iOS Android

Web Apps

Logstash

Logg

ing

IoT

Aplic

açõe

s

Dados Transacionais

Arquivos

Streams

Mobile Apps

Dados Indexados

Search

Collect Store

Logg

ing

IoT

Page 13: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Armazenar

Page 14: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Armazenamento de Streams

A

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

AmazonElastiCache

Sear

ch

SQL

Não

SQL

Ca

che

Arm

azen

amen

to d

e St

ream

sFi

le

Stor

age

Dados Transacionais

Arquivos

Streams

Mobile Apps

Dados Indexados

BD

Arquivos

Search

Coletar Armazenar

Logg

ing

IoT

Aplic

açõe

s

Page 15: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Opções de Armazenamento de Streams

• Serviços Gerenciados AWS• Amazon Kinesis → streams• DynamoDB Streams → tabela + streams• Amazon SQS → fila• Amazon SNS → pub/sub

• Não Gerenciados• Apache Kafka → stream

Page 16: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Porque armazenamento de Streams?• Desacoplar consumidores & produtores• Buffer persistente• Coletar múltiplas streams

• Preservar ordenação• Streaming MapReduce• Consumo paralelo

4 4 3 3 2 2 1 14 3 2 1

4 3 2 1

4 3 2 1

4 3 2 14 4 3 3 2 2 1 1

Produtor 1

Shard 1 / Partition 1

Shard 2 / Partition 2

Consumidor 1

Count of Red = 4

Count of Violet = 4

Consumidor 2

Count of Blue = 4

Count of Green = 4

Produtor 2

Produtor 3

Produtor N

Key = Red

Key = Green

Key = Blue

Key = Violet

Kafka TopicDynamoDB Stream Kinesis Stream

Page 17: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

E filas e Pub/Sub?• Desacoplar produtores &

consumidores/assinantes• Buffer persistente• Coletar múltiplas streams

• Sem ordenação• Sem consumo paralelo

Não Amazon SQS• Amazon SNS pode

rotear para mais filas SQS ou funções ʎ

• Sem streaming MapReduce

Consumidores

Produtores

Produtores

Amazon SNS

Amazon SQS

fila

Tópico

Função

ʎ

AWS Lambda

Amazon SQSfila

Assinante

Page 18: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Qual armazenamento de storage devo usar?AmazonKinesis

DynamoDB Streams

Amazon SQSAmazon SNS

Kafka

Gerenciado Sim Sim Sim NãoOrdenação Sim Sim Não SimEntrega Pelo menos 1 vez Exatamente 1 vez Pelo menos 1 vez Pelo menos 1 vez

Retenção 7 dias 24 horas 14 dias ConfigurávelReplicação 3 AZ 3 AZ 3 AZ ConfigurávelTaxa Transferência Sem Limite Sem Limite Sem Limite # NodesClientes Paralelos Sim Sim Não (SQS) SimMapReduce Sim Sim Não SimTamanho Registro 1MB 400KB 256KB ConfigurávelCusto Baixo Alto (custo

tabela) Baixo-Médio Baixo (+admin)

Page 19: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Armazenamento de Arquivos

A

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

AmazonElastiCache

Sear

ch

SQL

NoS

QL

Ca

che

Arm

azen

amen

to d

e St

ream

sAr

maz

enam

ento

de

Arqu

ivos

Transacional

Arquivos

Streams

Mobile Apps

Indexado

BD

Search

Coletar Armazenar

Logg

ing

IoT

Aplic

açõe

s

Page 20: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Por que o S3 é bom para Big Data?• Suportado nativamente por frameworks de Big Data (Spark, Hive, Presto, etc.) • Sem necessidade de rodar clusters para storage (diferente do HDFS)• Permite rodar clusters Hadoop transientes & utilizar instâncias EC2 Spot• Múltiplos clusters distintos podem usar os mesmos dados• Número ilimitado de objetos• Alta taxa de transferência – sem limite agregado de taxa de transferência• Alta disponibilidade – tolera falha nas AZs• Desenhado para durabilidade de 99.999999999%• Tiered-storage (Standard, IA, Amazon Glacier) com políticas de ciclo de vida• Seguro – criptografia em trânsito com SSL, em descanso com client/server-side• Baixo custo

Page 21: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

O que dizer sobre HDFS e Amazon Glacier?

• Usar HDFS para dados frequentemente acessados (quente)

• Usar Amazon S3 Standard para dados frequentemente acessados

• Usar Amazon S3 Standard – IA para dados que não são frequentemente acessados

• Usar Amazon Glacier para arquivar dados frios

Page 22: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

BD + Search

A

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

AmazonElastiCache

Sear

ch

SQL

NoS

QL

Ca

che

Arm

azen

amen

to d

e St

ream

sAr

quiv

os

Transacionais

Arquivos

Streams

Mobile Apps

Indexados

Coletar Armazenar

Logg

ing

IoT

Aplic

açõe

s

Page 23: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Quanto só se tem um martelo, tudo parece como um prego

A Lei de Maslow ou Martelo de Maslow,

popularmente mencionado com a frase

“se tudo o que você tem é um martelo, tudo parece

como um prego” é do livro “A Psicologia da Ciência”,

de Abraham Maslow.Fonte: https://en.wikipedia.org/wiki/Law_of_the_instrument

http://amzn.to/1MVHgO5

Page 25: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

BD + Search – Anti-Pattern

RDBMS

BD + Search

Aplicações

Page 26: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Search + BD – Anti-Pattern

Elastic Search

Search + BD

Aplicações

Page 27: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Melhor prática – Ferramenta certa para o trabalho certo

Data TierSearchAmazon

Elasticsearch Service

Amazon CloudSearch

CacheRedisMemcached

SQLAmazon AuroraMySQLPostgreSQLOracleSQL Server

NoSQLCassandraAmazon

DynamoDBHBaseMongoDB

Applications

BD + Search

Page 28: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Renove a caixa de ferramentas

• Persistência poliglota

http://amzn.to/1qUc0oq

Page 29: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Views Materializadas

Amazon ElasticSearch

Page 30: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Que tipo de armazenamento devo usar?

• Estrutura de Dados → Schema fixo, JSON, key-value

• Padrões de Acesso → Armazene os dados no formato que você irá acessar

• Características de acesso a dados → Quente, morno, frio

• Custo → Melhor custo benefício

Page 31: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Estruturas de Dados e Padrões de Acesso

Padrões de Acesso O que usar?Put/Get (Key, Value) Cache, NoSQL

Relacionamentos Simples → 1:N, M:N NoSQL

Cross table joins, transação, SQL SQL

Faceting, Search Search

Estrutura de dados O que usar?

Schema fixo SQL, NoSQL

Sem Schema (JSON) NoSQL, Search

(Key, Value) Cache, NoSQL

Page 32: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Qual a temperatura do seu padrão de acesso aos dados?

Page 33: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Quente Morno Frio

Volume MB–GB GB–TB PB

Tamanho do Item B–KB KB–MB KB–TB

Latência ms ms, sec min, hrs

Durabilidade Baixo–Alto Alto Muito Alto

Taxa de acesso Muito Alto Alto BaixoCusto/GB $$-$ $-¢¢ ¢

Dados Quentes Dados Mornos Dados Frios

Page 34: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Cache SQL

Taxa de AcessoAlto Baixo

Custo/GBAlto Baixo

LatênciaBaixo Alto

GlacierE

stru

tura NoSQL

Quente Morno Frio

Baixo

Alto

S3

Search

HDFS

Page 35: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Que tipo de armazenamento devo usar?

Amazon ElastiCache

AmazonDynamoDB

AmazonAurora

AmazonElasticsearch

Amazon EMR (HDFS)

Amazon S3 Amazon Glacier

LatênciaMédia

ms ms ms, sec ms,sec sec,min,hrs ms,sec,min(~ tamanho)

hrs

Volume de Dados

GB GB–TBs(sem limite)

GB–TB(64 TB Max)

GB–TB GB–PB(~nodes)

MB–PB(sem limite)

GB–PB(sem limite)

Tamanho Item B-KB KB(400 KB max)

KB(64 KB)

KB(1 MB max)

MB-GB KB-GB(5 TB max)

GB(40 TB max)

Taxa de Acesso Alta - Muito Alta

Muito Alta(sem limite)

Alta Alta Baixa – Muito Alta

Baixa –Muito Alta(sem limite)

Muito Baixa

Custo armazenamentoGB/mês

$$ ¢¢ ¢¢ ¢¢ ¢ ¢ ¢/10

Durabilidade Baixo - Moderada

Muito Alta Muito Alta

Alta Alta Muito Alta Muito Alta

Quente Morno Frio

Page 36: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Desenho orientado a custo

• Exemplo: Deveria utilizar Amazon S3 ou DynamoDB?“Estou desenhando um projeto que irá aumentar consideravelmente o uso do Amazon S3 pelo meu time. Espero que você me ajude com algumas questões. A etapa atual do projeto requer trabalhar com muitos arquivos pequenos, talvez chegue a um bilhão durante o pico. O tamanho total deve ser na orderm de 1.5 TB por mês…”

Taxa de acesso (Escritas/seg)

Tamanho Objeto(Bytes)

Tamanho Total(GB/month)

Objetos por mês

300 2048 1483 777,600,000

Page 37: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Desenho orientado a custo

• Exemplo: Deveria utilizar Amazon S3 ou DynamoDB?

https://calculator.s3.amazonaws.com/index.html

Page 38: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Amazon S3 ou DynamoDB?Taxa de acesso (Escritas/seg)

Tamanho Objeto(Bytes)

Tamanho Total(GB/month)

Objetos por mês

300 2048 1483 777,600,000

Page 39: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Taxa de acesso (Escritas/seg)

Tamanho Objeto(Bytes)

Tamanho Total(GB/month)

Objetos por mês

Cenario 1 300 2,048 1,483 3,888,00

Cenario 2 300 32,768 23,730 3,888,00

Amazon S3

Amazon DynamoDB

usar

usar

Page 40: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Processar /Analizar

Page 41: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

AnalizarA

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

Amazon Redshift

Impala

Pig

Amazon ML

Streaming

AmazonKinesis

AWSLambda

Amaz

on E

last

ic

Map

Redu

ce

AmazonElastiCache

Sear

ch

SQL

NoS

QL

Ca

che

Proc

essa

men

to

Stre

amin

gBa

tch

Inte

rati

vo

Logg

ing

Stre

am

Stor

age

IoT

Aplic

açõe

s

File

St

orag

e

Quente

Frio

Morno

Quente

Quente

ML

Transacionais

Arquivo

Stream

Mobile Apps

Indexados

Coletar Armazenar Analizar

Page 42: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Processar / Analizar

• Análise de dados é um processo de inspeção, limpeza, transformação, e modelagem de dados com o objetivo de descobrir informações úteis, chegar a conclusões e suportar a tomada de decisão.

• Exemplos• Dashboards Interativos → Análise Interativa• Relatórios diários/semanais/mensais → Análise em Batch• Alertas billing/fraude, métricas de 1 min. → Análise em Tempo Real• Análise de sentimento, modelos de predição → Machine learning

Page 43: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Análise Interativa

• Grande quantidade de dados (mornos/frios)• Latência de segundos para retornar respostas

• Exemplo: Dashboards self-service

Page 44: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Análise em Batch

• Utiliza uma grande quantidade de dados (quente ou morno)• Leva minutos ou horas para retornar respostas

• Exemplos: Gerar relatórios diários, semanais ou mensais

Page 45: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Análise em Tempo Real

• Utiliza uma pequena quantidade de dados e faz perguntas• Leva um pequeno período de tempo (milisegundos ou segundos) para

retornar as respostas

• Tempo Real (evento)• Responder em tempo real a eventos que chegam em streams de dados• Exemplo: Billing/Alertas de Fraude/Advertisement/Recomendação

• Quase Tempo Real (micro batch)• Operações quase em tempo real em pequenos quantidades de eventos em

streams de dados• Exemplo: Métricas de 1 minuto

Page 46: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Predição via Machine Learning

• ML dá a computadores a habilidade de aprender sem serem explicitamente programados

• Algoritmos de Machine Learning• Aprendizado Supervisionado ← programa que “ensina”

• Classificação ← Esta transação é uma fraude? (sim ou não)• Regressão ← Qual o valor total desse cliente?

• Aprendizado Não Supervisionado ← deixe ele aprender sozinho• Clustering ← Segmentação de Marketing

Page 47: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Frameworks e ferramentas de análise

• Machine Learning• Mahout, Spark ML, Amazon ML

• Análise Interativa• Amazon Redshift, Presto, Impala, Spark

• Processamento em Batch• MapReduce, Hive, Pig, Spark

• Processamento de Streams• Micro batch: Spark Streaming, KCL, Hive, Pig• Tempo real: Storm, AWS Lambda, KCL

Amazon Redshift

Impala

Pig

Amazon Machine Learning

Streaming

AmazonKinesis

AWSLambda

Amaz

on E

MR

Stre

ams

Batc

hIn

tera

tivo

ML

Analyze

Page 48: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Que tecnologia de stream eu devo usar?Spark Streaming Apache Storm Amazon Kinesis Client

LibraryAWS Lambda Amazon EMR (Hive, Pig)

Escala / Taxa de Transferência

~ Nós ~ Nós ~ Nós Automático ~ Nós

Batch ou Tempo Real

Tempo Real Tempo Real Tempo Real Tempo Real Batch

Gerenciamento Sim (Amazon EMR) Faça você mesmo Amazon EC2 + Auto Scaling

Gerenciado pela AWS Sim (Amazon EMR)

Tolerância a Falhas Single AZ Configurável Multi-AZ Multi-AZ Single AZ

Linguagens de Programação

Java, Python, Scala Qualquer linguagem via Thrift

Java, via MultiLangDaemon ( .Net, Python, Ruby, Node.js)

Node.js, Java, Python Hive, Pig, Linguagens de Streaming

Latência da Consulta (menor é melhor)

Baixa AltaBaixa Baixa

Page 49: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Qual tecnologia de processamento de dados eu devo utilizar?

AmazonRedshift

Impala Presto Spark Hive

Latência Consulta Baixa Baixa Baixa Baixa Média (Tez) – Alta (MapReduce)

Durabilidade Alta Alta Alta Alta Alta

Volume de Dados 1.6 PB Max

~Nós ~Nós ~Nós ~Nós

Gerenciado Sim Sim (Amazon EMR)

Sim(Amazon EMR)

Sim(Amazon EMR)

Sim (Amazon EMR)

Armazenamento Nativo HDFS / S3A* HDFS / S3 HDFS / S3 HDFS / S3

Compatibilidade com SQL

Alto Médio Alto Baixo (SparkSQL) Médio (HQL)

Latência da Consulta (menor é melhor)

Baixa AltaBaixa Baixa

Page 50: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

E sobre ETL?Store Analyze

https://aws.amazon.com/big-data/partner-solutions/

ETL

Page 51: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Consumir / Visualizar

Page 52: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Coletar Armazenar Analizar Consumir

A

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

Amazon Redshift

Impala

Pig

Amazon ML

Streaming

AmazonKinesis

AWSLambda

Amaz

on E

last

ic

Map

Redu

ce

AmazonElastiCache

Sear

ch

SQL

NoS

QL

Ca

che

Stre

am

Proc

essi

ngBa

tch

Inte

ract

ive

Logg

ing

Arm

azen

amen

to S

trea

ms

IoT

Aplic

açõe

s

Amaz

enam

ento

Arq

uivo

s

Anal

ysis

& V

isua

lizat

ion

Quente

Frio

Morno

Quente

Lento

Quente

ML

Rápido

Rápido

Transacional

Arqquivos

Streams

Not

eboo

ks

Predictions

Apps & APIs

Mobile Apps

IDE

Search

ETL

Amazon QuickSight

Page 53: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Consumir

• Predições

• Análise e Visualização

• Notebooks• • IDE

• Aplicações & API

Consume

Anál

ise

e Vi

sual

izaç

ão

Amazon QuickSight

Not

eboo

ks

Predições

Apps & APIs

IDE

Armazenar Analizar ConsumirETL

Business Users

Cientistas de Dados,

Desenvolvedores

Page 54: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Colocando tudo juntoColetar Armazenar Analizar Consumir

A

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

Amazon Redshift

Impala

Pig

Amazon ML

Streaming

AmazonKinesis

AWSLambda

Amaz

on E

last

ic

Map

Redu

ce

AmazonElastiCache

Sear

ch

SQL

NoS

QL

Ca

che

Stre

am

Proc

essi

ngBa

tch

Inte

ract

ive

Logg

ing

Stre

am

Stor

age

IoT

Appl

icat

ions

File

St

orag

e

Anal

ysis

& V

isua

lizat

ion

Quente

Frio

Morno

Quente

Lento

Quente

ML

Rápido

Rápido

Amazon QuickSight

Transacional

Arquivos

Streams

Not

eboo

ks

Predictions

Apps & APIs

Mobile Apps

IDE

Search

ETL

Arquitetura de Referência

Page 55: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Padrões de arquitetura

Page 56: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Cenário 1: Enterprise Data Warehouse

Data Warehouse Architecture

Data Sources

AmazonS3

AmazonEMR

AmazonS3

AmazonRedshift

AmazonQuickSight

Page 57: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Multi-Stage Decoupled “Data Bus”

• Múltiplos estágios• Armazenamento desacoplado do processamento

Armazenar Processar Armazenar ProcessarDados Respostas

Page 58: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Cenário 2: Capturando e analisando dados de sensores

Data Sources

AmazonS3

AmazonRedshift

AmazonQuickSight

AmazonKinesisEnabled

App

AmazonKinesisEnabled

App

AmazonDynamoDB

RepostingDashboard

Customer Access

AmazonKinesis

1

2 3 4 5

6 7 8 9

Page 59: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Cenário 3: Analise de sentimento e redes sociais

Social Media Data

AmazonEC2

AmazonLambda

AmazonML

AmazonKinesis

AmazonS3

AmazonSNS

1 2 4 5 6

3 7

Page 60: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Sumário

• “Data Bus” Desacoplado• Dados → Armazenamento→ Processamento→ Respostas

• Ferramenta certa para o trabalho certo• Estrutura de dados, latência, taxa de transferência, padrões de

acesso• Usar idéias com Arquitetura Lambda

• Log imutável (append-only), batch/speed/serving layer• Aproveitar serviços gerenciados da AWS

• Baixa ou nenhuma administração• Big data ≠ $$$$$$

Page 61: Tendências de Big Data

© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Obrigado!

Thiago Paulino | Arquiteto de Soluções