tendências de big data

Thiago Paulino | Arquiteto de Soluções

Padrões de Arquitetura e Melhores Práticas de Big Data na AWSTendências de Big Data

O que esperar dessa sessão?

• Desafios de Big Data• Como simplificar o processamento dos dados?• Que tecnologias devo utilizar?

• Porque?• Como?

• Arquitetura de Referência• Padrões de Desenho

Big Data crescendo, sempre

Volume

Velocidade

Variedade

Evolução de Big Data

Batch•Relatórios

Tempo Real•Alertas

Predição• Forecast

Várias ferramentas

Glacier

S3 DynamoDB

Redshift

Data Pipeline

Kinesis Cassandra Kinesis-

enabled app

Lambda ML

ElastiCache

DynamoDBStreams

Elastic SearchKinesis Firehose

Diferencie-se

• Empresas muito parecidas• Pense com números• “Erre certo”

http://amzn.to/1Wb1Lrw

http://imdb.to/1kRJDgn

Diferencie-se

• Empresas muito parecidas• Pense com números• “Erre certo”

Existe uma arquitetura de referência?Que ferramentas deveria utilizar?

Como? Por quê?

Princípios Arquiteturais

• “Data Bus” Desacoplado• Dados → Armazenamento→ Processamento→ Respostas

• Ferramenta certa para o trabalho certo• Estrutura de dados, latência, taxa de transferência, padrões de

acesso• Usar idéias com Arquitetura Lambda

• Log imutável (append-only), batch/speed/serving layer• Aproveitar serviços gerenciados da AWS

• Baixa ou nenhuma administração• Big data ≠ $$$$$$

Simplificando o processamento de Big Data

Ingerir /Coletar

Armazenar Processar /Analizar

Consumir / Visualizar

dados respostas

Tempo para as respostas (Latência)Taxa de transferência

Ingerir /Coletar

Tipos de Dados

• Transacional• Leituras e escritas em BD

(OLTP)• Cache

• Search• Logs• Streams

• Arquivos• Arquivos de log (/var/log)• Coletores de logs e frameworks

• Stream• Logs• Sensores & dados de IoT

Armazenamento de Arquivos

Armazenamento de Streams

iOS Android

Web Apps

Logstash

açõe

Dados Transacionais

Arquivos

Streams

Mobile Apps

Dados Indexados

Search

Collect Store

Armazenar

Armazenamento de Streams

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

AmazonElastiCache

Dados Transacionais

Arquivos

Streams

Mobile Apps

Dados Indexados

Arquivos

Search

Coletar Armazenar

açõe

Opções de Armazenamento de Streams

• Serviços Gerenciados AWS• Amazon Kinesis → streams• DynamoDB Streams → tabela + streams• Amazon SQS → fila• Amazon SNS → pub/sub

• Não Gerenciados• Apache Kafka → stream

Porque armazenamento de Streams?• Desacoplar consumidores & produtores• Buffer persistente• Coletar múltiplas streams

• Preservar ordenação• Streaming MapReduce• Consumo paralelo

4 4 3 3 2 2 1 14 3 2 1

4 3 2 1

4 3 2 14 4 3 3 2 2 1 1

Produtor 1

Shard 1 / Partition 1

Shard 2 / Partition 2

Consumidor 1

Count of Red = 4

Count of Violet = 4

Consumidor 2

Count of Blue = 4

Count of Green = 4

Produtor 2

Produtor 3

Produtor N

Key = Red

Key = Green

Key = Blue

Key = Violet

Kafka TopicDynamoDB Stream Kinesis Stream

E filas e Pub/Sub?• Desacoplar produtores &

consumidores/assinantes• Buffer persistente• Coletar múltiplas streams

• Sem ordenação• Sem consumo paralelo

Não Amazon SQS• Amazon SNS pode

rotear para mais filas SQS ou funções ʎ

• Sem streaming MapReduce

Consumidores

Produtores

Amazon SNS

Amazon SQS

Tópico

Função

AWS Lambda

Amazon SQSfila

Assinante

Qual armazenamento de storage devo usar?AmazonKinesis

DynamoDB Streams

Amazon SQSAmazon SNS

Gerenciado Sim Sim Sim NãoOrdenação Sim Sim Não SimEntrega Pelo menos 1 vez Exatamente 1 vez Pelo menos 1 vez Pelo menos 1 vez

Retenção 7 dias 24 horas 14 dias ConfigurávelReplicação 3 AZ 3 AZ 3 AZ ConfigurávelTaxa Transferência Sem Limite Sem Limite Sem Limite # NodesClientes Paralelos Sim Sim Não (SQS) SimMapReduce Sim Sim Não SimTamanho Registro 1MB 400KB 256KB ConfigurávelCusto Baixo Alto (custo

tabela) Baixo-Médio Baixo (+admin)

Armazenamento de Arquivos

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

AmazonElastiCache

Transacional

Arquivos

Streams

Mobile Apps

Indexado

Search

Coletar Armazenar

açõe

Por que o S3 é bom para Big Data?• Suportado nativamente por frameworks de Big Data (Spark, Hive, Presto, etc.) • Sem necessidade de rodar clusters para storage (diferente do HDFS)• Permite rodar clusters Hadoop transientes & utilizar instâncias EC2 Spot• Múltiplos clusters distintos podem usar os mesmos dados• Número ilimitado de objetos• Alta taxa de transferência – sem limite agregado de taxa de transferência• Alta disponibilidade – tolera falha nas AZs• Desenhado para durabilidade de 99.999999999%• Tiered-storage (Standard, IA, Amazon Glacier) com políticas de ciclo de vida• Seguro – criptografia em trânsito com SSL, em descanso com client/server-side• Baixo custo

O que dizer sobre HDFS e Amazon Glacier?

• Usar HDFS para dados frequentemente acessados (quente)

• Usar Amazon S3 Standard para dados frequentemente acessados

• Usar Amazon S3 Standard – IA para dados que não são frequentemente acessados

• Usar Amazon Glacier para arquivar dados frios

BD + Search

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

AmazonElastiCache

Transacionais

Arquivos

Streams

Mobile Apps

Indexados

Coletar Armazenar

açõe

Quanto só se tem um martelo, tudo parece como um prego

A Lei de Maslow ou Martelo de Maslow,

popularmente mencionado com a frase

“se tudo o que você tem é um martelo, tudo parece

como um prego” é do livro “A Psicologia da Ciência”,

de Abraham Maslow.Fonte: https://en.wikipedia.org/wiki/Law_of_the_instrument

http://amzn.to/1MVHgO5

BD + Search – Anti-Pattern

BD + Search

Aplicações

Search + BD – Anti-Pattern

Elastic Search

Search + BD

Aplicações

Melhor prática – Ferramenta certa para o trabalho certo

Data TierSearchAmazon

Elasticsearch Service

Amazon CloudSearch

CacheRedisMemcached

SQLAmazon AuroraMySQLPostgreSQLOracleSQL Server

NoSQLCassandraAmazon

DynamoDBHBaseMongoDB

Applications

BD + Search

Renove a caixa de ferramentas

• Persistência poliglota

http://amzn.to/1qUc0oq

Views Materializadas

Amazon ElasticSearch

Que tipo de armazenamento devo usar?

• Estrutura de Dados → Schema fixo, JSON, key-value

• Padrões de Acesso → Armazene os dados no formato que você irá acessar

• Características de acesso a dados → Quente, morno, frio

• Custo → Melhor custo benefício

Estruturas de Dados e Padrões de Acesso

Padrões de Acesso O que usar?Put/Get (Key, Value) Cache, NoSQL

Relacionamentos Simples → 1:N, M:N NoSQL

Cross table joins, transação, SQL SQL

Faceting, Search Search

Estrutura de dados O que usar?

Schema fixo SQL, NoSQL

Sem Schema (JSON) NoSQL, Search

(Key, Value) Cache, NoSQL

Qual a temperatura do seu padrão de acesso aos dados?

Quente Morno Frio

Volume MB–GB GB–TB PB

Tamanho do Item B–KB KB–MB KB–TB

Latência ms ms, sec min, hrs

Durabilidade Baixo–Alto Alto Muito Alto

Taxa de acesso Muito Alto Alto BaixoCusto/GB $$-$ $-¢¢ ¢

Dados Quentes Dados Mornos Dados Frios

Cache SQL

Taxa de AcessoAlto Baixo

Custo/GBAlto Baixo

LatênciaBaixo Alto

GlacierE

tura NoSQL

Quente Morno Frio

Search

Que tipo de armazenamento devo usar?

Amazon ElastiCache

AmazonDynamoDB

AmazonAurora

AmazonElasticsearch

Amazon EMR (HDFS)

Amazon S3 Amazon Glacier

LatênciaMédia

ms ms ms, sec ms,sec sec,min,hrs ms,sec,min(~ tamanho)

Volume de Dados

GB GB–TBs(sem limite)

GB–TB(64 TB Max)

GB–TB GB–PB(~nodes)

MB–PB(sem limite)

GB–PB(sem limite)

Tamanho Item B-KB KB(400 KB max)

KB(64 KB)

KB(1 MB max)

MB-GB KB-GB(5 TB max)

GB(40 TB max)

Taxa de Acesso Alta - Muito Alta

Muito Alta(sem limite)

Alta Alta Baixa – Muito Alta

Baixa –Muito Alta(sem limite)

Muito Baixa

Custo armazenamentoGB/mês

$$ ¢¢ ¢¢ ¢¢ ¢ ¢ ¢/10

Durabilidade Baixo - Moderada

Muito Alta Muito Alta

Alta Alta Muito Alta Muito Alta

Quente Morno Frio

Desenho orientado a custo

• Exemplo: Deveria utilizar Amazon S3 ou DynamoDB?“Estou desenhando um projeto que irá aumentar consideravelmente o uso do Amazon S3 pelo meu time. Espero que você me ajude com algumas questões. A etapa atual do projeto requer trabalhar com muitos arquivos pequenos, talvez chegue a um bilhão durante o pico. O tamanho total deve ser na orderm de 1.5 TB por mês…”

Taxa de acesso (Escritas/seg)

Tamanho Objeto(Bytes)

Tamanho Total(GB/month)

Objetos por mês

300 2048 1483 777,600,000

Desenho orientado a custo

• Exemplo: Deveria utilizar Amazon S3 ou DynamoDB?

https://calculator.s3.amazonaws.com/index.html

Amazon S3 ou DynamoDB?Taxa de acesso (Escritas/seg)

Objetos por mês

300 2048 1483 777,600,000

Taxa de acesso (Escritas/seg)

Objetos por mês

Cenario 1 300 2,048 1,483 3,888,00

Cenario 2 300 32,768 23,730 3,888,00

Amazon S3

Amazon DynamoDB

Processar /Analizar

AnalizarA

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

Amazon Redshift

Impala

Amazon ML

Streaming

AmazonKinesis

AWSLambda

AmazonElastiCache

açõe

Quente

Transacionais

Arquivo

Stream

Mobile Apps

Indexados

Coletar Armazenar Analizar

Processar / Analizar

• Análise de dados é um processo de inspeção, limpeza, transformação, e modelagem de dados com o objetivo de descobrir informações úteis, chegar a conclusões e suportar a tomada de decisão.

• Exemplos• Dashboards Interativos → Análise Interativa• Relatórios diários/semanais/mensais → Análise em Batch• Alertas billing/fraude, métricas de 1 min. → Análise em Tempo Real• Análise de sentimento, modelos de predição → Machine learning

Análise Interativa

• Grande quantidade de dados (mornos/frios)• Latência de segundos para retornar respostas

• Exemplo: Dashboards self-service

Análise em Batch

• Utiliza uma grande quantidade de dados (quente ou morno)• Leva minutos ou horas para retornar respostas

• Exemplos: Gerar relatórios diários, semanais ou mensais

Análise em Tempo Real

• Utiliza uma pequena quantidade de dados e faz perguntas• Leva um pequeno período de tempo (milisegundos ou segundos) para

retornar as respostas

• Tempo Real (evento)• Responder em tempo real a eventos que chegam em streams de dados• Exemplo: Billing/Alertas de Fraude/Advertisement/Recomendação

• Quase Tempo Real (micro batch)• Operações quase em tempo real em pequenos quantidades de eventos em

streams de dados• Exemplo: Métricas de 1 minuto

Predição via Machine Learning

• ML dá a computadores a habilidade de aprender sem serem explicitamente programados

• Algoritmos de Machine Learning• Aprendizado Supervisionado ← programa que “ensina”

• Classificação ← Esta transação é uma fraude? (sim ou não)• Regressão ← Qual o valor total desse cliente?

• Aprendizado Não Supervisionado ← deixe ele aprender sozinho• Clustering ← Segmentação de Marketing

Frameworks e ferramentas de análise

• Machine Learning• Mahout, Spark ML, Amazon ML

• Análise Interativa• Amazon Redshift, Presto, Impala, Spark

• Processamento em Batch• MapReduce, Hive, Pig, Spark

• Processamento de Streams• Micro batch: Spark Streaming, KCL, Hive, Pig• Tempo real: Storm, AWS Lambda, KCL

Amazon Redshift

Impala

Amazon Machine Learning

Streaming

AmazonKinesis

AWSLambda

Analyze

Que tecnologia de stream eu devo usar?Spark Streaming Apache Storm Amazon Kinesis Client

LibraryAWS Lambda Amazon EMR (Hive, Pig)

Escala / Taxa de Transferência

~ Nós ~ Nós ~ Nós Automático ~ Nós

Batch ou Tempo Real

Tempo Real Tempo Real Tempo Real Tempo Real Batch

Gerenciamento Sim (Amazon EMR) Faça você mesmo Amazon EC2 + Auto Scaling

Gerenciado pela AWS Sim (Amazon EMR)

Tolerância a Falhas Single AZ Configurável Multi-AZ Multi-AZ Single AZ

Linguagens de Programação

Java, Python, Scala Qualquer linguagem via Thrift

Java, via MultiLangDaemon ( .Net, Python, Ruby, Node.js)

Node.js, Java, Python Hive, Pig, Linguagens de Streaming

Latência da Consulta (menor é melhor)

Baixa AltaBaixa Baixa

Qual tecnologia de processamento de dados eu devo utilizar?

AmazonRedshift

Impala Presto Spark Hive

Latência Consulta Baixa Baixa Baixa Baixa Média (Tez) – Alta (MapReduce)

Durabilidade Alta Alta Alta Alta Alta

Volume de Dados 1.6 PB Max

~Nós ~Nós ~Nós ~Nós

Gerenciado Sim Sim (Amazon EMR)

Sim(Amazon EMR)

Sim (Amazon EMR)

Armazenamento Nativo HDFS / S3A* HDFS / S3 HDFS / S3 HDFS / S3

Compatibilidade com SQL

Alto Médio Alto Baixo (SparkSQL) Médio (HQL)

Latência da Consulta (menor é melhor)

Baixa AltaBaixa Baixa

E sobre ETL?Store Analyze

https://aws.amazon.com/big-data/partner-solutions/

Consumir / Visualizar

Coletar Armazenar Analizar Consumir

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

Amazon Redshift

Impala

Amazon ML

Streaming

AmazonKinesis

AWSLambda

AmazonElastiCache

açõe

Quente

Rápido

Transacional

Arqquivos

Streams

Predictions

Apps & APIs

Mobile Apps

Search

Amazon QuickSight

Consumir

• Predições

• Análise e Visualização

• Notebooks• • IDE

• Aplicações & API

Consume

Amazon QuickSight

Predições

Apps & APIs

Armazenar Analizar ConsumirETL

Business Users

Cientistas de Dados,

Desenvolvedores

Colocando tudo juntoColetar Armazenar Analizar Consumir

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

Amazon Redshift

Impala

Amazon ML

Streaming

AmazonKinesis

AWSLambda

AmazonElastiCache

Quente

Rápido

Amazon QuickSight

Transacional

Arquivos

Streams

Predictions

Apps & APIs

Mobile Apps

Search

Arquitetura de Referência

Padrões de arquitetura

Cenário 1: Enterprise Data Warehouse

Data Warehouse Architecture

Data Sources

AmazonS3

AmazonEMR

AmazonS3

AmazonRedshift

AmazonQuickSight

Multi-Stage Decoupled “Data Bus”

• Múltiplos estágios• Armazenamento desacoplado do processamento

Armazenar Processar Armazenar ProcessarDados Respostas

Cenário 2: Capturando e analisando dados de sensores

Data Sources

AmazonS3

AmazonRedshift

AmazonQuickSight

AmazonKinesisEnabled

AmazonDynamoDB

RepostingDashboard

Customer Access

AmazonKinesis

2 3 4 5

6 7 8 9

Cenário 3: Analise de sentimento e redes sociais

Social Media Data

AmazonEC2

AmazonLambda

AmazonML

AmazonKinesis

AmazonS3

AmazonSNS

1 2 4 5 6

Sumário

• “Data Bus” Desacoplado• Dados → Armazenamento→ Processamento→ Respostas

• Ferramenta certa para o trabalho certo• Estrutura de dados, latência, taxa de transferência, padrões de

acesso• Usar idéias com Arquitetura Lambda

• Log imutável (append-only), batch/speed/serving layer• Aproveitar serviços gerenciados da AWS

• Baixa ou nenhuma administração• Big data ≠ $$$$$$

Obrigado!

Thiago Paulino | Arquiteto de Soluções

tendências de big data

Technology

palestra big data scti

big data = oportunidades

aidax big data ( aidax.com.br )

big data - espm - zacho

big data” – big problema! paradoxo entre o direito À

nivaldo calixto ribeiro resumo big data big data

aprendendo a antecipar o futuroitinsight 25 in deep | big...

big data visent

big data: tendências e oportunidades - palestrante: marcos...

big data: status atual e tendências

big data instituto big data brasil crie

pentaho hadoop big data e data lakes

big data na nuvem

big data v1 - cel · 1. introducción al concepto de big...

big data e nosql

aula big data

big data or big analytics? - repositorio.pucp.edu.pe

big data latinoware 2014

big data 30

big data - conceitos básicos