webinar: introdução a big data

34
© 2015, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Thiago Paulino, Solutions Architect 03 Março, 2016 Introdução a Big Data Opções de analytics na AWS & Casos de uso

Upload: amazon-web-services-latam

Post on 07-Jan-2017

705 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Webinar: Introdução a Big data

© 2015, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Thiago Paulino, Solutions Architect

03 Março, 2016

Introdução a Big DataOpções de analytics na AWS & Casos de uso

Page 2: Webinar: Introdução a Big data

Conteúdo

• Introdução de Big Data em AWS• Big Data Analytics Opções na AWS

• Padrões de uso e anti-padrões• Performance & Custos• Durabilidade & Escalabilidade• Interfaces

• Construindo soluções Big Data – Abordagem AWS

• Cenários de exemplo

Page 3: Webinar: Introdução a Big data

Big Data na AWS

Disponibilidade Imediata. Deploy instantâneo. Sem compra de hardware, sem infra-estrutura para manter e escalar.

Seguro e confiável. Desenhado para atender requisitos rigorosos de segurança. Auditoria continua, incluindo certificações : ISO 27001, FedRAMP, DoD CSM, and PCI DSS.

Capilaridade de serviços. Mais de 50 serviços e centenas de funcionalidades para suportar virtualmente qualquer workload de big data.

Centenas de parceiros e soluções. Obtenha ajuda de nossos parceiros de consultoria ou escolha entre centenas de ferramentas em nosso marktplace

Page 4: Webinar: Introdução a Big data

Real-timeAmazon Kinesis Firehose

Object StorageAmazon S3

RDBMSAmazon RDS

NoSQLDynamoDB

Hadoop EcosystemAmazon EMR

Real-timeAWS Lambda

Amazon Kinesis Analytics

Data WarehousingAmazon Redshift

Machine LearningAmazon Machine

Learning

Business Intelligence & Data VisualizationAmazon QuickSight

Real-timeAmazon Kinesis Streams

Elastic Search AnalyticsAmazon ElasticSearch

Coleta Armazenamento Análise & Processamento

Visualização

Data ImportAmazon Import/Export

Snowball

IoTAmazon IoT

Ampla capacidade e integração

Page 5: Webinar: Introdução a Big data

Petabyte (capacidade)

Processamento paralelo

Relacional data warehouse

Gerenciado, zero admin

Menos de $1,000/TB/Year

RápidoBaratoSimples

Amazon Redshift

Page 6: Webinar: Introdução a Big data

Amazon Redshift• Padrões de uso

• Dados de vendas• Dado históricos• Dados de jogos• Dados de redes sociais• Dados de campanha de publicidade

• Performance• Processamento paralelo massivo• Armazenamento colunar• Compressão de dados• Mapeamento • Discos diretamente conectados

• Modelo de custo• Sem investimento inicial ou contratos• Backup gratuíto (storage equivalente a 100% do

storage provisionado)

Com armazenamento colunar, você acessa apenas o dado que você precisa.

Page 7: Webinar: Introdução a Big data

Amazon Redshift

• Escalabilidade & Elasticidade• Aumentar ou Diminuir - Número ou tipo de

node com alguns clicks

• Durabilidade e disponibilidade• Replicação• Backup • Automated recovery para falhas de discos &

nodes• Interfaces

• JDBC/ODBC interface com ferramentas de BI/ETL

• Amazon S3 ou DynamoDB

• Anti-padrões• Pequenos datasets• OLTP• Dados não estruturados• Blob Data

10 GigE(HPC)

IngestionBackupRestore

SQL Clients/BI Tools

128GB RAM

16TB disk

16 cores

Amazon S3

JDBC/ODBC

128GB RAM

16TB disk

16 coresCompute Node

128GB RAM

16TB disk

16 coresCompute Node

128GB RAM

16TB disk

16 coresCompute Node

LeaderNode

Page 8: Webinar: Introdução a Big data

streaming de dados

Processamento em tempo real

Armazene terabytes de dados

por hora

Amazon Kinesis

Page 9: Webinar: Introdução a Big data

Amazon Kinesis Streams• Padrões de uso – Streaming de

dados, ingestão e processamento• Data analytics em tempo real• Ingestão de dados e processamento ex.

logs• Métricas e reports em tempo real

• Performance• Throughput baseado em shards

• Modelo de custo• Sem investimento inicial ou contratos

•Pague pelo que usar•Custo hora por shard•Cobrança por 1 million de transações

PUT

Page 10: Webinar: Introdução a Big data

Amazon Kinesis Streams

• Escalabilidade e Elasticidade•Aumente o número de shards

• Durabilidade e Disponibilidade• Replicação• Cursor preservation

• Interfaces•Input – data in•Output – data out•Kinesis Firehose

• Anti-padrões•Pequenas taxas de transferência•Armazenamento de longo prazo

Page 11: Webinar: Introdução a Big data

Inicie cluster em minutos

Pague por hora e economize com

instâncias spot

MapReduce, Apache Spark, Presto

Amazon EMR

Page 12: Webinar: Introdução a Big data

Amazon EMR• Padrões de uso

• Processamento de log and analytics • Grande ETL e movimentacao de dados• Risk modeling and threat analytics• Sucesso de publicidade and click stream

analytics• Genoma• Análise preditiva• Ad-hoc data mining and analytics

• Performance • Tipo de instância• Número de instâncias

• Cost model• Pague pelas horas de execução• EC2 instance e EMR

Page 13: Webinar: Introdução a Big data

Amazon EMR

• Escalabilidade e Elasticidade• Resize de cluster• Adicione instâncias core ou task

• Durabilidade e Disponibilidade• Tolerância a falha slave node (HDFS) • Backup com S3 para resiliência do master

node• Interfaces

• Hive, Pig, Spark, Hbase, Impala, Hunk, Presto, etc..

• Anti-padrões• Pequenos data sets• ACID (Atomicity, Consistency, Isolation and

Durability)

Page 14: Webinar: Introdução a Big data

NoSQL database totalmente

gerenciado

Um dígito de Millisecond de latência

para escalar

Suporte a documento e chave-valor

AmazonDynamoDB

Page 15: Webinar: Introdução a Big data

Amazon DynamoDB• Padrões de uso

• Mobile apps, jogos, digital ad serving, votaçao em tempo real, rede de sensores, ingestão de logs

• Controle de acesso a conteudo web, carrinho de compras para e-commerce

• Gerenciamento de sessões web• Performance

• SSD• Provisione throughput por tabela

• Escalabilidade e Elasticidade•Sem limite de dados armazenados•Aumentar ou diminuir a capacidade de leitura e

escrita por tabela• Modelo de custo

• Pague pelo que usar• Provisione throughput (por hora)• Indexe dados armazenados (por GB por mês)• Data transfer in or out (por GB por mês)

Provisioned read/write performance per table. Predictable high performance scaled via console or API

Page 16: Webinar: Introdução a Big data

Amazon DynamoDB

• Durabilidade e Disponibilidade• Três Availability Zones (AZ)

• Interfaces• AWS Console• API’s• SDK’s

• Anti-padrões• Applicação de bancos de dados relacional• Joins e/ou transações complexas• BLOB data• Muitos dados com pouco I/O

AZ-A

AZ-B

AZ-C

Page 17: Webinar: Introdução a Big data

Serviço gerenciado projetado para tornar mais fácil para os desenvolvedores o uso de machine learning

Baseado na mesma tecnologia ML usado há anos por cientistas de dados internos da Amazon

Amazon Machine Learning é altamente escalavel e utiliza padrões de ML. (Análise preditiva)

Amazon Machine Learning

Page 18: Webinar: Introdução a Big data

Amazon Machine Learning

• Padrões de uso• Alertas de transações suspeitas• Personalize application content• Predição de atividade do usuário• Analise rede social

• Modelo de custo• Pague pelo que usar• Sem gerenciamento de instâncias, apenas

serviço• Performance

• Predições em tempo real Real-time predictions projetado para responder em pelo menos 100ms

• 200 transações por segundo

Page 19: Webinar: Introdução a Big data

Amazon Machine Learning• Durabilidade e Disponibilidade

• Sem janela de manutençao• Desenhado para multiplas AZ’s

• Escalabilidade e Elasticidade• Modelo de treino de ate100GB• Multiplo jobs simultâneos

• Interfaces• Origem de dados a partir do S3, RDS e

Redshift• Intereção ML via console, SDKs, e ML

API• Anti-padrões

• Grandes Data Sets > 100GB• Sequência de predição ou tasks não

supervisionada

Page 20: Webinar: Introdução a Big data

Orientado a eventos, computaçao 100% gerenciada

Sem gestão de infra-estrutura

Escalabilidade automática

AWS Lambda

Page 21: Webinar: Introdução a Big data

AWS Lambda• Padrões de uso

• Procesamento de arquivos em tempo real• Extract, Transform, Load (ETL)

• Performance• Processamento de eventos em milliseconds

• Modelos de custo• Pague pelo que usar• Sem gerênciamento de instâncias, pague

apenas pelo serviço• Lambda free tier incluí 1Milhão de

requisições gratuitas

Page 22: Webinar: Introdução a Big data

AWS Lambda• Durabilidade e Disponibilidade

• Sem janelas de manutenção ou downtime agendado

• Funções Async são executadas até 3 times caso falhem

• Escalabilidade e Elasticidade• Alta concorrência de execuções

simultânea• AWS Lambda Aloca dinamicamente

capacidade para executar os eventos.• Interfaces

• Lambda suportas Java, Node.js, e Python

• Execução por evento ou agendas• Anti-padrões

• Execuções longas de aplicações• Aplicações Stateful no Lambda

Page 23: Webinar: Introdução a Big data

Instale um cluster de Elasticsearch em

minutos

Integrado com Logstash and Kibana

Escale o seu cluster Elasticsearch

perfeitamente

Amazon Elasticsearch

Service

Page 24: Webinar: Introdução a Big data

Amazon Elasticsearch• Padrões de uso

• Análise de logs• Análise de stream de dados e/ou updates de

outros serviços AWS• Prover uma busca rica e uma boa experiência de

uso/navegação• Monitorar o uso de aplicações mobile

• Performance• Depende de multiplos fatores, incluindo tipo de

instância, workload, index, número de shards no cluster, replicas de leitura

• Configurações de disco – instance storage ou EBS storage

• Modelos de custo• Pague pelo que usar• Pague somente pela instância de elasticsearch e

disco utilizado

Page 25: Webinar: Introdução a Big data

Amazon Elasticsearch• Durabilidade e Disponibilidade

• Zone Awareness• Snapshots automático e manual.

• Escalabilidade e Elasticidade• Adicione e remova instâncias• Altere os volumes EBS conforme

crescimento• Interfaces

• AWS Console• API’s• SDK’s• Kibana and Logstash (ELK Stack)

• Anti-padrões• OLTP• Workloads que precisam de mais de 5TB de

armazenamento

Elasticsearch + Logstash + Kibana = real-time analytics & visualization

Page 26: Webinar: Introdução a Big data

Construa visualizações

Performance para processamento ad-hoc

Compartilhamento de dasboards(storyboards)

Acesso nativo com as principais

plataformas mobile

Amazon QuickSight

Page 27: Webinar: Introdução a Big data

Introdução Amazon QuickSight

Serviço em Cloud de Business Intelligence com 1/10th do custo de um software de BI tradicional

Sem esforço de TI. Sem modelagem dimensional

Auto-discovery de fonte de dados (AWS)

Rapido, processamento paralelo, Calculos em

memória

100% gerenciado

Available in Previewaws.amazon.com/quicksight

Page 28: Webinar: Introdução a Big data

Aumente ou diminua conforme

necessidade.

Pague somente pelo que usar.

Multipla opções.

Construa sua própria aplicação big

data.

Amazon EC2

Page 29: Webinar: Introdução a Big data

Abordagem AWS

• Flexivel. Use a melhor ferramenta para cada tarefa• Estrutura de dados, latência, alta capacidade de rede, padrões

de acesso.

• Escalável. Imutável (Tarefa única)• Execuções Batch/velocidade (Camadas)

• Mínimo de administração. Serviços AWS gerenciados• Sem ou com administração mínima

• Baixo custo. Big data ≠ big cost

Page 30: Webinar: Introdução a Big data

Scenario 1: Enterprise Data Warehouse

Scenario 2: Capture e analise dados de sensores

Scenario 3: Análise de sentimento de rede social

Big Data Cenários

Page 31: Webinar: Introdução a Big data

Cenário 1: Enterprise Data Warehouse

Data Warehouse Architecture

Data Sources

AmazonS3

AmazonEMR

AmazonS3

AmazonRedshift

AmazonQuickSight

Page 32: Webinar: Introdução a Big data

Cenário 2: Capture e analise dados de sensores

Data Sources

AmazonS3

AmazonRedshift

AmazonQuickSight

AmazonKinesisEnabled

App

AmazonKinesisEnabled

App

AmazonDynamoDB

RepostingDashboard

Customer Access

AmazonKinesis

1

2 3 4 5

6 7 8 9

Page 33: Webinar: Introdução a Big data

Cenário 3: Análise de sentimento Rede social

Social Media Data

AmazonEC2

AmazonLambda

AmazonML

AmazonKinesis

AmazonS3

AmazonSNS

1 2 4 5 6

3 7

Page 34: Webinar: Introdução a Big data

Próximos passos• Assine o feed do AWS Big Data Blog

blogs.aws.amazon.com/bigdata

• Leia mais sobre o assunto, tutoriais, guias e laboratórios aws.amazon.com/big-data

• Registre-se para os próximos Webinarsaws.amazon.com/about-aws/events/monthlywebinarseries