rafael aielo gerente de soluções - sas.com · •era big data •hadoop –o que é e como...

15
Copyright © 2014, SAS Institute Inc. All rights reserved. A NOVA EXPERIÊNCIA ANALÍTICA Rafael Aielo Gerente de Soluções USANDO MELHOR O HADOOP COMO PEÇA DO QUEBRA-CABEÇA DO BIG DATA

Upload: halien

Post on 10-Dec-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

A NOVA EXPERIÊNCIA ANALÍTICA

Rafael Aielo

Gerente de Soluções

USANDO MELHOR O HADOOP COMO PEÇA DO QUEBRA-CABEÇA DO BIG DATA

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

AGENDA

• Era Big Data

• Hadoop – O que é e como funciona

• SAS e Hadoop

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

ERA BIG DATA

• Uma pessoa hoje processa mais dados em um único dia, do que uma

pessoa do século XV fez em sua vida inteira.

Ref: The Human Face of Big Data – Documentário 2014

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

ERA BIG DATA

• Deixamos um rastro digital de navegação, localização, dados de chamadas e

mensagens de texto que irão durar para sempre.

Ref: The Human Face of Big Data – Documentário 2014

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

ERA BIG DATA ESTÁ MUDANDO A MANEIRA QUE VIVEMOS

• Como Big Data influenciou na campanha do Presidente Obama...

• Como colabora com o o centro de pesquisa do Hospital Infantil de Los

Angeles...

• Como colabora com a eficiente de distribuição de água da cidade de

Cary/NC...

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

HADOOP O QUE É?

Projeto Apache do “framework” para armazenamento de dados e desenvolvimento de

aplicações em um ambiente computacional distribuído, escalável e confiável.

Um sistema de arquivos distribuído que permite o acesso às informações com alto

desempenho.

Um “framework” para desenvolvimento de aplicações distribuídas com maior facilidade e

flexibilidade.

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

Quantos MMs amarelos tem em

cada recipiente?

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

6688

EXEMPLO CONCEITOS BÁSICOS

Pergunta: Quantos M&Ms amarelos existem no recipiente ?

1. Distribua os M&Ms em todos os 4 nodes (HDFS)

2. Conte utilizando uma abordagem em 2 etapas (MapReduce)

I. Passo Map: Cada node independentemente conta quantos M&Ms amarelos existem em seu repositório.

II. Passo Reduce: O Node 0 tem uma responsabilidade adicional: Ele combina os resultados da contagem de cada

node e retorna o resultado.

Nota: Neste exemplo simplificado, não estamos considerando a abordagem complete de alta-disponibilidade do Hadoop. Exemplo: Armazenamento múltiplas

cópias dos dados e outras técnicas para garantir resiliencia e evitar ponto único de falha.

19 15 191313+19+15+19

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

HADOOP COMO ESTÁ HOJE?

• Hadoop é um projeto totalmente ativo

• O seu ecossistema está em constante evolução

• Hive, pig, oozie, flume, hbase, etc.

• Grande aceitação de mercado e adoção pelas organizações

• Tem crescido o foco em funcionalidades e ferramentas “Enterprise Level”

• Hadoop está em constante atualização e tem suporte de grandes

organizações dedicadas no tema

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

ERA BIG DATA GRANDES DESAFIOS

Source: Gartner (Sep 2014), Big Data Investment Grows but Deployments Remain Scarce in 2014 By Nick Heudecker, Lisa Kart

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

ERA BIG DATA

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

INDO UM POUCO MAIS ALÉM EM NOSSO EXPERIMENTO...

1. Qual o total de MMs por cor?

2. Quantos MMs são de amendoim e quantos são de

chocolate?

3. Quantos MMs tem um formato fora do padrão (com

defeito) e existe alguma correlação entre as

características?

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS & HADOOP COMO SE INTEGRAM?

SAS & Hadoop se integram das seguintes formas:

SAS pode tratar o Hadoop como uma fonte de dados tradicional

(como um RDMS), trazendo os dados para o ambiente SAS a partir

(FROM) do Hadoop, quando for mais conveniente;

SAS pode trabalhar com (WITH) o Hadoop, compartilhando sua

infraestrutura para a instalação do componente “In-memory do SAS.

Assim, os dados são carregados para memória para execução de

operações de exploração de dados e análises avançadas;

SAS pode trabalhar diretamente em (IN) Hadoop, explorando as

capacidades nativas de processamento paralelo do ecossistema

nativo do Hadoop;

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .

SAS & HADOOP HABILITANDO OS DADOS PARA O CICLO ANALÍTICO

Acesso & Gestão de DadosCapacidades avançadas de gestão de

dados (ELT, ETL, DQ, virtualização)

habilitadas para Hadoop

Explore & Vizualize InterativamenteVisualize rapidamente em Hadoop, Descubra Novos

Padrões, Publique Relatórios Via Web Reports,

Dispositivos Móveis, MS Office Apps

Analíse & ModeleDescubra padrões e tendências nos dados

armazenados em Hadoop. Ambiente interativo e

visual para análises. Aplique análises de domínio

específico em “High-performance”

Integre & PubliquePublique e classifique (Score)

automaticamente os modelos em

abiente paralelizado. Realize a gestão

e análise de dados em “real-time”

Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .sas.com

MUITO OBRIGADO!