rafael aielo gerente de soluções - sas.com · •era big data •hadoop –o que é e como...
TRANSCRIPT
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
A NOVA EXPERIÊNCIA ANALÍTICA
Rafael Aielo
Gerente de Soluções
USANDO MELHOR O HADOOP COMO PEÇA DO QUEBRA-CABEÇA DO BIG DATA
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
AGENDA
• Era Big Data
• Hadoop – O que é e como funciona
• SAS e Hadoop
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ERA BIG DATA
• Uma pessoa hoje processa mais dados em um único dia, do que uma
pessoa do século XV fez em sua vida inteira.
Ref: The Human Face of Big Data – Documentário 2014
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ERA BIG DATA
• Deixamos um rastro digital de navegação, localização, dados de chamadas e
mensagens de texto que irão durar para sempre.
Ref: The Human Face of Big Data – Documentário 2014
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ERA BIG DATA ESTÁ MUDANDO A MANEIRA QUE VIVEMOS
• Como Big Data influenciou na campanha do Presidente Obama...
• Como colabora com o o centro de pesquisa do Hospital Infantil de Los
Angeles...
• Como colabora com a eficiente de distribuição de água da cidade de
Cary/NC...
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
HADOOP O QUE É?
Projeto Apache do “framework” para armazenamento de dados e desenvolvimento de
aplicações em um ambiente computacional distribuído, escalável e confiável.
Um sistema de arquivos distribuído que permite o acesso às informações com alto
desempenho.
Um “framework” para desenvolvimento de aplicações distribuídas com maior facilidade e
flexibilidade.
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
Quantos MMs amarelos tem em
cada recipiente?
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
6688
EXEMPLO CONCEITOS BÁSICOS
Pergunta: Quantos M&Ms amarelos existem no recipiente ?
1. Distribua os M&Ms em todos os 4 nodes (HDFS)
2. Conte utilizando uma abordagem em 2 etapas (MapReduce)
I. Passo Map: Cada node independentemente conta quantos M&Ms amarelos existem em seu repositório.
II. Passo Reduce: O Node 0 tem uma responsabilidade adicional: Ele combina os resultados da contagem de cada
node e retorna o resultado.
Nota: Neste exemplo simplificado, não estamos considerando a abordagem complete de alta-disponibilidade do Hadoop. Exemplo: Armazenamento múltiplas
cópias dos dados e outras técnicas para garantir resiliencia e evitar ponto único de falha.
19 15 191313+19+15+19
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
HADOOP COMO ESTÁ HOJE?
• Hadoop é um projeto totalmente ativo
• O seu ecossistema está em constante evolução
• Hive, pig, oozie, flume, hbase, etc.
• Grande aceitação de mercado e adoção pelas organizações
• Tem crescido o foco em funcionalidades e ferramentas “Enterprise Level”
• Hadoop está em constante atualização e tem suporte de grandes
organizações dedicadas no tema
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
ERA BIG DATA GRANDES DESAFIOS
Source: Gartner (Sep 2014), Big Data Investment Grows but Deployments Remain Scarce in 2014 By Nick Heudecker, Lisa Kart
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
INDO UM POUCO MAIS ALÉM EM NOSSO EXPERIMENTO...
1. Qual o total de MMs por cor?
2. Quantos MMs são de amendoim e quantos são de
chocolate?
3. Quantos MMs tem um formato fora do padrão (com
defeito) e existe alguma correlação entre as
características?
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS & HADOOP COMO SE INTEGRAM?
SAS & Hadoop se integram das seguintes formas:
SAS pode tratar o Hadoop como uma fonte de dados tradicional
(como um RDMS), trazendo os dados para o ambiente SAS a partir
(FROM) do Hadoop, quando for mais conveniente;
SAS pode trabalhar com (WITH) o Hadoop, compartilhando sua
infraestrutura para a instalação do componente “In-memory do SAS.
Assim, os dados são carregados para memória para execução de
operações de exploração de dados e análises avançadas;
SAS pode trabalhar diretamente em (IN) Hadoop, explorando as
capacidades nativas de processamento paralelo do ecossistema
nativo do Hadoop;
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .
SAS & HADOOP HABILITANDO OS DADOS PARA O CICLO ANALÍTICO
Acesso & Gestão de DadosCapacidades avançadas de gestão de
dados (ELT, ETL, DQ, virtualização)
habilitadas para Hadoop
Explore & Vizualize InterativamenteVisualize rapidamente em Hadoop, Descubra Novos
Padrões, Publique Relatórios Via Web Reports,
Dispositivos Móveis, MS Office Apps
Analíse & ModeleDescubra padrões e tendências nos dados
armazenados em Hadoop. Ambiente interativo e
visual para análises. Aplique análises de domínio
específico em “High-performance”
Integre & PubliquePublique e classifique (Score)
automaticamente os modelos em
abiente paralelizado. Realize a gestão
e análise de dados em “real-time”
Copyr i g ht © 2014, SAS Ins t i tu t e Inc . A l l r ights reser ve d .sas.com
MUITO OBRIGADO!