arquitetura do framework apache hadoop 2.6
TRANSCRIPT
Arquitetura do Framework
Apache Hadoop
Universidade Estadual do Rio de Janeiro - UERJ
Instituto de Matemática e Estatística- IME
FELIPE SCHIMITH BATISTA
Aluno de Mestrado
Framework
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Existem várias definições de framework.
Segundo Darren Govoni
Livro: Java application frameworks (1999)
“Um framework é uma coleção abstrata de classes, interfaces e padrões
dedicado a resolver um conjunto de problemas através de uma arquitetura
flexível e extensível”
Agenda
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
I. História
II. Introdução
III. Ecossistema Hadoop
IV. Conceito Map-Reduce
V. Arquitetura Hadoop
VI. Processamento
VII. Áreas de Aplicação
VIII. Exemplo de Aplicação
História
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Out 2003 : Google publicou o primeiro paper GFS (Google File System)
Jul 2005 : Nutch NDFS (projeto open source de Web Search Engine baseado em Lucene) começa a usar MapReduce
Fev 2006 : Torna-se um subprojeto Lucene, e é renomeado Hadoop
Abr 2007 : Yahoo! Cria um cluster de mais de 1000-nodes
Jan 2008 : A Apache torna o Hadoop um projeto Top Level
Abr 2009 : Ganhou o “Minute Sort” processando 500 GB em 59 segundos(com 1406 nodes)
Out 2013 : Ganhou o “Gray Sort” (100 TBs / minutos) processando 102 TB em 4 segundos(com 2100 nodes)
Fontes: http://sortbenchmark.org/http://static.googleusercontent.com/media/research.google.com/pt-BR//archive/gfs-sosp2003.pdfhttp://www.ordinal.com/gensort.html
Introdução
Com o avanço tecnológico, as formas de computação que visam a melhoria no
desempenho dos algoritmos vêm sendo aprimoradas, um dos objetivos é a melhor
utilização dos recursos de hardware cada vez mais acessíveis, obtendo ganho de
tempo de processamento.
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Introdução
Algumas dessas soluções são baseadas em arquiteturas com memória compartilhada ou
arquiteturas com computação distribuída. Isso possibilita novos métodos de paralelismo e
clusterização, o que viabiliza a análise de uma quantidade de dados cada vez maior em
menos tempo.
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Memória
CPU
Tradicional
Execução
Memória
CPU
Memória centralizada (SMP)
CPUCPU
Memória
CPU
Computação Distribuída (Cluster)
CPUCPU
Memória Memória
FS FS FS
Arquitetura do framework Apache Hadoop
SMP- Symmetric MultiProcessors
Ecossistema Hadoop
O Hadoop é um projeto open-source da Apache utilizado para computação distribuída.
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Fonte: http://hortonworks.com
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
• Princípio da Divisão e Conquista
• Alto desempenho
• Processamento em paralelo
Map-Reduce
• Gerenciador de Recursos do Cluster
• Negociador de Recusos
• Organizador de Tarefas
YARN
• Armazenamento distribuído
• Storage system tolerante a falhas
• Altamente escalável
Hadoop Distributed File System (HDFS)
Ecossistema Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Carro Moto ÔnibusÔnibus Barco NavioBarco Carro Barco
Carro Moto Ônibus
Ônibus Barco Navio
Ônibus Barco Navio
EntradaDivisão
Map-Reduce Conceito Map-Reduce
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Carro Moto ÔnibusÔnibus Barco NavioBarco Carro Barco
Carro Moto Ônibus
Ônibus Barco Navio
Ônibus Barco Navio
Carro 1Moto 1Ônibus 1
Ônibus 1 Barco 1Navio 1
Ônibus 1 Barco 1Navio 1
EntradaDivisão
Map
Map-Reduce Conceito Map-Reduce
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Carro Moto ÔnibusÔnibus Barco NavioBarco Carro Barco
Carro Moto Ônibus
Ônibus Barco Navio
Ônibus Barco Navio
Carro 1Moto 1Ônibus 1
Ônibus 1 Barco 1Navio 1
Ônibus 1 Barco 1Navio 1
Carro 1
Ônibus 1 Ônibus 1Ônibus 1
Barco 1Barco 1
Moto 1
Navio 1Navio 1
EntradaDivisão
MapRearranja*Ordena*
Map-Reduce Conceito Map-Reduce
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Carro Moto ÔnibusÔnibus Barco NavioBarco Carro Barco
Carro Moto Ônibus
Ônibus Barco Navio
Ônibus Barco Navio
Carro 1Moto 1Ônibus 1
Ônibus 1 Barco 1Navio 1
Ônibus 1 Barco 1Navio 1
Carro 1
Ônibus 1 Ônibus 1Ônibus 1
Barco 1Barco 1
Moto 1
Navio 1Navio 1
EntradaDivisão
MapRearranja*Ordena*
Carro 1
Ônibus 3
Barco 2
Moto 1
Navio 2
Reduce
Map-Reduce Conceito Map-Reduce
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Carro Moto ÔnibusÔnibus Barco NavioBarco Carro Barco
Carro Moto Ônibus
Ônibus Barco Navio
Ônibus Barco Navio
Carro 1Moto 1Ônibus 1
Ônibus 1 Barco 1Navio 1
Ônibus 1 Barco 1Navio 1
Carro 1
Ônibus 1 Ônibus 1Ônibus 1
Barco 1Barco 1
Moto 1
Navio 1Navio 1
EntradaDivisão
MapRearranja*Ordena*
Carro 1
Ônibus 3
Barco 2
Moto 1
Navio 2
Reduce
Barco 2Carro 1Moto 1Navio 2
Ônibus 3
Resultado Final
Map-Reduce Conceito Map-Reduce
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Carro Moto ÔnibusÔnibus Barco NavioBarco Carro Barco
Carro Moto Ônibus
Ônibus Barco Navio
Ônibus Barco Navio
Carro 1Moto 1Ônibus 1
Ônibus 1 Barco 1Navio 1
Ônibus 1 Barco 1Navio 1
Carro 1
Ônibus 1 Ônibus 1Ônibus 1
Barco 1Barco 1
Moto 1
Navio 1Navio 1
EntradaDivisão
MapRearranja*Ordena*
Carro 1
Ônibus 3
Barco 2
Moto 1
Navio 2
Reduce
Barco 2Carro 1Moto 1Navio 2
Ônibus 3
Resultado Final
Map-Reduce Conceito Map-Reduce
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
ResourceManager
Node Manager
NameNode
Data Node
Data node
MapReduce
Camadas:
HDFS
master slave
1..N
1..N
Node Manager
YARN Engine : Processa grandenúmero de dados em paralelocom clusters de forma confiável e tolerante a falhas.
HDFS : Armazena e gerencia os arquivos em nodes do cluster Hadoop
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
ResourceManager
Node Manager
master slave
1..N
Node Manager
Resource Manager
• Aceita tarefas de Map-Reduce ou YARN Apps
• Atribui tarefas ao Node Manager
• Monitora o estado do NM
• Gerencia concorrência entre aplicações
Node Manager
• Executa tarefas de Aplicação
• Envia seu status para o Resource Manager
• Recupera recursos do HDFS
Camada: Map Reduce
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Containers
• Criado pelo Resource Manger
• Aloca recursos
• Aplicação pode rodar em um ou mais containers
Application Master
• Um por aplicação
• Roda em um Container
• Requisita mais containers para rodar as tarefas
Node Manager
Application Master
Container
Camada: YARN
YARN
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
ResourceManager
Node Manager 3
Node Manager 2
Node Manager 1Cliente
Aplicação:MinhaApp
YARN
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
ResourceManager
Node Manager 3
Node Manager 2
Node Manager 1Cliente
Aplicação:MinhaApp
Application MasterInstancia
YARN
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
ResourceManager
Node Manager 3
Node Manager 2
Node Manager 1Cliente
Aplicação:MinhaApp
Application Master
Solicita Recursos
• Nome (do Recurso, ou Rack)• Número de Containers• Recursos necessários
YARN
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
ResourceManager
Node Manager 3
Node Manager 2
Node Manager 1Cliente
Aplicação:MinhaApp
Application Master
Cria Containers necessários
YARN
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
ResourceManager
Node Manager 3
Node Manager 2
Node Manager 1Cliente
Aplicação:MinhaApp
Application MasterRetorna os ID dos Containers
Container• ID• Node
YARN
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
ResourceManager
Node Manager 3
Node Manager 2
Node Manager 1Cliente
Aplicação:MinhaApp
Application Master
MinhaApp
MinhaApp
Executa
Executa
YARN
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
ResourceManager
Node Manager 3
Node Manager 2
Node Manager 1Cliente
Aplicação:MinhaApp
Application Master
MinhaApp
MinhaApp
Cliente
Aplicação:OutraApp
YARN
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
ResourceManager
Node Manager 3
Node Manager 2
Node Manager 1Cliente
Aplicação:MinhaApp
Application Master
MinhaApp
MinhaApp
ClienteApplication Master
OutraApp
Aplicação:OutraApp
OutraApp
YARN
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
ResourceManager
Node Manager 3
Node Manager 2
Node Manager 1Cliente
Aplicação:MinhaApp
Application Master
MinhaApp
MinhaApp
ClienteApplication Master
OutraApp
OutraApp
Retorna os Resultados
Aplicação:OutraApp
YARN
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
ResourceManager
Node Manager 3
Node Manager 2
Node Manager 1Cliente
Aplicação:MinhaApp
Application Master
MinhaApp
MinhaApp
ClienteApplication Master
OutraApp
OutraApp
Aplicação:OutraApp
Encerra os Containers e App Masters
Finaliza as aplicações
YARN
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 4
Requisita o Recurso
ResourceManager
Node Manager 3
Node Manager 2
Node Manager 1
Fica Disponível
YARN
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Name Node
• Mapeia os blocos nos Data Nodes
• Controla Leitura/Escrita dos dados
• Gerencia a replicação de Blocos
Data Node
• Responsável pelo atendimento de
solicitações de leitura e gravação (criação do
bloco, exclusão e replicação)
NameNode
Data Node
Data node
master slave
1..N
Camada: HDFS
HDFS
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Data Node 4
Requisita o Recurso
NameNode
Data Node 3
Data Node 2
Data Node 1• Projetado para suportar arquivos muito grandes > TB.
HDFS
HDFS
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Data Node 4NameNode
Data Node 3
Data Node 2
Data Node 1
HDFS
Ex: TIFF 500MB
• Melhor aplicado em situações write once read many.
• Otimizado para Streaming reads.
HDFS
Arquitetura do framework Apache Hadoop
Arquitetura do Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Data Node 4
Requisita o Recurso
NameNode
Data Node 3
Data Node 2
Data Node 1
Ex: TIFF 500MB
128 MB
128 MB
128 MB
116 MB
• Tamanho default de um bloco: 64 MB ou 128 MB. (FS 4KB a 8KB)
HDFS
Bloco1
Bloco2
Bloco3
Bloco4
HDFS
Arquitetura do framework Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Data Node 4NameNode
Data Node 3
Data Node 2
Data Node 1
Ex: TIFF 500MB
Referência do Dado
HDFS
• Cada bloco irá residir se possível em um DataNode diferente.Bloco1
Bloco2
Bloco3
Bloco4
HDFS Arquitetura do Hadoop
Arquitetura do framework Apache Hadoop
Blocos: 1, 4, 3,2, 6
Blocos: 1, 2, 5, 7,4, 3
Blocos: 1, 5, 3,2, 8, 6
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
HDFS
Arquitetura do framework Apache Hadoop
Blocos:
Replicação do HDFS
Blocos: 1, 4, 3,2, 6
Blocos: 1, 2, 5, 7,4, 3
Blocos: 1, 5, 3,2, 8, 6
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
HDFS
Arquitetura do framework Apache Hadoop
Blocos:
Replicação do HDFS
Blocos: 1, 4, 3,2, 6
Blocos: 1, 2, 5, 7,4, 3
Blocos: 1, 5, 3,2, 8, 6
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
HDFS
Arquitetura do framework Apache Hadoop
Blocos:
Replicação do HDFS
Replicação do HDFS
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
Blocos: 1, 4, 3,2, 6
Blocos: 1, 2, 5, 7,4, 3
Blocos: 1, 5, 3,2, 8, 6
HDFS
Arquitetura do framework Apache Hadoop
Blocos:
Replicação do HDFS
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
Blocos: 1, 4, 3,2, 6
Blocos: 1, 2, 5, 7,4, 3
Blocos: 1, 5, 3,2, 8, 6
HDFS
Arquitetura do framework Apache Hadoop
Blocos:
Replicação do HDFS
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
Blocos: 1, 4, 3,2, 6
Blocos: 1, 2, 5, 7,4, 3
HDFS
Arquitetura do framework Apache Hadoop
Blocos:
Replicação do HDFS
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Nome do Arquivo Fator de Replicação Block ID
Arquivo A 3 [1, 2, 3]
Arquivo B 2 [4, 5, 6]
Arquivo C 1 [7,8]
Name Node
Data Nodes
Blocos: 1, 4, 3,2, 6
Blocos: 1, 2, 5, 7,4, 3
Blocos: 1, 5, 3,2, 6
HDFS
Arquitetura do framework Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
ResourceManager
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
HDFS
NameNode
Processamento
Arquitetura do framework Apache Hadoop
Ex: PDF
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
ResourceManager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
NameNode
Divide o dado em blocos
Processamento
Arquitetura do framework Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
ResourceManager
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
HDFS
NameNode
Guarda a referência dos Blocos
Bloco1
Bloco2
Bloco3
Processamento
Arquitetura do framework Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2
NameNode
Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
ResourceManager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
App Master
Aplicação:ContaPalavras
Instancia AppMaster
Processamento
Arquitetura do framework Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
ResourceManager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
App Master
Aplicação:ContaPalavras
NameNode
Instancia Containers
Processamento
Arquitetura do framework Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
ResourceManager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
App Master
Aplicação:ContaPalavras
ContaPal. Map
ContaPal. Map
ContaPal. Map
NameNode
Executa Fase Map
Processamento
Arquitetura do framework Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
ResourceManager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
App Master
Aplicação:ContaPalavras
ContaPal. Map
ContaPal. Map
ContaPal. Map
NameNode
Requisita 3 Containers
Processamento
Arquitetura do framework Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
ResourceManager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
App Master
Aplicação:ContaPalavras
NameNode
Instancia Containers
Processamento
Arquitetura do framework Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
ResourceManager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
Aplicação:ContaPalavras
App Master
ContaPal.Reducer
ContaPal.Reducer
NameNode
Executa Fase Reduce
ContaPal.Reducer
Processamento
Arquitetura do framework Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
ResourceManager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
Aplicação:ContaPalavras
App Master
ContaPal.Reducer
ContaPal.Reducer
NameNode
Retorna Resultado
Processamento
Arquitetura do framework Apache Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Node Manager 3 Data Node 3
Bloco1
Bloco2Node Manager 2 Data Node 2
Node Manager 1 Data Node 1
Node Manager 4 Data Node 4
ResourceManager
HDFS
Node Manager 5 Data Node 5
Node Manager 6 Data Node 6
Node Manager 7 Data Node 7
Bloco3
Cliente
NameNode
Exibe Resultado
Aplicação:ContaPalavras
Processamento
Arquitetura do framework Apache Hadoop
Áreas de aplicação
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Financeiro Duminuição de risco de financimento
Governo Diminuição de custos e melhor distribuição de efetivo e orçamento
Saúde Análise de dados de sensores, monitoramento, genoma
Indústria Sensores de monitoramento para manutenção de peças
Óleo & Gas Análise de dados de sensores na Exploração
eComerce Recomendação de produtos e venda online
Comunicação Propaganda baseada na localização
Empresas que adotam o Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Empresas que adotam o Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Empresas que adotam o Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Empresas que adotam o Hadoop
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Exemplo de Aplicação: Saúde
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
O pesquisador Michael Schatz e sua equipe da Universidade de Maryland construíram o Crossbow usando o Hadoop em cloud que proporciona o custo de analisar um genoma humano abaixo de US $ 85 em 3 horas (40 nodes com 320-cores).
http://bowtie-bio.sourceforge.net/crossbow/index.shtml
Custo do GenomaLei de Gordon E. Moore
História
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Out 2003 : Google publicou o primeiro paper GFS (Google File System)
Jul 2005 : Nutch NDFS (projeto open source de Web Search Engine baseado em Lucene) começa a usar MapReduce
Fev 2006 : Torna-se um subprojeto Lucene, e é renomeado Hadoop
Abr 2007 : Yahoo! Cria um cluster de mais de 1000-nodes
Jan 2008 : A Apache torna o Hadoop um projeto Top Level
Abr 2009 : Ganhou o “Minute Sort” processando 500 GB em 59 segundos(com 1406 nodes)
Out 2013 : Ganhou o “Gray Sort” (100 TBs / minutos) processando 102 TB em 4 segundos(com 2100 nodes)
Fontes: http://sortbenchmark.org/http://static.googleusercontent.com/media/research.google.com/pt-BR//archive/gfs-sosp2003.pdfhttp://www.ordinal.com/gensort.html
Exemplo de Aplicação: Logística
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
US Xpress uma das maiores companhias de caminhão nos EUA está usando o Hadoop para armazenar dados de sensores de seus caminhões. Com resultado das análises eles economizam 6 milhões de dólares/ano em custos de combustível.
http://www.computerweekly.com/news/2240146943/Case-Study-US-Xpress-deploys-hybrid-big-data-with-Informatica
Exemplo de Aplicação: Telecom
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Nokia -Nokia recolhe e analisa grandes quantidades de dados de telefones móveisProblema:(1) Lidar com 100TB de dados estruturados e 500TB de dados + semi-estruturado(2) Média de novos dados : 1TB / dia
Solução: HDFS que oferece o processamento de dados em escala de peta bytes.
http://strataconf.com/stratany2012/public/schedule/detail/26880
Visitem
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop
Sort Benchmark Home Page
http://sortbenchmark.org/
Paper do Google
http://static.googleusercontent.com/media/research.google.com/pt-BR//archive/gfs-sosp2003.pdf
Aplicação baseada em Hadoop para análise do Genoma
http://bowtie-bio.sourceforge.net/crossbow/index.shtml
Obrigado!!!
TÍTULO DO SEU SEMINÁRIO
Subtítulo
Arquitetura do framework Apache Hadoop