arquitetura do framework apache hadoop 2.6

62
Arquitetura do Framework Apache Hadoop Universidade Estadual do Rio de Janeiro - UERJ Instituto de Matemática e Estatística- IME FELIPE SCHIMITH BATISTA Aluno de Mestrado

Upload: felipe-schimith-batista

Post on 23-Jan-2018

438 views

Category:

Software


5 download

TRANSCRIPT

Page 1: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Framework

Apache Hadoop

Universidade Estadual do Rio de Janeiro - UERJ

Instituto de Matemática e Estatística- IME

FELIPE SCHIMITH BATISTA

Aluno de Mestrado

Page 2: Arquitetura do Framework Apache Hadoop 2.6

Framework

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Existem várias definições de framework.

Segundo Darren Govoni

Livro: Java application frameworks (1999)

“Um framework é uma coleção abstrata de classes, interfaces e padrões

dedicado a resolver um conjunto de problemas através de uma arquitetura

flexível e extensível”

Page 3: Arquitetura do Framework Apache Hadoop 2.6

Agenda

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

I. História

II. Introdução

III. Ecossistema Hadoop

IV. Conceito Map-Reduce

V. Arquitetura Hadoop

VI. Processamento

VII. Áreas de Aplicação

VIII. Exemplo de Aplicação

Page 4: Arquitetura do Framework Apache Hadoop 2.6

História

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Out 2003 : Google publicou o primeiro paper GFS (Google File System)

Jul 2005 : Nutch NDFS (projeto open source de Web Search Engine baseado em Lucene) começa a usar MapReduce

Fev 2006 : Torna-se um subprojeto Lucene, e é renomeado Hadoop

Abr 2007 : Yahoo! Cria um cluster de mais de 1000-nodes

Jan 2008 : A Apache torna o Hadoop um projeto Top Level

Abr 2009 : Ganhou o “Minute Sort” processando 500 GB em 59 segundos(com 1406 nodes)

Out 2013 : Ganhou o “Gray Sort” (100 TBs / minutos) processando 102 TB em 4 segundos(com 2100 nodes)

Fontes: http://sortbenchmark.org/http://static.googleusercontent.com/media/research.google.com/pt-BR//archive/gfs-sosp2003.pdfhttp://www.ordinal.com/gensort.html

Page 5: Arquitetura do Framework Apache Hadoop 2.6

Introdução

Com o avanço tecnológico, as formas de computação que visam a melhoria no

desempenho dos algoritmos vêm sendo aprimoradas, um dos objetivos é a melhor

utilização dos recursos de hardware cada vez mais acessíveis, obtendo ganho de

tempo de processamento.

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Page 6: Arquitetura do Framework Apache Hadoop 2.6

Introdução

Algumas dessas soluções são baseadas em arquiteturas com memória compartilhada ou

arquiteturas com computação distribuída. Isso possibilita novos métodos de paralelismo e

clusterização, o que viabiliza a análise de uma quantidade de dados cada vez maior em

menos tempo.

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Memória

CPU

Tradicional

Execução

Memória

CPU

Memória centralizada (SMP)

CPUCPU

Memória

CPU

Computação Distribuída (Cluster)

CPUCPU

Memória Memória

FS FS FS

Arquitetura do framework Apache Hadoop

SMP- Symmetric MultiProcessors

Page 7: Arquitetura do Framework Apache Hadoop 2.6

Ecossistema Hadoop

O Hadoop é um projeto open-source da Apache utilizado para computação distribuída.

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Fonte: http://hortonworks.com

Page 8: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

• Princípio da Divisão e Conquista

• Alto desempenho

• Processamento em paralelo

Map-Reduce

• Gerenciador de Recursos do Cluster

• Negociador de Recusos

• Organizador de Tarefas

YARN

• Armazenamento distribuído

• Storage system tolerante a falhas

• Altamente escalável

Hadoop Distributed File System (HDFS)

Ecossistema Hadoop

Page 9: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Carro Moto ÔnibusÔnibus Barco NavioBarco Carro Barco

Carro Moto Ônibus

Ônibus Barco Navio

Ônibus Barco Navio

EntradaDivisão

Map-Reduce Conceito Map-Reduce

Page 10: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Carro Moto ÔnibusÔnibus Barco NavioBarco Carro Barco

Carro Moto Ônibus

Ônibus Barco Navio

Ônibus Barco Navio

Carro 1Moto 1Ônibus 1

Ônibus 1 Barco 1Navio 1

Ônibus 1 Barco 1Navio 1

EntradaDivisão

Map

Map-Reduce Conceito Map-Reduce

Page 11: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Carro Moto ÔnibusÔnibus Barco NavioBarco Carro Barco

Carro Moto Ônibus

Ônibus Barco Navio

Ônibus Barco Navio

Carro 1Moto 1Ônibus 1

Ônibus 1 Barco 1Navio 1

Ônibus 1 Barco 1Navio 1

Carro 1

Ônibus 1 Ônibus 1Ônibus 1

Barco 1Barco 1

Moto 1

Navio 1Navio 1

EntradaDivisão

MapRearranja*Ordena*

Map-Reduce Conceito Map-Reduce

Page 12: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Carro Moto ÔnibusÔnibus Barco NavioBarco Carro Barco

Carro Moto Ônibus

Ônibus Barco Navio

Ônibus Barco Navio

Carro 1Moto 1Ônibus 1

Ônibus 1 Barco 1Navio 1

Ônibus 1 Barco 1Navio 1

Carro 1

Ônibus 1 Ônibus 1Ônibus 1

Barco 1Barco 1

Moto 1

Navio 1Navio 1

EntradaDivisão

MapRearranja*Ordena*

Carro 1

Ônibus 3

Barco 2

Moto 1

Navio 2

Reduce

Map-Reduce Conceito Map-Reduce

Page 13: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Carro Moto ÔnibusÔnibus Barco NavioBarco Carro Barco

Carro Moto Ônibus

Ônibus Barco Navio

Ônibus Barco Navio

Carro 1Moto 1Ônibus 1

Ônibus 1 Barco 1Navio 1

Ônibus 1 Barco 1Navio 1

Carro 1

Ônibus 1 Ônibus 1Ônibus 1

Barco 1Barco 1

Moto 1

Navio 1Navio 1

EntradaDivisão

MapRearranja*Ordena*

Carro 1

Ônibus 3

Barco 2

Moto 1

Navio 2

Reduce

Barco 2Carro 1Moto 1Navio 2

Ônibus 3

Resultado Final

Map-Reduce Conceito Map-Reduce

Page 14: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Carro Moto ÔnibusÔnibus Barco NavioBarco Carro Barco

Carro Moto Ônibus

Ônibus Barco Navio

Ônibus Barco Navio

Carro 1Moto 1Ônibus 1

Ônibus 1 Barco 1Navio 1

Ônibus 1 Barco 1Navio 1

Carro 1

Ônibus 1 Ônibus 1Ônibus 1

Barco 1Barco 1

Moto 1

Navio 1Navio 1

EntradaDivisão

MapRearranja*Ordena*

Carro 1

Ônibus 3

Barco 2

Moto 1

Navio 2

Reduce

Barco 2Carro 1Moto 1Navio 2

Ônibus 3

Resultado Final

Map-Reduce Conceito Map-Reduce

Page 15: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

ResourceManager

Node Manager

NameNode

Data Node

Data node

MapReduce

Camadas:

HDFS

master slave

1..N

1..N

Node Manager

YARN Engine : Processa grandenúmero de dados em paralelocom clusters de forma confiável e tolerante a falhas.

HDFS : Armazena e gerencia os arquivos em nodes do cluster Hadoop

Arquitetura do framework Apache Hadoop

Page 16: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

ResourceManager

Node Manager

master slave

1..N

Node Manager

Resource Manager

• Aceita tarefas de Map-Reduce ou YARN Apps

• Atribui tarefas ao Node Manager

• Monitora o estado do NM

• Gerencia concorrência entre aplicações

Node Manager

• Executa tarefas de Aplicação

• Envia seu status para o Resource Manager

• Recupera recursos do HDFS

Camada: Map Reduce

Arquitetura do framework Apache Hadoop

Page 17: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Containers

• Criado pelo Resource Manger

• Aloca recursos

• Aplicação pode rodar em um ou mais containers

Application Master

• Um por aplicação

• Roda em um Container

• Requisita mais containers para rodar as tarefas

Node Manager

Application Master

Container

Camada: YARN

YARN

Arquitetura do framework Apache Hadoop

Page 18: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 4

Requisita o Recurso

ResourceManager

Node Manager 3

Node Manager 2

Node Manager 1Cliente

Aplicação:MinhaApp

YARN

Arquitetura do framework Apache Hadoop

Page 19: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 4

ResourceManager

Node Manager 3

Node Manager 2

Node Manager 1Cliente

Aplicação:MinhaApp

Application MasterInstancia

YARN

Arquitetura do framework Apache Hadoop

Page 20: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 4

Requisita o Recurso

ResourceManager

Node Manager 3

Node Manager 2

Node Manager 1Cliente

Aplicação:MinhaApp

Application Master

Solicita Recursos

• Nome (do Recurso, ou Rack)• Número de Containers• Recursos necessários

YARN

Arquitetura do framework Apache Hadoop

Page 21: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 4

ResourceManager

Node Manager 3

Node Manager 2

Node Manager 1Cliente

Aplicação:MinhaApp

Application Master

Cria Containers necessários

YARN

Arquitetura do framework Apache Hadoop

Page 22: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 4

ResourceManager

Node Manager 3

Node Manager 2

Node Manager 1Cliente

Aplicação:MinhaApp

Application MasterRetorna os ID dos Containers

Container• ID• Node

YARN

Arquitetura do framework Apache Hadoop

Page 23: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 4

ResourceManager

Node Manager 3

Node Manager 2

Node Manager 1Cliente

Aplicação:MinhaApp

Application Master

MinhaApp

MinhaApp

Executa

Executa

YARN

Arquitetura do framework Apache Hadoop

Page 24: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 4

Requisita o Recurso

ResourceManager

Node Manager 3

Node Manager 2

Node Manager 1Cliente

Aplicação:MinhaApp

Application Master

MinhaApp

MinhaApp

Cliente

Aplicação:OutraApp

YARN

Arquitetura do framework Apache Hadoop

Page 25: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 4

Requisita o Recurso

ResourceManager

Node Manager 3

Node Manager 2

Node Manager 1Cliente

Aplicação:MinhaApp

Application Master

MinhaApp

MinhaApp

ClienteApplication Master

OutraApp

Aplicação:OutraApp

OutraApp

YARN

Arquitetura do framework Apache Hadoop

Page 26: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 4

Requisita o Recurso

ResourceManager

Node Manager 3

Node Manager 2

Node Manager 1Cliente

Aplicação:MinhaApp

Application Master

MinhaApp

MinhaApp

ClienteApplication Master

OutraApp

OutraApp

Retorna os Resultados

Aplicação:OutraApp

YARN

Arquitetura do framework Apache Hadoop

Page 27: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 4

Requisita o Recurso

ResourceManager

Node Manager 3

Node Manager 2

Node Manager 1Cliente

Aplicação:MinhaApp

Application Master

MinhaApp

MinhaApp

ClienteApplication Master

OutraApp

OutraApp

Aplicação:OutraApp

Encerra os Containers e App Masters

Finaliza as aplicações

YARN

Arquitetura do framework Apache Hadoop

Page 28: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 4

Requisita o Recurso

ResourceManager

Node Manager 3

Node Manager 2

Node Manager 1

Fica Disponível

YARN

Arquitetura do framework Apache Hadoop

Page 29: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Name Node

• Mapeia os blocos nos Data Nodes

• Controla Leitura/Escrita dos dados

• Gerencia a replicação de Blocos

Data Node

• Responsável pelo atendimento de

solicitações de leitura e gravação (criação do

bloco, exclusão e replicação)

NameNode

Data Node

Data node

master slave

1..N

Camada: HDFS

HDFS

Arquitetura do framework Apache Hadoop

Page 30: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Data Node 4

Requisita o Recurso

NameNode

Data Node 3

Data Node 2

Data Node 1• Projetado para suportar arquivos muito grandes > TB.

HDFS

HDFS

Arquitetura do framework Apache Hadoop

Page 31: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Data Node 4NameNode

Data Node 3

Data Node 2

Data Node 1

HDFS

Ex: TIFF 500MB

• Melhor aplicado em situações write once read many.

• Otimizado para Streaming reads.

HDFS

Arquitetura do framework Apache Hadoop

Page 32: Arquitetura do Framework Apache Hadoop 2.6

Arquitetura do Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Data Node 4

Requisita o Recurso

NameNode

Data Node 3

Data Node 2

Data Node 1

Ex: TIFF 500MB

128 MB

128 MB

128 MB

116 MB

• Tamanho default de um bloco: 64 MB ou 128 MB. (FS 4KB a 8KB)

HDFS

Bloco1

Bloco2

Bloco3

Bloco4

HDFS

Arquitetura do framework Apache Hadoop

Page 33: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Data Node 4NameNode

Data Node 3

Data Node 2

Data Node 1

Ex: TIFF 500MB

Referência do Dado

HDFS

• Cada bloco irá residir se possível em um DataNode diferente.Bloco1

Bloco2

Bloco3

Bloco4

HDFS Arquitetura do Hadoop

Arquitetura do framework Apache Hadoop

Page 34: Arquitetura do Framework Apache Hadoop 2.6

Blocos: 1, 4, 3,2, 6

Blocos: 1, 2, 5, 7,4, 3

Blocos: 1, 5, 3,2, 8, 6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Nome do Arquivo Fator de Replicação Block ID

Arquivo A 3 [1, 2, 3]

Arquivo B 2 [4, 5, 6]

Arquivo C 1 [7,8]

Name Node

Data Nodes

HDFS

Arquitetura do framework Apache Hadoop

Blocos:

Replicação do HDFS

Page 35: Arquitetura do Framework Apache Hadoop 2.6

Blocos: 1, 4, 3,2, 6

Blocos: 1, 2, 5, 7,4, 3

Blocos: 1, 5, 3,2, 8, 6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Nome do Arquivo Fator de Replicação Block ID

Arquivo A 3 [1, 2, 3]

Arquivo B 2 [4, 5, 6]

Arquivo C 1 [7,8]

Name Node

Data Nodes

HDFS

Arquitetura do framework Apache Hadoop

Blocos:

Replicação do HDFS

Page 36: Arquitetura do Framework Apache Hadoop 2.6

Blocos: 1, 4, 3,2, 6

Blocos: 1, 2, 5, 7,4, 3

Blocos: 1, 5, 3,2, 8, 6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Nome do Arquivo Fator de Replicação Block ID

Arquivo A 3 [1, 2, 3]

Arquivo B 2 [4, 5, 6]

Arquivo C 1 [7,8]

Name Node

Data Nodes

HDFS

Arquitetura do framework Apache Hadoop

Blocos:

Replicação do HDFS

Page 37: Arquitetura do Framework Apache Hadoop 2.6

Replicação do HDFS

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Nome do Arquivo Fator de Replicação Block ID

Arquivo A 3 [1, 2, 3]

Arquivo B 2 [4, 5, 6]

Arquivo C 1 [7,8]

Name Node

Data Nodes

Blocos: 1, 4, 3,2, 6

Blocos: 1, 2, 5, 7,4, 3

Blocos: 1, 5, 3,2, 8, 6

HDFS

Arquitetura do framework Apache Hadoop

Blocos:

Page 38: Arquitetura do Framework Apache Hadoop 2.6

Replicação do HDFS

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Nome do Arquivo Fator de Replicação Block ID

Arquivo A 3 [1, 2, 3]

Arquivo B 2 [4, 5, 6]

Arquivo C 1 [7,8]

Name Node

Data Nodes

Blocos: 1, 4, 3,2, 6

Blocos: 1, 2, 5, 7,4, 3

Blocos: 1, 5, 3,2, 8, 6

HDFS

Arquitetura do framework Apache Hadoop

Blocos:

Page 39: Arquitetura do Framework Apache Hadoop 2.6

Replicação do HDFS

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Nome do Arquivo Fator de Replicação Block ID

Arquivo A 3 [1, 2, 3]

Arquivo B 2 [4, 5, 6]

Arquivo C 1 [7,8]

Name Node

Data Nodes

Blocos: 1, 4, 3,2, 6

Blocos: 1, 2, 5, 7,4, 3

HDFS

Arquitetura do framework Apache Hadoop

Blocos:

Page 40: Arquitetura do Framework Apache Hadoop 2.6

Replicação do HDFS

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Nome do Arquivo Fator de Replicação Block ID

Arquivo A 3 [1, 2, 3]

Arquivo B 2 [4, 5, 6]

Arquivo C 1 [7,8]

Name Node

Data Nodes

Blocos: 1, 4, 3,2, 6

Blocos: 1, 2, 5, 7,4, 3

Blocos: 1, 5, 3,2, 6

HDFS

Arquitetura do framework Apache Hadoop

Page 41: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 3 Data Node 3

Node Manager 2 Data Node 2

Node Manager 1 Data Node 1

Node Manager 4 Data Node 4

ResourceManager

Node Manager 5 Data Node 5

Node Manager 6 Data Node 6

Node Manager 7 Data Node 7

HDFS

NameNode

Processamento

Arquitetura do framework Apache Hadoop

Ex: PDF

Page 42: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 3 Data Node 3

Bloco1

Bloco2Node Manager 2 Data Node 2

Node Manager 1 Data Node 1

Node Manager 4 Data Node 4

ResourceManager

HDFS

Node Manager 5 Data Node 5

Node Manager 6 Data Node 6

Node Manager 7 Data Node 7

Bloco3

NameNode

Divide o dado em blocos

Processamento

Arquitetura do framework Apache Hadoop

Page 43: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 3 Data Node 3

Node Manager 2 Data Node 2

Node Manager 1 Data Node 1

Node Manager 4 Data Node 4

ResourceManager

Node Manager 5 Data Node 5

Node Manager 6 Data Node 6

Node Manager 7 Data Node 7

HDFS

NameNode

Guarda a referência dos Blocos

Bloco1

Bloco2

Bloco3

Processamento

Arquitetura do framework Apache Hadoop

Page 44: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 3 Data Node 3

Bloco1

Bloco2

NameNode

Node Manager 2 Data Node 2

Node Manager 1 Data Node 1

Node Manager 4 Data Node 4

ResourceManager

HDFS

Node Manager 5 Data Node 5

Node Manager 6 Data Node 6

Node Manager 7 Data Node 7

Bloco3

Cliente

App Master

Aplicação:ContaPalavras

Instancia AppMaster

Processamento

Arquitetura do framework Apache Hadoop

Page 45: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 3 Data Node 3

Bloco1

Bloco2Node Manager 2 Data Node 2

Node Manager 1 Data Node 1

Node Manager 4 Data Node 4

ResourceManager

HDFS

Node Manager 5 Data Node 5

Node Manager 6 Data Node 6

Node Manager 7 Data Node 7

Bloco3

Cliente

App Master

Aplicação:ContaPalavras

NameNode

Instancia Containers

Processamento

Arquitetura do framework Apache Hadoop

Page 46: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 3 Data Node 3

Bloco1

Bloco2Node Manager 2 Data Node 2

Node Manager 1 Data Node 1

Node Manager 4 Data Node 4

ResourceManager

HDFS

Node Manager 5 Data Node 5

Node Manager 6 Data Node 6

Node Manager 7 Data Node 7

Bloco3

Cliente

App Master

Aplicação:ContaPalavras

ContaPal. Map

ContaPal. Map

ContaPal. Map

NameNode

Executa Fase Map

Processamento

Arquitetura do framework Apache Hadoop

Page 47: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 3 Data Node 3

Bloco1

Bloco2Node Manager 2 Data Node 2

Node Manager 1 Data Node 1

Node Manager 4 Data Node 4

ResourceManager

HDFS

Node Manager 5 Data Node 5

Node Manager 6 Data Node 6

Node Manager 7 Data Node 7

Bloco3

Cliente

App Master

Aplicação:ContaPalavras

ContaPal. Map

ContaPal. Map

ContaPal. Map

NameNode

Requisita 3 Containers

Processamento

Arquitetura do framework Apache Hadoop

Page 48: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 3 Data Node 3

Bloco1

Bloco2Node Manager 2 Data Node 2

Node Manager 1 Data Node 1

Node Manager 4 Data Node 4

ResourceManager

HDFS

Node Manager 5 Data Node 5

Node Manager 6 Data Node 6

Node Manager 7 Data Node 7

Bloco3

Cliente

App Master

Aplicação:ContaPalavras

NameNode

Instancia Containers

Processamento

Arquitetura do framework Apache Hadoop

Page 49: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 3 Data Node 3

Bloco1

Bloco2Node Manager 2 Data Node 2

Node Manager 1 Data Node 1

Node Manager 4 Data Node 4

ResourceManager

HDFS

Node Manager 5 Data Node 5

Node Manager 6 Data Node 6

Node Manager 7 Data Node 7

Bloco3

Cliente

Aplicação:ContaPalavras

App Master

ContaPal.Reducer

ContaPal.Reducer

NameNode

Executa Fase Reduce

ContaPal.Reducer

Processamento

Arquitetura do framework Apache Hadoop

Page 50: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 3 Data Node 3

Bloco1

Bloco2Node Manager 2 Data Node 2

Node Manager 1 Data Node 1

Node Manager 4 Data Node 4

ResourceManager

HDFS

Node Manager 5 Data Node 5

Node Manager 6 Data Node 6

Node Manager 7 Data Node 7

Bloco3

Cliente

Aplicação:ContaPalavras

App Master

ContaPal.Reducer

ContaPal.Reducer

NameNode

Retorna Resultado

Processamento

Arquitetura do framework Apache Hadoop

Page 51: Arquitetura do Framework Apache Hadoop 2.6

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Node Manager 3 Data Node 3

Bloco1

Bloco2Node Manager 2 Data Node 2

Node Manager 1 Data Node 1

Node Manager 4 Data Node 4

ResourceManager

HDFS

Node Manager 5 Data Node 5

Node Manager 6 Data Node 6

Node Manager 7 Data Node 7

Bloco3

Cliente

NameNode

Exibe Resultado

Aplicação:ContaPalavras

Processamento

Arquitetura do framework Apache Hadoop

Page 52: Arquitetura do Framework Apache Hadoop 2.6

Áreas de aplicação

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Financeiro Duminuição de risco de financimento

Governo Diminuição de custos e melhor distribuição de efetivo e orçamento

Saúde Análise de dados de sensores, monitoramento, genoma

Indústria Sensores de monitoramento para manutenção de peças

Óleo & Gas Análise de dados de sensores na Exploração

eComerce Recomendação de produtos e venda online

Comunicação Propaganda baseada na localização

Page 53: Arquitetura do Framework Apache Hadoop 2.6

Empresas que adotam o Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Page 54: Arquitetura do Framework Apache Hadoop 2.6

Empresas que adotam o Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Page 55: Arquitetura do Framework Apache Hadoop 2.6

Empresas que adotam o Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Page 56: Arquitetura do Framework Apache Hadoop 2.6

Empresas que adotam o Hadoop

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Page 57: Arquitetura do Framework Apache Hadoop 2.6

Exemplo de Aplicação: Saúde

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

O pesquisador Michael Schatz e sua equipe da Universidade de Maryland construíram o Crossbow usando o Hadoop em cloud que proporciona o custo de analisar um genoma humano abaixo de US $ 85 em 3 horas (40 nodes com 320-cores).

http://bowtie-bio.sourceforge.net/crossbow/index.shtml

Custo do GenomaLei de Gordon E. Moore

Page 58: Arquitetura do Framework Apache Hadoop 2.6

História

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Out 2003 : Google publicou o primeiro paper GFS (Google File System)

Jul 2005 : Nutch NDFS (projeto open source de Web Search Engine baseado em Lucene) começa a usar MapReduce

Fev 2006 : Torna-se um subprojeto Lucene, e é renomeado Hadoop

Abr 2007 : Yahoo! Cria um cluster de mais de 1000-nodes

Jan 2008 : A Apache torna o Hadoop um projeto Top Level

Abr 2009 : Ganhou o “Minute Sort” processando 500 GB em 59 segundos(com 1406 nodes)

Out 2013 : Ganhou o “Gray Sort” (100 TBs / minutos) processando 102 TB em 4 segundos(com 2100 nodes)

Fontes: http://sortbenchmark.org/http://static.googleusercontent.com/media/research.google.com/pt-BR//archive/gfs-sosp2003.pdfhttp://www.ordinal.com/gensort.html

Page 59: Arquitetura do Framework Apache Hadoop 2.6

Exemplo de Aplicação: Logística

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

US Xpress uma das maiores companhias de caminhão nos EUA está usando o Hadoop para armazenar dados de sensores de seus caminhões. Com resultado das análises eles economizam 6 milhões de dólares/ano em custos de combustível.

http://www.computerweekly.com/news/2240146943/Case-Study-US-Xpress-deploys-hybrid-big-data-with-Informatica

Page 60: Arquitetura do Framework Apache Hadoop 2.6

Exemplo de Aplicação: Telecom

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Nokia -Nokia recolhe e analisa grandes quantidades de dados de telefones móveisProblema:(1) Lidar com 100TB de dados estruturados e 500TB de dados + semi-estruturado(2) Média de novos dados : 1TB / dia

Solução: HDFS que oferece o processamento de dados em escala de peta bytes.

http://strataconf.com/stratany2012/public/schedule/detail/26880

Page 61: Arquitetura do Framework Apache Hadoop 2.6

Visitem

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop

Sort Benchmark Home Page

http://sortbenchmark.org/

Paper do Google

http://static.googleusercontent.com/media/research.google.com/pt-BR//archive/gfs-sosp2003.pdf

Aplicação baseada em Hadoop para análise do Genoma

http://bowtie-bio.sourceforge.net/crossbow/index.shtml

Page 62: Arquitetura do Framework Apache Hadoop 2.6

Obrigado!!!

TÍTULO DO SEU SEMINÁRIO

Subtítulo

Arquitetura do framework Apache Hadoop