apache hadoop - introdução

22
Introdução Apache Hadoop Anne Kelly Diógenes Peçanha Glauco Vinicius 16 de Novembro de 2010

Upload: glauco-vinicius

Post on 06-Dec-2014

2.686 views

Category:

Technology


2 download

DESCRIPTION

Apresentação realizada na aula de TIN no dia 16 de novembro de 2010.

TRANSCRIPT

Page 1: Apache Hadoop - Introdução

Introdução

Apache Hadoop

Anne KellyDiógenes Peçanha

Glauco Vinicius

16 de Novembro de 2010

Page 2: Apache Hadoop - Introdução

Tópicos

Modos de representar dados O que é NoSQL? O que é Hadoop? O modelo de Map/Reduce Hive Dúvidas

Page 3: Apache Hadoop - Introdução

Modos de representar dados Hierárquico: 60's ~ 70's Grafo Orientado: 70's Relacional: 70's ~ começo 80's Entidade-Relacionamento: 70's Relacional Extendido: 80's Semântico: final de 70's ~ 80's Orientado a Objetos: final 80's ~ começo

90's Objeto-Relacional: final 80's ~ começo 90's Semi-estruturado (XML): final 90's ~ final

00's ???

Page 4: Apache Hadoop - Introdução

O que é NoSQL?

Not Only SQL Bancos de dados não-relacionais Pressão rumo a escalabilidade horizontal

Page 5: Apache Hadoop - Introdução

O que é Hadoop?

Apache Hadoop é uma plataforma de computação distribuída de código aberto, voltado para clusters e grandes massas de

dados através de computadores 'commodity'.

Page 6: Apache Hadoop - Introdução

Dois principais componentes

HDFS Map/Reduce

Tolerância a falhasProcessamento distribuído

Auto-recuperaçãoAlto consumo de banda

Armazenamento em cluster

Page 7: Apache Hadoop - Introdução

O que torna o Hadoop especial?

Page 8: Apache Hadoop - Introdução

Máquinas são confiáveis

Page 9: Apache Hadoop - Introdução

Máquinas possuem identidades

Page 10: Apache Hadoop - Introdução

Sua análise permanece em apenas uma máquina

Page 11: Apache Hadoop - Introdução

Como isso é possível?

Page 12: Apache Hadoop - Introdução

Componentes

NameNode (Servidor de metadados e banco de dados) SecondaryNameNode (Assistente do

NameNode) JobTracker (Agendador) DataNodes (Blocos de armazenamento) TaskTrackers (Executores de tarefas)

Page 13: Apache Hadoop - Introdução

HDFS

Page 14: Apache Hadoop - Introdução

O Modelo de Map/Reduce

Você especifica sua função de map() Você especifica sua função de reduce() O framework cuida do restante

Page 15: Apache Hadoop - Introdução

Hands on

Page 16: Apache Hadoop - Introdução

O que é Hive?

Infraestrutura para data warehouse Permite consultas adhoc utilizando Hive QL Permite a criação de maps e reduces

próprios Ótimo para processamento em lote de

dados imutáveis

Page 17: Apache Hadoop - Introdução

O que Hive não é?

Não é um sistema de baixa latência Não pode ser comparado ao Oracle ou SQL

Server pelo tempo de resposta de datasets pequenos Não foi desenhado para OLTP ou real-time

Page 18: Apache Hadoop - Introdução

Hive

Tipos de dados suportados: Inteiros, Booleanos, Ponto Flutuante, Strings, Structs. Suporte a DDL Criação de 'Index' (Partitions) Joins Agregação Union Operações em Arrays Map/Reduce Scripts Customizados

Page 19: Apache Hadoop - Introdução

Hands on

Page 20: Apache Hadoop - Introdução

Dúvidas?

Page 21: Apache Hadoop - Introdução

Referências

Apache Hadoop: http://hadoop.apache.org/ Cloudera: http://www.cloudera.com/

Page 22: Apache Hadoop - Introdução

Obrigado!