pentaho com hadoop – o canivete suíço do cientistas de dados para big data analytics

52
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics Palestrante: Marcio Junior Vieira [email protected]

Upload: ambiente-livre

Post on 05-Dec-2014

501 views

Category:

Technology


3 download

DESCRIPTION

Palestra Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics, ministrada no Pentaho Day 2014 por Marcio Junior Vieira

TRANSCRIPT

Page 1: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

Palestrante: Marcio Junior [email protected]

Page 2: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Marcio Junior Vieira

● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial.

● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento.

● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.

● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day.

● Fundador da Ambiente Livre Tecnologia.● Instrutor de Hadoop e Pentaho

Page 3: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Ecosistema Ambiente Livre

Page 4: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Colaborações com Eventos

Page 5: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Big Data - Muito se fala...

Page 6: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Page 7: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Big Data

● É um novo conceito se consolidando.● Grande armazenamento de dados e maior

velocidade

Page 8: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Os 4 V's

● Velocidade , Volume , Variedade e Valor

Page 9: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Volume

● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB).

● Geralmente dados não estruturados.

● Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.

Page 10: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Velocidade

● Processamento de Dados● Armazenamento ● Analise de Dados

Page 11: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Variedade

● Dados semi-estruturados● Dados não estruturados● Diferentes fontes● Diferentes formatos

Page 12: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Valor

● Tomada de Decisão● Benefícios● Objetivo

do Negócio.

Page 13: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

O momento é agora

Page 14: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Onde usar Big Data ?● Sistemas de

recomendação

● Redes Sociais

Page 15: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Onde usar Big Data ?

● Analise de Risco (Crédito, Seguros , Mercado Financeiro)

● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento)

● Energia Fotovoltaica(Medições , Estudos, Resultados )

Page 16: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Big Data X BI

● Big Data e uma evolução do BI, devem caminhar juntos

● Data Warehouses são necessários para armazenar dados estruturados

Previsão:● BI – Casos específicos● Big Data – Analise geral

Page 17: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Profissional

Novo profissional: Cientista de Dados

Page 18: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Competências do Cientista de dados

● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes

Page 19: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

De onde ?

Page 20: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Ferramentas de Big Data

Page 21: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Hadoop

● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído.

● Filesystem Distribuido.● Inspirado Originalmente pelo GFS e MapReduce da Google

( Modelo de programação MapReduce)● Utiliza-se de Hardware Comum ( Commodity cluster

computing )● Framework para computação distribuída● infraestrutura confiável capaz de lidar com falhas ( hardware,

software, rede )

Page 22: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

● Solução de BI Open Source.● Tem versões Community Edition e Enterprise

Edition.● Solução completa de BI e BA ( ETL,

Reporting, Mineração, OLAP e Dashbards, etc)

Page 23: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Pentaho e Hadoop

● O uso de Pentaho em projetos com Hadoop pode diminuir em 15 vezes o tempo do Projeto.

Codificação Java Versus ETL Kettle

Page 24: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Pentaho e Hadoop

● O Pentaho tem suporte aos principais distribuições Hadoop.

● Open Source Apache

● Comercial Open Source- Cloudera- HortoWorks- MapR- AWS MapReduce

Page 25: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Motivações Atuais - Hadoop

● Grande quantidade ( massiva ) de dados● Dados não cabem em uma máquina● Demoram muito para processar de forma serial● Máquinas individuais falham● Computação nas nuvens● Escalabilidade de aplicações● Computação sob demanda

Page 26: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Ecosistema - Hadoop

Page 27: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

O que é HDFS

● Hadoop Filesystem

● Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.

Page 28: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Características do HDFS

● Inspirado em GFS● Projetado para trabalhar com arquivos muito

grandes e grandes volumes● Executado em hardware comum● Streaming de acesso a dados● Replicação e localidade

Page 29: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

HDFS

● Projetado para escalar a petabytes de armazenamento, e correr em cima dos sistemas de arquivos do sistema operacional subjacente.

Page 30: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Arquitetura

Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

Page 31: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

HDFS - Replicação

● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas

Page 32: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

HDFS e Pentaho

Page 33: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

HDFS e Pentaho

Page 34: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

MapReduce

● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes

Page 35: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Programação Distribuída

Page 36: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

MapReduce

Você especifica o map (...) e reduce (...)

funções● map = (lista (k, v) -> lista (k, v))● reduce = (k, lista (v) -> k, v)

O Framework faz o resto● Dividir os dados● Execute vários mappers sobre as divisões● Embaralhar os dados para os redutores● Execute vários redutores● Guarde os resultados finais

Page 37: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

MapReduceMap Reduce

Page 38: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Pentaho MapReduce

Page 39: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Pentaho e Pig

● PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.Executado no HDFS e grupos MapReduce.

Page 40: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Modos de Operação

● Standalone ( Local )● Pseudo-distributed● Fully-distributed

Page 41: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Outros componentes

● Hive - Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consultabaseada em SQL para consultar os dados.

Page 42: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Hbase

● Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias)

● Pentaho: Componente de Input e Output no Kettle

Page 43: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

+Hbase e Pentaho

● Componente para decodificar a chave e os dados valor que é emitido pelo TableInputFormat

Page 44: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Outros componentes

● ZooKeeper – Serviço de coordenação altamente disponível e distribuído. Fornece funções de bloqueios distribuídos que podem ser usados para a construção de aplicações distribuídas.

● Sqoop – Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS.

● Mahout - Aprendizagem de máquina escalável, de fácil uso comercial para a construção de aplicativos inteligentes

Page 45: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Amazon

● MapReduce sob Demanda

Page 46: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Possibilidades de Uso

● DataWareHouse● Business Intelligence● Aplicações analíticas● Mídias Sociais● Sugestão de Compras● Analise preditiva● Compras Coletivas● Recomendações

Page 47: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Modelo tradicional de Uso

Page 48: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Empresa Usando Hadoop

● Amazon● Facebook● Google● IBM● Yahoo● Linkedin

● Joost● Last.fm● New York Times● PowerSet● Veoh● Twitter● Ebay

Page 49: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Hadoop no Brasil

Page 50: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Pentaho Orquestrando Hadoop

Page 51: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Contatos

● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre● @ambientelivre● @marciojvieira● Blog

blogs.ambientelivre.com.br/marcio● Facebook/ambientelivre

Page 52: Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data Analytics

   

Convite – Próximos Eventos

● FTSL - 18 e 19 de Setembro - Curitiba● Software Freedom Day

20 de Setembro - Curitiba