pentaho hadoop big data e data lakes

49
Pentaho, Hadoop, Big Data e Data Lakes. Palestrante: Marcio Junior Vieira [email protected]

Upload: ambiente-livre

Post on 14-Jan-2017

1.708 views

Category:

Technology


5 download

TRANSCRIPT

Page 1: Pentaho Hadoop Big Data e Data Lakes

Pentaho, Hadoop, Big Data e Data Lakes.

Palestrante: Marcio Junior [email protected]

Page 2: Pentaho Hadoop Big Data e Data Lakes

   

Marcio Junior Vieira

● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial.

● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento.

● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.

● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day.

● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.● Fundador da Ambiente Livre Tecnologia.● Instrutor de Big Data - Hadoop e Pentaho

Page 3: Pentaho Hadoop Big Data e Data Lakes

   

Ecosistema da Ambiente Livre

Page 4: Pentaho Hadoop Big Data e Data Lakes

Agenda

● Conceitos de Big Data● Conceitos de Hadoop● Conceitos de Data Lakes● Pentaho Orquestrando seus Data Lakes

Page 5: Pentaho Hadoop Big Data e Data Lakes

2005 na apresentação do Papa Bento XVI

Page 6: Pentaho Hadoop Big Data e Data Lakes

 2013 na apresentação do Papa Francisco

Page 7: Pentaho Hadoop Big Data e Data Lakes

   

Page 8: Pentaho Hadoop Big Data e Data Lakes

   

Big Data

Page 9: Pentaho Hadoop Big Data e Data Lakes

   

O momento é agora

Page 10: Pentaho Hadoop Big Data e Data Lakes

   

Tomada de Decisão

● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem

● 56% sentem sobrecarregados com a quantidade de dados que gerenciam

● 60% acreditam que precisam melhorar captura e entender informações rapidamente.

● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade

fonte : Survey KPMG.

Page 11: Pentaho Hadoop Big Data e Data Lakes

   

Ferramentas de Big Data

Page 12: Pentaho Hadoop Big Data e Data Lakes

Software Livre

Page 13: Pentaho Hadoop Big Data e Data Lakes

Muitos das melhores e mais conhecidas ferramentas de dados disponíveis são grandes projetos de código aberto. O  mais conhecido deles é o Hadoop, o que está gerando toda uma indústria de serviços e produtos relacionados. 

Page 14: Pentaho Hadoop Big Data e Data Lakes

   

Hadoop

● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído.

● Filesystem Distribuído● Inspirado Originalmente pelo GFS e MapReduce da Google

( Modelo de programação MapReduce)● Utiliza-se de Hardware Comum ( Commodity cluster computing )● Framework para computação distribuída● infraestrutura confiável capaz de lidar com falhas ( hardware,

software, rede )

Page 15: Pentaho Hadoop Big Data e Data Lakes

   

Distribuições Hadoop

● Open Source Apache

● Comercial Open Source- Cloudera- HortoWorks- MapR- AWS MapReduce

Page 16: Pentaho Hadoop Big Data e Data Lakes

   

Motivações Atuais - Hadoop

● Grande quantidade ( massiva ) de dados● Dados não cabem em uma máquina● Demoram muito para processar de forma serial● Máquinas individuais falham● Computação nas nuvens● Escalabilidade de aplicações● Computação sob demanda

Page 17: Pentaho Hadoop Big Data e Data Lakes

   

Fundação Apache

● Big Data = Apache = Open Source● Apache é lider e Big Data!● ~31 projetos de Big Data incluindo “Apache

Hadoop” e “Spark”●

Page 18: Pentaho Hadoop Big Data e Data Lakes

   

Ecosistema - Hadoop

Page 19: Pentaho Hadoop Big Data e Data Lakes

   

O que é HDFS

● Hadoop Filesystem

● Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.

Page 20: Pentaho Hadoop Big Data e Data Lakes

   

Características do HDFS

● Projetado para trabalhar com arquivos muito grandes e grandes volumes

● Executado em hardware comum● Streaming de acesso a dados● Replicação e localidade● Projetado para escalar a petabytes de

armazenamento, executa em cima dos sistemas de arquivos do sistema operacional subjacente.

Page 21: Pentaho Hadoop Big Data e Data Lakes

   Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

Page 22: Pentaho Hadoop Big Data e Data Lakes

   

HDFS - Replicação

● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas

Page 23: Pentaho Hadoop Big Data e Data Lakes

   

MapReduce

● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes

Page 24: Pentaho Hadoop Big Data e Data Lakes

   

Programação Distribuída

Page 25: Pentaho Hadoop Big Data e Data Lakes

   

MapReduce by “Subway”

Page 26: Pentaho Hadoop Big Data e Data Lakes

   

MapReduceMap Reduce

Page 27: Pentaho Hadoop Big Data e Data Lakes

   

O Profissional“data scientist”

Novo profissional: Cientista de Dados

Page 28: Pentaho Hadoop Big Data e Data Lakes

   

Competências

● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes

Page 29: Pentaho Hadoop Big Data e Data Lakes

   

Cientista de dados

● Gartner: necessitaremos de 4,4 Milhões de especialistas até 2015 ( 1,9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacifico e América Latina)

● Estima-se que apenas um terço disso será preenchido. ( Gartner )

● Brasil deverá abrir 500 mil vagas para profissionais com habilidades em Big Data

● As universidades do Brasil ainda não oferecem graduação para formação de cientistas de dados

Page 30: Pentaho Hadoop Big Data e Data Lakes

   

TendênciasCitizen Data Scientist

Page 31: Pentaho Hadoop Big Data e Data Lakes

   

O Termo Data Lake

● Em 2010, James Dixon ( Founder and CTO at Pentaho ) introduziu os conceitos de Data Lake em pequeno artigo em seu Blog.

Page 32: Pentaho Hadoop Big Data e Data Lakes

   

Os velho Datawarehouse

● Elaborado na Década de 80● Apenas um subconjunto dos atributos são

examinados, para que apenas perguntas pré-determinadas podem ser respondidas.

● Os dados são agregados por isso visibilidade para os níveis mais baixos é perdida

Page 33: Pentaho Hadoop Big Data e Data Lakes

   

Cenários

● Tradicionalmente temos Dados transacionais ( Financeiro, Estoque, ERPs )

● Muitas empresas estão lidando com dados estruturados ou semi-estruturados (não desestruturada).

● Os dados são normalmente sub-transacional (webLogs, Social/online Media, Eventos de Telecoms ) ou não transacional (Web Pages, Blogs, Documentos, Eventos de IOT... ).

● Há algumas perguntas conhecidos para perguntar dos dados.● Há muitas perguntas desconhecidos que surgirão no futuro.● Os dados são de uma escala ou volume diário de tal forma que ele

não vão caber técnica e / ou economicamente em um RDBMS.

Page 34: Pentaho Hadoop Big Data e Data Lakes

   

Data LakeData Lake

Page 35: Pentaho Hadoop Big Data e Data Lakes

   

Data Lake

● Fonte única● Grande Volume● Não Refinado● Pode estar tratado.

Page 36: Pentaho Hadoop Big Data e Data Lakes

   

Requisitos de um Data Lake

● Armazenar todos os dados● Satisfazer relatório e rotinas de analise● Satisfazer ad-hoc query / analises / relatórios● Balanceamento de performance e custo

Page 37: Pentaho Hadoop Big Data e Data Lakes

   

Formato Tradicional de BI

Data Mart(s)

Data Source

Page 38: Pentaho Hadoop Big Data e Data Lakes

   

Arquitetura de Big Data

Data Mart(s)

Data Source

Data Lake(s)

ad­hoc Datawarehouse

Page 39: Pentaho Hadoop Big Data e Data Lakes

   

Big Data não Substitui os DataMarts

● Big Data não é um Banco de Dados● Alta latência● Otimizado para “triturar” massiva os dados● Base de dados são imaturas● Banco de Dados são noSQL

Page 40: Pentaho Hadoop Big Data e Data Lakes

   

● Solução de BI Open Source.● Community Edition● Solução completa de BI e BA ( ETL,

Reporting, Mineração, OLAP e Dashbards, etc)

Page 41: Pentaho Hadoop Big Data e Data Lakes

   

Pentaho Orquestrando Hadoop

Page 42: Pentaho Hadoop Big Data e Data Lakes

   

Pentaho Data Integration

Page 43: Pentaho Hadoop Big Data e Data Lakes

   

Sparkl

● CTools e Pentaho Data Integration (PDI)● Desenvolve frontend com CTools● Implementamos Backends e endPoints com

PDI

Page 44: Pentaho Hadoop Big Data e Data Lakes

   

Page 45: Pentaho Hadoop Big Data e Data Lakes

   

Page 46: Pentaho Hadoop Big Data e Data Lakes

   

Principais desafios

● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)

● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012)

● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem.

● Desafios dos Os 5 V !● Privacidade, A identidade do usuário, mesmo preservada pode ser

buscada... ( Marco Civil da Internet )

Page 47: Pentaho Hadoop Big Data e Data Lakes

   

Recomendações

● Comece com o problema , e não com os dados

● Compartilhe dados para receber dados● Suporte gerencial e executivo● Orçamento suficiente● Melhores parceiros e fornecedores

Page 48: Pentaho Hadoop Big Data e Data Lakes

   

Big Data

● “Big Data hoje é o que era a Linux em 1991.

● Sabemos que será algo revolucionário, mas não sabemos o quanto...”

Page 49: Pentaho Hadoop Big Data e Data Lakes

   

Contatos

● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre● @ambientelivre● @marciojvieira● Blog

blogs.ambientelivre.com.br/marcio● Facebook/ambientelivre