postgresql em projetos de business analytics e big data analytics com pentaho

61
PostgreSQL em um Ambiente Híbrido de Big Data Analytics Palestrante: Marcio Junior Vieira [email protected]

Upload: ambiente-livre

Post on 12-Feb-2017

336 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

PostgreSQL em um Ambiente Híbrido de Big Data Analytics

Palestrante: Marcio Junior [email protected]

Page 2: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Marcio Junior Vieira

● 16 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial.

● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento.

● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.

● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day.

● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.● Fundador e CEO da Ambiente Livre Tecnologia.● Instrutor de Big Data – Spark, Hadoop, Pentaho, Cassandra, PostgreSQL e

MongoDB.

Page 3: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Sobre a Ambiente Livre

● Fundada em 2004 com foco de atuar em consultoria com software livre.

● 2009 ampliou sua soluções para atender ao mercado de gestão empresarial com software livre.

● Tem 14 soluções distintas para geração de negócios com software livre.

Page 4: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Ecosistema da Ambiente Livre

Page 5: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Alguns clientes

Page 6: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Big Data - Muito se fala...

Page 7: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

2005 na apresentação do Papa Bento XVI

Page 8: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

 2013 na apresentação do Papa Francisco

Page 9: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Page 10: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

IoT- Internet of Things

● Internet das Coisas se aplica a comunicação entre objetos e entre estes e a internet, sejam eles físicos ou virtuais.

Page 11: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Elementos do IOT

● Rede de sensores sem fio (RSSF);● Radio Frequency Identification (RFID);● Gateway;● Banco de dados;● Protocolos de rede;● Gerência de processos;● Gerência de rede.

Page 12: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Evolução das Coisas

Page 13: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Big Data

● É um novo conceito se consolidando.● Grande armazenamento de dados e maior

velocidade

Page 14: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Big Data

Page 15: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Os 4 V's

● Velocidade, Volume, Variedade e Valor

Page 16: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Volume

● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB).

● Geralmente dados não estruturados.

● Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.

Page 17: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Velocidade

● Processamento de Dados● Armazenamento ● Analise de Dados

Page 18: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Variedade

● Dados semi-estruturados● Dados não estruturados● Diferentes fontes● Diferentes formatos

Page 19: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Valor

● Tomada de Decisão● Benefícios● Objetivo

do Negócio.

Page 20: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Tomada de Decisão

● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem

● 56% sentem sobrecarregados com a quantidade de dados que gerenciam

● 60% acreditam que precisam melhorar captura e entender informações rapidamente.

● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade

fonte : Survey KPMG.

Page 21: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Onde usar Big Data ?● Sistemas de

recomendação

● Redes Sociais

Page 22: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Onde usar Big Data ?

● Analise de Risco (Crédito, Seguros , Mercado Financeiro)

● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento)

● Energia Fotovoltaica(Medições , Estudos, Resultados )

Page 23: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Big Data X BI

● Big Data e uma evolução do BI, devem caminhar juntos

● Data Warehouses são necessários para armazenar dados estruturados

Previsão:● BI – Casos específicos● Big Data – Analise geral

Page 24: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Ferramentas de Big Data

Page 25: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Ecosistema - Hadoop

Page 26: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Distribuições Hadoop

● Open Source Apache

● Comercial Open Source- Cloudera- Hortonworks- MapR- Diversas plataformas de Hadoop em Cloud

Page 27: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

O Profissional“Data Scientist”

Novo profissional: Cientista de Dados

Page 28: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Cientista de dados

● Gartner: necessitaremos de 4,4 Milhões de especialistas até 2015 ( 1,9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacifico e América Latina)

● Estima-se que apenas um terço disso será preenchido. ( Gartner )

● Brasil deverá abrir 500 mil vagas para profissionais com habilidades em Big Data

● As universidades do Brasil ainda não oferecem graduação para formação de cientistas de dados

Page 29: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Competências

● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes

Page 30: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Data LakeData Lake

Page 31: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Data Lake

● Fonte única● Grande Volume● Não Refinado● Pode estar tratado.

Page 32: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Formato Tradicional

Data Mart(s)

Data Source

Page 33: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Requisitos de um Data Lake

● Armazenar todos os dados● Satisfazer relatório e rotinas de analise● Satisfazer ad-hoc query / analises / relatórios● Balanceamento de performance e custo

Page 34: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Arquitetura hibrida de Big Data

Data Mart(s)

Data Source

Data Lake(s)

ad­hoc Datawarehouse

Page 35: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Arquitetura hibrida de Big Data

Data Mart(s)

Data Source

Data Lake(s)

ad­hocDatawarehouse

Page 36: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Page 37: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Page 38: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

PostgreSQL em nossos projetos

● OLAP ( Online Analytical Processing )● OLTP ( Online Transaction Processing)● Distribuído

BRD Postgres-XL

Page 39: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

PostgreSQL em nossos Projetos

● Datawarehouse em Projetos de BI● Bases de negócios Transacionais ( Telefonia,

Monitoramento com Zabbix , Redes de Supemercados, Redes de Varejo )

● Sistema de Gestão de Simuladores de Transito Brasileiro ( MySQL com PostgreSQL )

● Sistemas bancários de analise de crédito

Page 40: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

Software Livre

Page 41: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Fundação Apache

● Big Data = Apache = Open Source● Apache é lider e Big Data!● ~31 projetos de Big Data incluindo “Apache

Hadoop” e “Spark”●

Page 42: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

HBase

● Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias)

Page 43: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Hive

● Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consultabaseada em SQL para consultar os dados.

Page 44: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

PIG

● PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.Executado no HDFS e grupos MapReduce.

Page 45: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Mahout

● O objetivo primário de criar algoritmos de aprendizagem por máquina escaláveis de fácil uso comercial para a construção de aplicativos inteligentes

● O Mahout contém implementações para armazenamento em cluster, categorização, CF, e programação evolucionária. Além disso, quando prudente, ele usa a biblioteca Apache Hadoop para permitir que o Mahout escale de forma efetiva na nuvem

● Diversidade de algorítimos

Page 46: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Sqoop

● Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS.

Page 47: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Apache Spark

● 100x mais rápido que Hadoop● Programação com Scala,

Java, Python ou R

Page 48: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Apache Cassandra

● É um tipo de banco nosql que originalmente foi criado pelo Facebook e que atualmente é mantido pela Apache e outras empresas.

● Banco de dados distribuído baseado no modelo BigTable do Google e no sistema de armazenamento Dynamo da Amazon.com.

Page 49: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

MongoDB

● MongoDB é uma aplicação open source de alta performance, sem esquemas, orientado a documentos. Foi escrito na linguagem de programação C++. Além de orientado a documentos, é formado por um conjunto de documentos JSON

Page 50: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Titan Grafh

● É um banco de dados gráfico escalável otimizado para armazenar e consultar gráficos contendo centenas de bilhões de vértices e arestas distribuídos através de um cluster multi-máquina.

● Pode suportar milhares de usuários simultâneos executando traversals gráfico complexos em tempo real.

● Suporta aos storages Apache Cassandra, Apache HBase , MapR Tables, Oracle BerkeleyDB (local)

Page 51: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

BigSQL

● Projeto Hibrido de Integração de Tecnologias de Big Data com PostgreSQL

Page 52: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

● Solução de BI Open Source.● Community Edition● Solução completa de BI e BA ( ETL,

Reporting, Mineração, OLAP e Dashbards, etc)

Page 53: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Pentaho Orquestrando Hadoop

Page 54: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Pentaho Data Integration

Page 55: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Page 56: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Page 57: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Big Data no Brasil

Page 58: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Principais desafios

● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)

● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012)

● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem.

● Desafios dos Os 5 V !● Privacidade, A identidade do usuário, mesmo preservada pode ser

buscada... ( Marco Civil da Internet )

Page 59: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Recomendações

● Comece com o problema , e não com os dados

● Compartilhe dados para receber dados● Suporte gerencial e executivo● Orçamento suficiente● Melhores parceiros e fornecedores

Page 60: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Big Data

● “Big Data hoje é o que era a Linux em 1991. Sabemos que será algo revolucionário, mas não sabemos o quanto...”

Marcio Junior Vieira

Page 61: PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho

   

Contatos

● www.ambientelivre.com.br ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre● @ambientelivre ou @marciojvieira● Blog

blogs.ambientelivre.com.br/marcio● Facebook/ambientelivre