cientista de dados – dominando o big data com software livre

70
Cientista de Dados – Dominando o Big Data com Software Livre Palestrante: Marcio Junior Vieira [email protected]

Upload: ambiente-livre

Post on 22-Jan-2018

1.063 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: Cientista de Dados – Dominando o Big Data com Software Livre

Cientista de Dados – Dominando o Big Data com Software Livre

Palestrante: Marcio Junior [email protected]

Page 2: Cientista de Dados – Dominando o Big Data com Software Livre

   

Marcio Junior Vieira

● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial.

● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento.

● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.

● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day.

● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.● Fundador da Ambiente Livre Tecnologia.● Instrutor de Big Data - Hadoop e Pentaho

Page 3: Cientista de Dados – Dominando o Big Data com Software Livre

   

Ecosistema da Ambiente Livre

Page 4: Cientista de Dados – Dominando o Big Data com Software Livre

   

Colaborações com Eventos

Page 5: Cientista de Dados – Dominando o Big Data com Software Livre

   

Big Data - Muito se fala...

Page 6: Cientista de Dados – Dominando o Big Data com Software Livre

2005 na apresentação do Papa Bento XVI

Page 7: Cientista de Dados – Dominando o Big Data com Software Livre

 2013 na apresentação do Papa Francisco

Page 8: Cientista de Dados – Dominando o Big Data com Software Livre

   

Page 9: Cientista de Dados – Dominando o Big Data com Software Livre

   

Big Data

● É um novo conceito se consolidando.● Grande armazenamento de dados e maior

velocidade

Page 10: Cientista de Dados – Dominando o Big Data com Software Livre

   

Big Data

Page 11: Cientista de Dados – Dominando o Big Data com Software Livre

   

Os 4 V's

● Velocidade, Volume, Variedade e Valor

Page 12: Cientista de Dados – Dominando o Big Data com Software Livre

   

Volume

● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB).

● Geralmente dados não estruturados.

● Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.

Page 13: Cientista de Dados – Dominando o Big Data com Software Livre

   

Velocidade

● Processamento de Dados● Armazenamento ● Analise de Dados

Page 14: Cientista de Dados – Dominando o Big Data com Software Livre

   

Variedade

● Dados semi-estruturados● Dados não estruturados● Diferentes fontes● Diferentes formatos

Page 15: Cientista de Dados – Dominando o Big Data com Software Livre

   

Valor

● Tomada de Decisão● Benefícios● Objetivo

do Negócio.

Page 16: Cientista de Dados – Dominando o Big Data com Software Livre

   

O novo V: Veracidade

Veracidade refere-se a confiabilidade dos dados. Com muitas formas de grandes qualidades e precisão dos dados são menos controláveis (basta pensar em posts no Twitter com hash tags, abreviações, erros de digitação e linguagem coloquial, bem como a confiabilidade e a precisão do conteúdo), mas agora a tecnologia permite-nos trabalhar com este tipo de dados .

Page 17: Cientista de Dados – Dominando o Big Data com Software Livre

   

O momento é agora

Page 18: Cientista de Dados – Dominando o Big Data com Software Livre

   

Tomada de Decisão

● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem

● 56% sentem sobrecarregados com a quantidade de dados que gerenciam

● 60% acreditam que precisam melhorar captura e entender informações rapidamente.

● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade

fonte : Survey KPMG.

Page 19: Cientista de Dados – Dominando o Big Data com Software Livre

   

Onde usar Big Data ?● Sistemas de

recomendação

● Redes Sociais

Page 20: Cientista de Dados – Dominando o Big Data com Software Livre

   

Onde usar Big Data ?

● Analise de Risco (Crédito, Seguros , Mercado Financeiro)

● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento)

● Energia Fotovoltaica(Medições , Estudos, Resultados )

Page 21: Cientista de Dados – Dominando o Big Data com Software Livre

   

Big Data X BI

● Big Data e uma evolução do BI, devem caminhar juntos

● Data Warehouses são necessários para armazenar dados estruturados

Previsão:● BI – Casos específicos● Big Data – Analise geral

Page 22: Cientista de Dados – Dominando o Big Data com Software Livre

   

Data Lake

Page 23: Cientista de Dados – Dominando o Big Data com Software Livre

   

Cases

Page 24: Cientista de Dados – Dominando o Big Data com Software Livre

   

O Profissional“data scientist”

Novo profissional: Cientista de Dados

Page 25: Cientista de Dados – Dominando o Big Data com Software Livre

   

Cientista de dados

● Gartner: necessitaremos de 4,4 Milhões de especialistas até 2015 ( 1,9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacifico e América Latina)

● Estima-se que apenas um terço disso será preenchido. ( Gartner )

● Brasil deverá abrir 500 mil vagas para profissionais com habilidades em Big Data

● As universidades do Brasil ainda não oferecem graduação para formação de cientistas de dados

Page 26: Cientista de Dados – Dominando o Big Data com Software Livre

   

Competências

● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes

Page 27: Cientista de Dados – Dominando o Big Data com Software Livre

   

Tendências

Page 28: Cientista de Dados – Dominando o Big Data com Software Livre

   

TendênciasCitizen Data Scientist

Page 29: Cientista de Dados – Dominando o Big Data com Software Livre

   

De onde ?

Page 30: Cientista de Dados – Dominando o Big Data com Software Livre

   

Ferramentas de Big Data

Page 31: Cientista de Dados – Dominando o Big Data com Software Livre

Software Livre

Page 32: Cientista de Dados – Dominando o Big Data com Software Livre

Muitos das melhores e mais conhecidas ferramentas de dados disponíveis são grandes projetos de código aberto. O  mais conhecido deles é o Hadoop, o que está gerando toda uma indústria de serviços e produtos relacionados. 

Page 33: Cientista de Dados – Dominando o Big Data com Software Livre

   

Hadoop

● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído.

● Filesystem Distribuído● Inspirado Originalmente pelo GFS e MapReduce da Google

( Modelo de programação MapReduce)● Utiliza-se de Hardware Comum ( Commodity cluster computing )● Framework para computação distribuída● infraestrutura confiável capaz de lidar com falhas ( hardware,

software, rede )

Page 34: Cientista de Dados – Dominando o Big Data com Software Livre

   

Distribuições Hadoop

● Open Source Apache

● Comercial Open Source- Cloudera- HortoWorks- MapR- AWS MapReduce

Page 35: Cientista de Dados – Dominando o Big Data com Software Livre

   

Motivações Atuais - Hadoop

● Grande quantidade ( massiva ) de dados● Dados não cabem em uma máquina● Demoram muito para processar de forma serial● Máquinas individuais falham● Computação nas nuvens● Escalabilidade de aplicações● Computação sob demanda

Page 36: Cientista de Dados – Dominando o Big Data com Software Livre

   

Fundação Apache

● Big Data = Apache = Open Source● Apache é lider e Big Data!● ~31 projetos de Big Data incluindo “Apache

Hadoop” e “Spark”●

Page 37: Cientista de Dados – Dominando o Big Data com Software Livre

   

Ecosistema - Hadoop

Page 38: Cientista de Dados – Dominando o Big Data com Software Livre

   

O que é HDFS

● Hadoop Filesystem

● Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.

Page 39: Cientista de Dados – Dominando o Big Data com Software Livre

   

Características do HDFS

● Projetado para trabalhar com arquivos muito grandes e grandes volumes

● Executado em hardware comum● Streaming de acesso a dados● Replicação e localidade● Projetado para escalar a petabytes de

armazenamento, executa em cima dos sistemas de arquivos do sistema operacional subjacente.

Page 40: Cientista de Dados – Dominando o Big Data com Software Livre

   Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

Page 41: Cientista de Dados – Dominando o Big Data com Software Livre

   

HDFS - Replicação

● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas

Page 42: Cientista de Dados – Dominando o Big Data com Software Livre

   

MapReduce

● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes

Page 43: Cientista de Dados – Dominando o Big Data com Software Livre

   

Programação Distribuída

Page 44: Cientista de Dados – Dominando o Big Data com Software Livre

   

MapReduceMap Reduce

Page 45: Cientista de Dados – Dominando o Big Data com Software Livre

   

HBase

● Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias)

Page 46: Cientista de Dados – Dominando o Big Data com Software Livre

   

Hive

● Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consultabaseada em SQL para consultar os dados.

Page 47: Cientista de Dados – Dominando o Big Data com Software Livre

   

PIG

● PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.Executado no HDFS e grupos MapReduce.

Page 48: Cientista de Dados – Dominando o Big Data com Software Livre

   

Mahout

● O objetivo primário de criar algoritmos de aprendizagem por máquina escaláveis de fácil uso comercial para a construção de aplicativos inteligentes

● O Mahout contém implementações para armazenamento em cluster, categorização, CF, e programação evolucionária. Além disso, quando prudente, ele usa a biblioteca Apache Hadoop para permitir que o Mahout escale de forma efetiva na nuvem

● Diversidade de algorítimos

Page 49: Cientista de Dados – Dominando o Big Data com Software Livre

   

ZooKeeper

● Serviço de coordenação altamente disponível e distribuído. Fornece funções de bloqueios distribuídos que podem ser usados para a construção de aplicações distribuídas.

Page 50: Cientista de Dados – Dominando o Big Data com Software Livre

   

Sqoop

● Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS.

Page 51: Cientista de Dados – Dominando o Big Data com Software Livre

   

Apache Spark

● 100x mais rápido que Hadoop● Programação com Scala,

Java, Python ou R●

Page 52: Cientista de Dados – Dominando o Big Data com Software Livre

   

Apache Cassandra

● É um tipo de banco nosql que originalmente foi criado pelo Facebook e que atualmente é mantido pela Apache e outras empresas.

● Banco de dados distribuído baseado no modelo BigTable do Google e no sistema de armazenamento Dynamo da Amazon.com.

Page 53: Cientista de Dados – Dominando o Big Data com Software Livre

   

Apache Hama

● Apache HamaTM é uma estrutura para análise de Big Data, que usa o modelo de computação paralela Synchronous Parallel (BSP), que foi criada em 2012 como um projeto de nível superior da Apache Software Foundation.

● Ele fornece não só modelo de programação BSP pura, mas também vértice e neurônio modelos de programação centrada, inspirado por Pregel e DistBelief do Google.

Page 54: Cientista de Dados – Dominando o Big Data com Software Livre

   

Apacha CounchDB

● É um banco de dados de código-aberto que foca na facilidade de uso e na filosofia de ser "um banco de dados que abrange a Web"

● NoSQL, usa JSON para armazenar os dados, ● JavaScript como sua linguagem de consulta usando o

MapReduce, e HTTP como API1 . ● Facilidade na replicação. ● Cada banco de dados é uma coleção de documentos

independentes, e cada documento mantém seus próprios dados e esquemas.

Page 55: Cientista de Dados – Dominando o Big Data com Software Livre

   

MongoDB

● MongoDB é uma aplicação open source de alta performance, sem esquemas, orientado a documentos. Foi escrito na linguagem de programação C++. Além de orientado a documentos, é formado por um conjunto de documentos JSON

Page 56: Cientista de Dados – Dominando o Big Data com Software Livre

   

Titan Grafh

● É um banco de dados gráfico escalável otimizado para armazenar e consultar gráficos contendo centenas de bilhões de vértices e arestas distribuídos através de um cluster multi-máquina.

● Pode suportar milhares de usuários simultâneos executando traversals gráfico complexos em tempo real.

● Suporta aos storages Apache Cassandra, Apache HBase , MapR Tables, Oracle BerkeleyDB (local)

Page 57: Cientista de Dados – Dominando o Big Data com Software Livre

   

Neo4J

● É um banco de dados gráfico open-source, implementado em Java. Integrado, totalmente com transacional e persistência Java. Armazena dados estruturados de grafos ao invés de tabelas.

● Neo4j é o banco de dados gráfico mais popular.

Page 58: Cientista de Dados – Dominando o Big Data com Software Livre

   

● Solução de BI Open Source.● Community Edition● Solução completa de BI e BA ( ETL,

Reporting, Mineração, OLAP e Dashbards, etc)

Page 59: Cientista de Dados – Dominando o Big Data com Software Livre

   

Pentaho Orquestrando Hadoop

Page 60: Cientista de Dados – Dominando o Big Data com Software Livre

   

Pentaho Data Integration

Page 61: Cientista de Dados – Dominando o Big Data com Software Livre

   

Sparkl

● CTools e Pentaho Data Integration (PDI)● Desenvolve frontend comk CTools● Implementamos backend com PDI

Page 62: Cientista de Dados – Dominando o Big Data com Software Livre

   

Page 63: Cientista de Dados – Dominando o Big Data com Software Livre

   

Page 64: Cientista de Dados – Dominando o Big Data com Software Livre

   

Modelo tradicional de Uso

Page 65: Cientista de Dados – Dominando o Big Data com Software Livre

   

Empresa Usando Hadoop

● Amazon● Facebook● Google● IBM● Yahoo● Linkedin

● Joost● Last.fm● New York Times● PowerSet● Veoh● Twitter● Ebay

Page 66: Cientista de Dados – Dominando o Big Data com Software Livre

   

Big Data no Brasil e com Hadoop

Page 67: Cientista de Dados – Dominando o Big Data com Software Livre

   

Principais desafios

● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)

● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012)

● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem.

● Desafios dos Os 5 V !● Privacidade, A identidade do usuário, mesmo preservada pode ser

buscada... ( Marco Civil da Internet )

Page 68: Cientista de Dados – Dominando o Big Data com Software Livre

   

Recomendações

● Comece com o problema , e não com os dados

● Compartilhe dados para receber dados● Suporte gerencial e executivo● Orçamento suficiente● Melhores parceiros e fornecedores

Page 69: Cientista de Dados – Dominando o Big Data com Software Livre

   

Big Data

● “Big Data hoje é o que era a Linux em 1991.

● Sabemos que será algo revolucionário, mas não sabemos o quanto...”

Page 70: Cientista de Dados – Dominando o Big Data com Software Livre

   

Contatos

● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre● @ambientelivre● @marciojvieira● Blog

blogs.ambientelivre.com.br/marcio● Facebook/ambientelivre