palestra big data scti

43
Big Data A nova ciência dos dados SCTI/UENF 2014 Christiano Anderson [email protected] Twitter: @dump Blog: http://christiano.me Christiano Anderson [email protected] Twitter: @dump Blog: http://christiano.me

Upload: bruna-pereira

Post on 09-Jul-2015

109 views

Category:

Technology


3 download

DESCRIPTION

Por: Christiano Anderson

TRANSCRIPT

Page 1: Palestra Big Data SCTI

Big DataA nova ciência dos dados

SCTI/UENF 2014

Christiano [email protected]

Twitter: @dumpBlog: http://christiano.me

Christiano [email protected]

Twitter: @dumpBlog: http://christiano.me

Page 2: Palestra Big Data SCTI

Quem sou?

● Desenvolvedor e arquiteto de dados, trabalha com grandes volumes de acesso e informação desde o início da internet comercial no Brasil;

● Participou da criação do primeiro e-mail gratuito do Brasil: Zipmail;● Ex-engenheiro do Terra Networks;● Trabalhou em algumas startups;● Contribui e já contribuiu com diversos projetos de Software Livre:

– MongoDB (atual)

– Python / Django (atual)

– Free Software Foundation (GNU Project)

– Projeto Debian

● Palestra sobre arquitetura de dados nos principais eventos de tecnologia;

Page 3: Palestra Big Data SCTI

Contatos

● E-mail: [email protected]● Twitter: @dump● Blog: http://christiano.me● Nas Redes Sociais (Facebook, LinkedIn, etc):

Christiano Anderson● Escrevo bastante sobre NoSQL e Big Data nas

redes sociais

Page 4: Palestra Big Data SCTI

Big Data?

Big data se trata de um conceito onde o foco égrande armazenamento de dados e maior

velocidades.

Page 5: Palestra Big Data SCTI

Os 5 V's

1. Velocidade2. Volume3. Variedade4. Veracidade5. Valor

Page 6: Palestra Big Data SCTI

Velocidade

Em muitos casos, as respostas precisam serrápidas, praticamente em tempo real para o

tratamento de um volume massivo de dados;

Para um sistema anti-fraude, 2 minutos podeser muito tempo.

Page 7: Palestra Big Data SCTI

Volume

Empresas podem facilmente produzir GB emais GB de informações por dia.

O Twitter pode facilmente produzir diariamentealguns TB de informações pertinentes para

análise de sentimento;

Page 8: Palestra Big Data SCTI

Variedade

São informações de diversas fontes, comoimagens, tuites e outros resultados de redes

sociais, textos, etc. Os dados não seguem umamodelagem padrão;

Page 9: Palestra Big Data SCTI

Veracidade

A maioria dos gestores não confiam 100% nasinformações que recebem para tomada de

Decisões;

Ao organizar as informações e usar filtrosapropriados, é possível aumentar a

confiabilidade dos dados;

Page 10: Palestra Big Data SCTI

Valor

Depois que os dados são tratados e filtrados,podem representar um valor inestimável paraempresa, seja para tomada de decisões ou

definições de novos produtos;

Page 11: Palestra Big Data SCTI

Como funciona?

Big data é capaz de capturar, armazenar eprocessar um massivo volume de informações

que podem ser espalhados em diversoshardware de commodity;

Uma vez capturado, os dados podem serprocessados através de dezenas de ferramentas;

Page 12: Palestra Big Data SCTI

Exemplos de uso

● Decodificar o genoma humano demorava cerca de 10 anos; atualmente, pode ser processado em uma fração desse tempo com big data;

● Walmart processa milhões de transações de clientes por dia, com big data, consegue identificar padrões de fraudes quase que imediatamente;

● FICO (inclui sistema de deteção de fraudes em cartão de crédito) consegue processar mais de 2 bilhões de transações por dia;

Page 13: Palestra Big Data SCTI

A nova ciência dos dados

Page 14: Palestra Big Data SCTI

Quantos bytes diários de informação eram Produzidos em 1980?

Page 15: Palestra Big Data SCTI

E em 1990?

Page 16: Palestra Big Data SCTI

E em 2000?

Page 17: Palestra Big Data SCTI

E nos dias atuais?

Quantos bytes produzimos em toda nossa vida?

Page 18: Palestra Big Data SCTI

Nos últimos anos, produzimos mais dados que toda história da humanidade

Page 19: Palestra Big Data SCTI
Page 20: Palestra Big Data SCTI

Já imaginou que a maioria dos dispositivos eletrônicos já possuem um endereço de IP?

Quando você opera esse dispositivo, alguma informação é gerada.

Isso vai ficar gravado em algum lugar.

O mundo possui aproximadamente 7 bilhões de pessoas.

Page 21: Palestra Big Data SCTI

Estamos gerando informação o tempo todo

● Utilizando avião● Pagando contas

online● Comprando pela

internet● Acessando redes

sociais

● Assistindo TV (sim, SmartTV)

● Consultando um médico

● Realizando ligações telefônicas

● Até quando morremos

Page 22: Palestra Big Data SCTI

Arquitetura

● Inúmeros sistemas legados;● Falta de padronização dos dados;● Cada produto tem um objetivo e guarda os

dados no seu formato;● Dificuldade de um produto “conversar” com

outro;

Page 23: Palestra Big Data SCTI

Arquitetura

● Quando existe a necessidade de buscar informações de diversas fontes, geralmente o trabalho é manual;

● Alguém centraliza as informações de diferentes ferramentas fazendo um “copy & paste”;

● Trabalho é lento, pode ter falha humana;

Page 24: Palestra Big Data SCTI

Arquitetura

● Soluções de Big Data podem automatizar esse trabalho...

● … Não apenas automatizar, mas colocar inteligência...

● … Identificar novos padrões...● … Aumentar a precisão das informações …● … Fazer o gestor enxergar novas

possibilidades.

Page 25: Palestra Big Data SCTI
Page 26: Palestra Big Data SCTI

Algumas tecnologias de Big Data

● Hadoop● Pig● Hive● Hbase● Storm● Solr● Ambari● Zookeeper, etc...

Page 27: Palestra Big Data SCTI
Page 28: Palestra Big Data SCTI

O cientista de dados precisa entender como as informações estão armazenadas e escolher as

melhores ferramentas para atingir o objetivo final

Page 29: Palestra Big Data SCTI

Hadoop

● Um framework que fornece uma maneira simples e escalável para processos distribuídos em diversos servidores;

● Hadoop é open source e inclui diversas ferramentas, como sistema de arquivos distribuído e Map/Reduce.

Page 30: Palestra Big Data SCTI

Big data Analytics

Informações em diversos formatos: Comoas informações não precisam seguir umamodelagem, nenhuma informação é perdida;

Escalável: Hadoop já provou ser muitoescalável, Facebook e Yahoo! são doiscases de sucesso;

Novas descobertas: Pela flexibilidade emcruzar informações, é simples conseguirnovos insights, algo complicado quando estápreso a uma modelagem;

Page 31: Palestra Big Data SCTI

Escalabilidade

A maioria das aplicações apresentamdificuldade para escalar ou exigem

configurações complexas. O Hadoop escalafacilmente, usando hardware comum, semnenhuma necessidade de configurações

complexas.

Page 32: Palestra Big Data SCTI

Alta Disponibilidade

O fato de ter sistema de arquivos distribuído,(HDFS) onde os dados não estão restritos emapenas um servidor, já faz o sistema com alta

disponibilidade.

Page 33: Palestra Big Data SCTI

Empresas que investiram em Hadoop

● 1. Yahoo! - grande investidora de Hadoop;● 2. Facebook - Utiliza para cruzar informações da rede

social● 3. Twitter - Utiliza para cruzar informações da rede

social;● 4. Adobe - Utiliza em seus sistemas de publicação

online;● 5. e-Bay - Utiliza para identificar tendências de

compras;

Page 34: Palestra Big Data SCTI

Quem adota Big Data?

● Empresas de saúde● Portais de serviço● Redes Sociais● Empresas financeiras● Mineradoras● Empresas de Segurança Pública

Page 35: Palestra Big Data SCTI

Por onde começar?

Page 36: Palestra Big Data SCTI

Hortonworks Sandbox

● Baixe a máquina virtual da HortonWorks Sandbox;

● Possui uma distribuição Hadoop completa para começar a testar;

● Siga os tutoriais● http://br.hortonworks.com/products/hortonwork

s-sandbox/

Page 37: Palestra Big Data SCTI

O que aprender primeiro?

● Importar massa de dados para o HDFS;● Utilizar uma lingagem como Pig ou Hive para

trabalhar esses dados;● Compreender os componentes básicos;● Utilizar técnicas mais avançadas, como Map

Reduce puro para trabalhar os dados;● Desenvolver soluções integradas ao Hadoop;

Page 38: Palestra Big Data SCTI

Hortonworks Sandbox

Page 39: Palestra Big Data SCTI

Casos de sucesso

Page 40: Palestra Big Data SCTI
Page 41: Palestra Big Data SCTI
Page 42: Palestra Big Data SCTI
Page 43: Palestra Big Data SCTI

Muito obrigado!

Christiano AndersonTwitter: @dump

[email protected]