big data latinoware 2014

Download Big Data Latinoware 2014

If you can't read please download the document

Upload: christiano-anderson

Post on 25-May-2015

583 views

Category:

Technology


2 download

DESCRIPTION

Palestra sobre Hadoop, Big Data apresentada durante a Latinoware 2014

TRANSCRIPT

  • 1. Big DataA nova cincia dos dadosLatinoware 2014Christiano [email protected]: @dumpBlog: http://christiano.me

2. Quem sou? Desenvolvedor e arquiteto de dados, trabalha comgrandes volumes de acesso e informao desde oincio da internet comercial no Brasil; Participou da criao do primeiro e-mail gratuitodo Brasil: Zipmail; Contribui com diversos projetos de Software Livre; Palestra sobre arquitetura de dados nos principaiseventos de tecnologia; 3. Big Data?Big data se trata de um conceito onde o foco grande armazenamento de dados e maiorvelocidades. 4. Os 5 V's1. Velocidade2. Volume3. Variedade4. Veracidade5. Valor 5. VelocidadeEm muitos casos, as respostas precisam serrpidas, praticamente em tempo real para otratamento de um volume massivo de dados;Para um sistema anti-fraude, 2 minutos podeser muito tempo. 6. VolumeEmpresas podem facilmente produzir GB emais GB de informaes por dia.O Twitter pode facilmente produzir diariamentealguns TB de informaes pertinentes paraanlise de sentimento; 7. VariedadeSo informaes de diversas fontes, comoimagens, tuites e outros resultados de redessociais, textos, etc. Os dados no seguem umamodelagem padro; 8. VeracidadeA maioria dos gestores no confiam 100% nasinformaes que recebem para tomada deDecises;Ao organizar as informaes e usar filtrosapropriados, possvel aumentar aconfiabilidade dos dados; 9. ValorDepois que os dados so tratados e filtrados,podem representar um valor inestimvel paraempresa, seja para tomada de decises oudefinies de novos produtos; 10. Como funciona?Big data capaz de capturar, armazenar eprocessar um massivo volume de informaesque podem ser espalhados em diversoshardware de commodity;Uma vez capturado, os dados podem serprocessados atravs de dezenas de ferramentas; 11. Exemplos de uso Decodificar o genoma humano demorava cerca de 10 anos;atualmente, pode ser processado em uma frao desse tempocom big data; Walmart processa milhes de transaes de clientes por dia, combig data, consegue identificar padres de fraudes quase queimediatamente; FICO (inclui sistema de deteo de fraudes em carto de crdito)consegue processar mais de 2 bilhes de transaes por dia; 12. A nova cincia dos dados 13. Quantos bytes dirios de informao eramProduzidos em 1980? 14. E em 1990? 15. E em 2000? 16. E nos dias atuais?Quantos bytes produzimos em toda nossa vida? 17. Nos ltimos anos, produzimos mais dados quetoda histria da humanidade 18. J imaginou que a maioria dos dispositivoseletrnicos j possuem um endereo de IP?Quando voc opera esse dispositivo, algumainformao gerada.Isso vai ficar gravado em algum lugar.O mundo possui aproximadamente 7 bilhes depessoas. 19. Estamos gerando informao otempo todo Utilizando avio Pagando contasonline Comprando pelainternet Acessando redessociais Assistindo TV (sim,SmartTV) Consultando ummdico Realizando ligaestelefnicas At quandomorremos 20. Arquitetura Inmeros sistemas legados; Falta de padronizao dos dados; Cada produto tem um objetivo e guarda osdados no seu formato; Dificuldade de um produto conversar comoutro; 21. Arquitetura Quando existe a necessidade de buscarinformaes de diversas fontes, geralmente otrabalho manual; Algum centraliza as informaes de diferentesferramentas fazendo um copy & paste; Trabalho lento, pode ter falha humana; 22. Arquitetura Solues de Big Data podem automatizar essetrabalho... No apenas automatizar, mas colocarinteligncia... Identificar novos padres... Aumentar a preciso das informaes Fazer o gestor enxergar novaspossibilidades. 23. Algumas tecnologias de Big Data Hadoop Pig Hive Hbase Storm Solr Ambari Zookeeper, etc... 24. O cientista de dados precisa entender como asinformaes esto armazenadas e escolher asmelhores ferramentas para atingir o objetivo final 25. Hadoop Um framework que fornece uma maneirasimples e escalvel para processos distribudosem diversos servidores; Hadoop open source e inclui diversasferramentas, como sistema de arquivosdistribudo e Map/Reduce. 26. Big data AnalyticsInformaes em diversos formatos: Comoas informaes no precisam seguir umamodelagem, nenhuma informao perdida;Escalvel: Hadoop j provou ser muitoescalvel, Facebook e Yahoo! so doiscases de sucesso;Novas descobertas: Pela flexibilidade emcruzar informaes, simples conseguirnovos insights, algo complicado quando estpreso a uma modelagem; 27. EscalabilidadeA maioria das aplicaes apresentamdificuldade para escalar ou exigemconfiguraes complexas. O Hadoop escalafacilmente, usando hardware comum, semnenhuma necessidade de configuraescomplexas. 28. Alta DisponibilidadeO fato de ter sistema de arquivos distribudo,(HDFS) onde os dados no esto restritos emapenas um servidor, j faz o sistema com altadisponibilidade. 29. Empresas que investiram emHadoop 1. Yahoo! - grande investidora de Hadoop; 2. Facebook - Utiliza para cruzar informaes da redesocial 3. Twitter - Utiliza para cruzar informaes da redesocial; 4. Adobe - Utiliza em seus sistemas de publicaoonline; 5. e-Bay - Utiliza para identificar tendncias decompras; 30. Quem adota Big Data? Empresas de sade Portais de servio Redes Sociais Empresas financeiras Mineradoras Empresas de Segurana Pblica 31. Por onde comear? 32. Hortonworks Sandbox Baixe a mquina virtual da HortonWorksSandbox; Possui uma distribuio Hadoop completa paracomear a testar; Siga os tutoriais http://br.hortonworks.com/products/hortonworks-sandbox/ 33. O que aprender primeiro? Importar massa de dados para o HDFS; Utilizar uma lingagem como Pig ou Hive paratrabalhar esses dados; Compreender os componentes bsicos; Utilizar tcnicas mais avanadas, como MapReduce puro para trabalhar os dados; Desenvolver solues integradas ao Hadoop; 34. Hortonworks Sandbox 35. Casos de sucesso 36. Muito obrigado!Christiano AndersonTwitter: @[email protected]