cientista de dados

Download Cientista de Dados

Post on 31-Jul-2015

1.072 views

Category:

Technology

3 download

Embed Size (px)

TRANSCRIPT

1. Cientista de DadosRodrigo Senra O que faz ? Quem ? Como faz ?Por que importante ? 2. Apenas um rapaz latino americano... Engenheiro de Software GPr Sistemas (11 anos) HI Tecnologia (5 anos) Professor Universitrio - PUC-Campinas (2 anos) Especialista - globo.com (2 anos) Cientista Pesquisador - EMC2 Engenheiro de Computao Grad-MSc-PhD IC-Unicamp Entusiasta de FLOSS(atuante na comunidade Python desde 2000) 3. Quem est a ? Estudantes ? Prossionais Professores ? Palestrantes ? Cientistas de Dados ? 4. Cientista de Dados Rodrigo Senra Quem ? Por que importante ? 5. fONTE: IDC Digital Universe Study, patrocinado pela EMC, 2011 2009 0.8 Zettabytes CRESCIMENTO DA INFORMAO 2020 44 X MAIOR 35.2 ZB IN 2010 THE DIGITAL UNIVERSE WAS 1.2 ZETTABYTES 1,200,000,000,000,000,000,000 Zetta Exa Peta Tera Giga Mega Kilo Byte fonte: http://thehumanfaceofbigdata.com/ 6. http://www.telegraph.co.uk/news/picturegalleries/picturesoftheday/2545407/Pictures-of-the-day-12-August-2008.html?image=8 7. Government-to-citizen (G2C) Government-to-employee (G2E) Government-to-business (G2B) Government to-government (G2G) 8. Cientista de Dados Rodrigo Senra O que faz ? Quem ? 9. Data Science is a newly emerging eld dedicated to analyzing and manipulating data to derive insights and build data products. https://beta.oreilly.com/ideas/what-is-data-science It combines skill-sets ranging from computer science, to mathematics, to art. http://images.neartamerica.com/images-medium-large-5/1-pi-transition-paths-martin-krzywinski.jpg 10. http://drewconway.com/ 11. http://berkeleysciencereview.com/scientic-collaborations-uc-berkeley-data-driven-cover/ 12. Estatsticas descritivas: ! Mdia vs. Mediana. ! Desvio Padro ! Quartis, Min/Max. ! Correlao entre variavis 1 X y 10.00 8.04 8.00 6.95 13.00 7.58 9.00 8.81 11.00 8.33 14.00 9.96 6.00 7.24 4.00 4.26 12.00 10.84 7.00 4.82 5.00 5.68 2 x y 10.0 9.14 8.00 8.14 13.0 8.74 9.00 8.77 11.0 9.26 14.0 8.10 6.00 6.13 4.00 3.10 12.0 9.13 7.00 7.26 5.00 4.74 3 x y 10.0 7.46 8.00 6.77 13.0 12.7 9.00 7.11 11.0 7.81 14.0 8.84 6.00 6.08 4.00 5.39 12.0 8.15 7.00 6.42 5.00 5.73 4 x y 8.00 6.58 8.00 5.76 8.00 7.71 8.00 8.84 8.00 8.47 8.00 7.04 8.00 5.25 19.00 12.50 8.00 5.56 8.00 7.91 8.00 6.89 Mdia de x: 9 Varincia de x: 11 Mdia exata de y: 7.5 (2 d.p) Varincia de y: 4.13 (to 2 d.p) Correlao entre x e y : 0.816 Regresso linear: Y = 3.00 + 0.500xTruth lies on statistics ! 13. Cientista de Dados Rodrigo Senra Como faz ? 14. http://i0.wp.com/sciencereview.berkeley.edu/wp-content/uploads/2014/04/spring_2014_azam_05.jpg 15. http://godwincaruana.me/data-science-workow-overview-and-challenges-cacm/ 16. Big Data a cada passo da explorao de petrleo Navigation Seismic: Pre-stack Seismic: Post-stack Log Curves Culture Data Geologic Model Pressure Data Velocity Data Interpretation 17. Resoluo de Problemas Agrupamento 18. Fernando Perez, lead PI at BIDS and creator of IPython, demonstrates brain imaging analyses performed using the IPython Notebook, an interactive web-based computational environment. credit: Peg Skorpinski 19. https://www.kaggle.com Kaggle is the world's largest community of data scientists. They compete with each other to solve complex data science problems, and the top competitors are invited to work on the most interesting and sensitive business problems from some of the worlds biggest companies through Masters competitions. 20. Tools Used By Competitors 21. http://www-bcf.usc.edu/~gareth/ISL/ http://www.greenteapress.com/thinkstats/thinkstats.pdf 22. Obrigado a todos pela ateno. Rodrigo Dias Arruda Senra http://rodrigo.senra.nom.br rodsenra@gmail.com @rodsenra As opinies e concluses expressas nesta apresentao so de exclusiva responsabilidade de Rodrigo Senra. No necessrio requisitar permisso do autor para o uso de partes ou do todo desta apresentao, desde que no sejam feitas alteraes no contedo reutilizado e que esta nota esteja presente na ntegra no material resultante. Imagens e referncias para outros trabalhos nesta apresentao permanecem propriedade daqueles que detm seus direitos de copyright. Agradecimento especial a Ana Oliveira e Diego Salomone que contriburam com alguns slides de suas apresentaes sobre o mesmo tema.