data developer - engenharia de dados em um time de data science - uai python2015
TRANSCRIPT
brunorocha.org
Data DeveloperTrabalhando com Data Science
não sendo um cientista!
DATA MINING
MACHINE LEARNING
DATA MATCHING
BIG DATA
RECOMMENDATION
NLP
REST APITEXT PARSING
brunorocha.org
Data ScienceUai, que trem é esse?
brunorocha.org
A lenda da fralda e da cerveja
brunorocha.org
Um funcionário do WalMart notou que a venda de fraldas descartáveis estava associada à de cerveja.
Ele notou que os compradores homens, que saíam à noite para comprar fraldas, aproveitavam para levar algumas latinhas para casa.
Ele sugeriu que os produtos fossem postos lado a lado. Resultado: a venda de cervejas disparou durante as noites.
brunorocha.org
Um funcionário do WalMart notou…
- Não escala- Não distribui- Não tem precisão- ...
brunorocha.org
Business Inteligence
Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.
brunorocha.org
Business Inteligence
Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.
- Passivo- Manual (Dependente do Analista)
brunorocha.org
Business Inteligence
Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.
- Passivo- Manual (Dependente do Analista)
brunorocha.org
Business Inteligence
Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.
- Passivo- Manual (Dependente do Analista)- Muito útil e relevante mas não
resolve todos os problemas
- Crawling- Mining- Parsing- APIs- Notebooks- Algoritmos- ML- Linguagens- BigData
brunorocha.org
SupermercadoEntrada A Entrada B
brunorocha.org
SupermercadoEntrada A Entrada B
brunorocha.org
SupermercadoEntrada A Entrada B
brunorocha.org
SupermercadoEntrada A Entrada B
brunorocha.org
SupermercadoEntrada A
Grande quantidade de sinais a serem analisados.
- Local do produto- Local da entrada- Tamanho do carrinho
- Local das prateleiras- Iluminação- Embalagens- Preços- Ordem de compra- Horário da compra- Sexo do comprador- Idade do comprador- Duração da compra- ...
Entrada B
brunorocha.org
SupermercadoEntrada A
Features e sinais:
- Local do produto- Local da entrada- Tamanho do carrinho
- Local das prateleiras- Iluminação- Embalagens- Preços- Ordem de compra- Horário da compra- Sexo do comprador- Idade do comprador- Duração da compra- ...
Entrada B
brunorocha.org
Data Science é sobre encontrar, classificar e correlacionar padrões em um conjunto de dados e utilizar essas análises de dados para:
- Business Inteligence- Monitoramento- Análises preditivas- Recomendações- Detecção de novas combinações e novos padrões- Dominar o mundo- Acabar com a fome mundial- Curar doenças- ...
brunorocha.org
Data Science is not always evil
Bio Medical Data Science Initiative http://med.stanford.edu/bdsi.html
- Triagem médica- Correlação entre exames - Recomendação de tratamentos- Detecção e predição de epidêmias- Otimização da fabricação de medicamentos e equipamentos- Diminuição/Abolição de testes em animais- Gerenciamento de desastres- Diagnóstico inteligente- Monitoramento e preservação ambiental- Recomendar filmes legais no NetFlix- Recomendar a próxima empresa em que você pode trabalhar!
brunorocha.org
Aprendizado de Máquina e Inteligência Artificial e Big DataO problema do Big Data (quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar em tempo hábil sem o uso de IA e computação distribuida)
Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o trabalho de classificação.
Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de dados para treinar, monitorar e avaliar o desempenho e confiabilidade.
The Machine is Learning
brunorocha.org
"Dadólogo"Ciência dos dados
Aprendizado de Máquina e Inteligência Artificial e Big DataO problema do Big Data (quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar em tempo hábil sem o uso de IA e computação distribuida)
Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o trabalho de classificação.
Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de dados para treinar, monitorar e avaliar o desempenho e confiabilidade.
The Machine is LearningBiólogoCiência da Vida
=
brunorocha.org
"Dadólogo"Ciência dos dados
Dadólogo é um termo feio, mas soa melhor do que "cientista de dados", não??
Ou você já viu um "podólogo" ser chamado de cientista de pés?
brunorocha.org
O Data ScientistIn god we trust: All others bring data!
● Profissional cientista das áreas de estatística, matemática, fisica, computação.● Conhecimentos teóricos avançados e boa desenvoltura prática em computação.● Mestre das estruturas de dados.● A profissão mais sexy do século! https://hbr.org/2012/10/data-scientist-the-
sexiest-job-of-the-21st-century/ ● Salários na média entre 10k e 20k no Brasil (2015) - $120k a $200k/year U.S.A
(2015).● Requisitado em todas as industrias de Startups a MultiNacionais.● Sobram vagas e faltam profissionais qualificados e interessados.
brunorocha.org
O quê que o Python tem a ver com isso?
brunorocha.org
Other languages in Data Science- R- Julia- Scala- Java- Lua/Torch- Matlab- Go- ...
brunorocha.org
So…
Why Python?UAI
brunorocha.org
brunorocha.org
Python pode ser usada em todas as etapas do trabalho, desde a captura de dados até a apresentação das análises!
brunorocha.org
Coletar:
Armazenar:
Apresentar:
Automatizar, escalar, distribuir:
SQL*
Agregar, Consultar e Analisar:
NLP NER
brunorocha.org
O Dilema do Full Stack Developer
O desenvolvedor supermanque "em teoria" resolve todos os problemas end-to-end mas ninguém sabe quando ele vai sair voando ou se vai morrer no final.
brunorocha.org
O Dilema do Ben 10 Developer
OU
Que se transforma em mais de 10 monstros para tentar resolver problemas mas acaba tendo crises de identidade durante o projeto.
brunorocha.org
X
Trabaia pa carai…. ou …. ficá di boa?
ou melhor! Contar com ajuda para fazer as duas coisas!
brunorocha.org
- Devops (infra, provisionamento, monitoramento, escalabilidade, cloud)- Engenharia e Arquitetura- Web, APIs e integrações- Project Leadership- Data Mining- Database Administration- P & D- Data Science Algorithms- Fazer café- Atender telefone- Vender- …- candidatos??
brunorocha.org
O Homer Simpsom Developer
Doh… achei que seria mais fácil e que eu ia dar conta de entregar tudo em X dias….
O que eu faço agora? qual banco de dados eu uso? qual linguagem é melhor? VI ou Emacs???
brunorocha.org
Multitask nunca funciona para o desenvolvedor de software ou para o Cientista de Dados!
Melhor manter o foco e priorizar a qualidade de vida!
brunorocha.org
Dia de trabalho para o cientista de dados = 8hrs (ou menos)
Estudo Pesquisa ExperimentosData Mining
Qualidade de vida importa!!!
brunorocha.org
Dia de trabalho para o cientista de dados = 8hrs (ou menos)
Estudo Pesquisa ExperimentosData Mining
Qualidade de vida importa!!!
Engenharia DevOps Project Leadership
Web APIs Testes Automação …..
brunorocha.org
brunorocha.org
Especialização é bom para todos!!!
- Foco = Qualidade- Tempo livre = qualidade de vida- Melhora o mercado de trabalho- Evita retenção de know how
brunorocha.org
Formação do time de Data ScienceAtenção: Contém slides gentilmente roubados do http://pt.slideshare.net/rodsenra
brunorocha.org
brunorocha.org
brunorocha.org
DevOps
brunorocha.org
DevOps
brunorocha.org
O Engenheiro de Dados
brunorocha.org
brunorocha.org
SUPERVISORDIPTABLESCRONTMUXNGINXGUNICORN uWSGI
Domine O Sistema Operacional
brunorocha.org
Cloud / PaaS
brunorocha.org
Persistência Poliglota
brunorocha.org
AUTOMAÇÃO, PROVISIONAMENTO, DEPLOY
brunorocha.org
WEB DEVELOPMENT and REST API
brunorocha.org
Engenharia de Software- Design Patterns- Boas práticas (PEP-8, MCCABE)- Testes e CI- Mineração de dados
- Crawling, Parsing (bs, regex, etc..)- VCS- Modularização, Empacotamento- Documentação
brunorocha.org
brunorocha.org http://guidetodatamining.com/
brunorocha.org