data developer - engenharia de dados em um time de data science - uai python2015

Post on 15-Feb-2017

1.298 Views

Category:

Software

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

brunorocha.org

Data DeveloperTrabalhando com Data Science

não sendo um cientista!

DATA MINING

MACHINE LEARNING

DATA MATCHING

BIG DATA

RECOMMENDATION

NLP

REST APITEXT PARSING

brunorocha.org

Data ScienceUai, que trem é esse?

brunorocha.org

A lenda da fralda e da cerveja

brunorocha.org

Um funcionário do WalMart notou que a venda de fraldas descartáveis estava associada à de cerveja.

Ele notou que os compradores homens, que saíam à noite para comprar fraldas, aproveitavam para levar algumas latinhas para casa.

Ele sugeriu que os produtos fossem postos lado a lado. Resultado: a venda de cervejas disparou durante as noites.

brunorocha.org

Um funcionário do WalMart notou…

- Não escala- Não distribui- Não tem precisão- ...

brunorocha.org

Business Inteligence

Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.

brunorocha.org

Business Inteligence

Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.

- Passivo- Manual (Dependente do Analista)

brunorocha.org

Business Inteligence

Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.

- Passivo- Manual (Dependente do Analista)

brunorocha.org

Business Inteligence

Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.

- Passivo- Manual (Dependente do Analista)- Muito útil e relevante mas não

resolve todos os problemas

- Crawling- Mining- Parsing- APIs- Notebooks- Algoritmos- ML- Linguagens- BigData

brunorocha.org

SupermercadoEntrada A Entrada B

brunorocha.org

SupermercadoEntrada A Entrada B

brunorocha.org

SupermercadoEntrada A Entrada B

brunorocha.org

SupermercadoEntrada A Entrada B

brunorocha.org

SupermercadoEntrada A

Grande quantidade de sinais a serem analisados.

- Local do produto- Local da entrada- Tamanho do carrinho

- Local das prateleiras- Iluminação- Embalagens- Preços- Ordem de compra- Horário da compra- Sexo do comprador- Idade do comprador- Duração da compra- ...

Entrada B

brunorocha.org

SupermercadoEntrada A

Features e sinais:

- Local do produto- Local da entrada- Tamanho do carrinho

- Local das prateleiras- Iluminação- Embalagens- Preços- Ordem de compra- Horário da compra- Sexo do comprador- Idade do comprador- Duração da compra- ...

Entrada B

brunorocha.org

Data Science é sobre encontrar, classificar e correlacionar padrões em um conjunto de dados e utilizar essas análises de dados para:

- Business Inteligence- Monitoramento- Análises preditivas- Recomendações- Detecção de novas combinações e novos padrões- Dominar o mundo- Acabar com a fome mundial- Curar doenças- ...

brunorocha.org

Data Science is not always evil

Bio Medical Data Science Initiative http://med.stanford.edu/bdsi.html

- Triagem médica- Correlação entre exames - Recomendação de tratamentos- Detecção e predição de epidêmias- Otimização da fabricação de medicamentos e equipamentos- Diminuição/Abolição de testes em animais- Gerenciamento de desastres- Diagnóstico inteligente- Monitoramento e preservação ambiental- Recomendar filmes legais no NetFlix- Recomendar a próxima empresa em que você pode trabalhar!

brunorocha.org

Aprendizado de Máquina e Inteligência Artificial e Big DataO problema do Big Data (quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar em tempo hábil sem o uso de IA e computação distribuida)

Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o trabalho de classificação.

Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de dados para treinar, monitorar e avaliar o desempenho e confiabilidade.

The Machine is Learning

brunorocha.org

"Dadólogo"Ciência dos dados

Aprendizado de Máquina e Inteligência Artificial e Big DataO problema do Big Data (quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar em tempo hábil sem o uso de IA e computação distribuida)

Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o trabalho de classificação.

Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de dados para treinar, monitorar e avaliar o desempenho e confiabilidade.

The Machine is LearningBiólogoCiência da Vida

=

brunorocha.org

"Dadólogo"Ciência dos dados

Dadólogo é um termo feio, mas soa melhor do que "cientista de dados", não??

Ou você já viu um "podólogo" ser chamado de cientista de pés?

brunorocha.org

O Data ScientistIn god we trust: All others bring data!

● Profissional cientista das áreas de estatística, matemática, fisica, computação.● Conhecimentos teóricos avançados e boa desenvoltura prática em computação.● Mestre das estruturas de dados.● A profissão mais sexy do século! https://hbr.org/2012/10/data-scientist-the-

sexiest-job-of-the-21st-century/ ● Salários na média entre 10k e 20k no Brasil (2015) - $120k a $200k/year U.S.A

(2015).● Requisitado em todas as industrias de Startups a MultiNacionais.● Sobram vagas e faltam profissionais qualificados e interessados.

brunorocha.org

O quê que o Python tem a ver com isso?

brunorocha.org

Other languages in Data Science- R- Julia- Scala- Java- Lua/Torch- Matlab- Go- ...

brunorocha.org

So…

Why Python?UAI

brunorocha.org

brunorocha.org

Python pode ser usada em todas as etapas do trabalho, desde a captura de dados até a apresentação das análises!

brunorocha.org

Coletar:

Armazenar:

Apresentar:

Automatizar, escalar, distribuir:

SQL*

Agregar, Consultar e Analisar:

NLP NER

brunorocha.org

O Dilema do Full Stack Developer

O desenvolvedor supermanque "em teoria" resolve todos os problemas end-to-end mas ninguém sabe quando ele vai sair voando ou se vai morrer no final.

brunorocha.org

O Dilema do Ben 10 Developer

OU

Que se transforma em mais de 10 monstros para tentar resolver problemas mas acaba tendo crises de identidade durante o projeto.

brunorocha.org

X

Trabaia pa carai…. ou …. ficá di boa?

ou melhor! Contar com ajuda para fazer as duas coisas!

brunorocha.org

- Devops (infra, provisionamento, monitoramento, escalabilidade, cloud)- Engenharia e Arquitetura- Web, APIs e integrações- Project Leadership- Data Mining- Database Administration- P & D- Data Science Algorithms- Fazer café- Atender telefone- Vender- …- candidatos??

brunorocha.org

O Homer Simpsom Developer

Doh… achei que seria mais fácil e que eu ia dar conta de entregar tudo em X dias….

O que eu faço agora? qual banco de dados eu uso? qual linguagem é melhor? VI ou Emacs???

brunorocha.org

Multitask nunca funciona para o desenvolvedor de software ou para o Cientista de Dados!

Melhor manter o foco e priorizar a qualidade de vida!

brunorocha.org

Dia de trabalho para o cientista de dados = 8hrs (ou menos)

Estudo Pesquisa ExperimentosData Mining

Qualidade de vida importa!!!

brunorocha.org

Dia de trabalho para o cientista de dados = 8hrs (ou menos)

Estudo Pesquisa ExperimentosData Mining

Qualidade de vida importa!!!

Engenharia DevOps Project Leadership

Web APIs Testes Automação …..

brunorocha.org

brunorocha.org

Especialização é bom para todos!!!

- Foco = Qualidade- Tempo livre = qualidade de vida- Melhora o mercado de trabalho- Evita retenção de know how

brunorocha.org

Formação do time de Data ScienceAtenção: Contém slides gentilmente roubados do http://pt.slideshare.net/rodsenra

brunorocha.org

brunorocha.org

brunorocha.org

DevOps

brunorocha.org

DevOps

brunorocha.org

O Engenheiro de Dados

brunorocha.org

brunorocha.org

SUPERVISORDIPTABLESCRONTMUXNGINXGUNICORN uWSGI

Domine O Sistema Operacional

brunorocha.org

Cloud / PaaS

brunorocha.org

Persistência Poliglota

brunorocha.org

AUTOMAÇÃO, PROVISIONAMENTO, DEPLOY

brunorocha.org

WEB DEVELOPMENT and REST API

brunorocha.org

Engenharia de Software- Design Patterns- Boas práticas (PEP-8, MCCABE)- Testes e CI- Mineração de dados

- Crawling, Parsing (bs, regex, etc..)- VCS- Modularização, Empacotamento- Documentação

brunorocha.org

brunorocha.org http://guidetodatamining.com/

brunorocha.org

top related