palestra ciência de dados

45
Muito além dos dados: Como os Cientistas de Dados estão dominando o mercado global

Upload: cardoso80

Post on 23-Jan-2017

19 views

Category:

Software


0 download

TRANSCRIPT

Page 1: Palestra Ciência de Dados

Muito além dos dados:

Como os Cientistas de Dados estão dominando o mercado global

Page 2: Palestra Ciência de Dados

SobreDiego Cardoso Alves - Linkedin: diegocardosoalves

Engenheiro da Computação pela Unifei-MG

Mestrando em Engenharia da Computação pela Unicamp

Engenheiro de Software no Instituto de Pesquisas Eldorado

Desenvolvedor Android e entusiasta de Ciência de Dados

Artigo publicado na IEEE Services 2016 - San Francisco USA

Page 3: Palestra Ciência de Dados

O que essa palestra NÃO vai ser

★ Não será uma palestra técnica

★ Não será uma palestra motivacional

★ Você não vai sair daqui um Cientista de Dados

Page 4: Palestra Ciência de Dados

O que essa palestra vai ser

★ O que é um Cientista de Dados e qual sua importância

★ Cases envolvendo Ciência de Dados

★ As habilidades esperadas de um Cientista de Dados

★ Onde procurar recursos para ir em busca dessas habilidades

Page 5: Palestra Ciência de Dados

Cientista de Dados

Pessoa que é melhor em estatística que qualquer engenheiro de software e melhor em engenharia de software do que qualquer estatístico.

Page 6: Palestra Ciência de Dados

Cientista de DadosCientista de Dados é um profissional híbrido, um cientista da computação com habilidades de programação , extração e gerenciamento de dados juntamente com um estatístico que sabe como dar sentido a informações supostamente não relacionadas.

Page 7: Palestra Ciência de Dados

Rotina de um Cientista de Dados

Encontrar Problema Buscar Dados Limpar e ExplorarDados

Comunicar Resultados Validar Hipótese Estabelecer

Hipótese

Hipótese Incorreta

Page 8: Palestra Ciência de Dados

Volume de dados

Total de dados sendo capturados e gravados pelas indústrias dobra a

cada 1.2 anos.

A Google sozinha processa em média 40 mil queries por

segundo.

A cada minuto são enviados 204

milhões de emails.

A cada minuto são gerados 1.8 milhões de likes no Facebook e

enviados 278 mil tweets.

Se você gravasse todo conteúdo criado em 1 dia em DVD’s, você

poderia empilhá-los e alcançar a

lua. Obs: 2 vezes.

Youtube recebe 100 horas de vídeo a cada

minuto.

Page 9: Palestra Ciência de Dados

Volume de dados

Page 10: Palestra Ciência de Dados

Filtragem de dados

Page 11: Palestra Ciência de Dados

Desafios

Dados não estruturados

Processamento necessário

Visualização da informação

Privacidade de dados

Page 12: Palestra Ciência de Dados

Importância

Maior precisão

Decisões com mais confiança

Maior eficiência operacional

Redução de custos

Redução de riscos

Page 13: Palestra Ciência de Dados

Mudança de mercado

Novas correlações

Tendências de negócios no local

Prevenção de doenças

Detecção de fraudes

Combate à criminalidade

Recomendações personalizadas

Page 14: Palestra Ciência de Dados

Cases de Ciência de dados

Page 15: Palestra Ciência de Dados

Alemanha, Copa do Mundo ● 12 jogadores

● Parceria SAP e Alemanha

● Análise de dados dos jogadores, performance dos times e estratégias

● Difícil tarefa de analisar dados aparentemente não relacionados

Page 16: Palestra Ciência de Dados

Starbucks vs Consumidor vs Local● Análise de localidade

● Análise de preferências do consumidor

● Estudo de tráfego das ruas

● Possibilidade de abrir nova Starbucks próxima à uma existente.

Page 17: Palestra Ciência de Dados

Apostadores● Análise de apostas de jogos.● Informações sobre histórico das equipes, resultados de jogos, colocações na tabela,

jogadores, momentos das partidas que determinados pontos ocorrem.○ Número muito grande de informações e conexões entre as mesmas.○ Dados sendo atualizados em tempo real.

● Bons modelos trazem chance de retorno nas apostas maior do que zero.● Normalmente, empresas de apostas punem ou banem usuários que criam bons modelos

de predição de resultados.

Page 18: Palestra Ciência de Dados

● 25% dos americanos possuem múltiplas doenças crônicas.

● Pessoas com múltiplas doenças crônicas tem risco maior de mortalidade e de má-qualidade de vida.

● Philips tem investido cada vez mais na coleta de dados sobre as pessoas e do ambiente.

● Dados detalhados obtidos em tempo real (paciente e ambiente) dão uma visão completa sobre o estado do paciente e permite ao médico dar um melhor diagnóstico.

Philips HealthCare

Page 19: Palestra Ciência de Dados

Rede de hotéis utiliza Data Science para aumentar reservas

Page 20: Palestra Ciência de Dados

Rede de hotéis utiliza Data Science para aumentar reservas

● Informações de clima● Informações de cancelamentos de

vôos● Hora do dia● Localização de hotéis e aeroportos● Condições de tráfego

Page 21: Palestra Ciência de Dados

Seguradoras● Análise de fraude de clientes em tempo real● Mais informações sobre as pessoas e conexões do que antigamente ● Diversas fontes de informações● Perda financeira para a seguradora muito menor

Page 22: Palestra Ciência de Dados

Spotify● Milhões de usuários

● Análise de preferências do consumidor

● Recomendação de playlists e lançamentos

● Predição dos ganhadores do Grammy Awards.

○ 4 de 6 ganhadores

Page 23: Palestra Ciência de Dados

Netflix● “Existem 33 milhões de

diferentes versões do Netflix.”

● Comportamento de uso para cada usuário.

● Recomendação de filmes e séries baseado no histórico e correlação entre usuários.

● Predição das atividades futuras dos usuários.

Page 24: Palestra Ciência de Dados

Netflix● Quando você pausa e retorna.● Quais dias você assiste.● Quais horários você assiste.● Onde você assiste.● Quando você para de assistir a

uma série.● Tempo que leva para procura

de um filme e qual o comportamento nesta procura.

● Melhores categorias que você gosta de assistir.

Page 25: Palestra Ciência de Dados

• Interesse em determinar em qual estágio da gravidez estavam seus clientes.

• Dependendo do estágio, determinados itens são mais procurados do que outros.

• Uma semana de gravidez faz diferença, ou seja, precisão é importante.

• Modelos para obter um melhor retorno com cupons de desconto.

• Grande número de dados tanto estruturados quanto não estruturados.

• Pró: Entregar ofertas altamente direcionadas.

• Contra: “Minha filha recebeu isso pelo correio! Ela ainda está no segundo grau, e vocês ficam enviando para ela cupons para roupas de bebê e berços?!?!”

• A filha estava realmente grávida, mas o pai não sabia.

Page 26: Palestra Ciência de Dados
Page 27: Palestra Ciência de Dados

Quais habilidades para um Cientista de dados ?

E onde posso encontrá-las ?

Page 28: Palestra Ciência de Dados

Habilidades

Page 29: Palestra Ciência de Dados

Habilidades:

Programação

Page 30: Palestra Ciência de Dados

Linguagens

Linguagem feita para estatísticos.

Amplamente usada no meio acadêmico.

Forte no mercado, recebe grandes investimentos.

Diversas bibliotecas estatísticas prontas, facilita parte da análise

R

Page 31: Palestra Ciência de Dados

Linguagens

Versátil e fácil de aprender.

Comunidade muito forte de bibliotecas gerais.

Fácil para análise e produção.

Python

Page 32: Palestra Ciência de Dados

Linguagens - Recursos

Aprendendo R com R | Udacity + Facebook - Data analysis with R | R-bloggers Data Camp - Intro to R | Coursera - R Programming | R-Cookbook

Especialização Python ( Universidade de Michigan) | Python (CodeAcademy) | Python Class (Google) | Codewars, Codility, HackerRank

R

Python

Page 33: Palestra Ciência de Dados

Banco de Dados

Grande disponibilidade de SGBD.

PostgreSQL, MongoDB, MySQL, etc

SQL vs NoSQL

Databases | SQL Tutorial

Page 34: Palestra Ciência de Dados

Aquisição e Limpeza de dados

80% do processo é gasto entre aquisição e limpeza de dados

Inconsistência de dados é algo comum

Sem dados não há Ciência de Dados

Model Building and Validation | Cleaning data in R | Data Mining

Page 35: Palestra Ciência de Dados

Machine Learning

Permite criar modelos complexos e poderosos.

Sistemas de recomendação, Aprendizado Dinâmico.

Redes Neurais, KNN, Máquinas de vetor suporte.

Intro to Machine Learning | Supervised ML | Unsupervised ML | Machine Learning especialization | Machine Learning

Page 36: Palestra Ciência de Dados

Algoritmos

Eficiência faz diferença !

Saber implementar algoritmos paralelizáveis.

Algoritmos parte I e II (Princeton) | Algoritmos I e II (Stanford) | Especialização (UC San Diego)

Page 37: Palestra Ciência de Dados

Habilidades:

Estatística & Matemática

Page 38: Palestra Ciência de Dados

Distribuição e Otimização

Saber qual distribuição representa melhor o problema.

Fatoração matricial.

Autovalores e autovetores.

Métodos para minimizar uma função específica.

MIT - Linear Algebra | Convex Otimization | Intro to Statistics

Page 39: Palestra Ciência de Dados

Visualização de Dados

Comunicação de resultados.

Representação mais que duas dimensões.

Representação de diversas variavéis.

Udacity - Data Visualization and D3.js | Flowing Data

Page 40: Palestra Ciência de Dados

Visualização de Dados

Conhecimento de Domínio

Mercado Financeiro

Saúde

Ecologia

Marketing

LogísticaPsicologia

PolíticaBiologia

Esportes

Page 41: Palestra Ciência de Dados

Correlação não é Causalidade !

Page 42: Palestra Ciência de Dados

Faço graduação, como ter tempo?

Adapte seu currículo !

Page 43: Palestra Ciência de Dados

Concluindo

Um cientista de dados é um generalista, não um especialista

Muitas habilidades não triviais para estudar.

Inúmeras oportunidades de criar impacto.

Extremamente desafiador, muito divertido.

É preciso ir além do comum !

Page 44: Palestra Ciência de Dados

Dúvidas?