Transcript
Page 1: Data science e os físicos

Data Science e Físicos

Apoio:

Page 2: Data science e os físicos

•  Pesquisa Cientifica •  Mercado Financeiro •  Programação •  Industria •  Farmácia

físicos… por toda parte!

Page 3: Data science e os físicos

•  Pesquisa Cientifica •  Mercado Financeiro •  Internet

físicos… por toda parte!

Page 4: Data science e os físicos
Page 5: Data science e os físicos
Page 6: Data science e os físicos
Page 7: Data science e os físicos

•  Pesquisa Cientifica (LHC, Genética, Meteorologia) •  Mercado Financeiro •  Cultura (Literatura,Jornais, Netflix) •  Processos industriais •  … e a internet! Alguns números: -  LHC: 70 TB/dia de dados -  NYSE: 1 TB/dia de trading data -  Facebook: 1.5 bilhão de likes em marcas por mês -  Apontador: 50 milhões de pageviews por mês -  Maplink: 1.8 bilhões de coordenadas processadas por mês

dados e dados… por toda parte!

Fontes: - http://en.wikipedia.org/wiki/Large_Hadron_Collider - http://marciaconner.com/blog/data-on-big-data/

Page 8: Data science e os físicos
Page 9: Data science e os físicos
Page 10: Data science e os físicos

hum?

•  O usuário realiza ações em um site.

•  Ações podem indicar preferências

•  Entender ações dos usuários aumenta o grau de informação sobre

ele.

•  Customização e experiência do usuário.

Page 11: Data science e os físicos
Page 12: Data science e os físicos

•  HPC (clusters, GPU, etc)

•  Problemas: custos inicial, desenvolvimento exclusivo, manutenção

em longo prazo, extensibilidade

como processar terabytes?

Page 13: Data science e os físicos

•  Baixa do preço do Teraflop

•  Criação do MapReduce

o que é Big Data?

Processamento:

Armazenamento: •  Baixa do preço do MB

•  Invenção do NoSQL

Page 14: Data science e os físicos

•  Volume de dados gigante

•  Dados indicam informações sobre os usuários

•  Faz tempo que existe uma avalanche de dados, que eram em geral

sumarizados.

•  Hoje existem ferramentas que permitem armazenar e processar

esses dados em sua forma bruta.

BIG Data

Page 15: Data science e os físicos

•  Dados são armazenados de maneira estruturada

•  Uma pequena parcela dos dados são armazenados

o que foi feito até hoje

Page 16: Data science e os físicos

•  Toda informação do usuário é logada

•  Se um dado gera informações que mudam ao longo do tempo, o log

é versionado por usuário

metodologia big data

Buscas, clicks, mouse hoover, movimentos no mapa

Page 17: Data science e os físicos

Fonte: Maplink -

Page 18: Data science e os físicos

•  Não é necessário um volume absurdo de dados

•  Operações complexas podem necessitar um grande parque

computacional mesmo para uma pequena quantidade de dados

•  Sistemas com pequena quantidade de dados podem se benificiar da

Metodologia big data

Small-Big-Medium Data

Page 19: Data science e os físicos

“Estou na Campus Party”

“Campus Party esse mês” “O campus da USP é no Butanta”

Estou 1 na 1 Campus 1 Party 1

Campus 2 Party 2 esse 2 mês 2

O 3 campus 3 da 3 USP 3 é 3 no 3 Butanta 3

Estou 1 na 1 Campus 1,2,3

Party 1,2 esse 2 Mes 2

o 3 da 3 USP 3 e 3

no 3 butanta 3

10 de 21

Exemplo Map Reduce

Page 20: Data science e os físicos

Dados

Saída

Master Node

Worker

Worker

Worker

11 de 21

Page 21: Data science e os físicos

•  Facilmente escalável (embarrassingly parallel) a milhares de TB.

•  Baixo custo de escalabilidade: clusters com milhares de nós,

commodity servers

•  Facil correção de problemas on the fly.

12 de 21

Vantagens do Map Reduce

Page 22: Data science e os físicos

•  Programação de baixo nível de abstração.

•  Nem todo algorítmo pode ser escrito como uma única tarefa de

MapReduce.

•  Representação de algorítimos matemáticos complexos depende de

diversas tarefas de Map e Reduce.

13 de 21

Desvantagens do Map Reduce

Page 23: Data science e os físicos

enfim a data science. estatística?

Não sabemos toda a informação sobre o usuário

No total das opções, um usuário preencheu uma pequena parte

Mesmo para pessoas bem conhecidas, as decisões não são determinísticas

Page 24: Data science e os físicos

Cassino: Qual a probabilidade de uma moeda ser coroa?

a estatística bayesiana

Metereologia: Qual a probabilidade de chover hoje?

Freqüencia X Evidência

Page 25: Data science e os físicos

A estatística BAYESIANA

`

Filho, Filho Filho, Filha

Filha, Filho Filha, Filha

Page 26: Data science e os físicos

porque ela é importante

•  Data Scientist pode trazer conhecimento externo •  eg: características dos usuários •  eg: Crianças e bebidas alcoólicas

•  Introduzir daos do BI •  eg: homens e produtos para gravidez •  eg: acordos comerciais

Page 27: Data science e os físicos

•  Furacão Francis Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar

•  O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação)

furacão francis

Page 28: Data science e os físicos

•  Operadora de cartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes

•  O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering)

precificação do cartão de crédito

Page 29: Data science e os físicos

•  Medidas de trânsito Veiculos enviam informação a cada instante.

•  O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão)

19 de 21

estimativa de trânsito

Page 30: Data science e os físicos
Page 31: Data science e os físicos

SOBRE O ROTEIRIZADOR o que recebemos

<Route><Category>1</Category><DateTime>0001-01-01T00:00:00</DateTime><Destination xmlns:a="http://schemas.datacontract.org/2004/07/SwissKnife.Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</a:Lng></Destination><Origin xmlns:a="http://schemas.datacontract.org/2004/07/SwissKnife.Spatial"><a:Lat>-8.149973</a:Lat><a:Lng>-35.41825</a:Lng></Origin>

Page 32: Data science e os físicos

SOBRE O ROTEIRIZADOR o padrão da marginal pinheiros

Page 33: Data science e os físicos

“Que item devo recomendar ao meu usuário? Devo dar um desconto? Que valor de desconto eu posso dar?” •  O que conheço do usuário?

Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora

•  O que quero saber? Que produto recomendar? Que desconto oferecer?

sr david steps, dono da loja virtual velhogeek:

Page 34: Data science e os físicos

Pid    descrição   categoria   preço  1   Notebook  Pear   Informa(ca    R$3000.00    2   Notebook  HAL   Informa(ca    R$2000.00    3   Celular  Pear  youPhone   Telefonia    R$1800.00    4   Celular  Blue  Robot   Telefonia    R$1600.00    5   Celular  youClone  com  8  chips   Telefonia    R$800.00    6   Celular  EscritórioFone  for  Businessmen   Telefonia    R$1000.00    7   Tênis  Mike   Roupas  e  Acessórios    R$300.00    8   Tênis  Rei   Roupas  e  Acessórios    R$150.00    

9   Fone  de  Ouvido  youPhone  original   Acessórios  de  Informá(ca    R$90.00    

10   Mouse  CheapJunk  Systems   Acessórios  de  Informá(ca    R$5.00    

11   Mouse  MacroHard  sem  fio   Acessórios  de  Informá(ca    R$90.00    

12   CD:  Boy  Band  do  Ano  "Live  AcusXco"   Música    R$25.00    13   CD:  Cool  Jazz  CollecXon     Música    R$25.00    14   Fraldas  Pimpolho  -­‐  200  unidades   Bebê    R$50.00    15   Carrinho  de  Bebê     Bebê    R$150.00    16   Cerveja  -­‐  6  pack   Alimentos    R$12.00    21   Vinho  -­‐  "Chateau  PeXt  Verdot"  bordeaux  grand  cru  classé   Alimentos    R$120.00    18   Jogo  de  Videogame  -­‐  God  of  Ba`le   Jogos    R$50.00    19   Livro:  "Receitas  para  Solteiros"   Livros    R$25.00    20   Livro:  "God  of  Ba`le  -­‐  Estratégias  para  Ganhar"   Livros    R$25.00    21   Livro:  "Como  Não  Matar  o  Seu  Bebê:  a  Arte  da  Guerra  para  Pais  Solteiros"   Livros    R$25.00    22   Livro:  "Espeleologia  Comparada:  Introdução  ao  Cálculo  Setorial  MulXplexado"   Livros    R$55.00    

Page 35: Data science e os físicos

live demo!

Page 36: Data science e os físicos

Nosso objetivo: aumentar vendas

um simples exemplo de recomendação

como descobrir isso?

•  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora

•  O que eu quer saber? Que produto recomendar? Que desconto oferecer?

Page 37: Data science e os físicos

um simples exemplo de recomendação

Idéia: promoção direcionada ao usuário

p(i)Prob(comprari|comprari, caracJ) + p(k)Prob(comprark|comprari, caracJ)

p(i) + p(k)Prob(comprark|comprari, caracJ)

Prob(comprark|comprari, caracJ) =Prob(comprari, caracJ |comprark)

Prob(comprari, caracJ)Prob(comprark)

Prob(comprari, caracJ |comprark)

Prob(comprari, caracJ)=

Prob(comprari|comprark)Prob(caracJ |comprark)

Prob(comprari)Prob(caracJ)

Oferecer um segundo produto que maximize a esperança!

Page 38: Data science e os físicos

um simples exemplo de recomendação

Idéia: promoção direcionada ao usuário

Prob(comprark|comprari, caracJ) =Prob(caracJ |comprark)

Prob(caracJ)Prob(comprark)

p(i) + p(k)Prob(caracJ |comprark)

Prob(caracJ)Prob(comprark)

Page 39: Data science e os físicos

um simples exemplo de recomendação

Idéia: promoção direcionada ao usuário

Caracteristicas: sexo, idade, classe de renda, educacao

p(i) + p(k)Prob(caracJ |comprark)

Prob(caracJ)Prob(comprark)

Prob(sexo|comprark)Prob(renda|comprark)Prob(edu|comprark)

Prob(idade, sexo, renca, edu|comprark) = Prob(idade|comprark)

Page 40: Data science e os físicos

21 de 21

Teorema de Bayes:

brigado!

É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas.

Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada.

O MODELO statístico

Prob(Usuario comprar|caracteristicas do usuario)

Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra)

Prob(caracterıstica do usuario)

Caio C. Gomes Diretor Big Data e Inovação [email protected]


Top Related