Download - Data science e os físicos
Data Science e Físicos
Apoio:
• Pesquisa Cientifica • Mercado Financeiro • Programação • Industria • Farmácia
físicos… por toda parte!
• Pesquisa Cientifica • Mercado Financeiro • Internet
físicos… por toda parte!
• Pesquisa Cientifica (LHC, Genética, Meteorologia) • Mercado Financeiro • Cultura (Literatura,Jornais, Netflix) • Processos industriais • … e a internet! Alguns números: - LHC: 70 TB/dia de dados - NYSE: 1 TB/dia de trading data - Facebook: 1.5 bilhão de likes em marcas por mês - Apontador: 50 milhões de pageviews por mês - Maplink: 1.8 bilhões de coordenadas processadas por mês
dados e dados… por toda parte!
Fontes: - http://en.wikipedia.org/wiki/Large_Hadron_Collider - http://marciaconner.com/blog/data-on-big-data/
hum?
• O usuário realiza ações em um site.
• Ações podem indicar preferências
• Entender ações dos usuários aumenta o grau de informação sobre
ele.
• Customização e experiência do usuário.
• HPC (clusters, GPU, etc)
• Problemas: custos inicial, desenvolvimento exclusivo, manutenção
em longo prazo, extensibilidade
como processar terabytes?
• Baixa do preço do Teraflop
• Criação do MapReduce
o que é Big Data?
Processamento:
Armazenamento: • Baixa do preço do MB
• Invenção do NoSQL
• Volume de dados gigante
• Dados indicam informações sobre os usuários
• Faz tempo que existe uma avalanche de dados, que eram em geral
sumarizados.
• Hoje existem ferramentas que permitem armazenar e processar
esses dados em sua forma bruta.
BIG Data
• Dados são armazenados de maneira estruturada
• Uma pequena parcela dos dados são armazenados
o que foi feito até hoje
• Toda informação do usuário é logada
• Se um dado gera informações que mudam ao longo do tempo, o log
é versionado por usuário
metodologia big data
Buscas, clicks, mouse hoover, movimentos no mapa
Fonte: Maplink -
• Não é necessário um volume absurdo de dados
• Operações complexas podem necessitar um grande parque
computacional mesmo para uma pequena quantidade de dados
• Sistemas com pequena quantidade de dados podem se benificiar da
Metodologia big data
Small-Big-Medium Data
“Estou na Campus Party”
“Campus Party esse mês” “O campus da USP é no Butanta”
Estou 1 na 1 Campus 1 Party 1
Campus 2 Party 2 esse 2 mês 2
O 3 campus 3 da 3 USP 3 é 3 no 3 Butanta 3
Estou 1 na 1 Campus 1,2,3
Party 1,2 esse 2 Mes 2
o 3 da 3 USP 3 e 3
no 3 butanta 3
10 de 21
Exemplo Map Reduce
Dados
Saída
Master Node
Worker
Worker
Worker
11 de 21
• Facilmente escalável (embarrassingly parallel) a milhares de TB.
• Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
• Facil correção de problemas on the fly.
12 de 21
Vantagens do Map Reduce
• Programação de baixo nível de abstração.
• Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
• Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
13 de 21
Desvantagens do Map Reduce
enfim a data science. estatística?
Não sabemos toda a informação sobre o usuário
No total das opções, um usuário preencheu uma pequena parte
Mesmo para pessoas bem conhecidas, as decisões não são determinísticas
Cassino: Qual a probabilidade de uma moeda ser coroa?
a estatística bayesiana
Metereologia: Qual a probabilidade de chover hoje?
Freqüencia X Evidência
A estatística BAYESIANA
`
Filho, Filho Filho, Filha
Filha, Filho Filha, Filha
porque ela é importante
• Data Scientist pode trazer conhecimento externo • eg: características dos usuários • eg: Crianças e bebidas alcoólicas
• Introduzir daos do BI • eg: homens e produtos para gravidez • eg: acordos comerciais
• Furacão Francis Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar
• O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação)
furacão francis
• Operadora de cartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes
• O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering)
precificação do cartão de crédito
• Medidas de trânsito Veiculos enviam informação a cada instante.
• O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão)
19 de 21
estimativa de trânsito
SOBRE O ROTEIRIZADOR o que recebemos
<Route><Category>1</Category><DateTime>0001-01-01T00:00:00</DateTime><Destination xmlns:a="http://schemas.datacontract.org/2004/07/SwissKnife.Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</a:Lng></Destination><Origin xmlns:a="http://schemas.datacontract.org/2004/07/SwissKnife.Spatial"><a:Lat>-8.149973</a:Lat><a:Lng>-35.41825</a:Lng></Origin>
SOBRE O ROTEIRIZADOR o padrão da marginal pinheiros
“Que item devo recomendar ao meu usuário? Devo dar um desconto? Que valor de desconto eu posso dar?” • O que conheço do usuário?
Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora
• O que quero saber? Que produto recomendar? Que desconto oferecer?
sr david steps, dono da loja virtual velhogeek:
Pid descrição categoria preço 1 Notebook Pear Informa(ca R$3000.00 2 Notebook HAL Informa(ca R$2000.00 3 Celular Pear youPhone Telefonia R$1800.00 4 Celular Blue Robot Telefonia R$1600.00 5 Celular youClone com 8 chips Telefonia R$800.00 6 Celular EscritórioFone for Businessmen Telefonia R$1000.00 7 Tênis Mike Roupas e Acessórios R$300.00 8 Tênis Rei Roupas e Acessórios R$150.00
9 Fone de Ouvido youPhone original Acessórios de Informá(ca R$90.00
10 Mouse CheapJunk Systems Acessórios de Informá(ca R$5.00
11 Mouse MacroHard sem fio Acessórios de Informá(ca R$90.00
12 CD: Boy Band do Ano "Live AcusXco" Música R$25.00 13 CD: Cool Jazz CollecXon Música R$25.00 14 Fraldas Pimpolho -‐ 200 unidades Bebê R$50.00 15 Carrinho de Bebê Bebê R$150.00 16 Cerveja -‐ 6 pack Alimentos R$12.00 21 Vinho -‐ "Chateau PeXt Verdot" bordeaux grand cru classé Alimentos R$120.00 18 Jogo de Videogame -‐ God of Ba`le Jogos R$50.00 19 Livro: "Receitas para Solteiros" Livros R$25.00 20 Livro: "God of Ba`le -‐ Estratégias para Ganhar" Livros R$25.00 21 Livro: "Como Não Matar o Seu Bebê: a Arte da Guerra para Pais Solteiros" Livros R$25.00 22 Livro: "Espeleologia Comparada: Introdução ao Cálculo Setorial MulXplexado" Livros R$55.00
live demo!
Nosso objetivo: aumentar vendas
um simples exemplo de recomendação
como descobrir isso?
• O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora
• O que eu quer saber? Que produto recomendar? Que desconto oferecer?
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
p(i)Prob(comprari|comprari, caracJ) + p(k)Prob(comprark|comprari, caracJ)
p(i) + p(k)Prob(comprark|comprari, caracJ)
Prob(comprark|comprari, caracJ) =Prob(comprari, caracJ |comprark)
Prob(comprari, caracJ)Prob(comprark)
Prob(comprari, caracJ |comprark)
Prob(comprari, caracJ)=
Prob(comprari|comprark)Prob(caracJ |comprark)
Prob(comprari)Prob(caracJ)
Oferecer um segundo produto que maximize a esperança!
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
Prob(comprark|comprari, caracJ) =Prob(caracJ |comprark)
Prob(caracJ)Prob(comprark)
p(i) + p(k)Prob(caracJ |comprark)
Prob(caracJ)Prob(comprark)
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
Caracteristicas: sexo, idade, classe de renda, educacao
p(i) + p(k)Prob(caracJ |comprark)
Prob(caracJ)Prob(comprark)
Prob(sexo|comprark)Prob(renda|comprark)Prob(edu|comprark)
Prob(idade, sexo, renca, edu|comprark) = Prob(idade|comprark)
21 de 21
Teorema de Bayes:
brigado!
É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas.
Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada.
O MODELO statístico
Prob(Usuario comprar|caracteristicas do usuario)
Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra)
Prob(caracterıstica do usuario)
Caio C. Gomes Diretor Big Data e Inovação [email protected]