data science e os físicos
DESCRIPTION
Apresentação dada na 3a. Semana da Física do Instituto de Física da USP São Carlos. Nela mostro como os físicos podem atuar nesta nova área que vem surgido nos últimos anos, e um exemplo de como esse conhecimento pode ser usado.TRANSCRIPT
Data Science e Físicos
Apoio:
• Pesquisa Cientifica • Mercado Financeiro • Programação • Industria • Farmácia
físicos… por toda parte!
• Pesquisa Cientifica • Mercado Financeiro • Internet
físicos… por toda parte!
• Pesquisa Cientifica (LHC, Genética, Meteorologia) • Mercado Financeiro • Cultura (Literatura,Jornais, Netflix) • Processos industriais • … e a internet! Alguns números: - LHC: 70 TB/dia de dados - NYSE: 1 TB/dia de trading data - Facebook: 1.5 bilhão de likes em marcas por mês - Apontador: 50 milhões de pageviews por mês - Maplink: 1.8 bilhões de coordenadas processadas por mês
dados e dados… por toda parte!
Fontes: - http://en.wikipedia.org/wiki/Large_Hadron_Collider - http://marciaconner.com/blog/data-on-big-data/
hum?
• O usuário realiza ações em um site.
• Ações podem indicar preferências
• Entender ações dos usuários aumenta o grau de informação sobre
ele.
• Customização e experiência do usuário.
• HPC (clusters, GPU, etc)
• Problemas: custos inicial, desenvolvimento exclusivo, manutenção
em longo prazo, extensibilidade
como processar terabytes?
• Baixa do preço do Teraflop
• Criação do MapReduce
o que é Big Data?
Processamento:
Armazenamento: • Baixa do preço do MB
• Invenção do NoSQL
• Volume de dados gigante
• Dados indicam informações sobre os usuários
• Faz tempo que existe uma avalanche de dados, que eram em geral
sumarizados.
• Hoje existem ferramentas que permitem armazenar e processar
esses dados em sua forma bruta.
BIG Data
• Dados são armazenados de maneira estruturada
• Uma pequena parcela dos dados são armazenados
o que foi feito até hoje
• Toda informação do usuário é logada
• Se um dado gera informações que mudam ao longo do tempo, o log
é versionado por usuário
metodologia big data
Buscas, clicks, mouse hoover, movimentos no mapa
Fonte: Maplink -
• Não é necessário um volume absurdo de dados
• Operações complexas podem necessitar um grande parque
computacional mesmo para uma pequena quantidade de dados
• Sistemas com pequena quantidade de dados podem se benificiar da
Metodologia big data
Small-Big-Medium Data
“Estou na Campus Party”
“Campus Party esse mês” “O campus da USP é no Butanta”
Estou 1 na 1 Campus 1 Party 1
Campus 2 Party 2 esse 2 mês 2
O 3 campus 3 da 3 USP 3 é 3 no 3 Butanta 3
Estou 1 na 1 Campus 1,2,3
Party 1,2 esse 2 Mes 2
o 3 da 3 USP 3 e 3
no 3 butanta 3
10 de 21
Exemplo Map Reduce
Dados
Saída
Master Node
Worker
Worker
Worker
11 de 21
• Facilmente escalável (embarrassingly parallel) a milhares de TB.
• Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
• Facil correção de problemas on the fly.
12 de 21
Vantagens do Map Reduce
• Programação de baixo nível de abstração.
• Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
• Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
13 de 21
Desvantagens do Map Reduce
enfim a data science. estatística?
Não sabemos toda a informação sobre o usuário
No total das opções, um usuário preencheu uma pequena parte
Mesmo para pessoas bem conhecidas, as decisões não são determinísticas
Cassino: Qual a probabilidade de uma moeda ser coroa?
a estatística bayesiana
Metereologia: Qual a probabilidade de chover hoje?
Freqüencia X Evidência
A estatística BAYESIANA
`
Filho, Filho Filho, Filha
Filha, Filho Filha, Filha
porque ela é importante
• Data Scientist pode trazer conhecimento externo • eg: características dos usuários • eg: Crianças e bebidas alcoólicas
• Introduzir daos do BI • eg: homens e produtos para gravidez • eg: acordos comerciais
• Furacão Francis Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar
• O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação)
furacão francis
• Operadora de cartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes
• O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering)
precificação do cartão de crédito
• Medidas de trânsito Veiculos enviam informação a cada instante.
• O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão)
19 de 21
estimativa de trânsito
SOBRE O ROTEIRIZADOR o que recebemos
<Route><Category>1</Category><DateTime>0001-01-01T00:00:00</DateTime><Destination xmlns:a="http://schemas.datacontract.org/2004/07/SwissKnife.Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</a:Lng></Destination><Origin xmlns:a="http://schemas.datacontract.org/2004/07/SwissKnife.Spatial"><a:Lat>-8.149973</a:Lat><a:Lng>-35.41825</a:Lng></Origin>
SOBRE O ROTEIRIZADOR o padrão da marginal pinheiros
“Que item devo recomendar ao meu usuário? Devo dar um desconto? Que valor de desconto eu posso dar?” • O que conheço do usuário?
Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora
• O que quero saber? Que produto recomendar? Que desconto oferecer?
sr david steps, dono da loja virtual velhogeek:
Pid descrição categoria preço 1 Notebook Pear Informa(ca R$3000.00 2 Notebook HAL Informa(ca R$2000.00 3 Celular Pear youPhone Telefonia R$1800.00 4 Celular Blue Robot Telefonia R$1600.00 5 Celular youClone com 8 chips Telefonia R$800.00 6 Celular EscritórioFone for Businessmen Telefonia R$1000.00 7 Tênis Mike Roupas e Acessórios R$300.00 8 Tênis Rei Roupas e Acessórios R$150.00
9 Fone de Ouvido youPhone original Acessórios de Informá(ca R$90.00
10 Mouse CheapJunk Systems Acessórios de Informá(ca R$5.00
11 Mouse MacroHard sem fio Acessórios de Informá(ca R$90.00
12 CD: Boy Band do Ano "Live AcusXco" Música R$25.00 13 CD: Cool Jazz CollecXon Música R$25.00 14 Fraldas Pimpolho -‐ 200 unidades Bebê R$50.00 15 Carrinho de Bebê Bebê R$150.00 16 Cerveja -‐ 6 pack Alimentos R$12.00 21 Vinho -‐ "Chateau PeXt Verdot" bordeaux grand cru classé Alimentos R$120.00 18 Jogo de Videogame -‐ God of Ba`le Jogos R$50.00 19 Livro: "Receitas para Solteiros" Livros R$25.00 20 Livro: "God of Ba`le -‐ Estratégias para Ganhar" Livros R$25.00 21 Livro: "Como Não Matar o Seu Bebê: a Arte da Guerra para Pais Solteiros" Livros R$25.00 22 Livro: "Espeleologia Comparada: Introdução ao Cálculo Setorial MulXplexado" Livros R$55.00
live demo!
Nosso objetivo: aumentar vendas
um simples exemplo de recomendação
como descobrir isso?
• O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora
• O que eu quer saber? Que produto recomendar? Que desconto oferecer?
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
p(i)Prob(comprari|comprari, caracJ) + p(k)Prob(comprark|comprari, caracJ)
p(i) + p(k)Prob(comprark|comprari, caracJ)
Prob(comprark|comprari, caracJ) =Prob(comprari, caracJ |comprark)
Prob(comprari, caracJ)Prob(comprark)
Prob(comprari, caracJ |comprark)
Prob(comprari, caracJ)=
Prob(comprari|comprark)Prob(caracJ |comprark)
Prob(comprari)Prob(caracJ)
Oferecer um segundo produto que maximize a esperança!
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
Prob(comprark|comprari, caracJ) =Prob(caracJ |comprark)
Prob(caracJ)Prob(comprark)
p(i) + p(k)Prob(caracJ |comprark)
Prob(caracJ)Prob(comprark)
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
Caracteristicas: sexo, idade, classe de renda, educacao
p(i) + p(k)Prob(caracJ |comprark)
Prob(caracJ)Prob(comprark)
Prob(sexo|comprark)Prob(renda|comprark)Prob(edu|comprark)
Prob(idade, sexo, renca, edu|comprark) = Prob(idade|comprark)
21 de 21
Teorema de Bayes:
brigado!
É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas.
Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada.
O MODELO statístico
Prob(Usuario comprar|caracteristicas do usuario)
Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra)
Prob(caracterıstica do usuario)
Caio C. Gomes Diretor Big Data e Inovação [email protected]