palestra big data - tdc 2015

24
Big Data no Mundo Corporativo: Desenvolvimentos e Aplicações

Upload: eduardohruschka

Post on 14-Aug-2015

171 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Big Data no Mundo Corporativo:

Desenvolvimentos e Aplicações

AGENDA

2 O que é big data analytics ?

3 Pra que servem os data scientists ?

4 Algumas aplicações reais

5 Tendências e desafios

1 Quem somos

QUEM SOMOS

QUEM SOMOS

Empresa brasileira pioneira em Big Data Analytics,

fundada em Dezembro de 2012

Equipe de mestres e doutores em machine learning

“In God we trust. All others must bring data” (W. E. Deming, cujas ideias inspiraram o “Milagre Japonês”)

Empresa de capital nacional e um acionista

Preferred Partner da Microsoft em big data

analytics no Brasil e parceira técnica do Inep/MEC

para georreferenciamento

QUEM SOMOS

Visão: momento é de mudança de paradigma. No

futuro próximo, empresas não-data-driven

perecerão

Missão: ser líderes desse movimento no Brasil,

permitindo saltos aos nossos clientes

Sonho: construir empresa world-class nesta área

que é fronteira do conhecimento

O QUE É BIG DATA ANALYTICS?

7

Estatística Bases de Dados

Big Data Analytics

Aprendizado

de Máquina

Data Mining, Knowledge

Discovery from

Databases (KDD), Data

Science, Predictive

Analytics

POR QUE TANTOS NOMES?

• Justificativas em artigos e livros

• Papel da Indústria de Software e da Academia?

• Por que o termo Big Data pegou?

O QUE É BIG DATA ?

Conhecimentos?

Formação?

Habilidades?

HABILIDADES DE UM DATA SCIENTIST ?

• Ciência da Computação (IA, AM, BD)

• Estatística e Otimização

• Economia e Administração

• Times de pessoas com perfis complementares?

PRA QUE SERVEM OS DATA SCIENTISTS ?

DATA SCIENTISTS IN ACTION

• Introduzir (mais) Ciência no mundo corporativo

• Melhorar capacidade de decisão a partir de dados

• Aplicar e desenvolver metodologias de AM

• Ajudar clientes a descobrir actionable insights

Acertar o alvo (do negócio) com precisão

Quiz:

Analogia

melhor?

APLICAÇÕES REAIS

NOSSOS DADOS

Alguns dados georreferenciados que trazemos para as análises

• Renda (algoritmo

proprietário

atualização mensal)

• Emprego

• Clima

• Educação

• Saúde

• Perfil Ideológico

• Estrutura etária

• Religião

NOSSOS DADOS

• 25 milhões de POIs

• Antenas de telefonia celular

• Emplacamento veicular

• Movimento de estradas

• Densidade demográfica

• Tweets

• Pontos de transporte coletivo

• Preços combustíveis

PREVISÃO DE VENDA DE REVISTAS EM BANCAS

Por que estimar?

venda

semana

?

Semanários:

• Dados de vendas em ~4k bancas

• Fatores que influenciam na venda?

• Resultados?

QUANTO EU DEVERIA ESTAR VENDENDO?

• Vendas num Setor Censitário (SC):

Vendas observadas

Potencial de vendas

• Como estimar “potencial” de vendas?SC X1 X2 ... Xd Y_obs Y_pot

1 1200 0.5 ... 5.5 2000 ?

2 900 0.4 ... 6.0 1500 ?

... 3000 0.9 ... 5.2 4000 ?

N 4500 1.0 ... 3.1 5000 ?

N+1 650 0.3 ... 7.2 ? ?

... ... ... ... ... ? ?

R 15000 1.0 ... 2.3 ? ?

Treinamento:

Y=f(X1,...,XN)

Alvo

(teste)

- Y_obs ruidoso?

- f(.) mais confiável

do que os dados?

- Como lidar?

Junte-se a nós e

divirta-se!

OTIMIZAÇÃO DE PLANO DE MÍDIA

Maximizar:

Consciência da marca?

No de potenciais compradores?

...

Vendas?

Jornal

40%

Rádio

20%

TV

5%

Outdoor

5%

Internet

30%

• Responsabilidade de I,J,R,T,O ?

• Interações (e.g., RT) ?

• Aprender Y=f(I,J,R,T,O) ?

• Renda, investimentos e preços dos

concorrentes, sazonalidade,

tendência, etc. ?

ABANDONO DE SERVIÇOS (CHURN)

• Bancos de varejo

• Assinaturas (TV a cabo, revistas...)

• Operadoras de telecomunicações

Problema prático (aparentemente) não resolvido

• Desafio:

Estimar P(ChurnX1,X2,...,XN)

Em tempo de poder agir pra evitar

Modelos interpretáveis e com variáveis alteráveis:

?

salário ?

OTIMIZAÇÃO DE PREÇOS (PRECIFICAÇÃO)

• Como otimizar preços (ou descontos) ?

• Preço = Custo + Margem

• Abordagem clássica via equação de demanda

Regressão + agrupamento + experimentação: Pode ser usado como analgésico ou vitamina

12

13

14

15

16

17

18

25 26 27 28 29 30 31

Preço (P x 1.000)

Dem

anda (

D x

1.0

00) D = 0 + 1P

Problemas:

- Pouca variação no preço

- Poucas amostras

Como tratar?

Ministério da Saúde Recomenda

TENDÊNCIAS E DESAFIOS

TENDÊNCIAS

Crescente número de novas aplicações

Combinar algoritmos, diminuindo o no de

parâmetros críticos definidos pelo usuário

“Essentially, all models are wrong, but some are useful.”

(George E. P. Box, University of Wisconsin)

Gartner (líder em TI) prevê que em 2015 a

demanda por profissionais de big data será de

4,4 milhões...

DESAFIOS

• Data scientists: 19.428(EUA), 282(Bra), 911(Ale)

• Vagas (big data): 43.710(EUA), 154(Bra),1.211(Ale)

• CV Lattes (termo = big data): 340 (138 doutores)

• 500 estatísticos/ano, mas +1.000 vagas ofertadas

• Mais alunos em Ciência de Computação e afins?

Programação no ensino fundamental?

• Dados públicos mais organizados/acessíveis

• Questões éticas do uso de modelos automáticos

• Mudanças envolvem pessoas (conflito de interesse)

Obrigado pela atenção!

Contato:

Eduardo R. Hruschka

Chief Data Scientist

[email protected]

[email protected]

DevOps