iniciativas em big data no vagas.com

36
Iniciativas em Big Data no VAGAS.com Fabrício J. Barth Data e Depto

Upload: fabricio-barth

Post on 20-Jun-2015

143 views

Category:

Internet


0 download

DESCRIPTION

Esta apresentação foi realizada no Cloud Latam 2014 em São Paulo - Brasil. O objetivo desta apresentação foi descrever algumas iniciativas em Big Data no VAGAS.com

TRANSCRIPT

Page 1: Iniciativas em Big Data no VAGAS.com

Iniciativas em Big Data no VAGAS.com

Fabrício J. Barth

Data e Depto

Page 2: Iniciativas em Big Data no VAGAS.com

Sumário

• VAGAS.com

• Big Data

• Iniciativas de Big Data na VAGAS.com

• Lições Aprendidas

Page 3: Iniciativas em Big Data no VAGAS.com

VAGAS.com

Page 4: Iniciativas em Big Data no VAGAS.com

VAGAS.com

Page 5: Iniciativas em Big Data no VAGAS.com

VAGAS.com

Page 6: Iniciativas em Big Data no VAGAS.com

VAGAS.com

Page 7: Iniciativas em Big Data no VAGAS.com

O que é Big Data?

Processo, métodos, algoritmos e

ferramentas para processamento de

dados

Processo, métodos, algoritmos e

ferramentas para processamento de

dados

Dados brutos Sínteses para tomadas de

decisão

Em TI sempre tivemos cenários parecidos com este:

Page 8: Iniciativas em Big Data no VAGAS.com

O que é Big Data?

Processo, métodos, algoritmos e

ferramentas para processamento de

dados

Processo, métodos, algoritmos e

ferramentas para processamento de

dados

Dados brutos

Variedade

Volume

Velocidade

Sínteses para tomadas de

decisão

Page 9: Iniciativas em Big Data no VAGAS.com

O que é Big Data?

Processo, métodos,

algoritmos e ferramentas para

processamento de dados

Processo, métodos,

algoritmos e ferramentas para

processamento de dados

Page 10: Iniciativas em Big Data no VAGAS.com

O que é Big Data?

Processo, métodos, algoritmos e

ferramentas para processamento de

dados

Processo, métodos, algoritmos e

ferramentas para processamento de

dadosImplicam em novas formas de síntese

Implicam em novas formas de síntese

Análises Descritivas(visualizações estáticas ou

interativas)

Análises Descritivas(visualizações estáticas ou

interativas)

Modelos PreditivosModelos

Preditivos

Evolução da gestão baseada em dadosEvolução da gestão baseada em dados

Page 11: Iniciativas em Big Data no VAGAS.com

Análises Descritivas

Tem como objetivo sintetizar ou sumarizar informações existentes em um conjunto de dados, geralmente, apresentando algum padrão oculto.

Técnicas normalmente empregadas:

•Algoritmos de agrupamento (clustering).•Regras de Associação.

Page 12: Iniciativas em Big Data no VAGAS.com

Exemplo de clustering

Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?

Page 13: Iniciativas em Big Data no VAGAS.com

Exemplo de clustering

Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.

Page 14: Iniciativas em Big Data no VAGAS.com

Exemplo de clustering

Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Análise descritiva dos atributos

Análise descritiva dos atributos

Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.

Page 15: Iniciativas em Big Data no VAGAS.com

Exemplo de clustering

Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Análise descritiva dos atributos

Análise descritiva dos atributos

ModelagemModelagemVamos utilizar o algoritmo k-means com o método elbow para identificar o número de clusters ideal

Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.

Page 16: Iniciativas em Big Data no VAGAS.com

Exemplo de clustering

Page 17: Iniciativas em Big Data no VAGAS.com

Exemplo de clustering

Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Análise descritiva dos atributos

Análise descritiva dos atributos

ModelagemModelagem

Avaliação do modeloAvaliação do modelo

EntregaEntrega

Vamos utilizar o algoritmo k-means com o método elbow para identificar o número de clusters ideal

Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.

RelatórioApresentaçãoDiscussão

Page 18: Iniciativas em Big Data no VAGAS.com

Processo de descoberta de conhecimento

Definição do escopoDefinição do escopo

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Análise descritiva dos atributos

Análise descritiva dos atributos

ModelagemModelagem

Avaliação do modeloAvaliação do modelo

EntregaEntrega

Se o m

odelo não está bom

entã

o podem

os voltar para as outras e

tapas

Page 19: Iniciativas em Big Data no VAGAS.com

Outro exemplo de análise descritiva

Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?

Page 20: Iniciativas em Big Data no VAGAS.com

Outro exemplo de análise descritiva

Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Page 21: Iniciativas em Big Data no VAGAS.com

Outro exemplo de análise descritiva

Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

CargoSalárioSetor da empresa

CargoSalárioSetor da empresa

CargoSalárioSetor da empresa

Page 22: Iniciativas em Big Data no VAGAS.com

Outro exemplo de análise descritiva

Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Análise descritiva dos atributos

Análise descritiva dos atributos

Page 23: Iniciativas em Big Data no VAGAS.com

Outro exemplo de análise descritiva

Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Análise descritiva dos atributos

Análise descritiva dos atributos

ModelagemModelagem

Page 24: Iniciativas em Big Data no VAGAS.com

carreiras.vagas.com.br

Page 25: Iniciativas em Big Data no VAGAS.com

carreiras.vagas.com.br

Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?

Entrega como softwareEntrega como software

Page 26: Iniciativas em Big Data no VAGAS.com

Modelos Preditivos

A partir de dados históricos,

criar modelos que realizam algum tipo de previsão (futuro) sobre valores:

categóricos (classificação), ou; valores numéricos (regressão).

Page 27: Iniciativas em Big Data no VAGAS.com

Modelos Preditivos

Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Page 28: Iniciativas em Big Data no VAGAS.com

Modelos Preditivos

Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias?

ModelagemModelagem Regressão linear onde a variável dependente é a quantidade de visitas por dia e as variáveis independentes são informações como: dia da semana, se é feriado ou não, entre outras informações

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Page 29: Iniciativas em Big Data no VAGAS.com

Modelos Preditivos

Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias?

Aval

iaçã

o do

mod

elo

Aval

iaçã

o do

mod

elo

Page 30: Iniciativas em Big Data no VAGAS.com

Modelos Preditivos

Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias?

Sim!

Aplicações:

•Prever demanda de acesso ao site•Identificar anomalias•Diagnosticar falhas

Page 31: Iniciativas em Big Data no VAGAS.com

Modelos Preditivos

Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?

Page 32: Iniciativas em Big Data no VAGAS.com

Modelos Preditivos

Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?

Aqui

siçã

o e

pré-

proc

essa

men

to d

os d

ados

Aqui

siçã

o e

pré-

proc

essa

men

to d

os d

ados

Candidato Vaga Ação

1111 aaaa Candidatura

1111 bbbb Pageview

2222 aaaa Pageview

2222 cccc Pageview

2222 dddd Candidatura

Page 33: Iniciativas em Big Data no VAGAS.com

Modelos Preditivos

Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?

Mod

elag

emM

odel

agem

Modelo Bayesiano (abordagem probabilística)

Random Forest (classificador baseado em árvores de decisão)

Algoritmo colaborativo baseado em grafos

Acurácia boa: 70%, fácil de implementar, mas não teve um impacto muito alto no site.

Acurácia boa: 70%, fácil de implementar, mas não teve um impacto muito alto no site.

Acurácia excelente: 92%, mas muito difícil para colocar em ambiente de produção.

Acurácia excelente: 92%, mas muito difícil para colocar em ambiente de produção.

Desempenho excelente e com alto grau de impacto no siteDesempenho excelente e com alto grau de impacto no site

Page 34: Iniciativas em Big Data no VAGAS.com

Modelos Preditivos

Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?

Aval

iaçã

o em

am

bien

te d

e pr

oduç

ãoAv

alia

ção

em a

mbi

ente

de

prod

ução

Algoritmo de recomendação colaborativo “quebrou” o modelo preditivo de visitas

Page 35: Iniciativas em Big Data no VAGAS.com

Lições Aprendidas

•Visualizações interativas parecem ser mais úteis que visualizações estáticos.

•Todo projeto/equipe de Big Data (Data Analysis) deve estar preparado para falhar.

•A dinâmica de projetos de Big Data é diferente da dinâmica de projetos de software. Projetos de Big Data estão muito mais próximos de projetos de pesquisa (científica) do que de projetos

de software.

•Como preparar organizações para este tipo de dinâmica?

Page 36: Iniciativas em Big Data no VAGAS.com

www.VAGAS.com.br(11) 4084-1111

[email protected]