iniciativas em big data no vagas.com

Post on 20-Jun-2015

143 Views

Category:

Internet

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Esta apresentação foi realizada no Cloud Latam 2014 em São Paulo - Brasil. O objetivo desta apresentação foi descrever algumas iniciativas em Big Data no VAGAS.com

TRANSCRIPT

Iniciativas em Big Data no VAGAS.com

Fabrício J. Barth

Data e Depto

Sumário

• VAGAS.com

• Big Data

• Iniciativas de Big Data na VAGAS.com

• Lições Aprendidas

VAGAS.com

VAGAS.com

VAGAS.com

VAGAS.com

O que é Big Data?

Processo, métodos, algoritmos e

ferramentas para processamento de

dados

Processo, métodos, algoritmos e

ferramentas para processamento de

dados

Dados brutos Sínteses para tomadas de

decisão

Em TI sempre tivemos cenários parecidos com este:

O que é Big Data?

Processo, métodos, algoritmos e

ferramentas para processamento de

dados

Processo, métodos, algoritmos e

ferramentas para processamento de

dados

Dados brutos

Variedade

Volume

Velocidade

Sínteses para tomadas de

decisão

O que é Big Data?

Processo, métodos,

algoritmos e ferramentas para

processamento de dados

Processo, métodos,

algoritmos e ferramentas para

processamento de dados

O que é Big Data?

Processo, métodos, algoritmos e

ferramentas para processamento de

dados

Processo, métodos, algoritmos e

ferramentas para processamento de

dadosImplicam em novas formas de síntese

Implicam em novas formas de síntese

Análises Descritivas(visualizações estáticas ou

interativas)

Análises Descritivas(visualizações estáticas ou

interativas)

Modelos PreditivosModelos

Preditivos

Evolução da gestão baseada em dadosEvolução da gestão baseada em dados

Análises Descritivas

Tem como objetivo sintetizar ou sumarizar informações existentes em um conjunto de dados, geralmente, apresentando algum padrão oculto.

Técnicas normalmente empregadas:

•Algoritmos de agrupamento (clustering).•Regras de Associação.

Exemplo de clustering

Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?

Exemplo de clustering

Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.

Exemplo de clustering

Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Análise descritiva dos atributos

Análise descritiva dos atributos

Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.

Exemplo de clustering

Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Análise descritiva dos atributos

Análise descritiva dos atributos

ModelagemModelagemVamos utilizar o algoritmo k-means com o método elbow para identificar o número de clusters ideal

Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.

Exemplo de clustering

Exemplo de clustering

Pergunta: é possível identificar agrupamentos de usuários baseado na quantidade de candidaturas e quantidade de acessos realizados ao site?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Análise descritiva dos atributos

Análise descritiva dos atributos

ModelagemModelagem

Avaliação do modeloAvaliação do modelo

EntregaEntrega

Vamos utilizar o algoritmo k-means com o método elbow para identificar o número de clusters ideal

Cada candidato será representado pela: (i) quantidade de candidaturas; (ii) quantidade de dias desde o último acesso ao site; (iii) quantidade de dias desde a última atualização do CV, entre outros atributos.

RelatórioApresentaçãoDiscussão

Processo de descoberta de conhecimento

Definição do escopoDefinição do escopo

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Análise descritiva dos atributos

Análise descritiva dos atributos

ModelagemModelagem

Avaliação do modeloAvaliação do modelo

EntregaEntrega

Se o m

odelo não está bom

entã

o podem

os voltar para as outras e

tapas

Outro exemplo de análise descritiva

Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?

Outro exemplo de análise descritiva

Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Outro exemplo de análise descritiva

Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

CargoSalárioSetor da empresa

CargoSalárioSetor da empresa

CargoSalárioSetor da empresa

Outro exemplo de análise descritiva

Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Análise descritiva dos atributos

Análise descritiva dos atributos

Outro exemplo de análise descritiva

Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Análise descritiva dos atributos

Análise descritiva dos atributos

ModelagemModelagem

carreiras.vagas.com.br

carreiras.vagas.com.br

Pergunta: é possível identificar o compartamento de movimentações das diversas profissões a partir do histórico profissional de uma base de CVs?

Entrega como softwareEntrega como software

Modelos Preditivos

A partir de dados históricos,

criar modelos que realizam algum tipo de previsão (futuro) sobre valores:

categóricos (classificação), ou; valores numéricos (regressão).

Modelos Preditivos

Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias?

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Modelos Preditivos

Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias?

ModelagemModelagem Regressão linear onde a variável dependente é a quantidade de visitas por dia e as variáveis independentes são informações como: dia da semana, se é feriado ou não, entre outras informações

Aquisição e pré-processamento dos dados

Aquisição e pré-processamento dos dados

Modelos Preditivos

Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias?

Aval

iaçã

o do

mod

elo

Aval

iaçã

o do

mod

elo

Modelos Preditivos

Pergunta: é possível predizer a quantidade de visitas no site para os próximos dias?

Sim!

Aplicações:

•Prever demanda de acesso ao site•Identificar anomalias•Diagnosticar falhas

Modelos Preditivos

Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?

Modelos Preditivos

Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?

Aqui

siçã

o e

pré-

proc

essa

men

to d

os d

ados

Aqui

siçã

o e

pré-

proc

essa

men

to d

os d

ados

Candidato Vaga Ação

1111 aaaa Candidatura

1111 bbbb Pageview

2222 aaaa Pageview

2222 cccc Pageview

2222 dddd Candidatura

Modelos Preditivos

Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?

Mod

elag

emM

odel

agem

Modelo Bayesiano (abordagem probabilística)

Random Forest (classificador baseado em árvores de decisão)

Algoritmo colaborativo baseado em grafos

Acurácia boa: 70%, fácil de implementar, mas não teve um impacto muito alto no site.

Acurácia boa: 70%, fácil de implementar, mas não teve um impacto muito alto no site.

Acurácia excelente: 92%, mas muito difícil para colocar em ambiente de produção.

Acurácia excelente: 92%, mas muito difícil para colocar em ambiente de produção.

Desempenho excelente e com alto grau de impacto no siteDesempenho excelente e com alto grau de impacto no site

Modelos Preditivos

Pergunta: é possível recomendar vagas, com alta acurácia, aos candidatos?

Aval

iaçã

o em

am

bien

te d

e pr

oduç

ãoAv

alia

ção

em a

mbi

ente

de

prod

ução

Algoritmo de recomendação colaborativo “quebrou” o modelo preditivo de visitas

Lições Aprendidas

•Visualizações interativas parecem ser mais úteis que visualizações estáticos.

•Todo projeto/equipe de Big Data (Data Analysis) deve estar preparado para falhar.

•A dinâmica de projetos de Big Data é diferente da dinâmica de projetos de software. Projetos de Big Data estão muito mais próximos de projetos de pesquisa (científica) do que de projetos

de software.

•Como preparar organizações para este tipo de dinâmica?

www.VAGAS.com.br(11) 4084-1111

fabricio.barth@vagas.com.br

top related