Download - Mineração de Dados com Apache Mahout
Área, dia/mês/ano
Mineração de Dadoscom Apache Mahout
P&D – 26/06/2013
by Fabíola Souza Fernandes Pereira
Área, dia/mês/anoThe Financial Times of London (1996)
Área, dia/mês/anoThe Financial Times of London (1996)
Área, dia/mês/anoThe NY Times (2012)
Área, dia/mês/anoThe NY Times (2012)
Área, dia/mês/anoScience Daily (2009)
Área, dia/mês/anoScience Daily (2009)
Área, dia/mês/ano
Área, dia/mês/ano
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
O que é Mineração de Dados?
(em 6 slides)
Área, dia/mês/ano
Área, dia/mês/ano
KDD (Knowledge Discovery on Databases)
Área, dia/mês/ano
Área, dia/mês/ano
“É a transformação de dados em conhecimento, através da descoberta de padrões”
Área, dia/mês/ano
1960 1970 1980 1990 2000
Coleç
ão d
e Dad
os e
Armaz
enam
ento
SGBDs
Sistem
as d
e BD
Avanç
ados
Min
eraç
ão d
e Dad
os
Nova
Geraç
ão d
e
Sistem
as In
tegr
ados
Histórico
Área, dia/mês/ano
DM é interdisciplinar
Área, dia/mês/ano
Quais tipos de dados são minerados?
Área, dia/mês/ano
Bancos de Dados Relacionais
Análise dos dados de
clientes (idade, salário)
para prever o risco de
crédito para novos clientes
Área, dia/mês/ano
Bancos de Dados Espaciais
Descobrir o comportamento do clima
em áreas montanhosas
Área, dia/mês/ano
Bancos de Dados Temporais
Qual a melhor forma de
renovar o estoque? Quais
produtos para
determinada época do
ano?
Área, dia/mês/ano
Bancos de Dados de Textos
Minerar especificações,
relatórios de erros, tweets, posts, reviews
Área, dia/mês/ano
Bancos de Dados de Áudio, Vídeo e Imagens
Segmentação de imagens
Reconhecimento de fala
Área, dia/mês/ano
“É a transformação de dados em conhecimento, através da descoberta de padrões”
Texto, áudio, imagem, relacionais, temporais,
espaciais, …
Anomalias, grupos, classes, tendências, regras, …
Área, dia/mês/ano
CONHECIMENTO
Meu cliente está ansioso com a vinda da concorrência.
O Coreo está sendo utilizado para trotes.
Este cartão de crédito foi clonado.
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
Data MiningWeb
Social
HTML
Opiniões/Sentimentos
Vídeos
Áudio
Imagens
Streams
Área, dia/mês/ano
BIG DATA MINING
Social
HTML
Opiniões/Sentimentos
Vídeos
Áudio
Imagens
Streams
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
O que é o Mahout?O que é o Mahout?
Área, dia/mês/ano
Mahout é um software de “Machine Learning” e Mineração de Dados
Área, dia/mês/ano
Mahout é um software de “Machine Learning” e Mineração de Dados
Área, dia/mês/ano
Mahout é um software de “Machine Learning” e Mineração de Dados
Área, dia/mês/ano
Ficha técnica:
Projeto Apache
Open Source
Última versão: 0.7
API Java
Diversos exemplos prontos
Diversos algoritmos de DM prontos: K-Means, CF, Naïve Bayes, …
Área, dia/mês/ano
Técnicas de Mineração de Dados
RecomendaçãoRecomendação
ClusterizaçãoClusterização
ClassificaçãoClassificação
Área, dia/mês/ano
RecomendaçãoRecomendação
Área, dia/mês/ano
Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo
Área, dia/mês/ano
Recomendação ou Filtro ColaborativoRecomendação ou Filtro Colaborativo
Área, dia/mês/ano
ClassificaçãoClassificação
Área, dia/mês/ano
SPAM!!
ClassificaçãoClassificação
Área, dia/mês/ano
SPAM!!
ClassificaçãoClassificação
Área, dia/mês/ano
ClassificaçãoClassificação
Área, dia/mês/ano
ClassificaçãoClassificação
MODELO
Classificador
Amostras Classificadas Banco de
Testes
MODELO COM REGRAS CONFIÁVEIS
Área, dia/mês/ano
Clusterização ou AgrupamentoClusterização ou Agrupamento
Área, dia/mês/ano
Clusterização ou AgrupamentoClusterização ou Agrupamento
Área, dia/mês/ano
Clusterização ou AgrupamentoClusterização ou Agrupamento
??
Área, dia/mês/ano
$MAHOUT_HOME/bin/mahout wikipediaXMLSplitter -d $MAHOUT_HOME/examples/temp/enwiki-latest-pages-articles10.xml -o wikipedia/chunks -c 64
$MAHOUT_HOME/bin/mahout trainclassifier -i wikipediainput -o wikipediamodel
$MAHOUT_HOME/bin/mahout testclassifier -m wikipediamodel -d wikipediainput
Na prática…
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
PoC Mahout
Objetivo: separar textos em SPAM ou NÃO SPAM
Tipos de dados: texto
Técnica: classificação
Algoritmo: Naïve Bayes
Base: 20news group (spamassassin.apache.org/publiccorpus/20021010_spam.tar.bz2)
3050 arquivos
Área, dia/mês/ano
Roteiro
Área, dia/mês/ano
Inserir mineração de dados e machine learning no BI da
empresa
Minerar dados reais
Área, dia/mês/ano
Obrigada