mineração de dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/md1_09.pdf · mineração de...

28
Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio http://www.kdnuggets.com

Upload: hahuong

Post on 01-Feb-2018

235 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Mineração de Dados

Eduardo Raul Hruschka

Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio http://www.kdnuggets.com

Page 2: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Visão Geral:

� Introdução: motivação, aplicações, conceitos básicos.

� Agrupamento de dados (clustering).

� Classificação.

� Regras de Associação.

22

Page 3: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Introdução

�Contextualizar a Mineração de Dados;

�Aplicações de Mineração de Dados;

�Conceitos Básicos;

33

�Conceitos Básicos;

�Tarefas de Mineração de Dados (MD).

Page 4: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Tendências que nos levam a um cenário de super-abundância de dados:

� Instituições financeiras, telecomunicações, transações em empresas…

� Dados científicos: astronomia, biologia, etc.

� Dados na Web, Dados em textos, comércio eletrônico, …

44

→ Capacidades de coletar/armazenar superaram nossas habilidadesde analisar/extrair conhecimento dos dados:

→ É necessária a aplicação de técnicas/ferramentas quetransformem, de maneira inteligente e automática, os dadosdisponíveis em informações úteis, que representemconhecimento.

Page 5: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Alguns Exemplos:

� AT&T manipula bilhões de chamadas por dia. Todos osdados não podem ser armazenados (~ 26 TB) – análise“on the fly” / “streaming data”;

� France Telecom: banco de dados ~30TB;

� Google: procura aproximadamente 4 bilhões de páginas –centenas de TB;

55

� Google: procura aproximadamente 4 bilhões de páginas –centenas de TB;

� Wal-Mart: 20 milhões de transações por dia;

� Nasa: 50Gb de imagens por hora;

� Estimativa da UC Berkeley em 2003: 5 hexabytes (5milhões de terabytes) de dados novos foram gerados em2002.� www.sims.berkeley.edu/research/projects/how-much-info-2003/

Page 6: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Taxa de crescimento dos dados

�A quantidade de informações geradas em 2002 é o dobro do que foi gerado em 1999 (crescimento anual de ~30%);

�Um humano poderia analisar uma quantidade tão grande de dados?

66

grande de dados?

�Descoberta de Conhecimento - Mineração de Dados;

�Analogia: explorar uma mina de dados, purificando-se o minério para obter o ouro (conhecimento).

Page 7: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Introdução

�Contextualizar MD

�Aplicações de MD

�Conceitos Básicos

77

�Conceitos Básicos

�Tarefas de Mineração de Dados

Page 8: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Aplicações de Mineração de Dados

Há uma certa dificuldade em relatar casos práticos, pois o produto da mineração de dados geralmente oferece alguma vantagem competitiva e, por isso, raramente é descrito...

� Ciência:� Astronomia, Bioinformática, Meteorologia,…

� Negócios

88

� Negócios� Propaganda, CRM (Customer Relationship management),

Investimentos, Marketing, Planos de Saúde e de Seguros…

� Web: � Ferramentas de busca, padrões de navegação…

� Governo� Dados demográficos, anti-terror, …

Page 9: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Mineração de Dados para Modelagem de Clientes:

� Previsão de atritos;

�Marketing direto;

99

�Avaliação de Risco;

�Detecção de fraudes;

Page 10: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Aplicação para casos de atrito com clientes:

� Situação: taxa de atrito para telefone celulares está em torno de 25-30% por ano (http://www.kdnuggets.com).

Tarefa:

� Considerando-se as informações do cliente para os

1010

� Considerando-se as informações do cliente para os últimos meses, prever quem entrará em atrito no próximo mês.

� Além disso, estimar o valor do cliente e qual é o custo de uma oferta a ser feita ao cliente para não perdê-lo.

Page 11: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Avaliação de risco para crédito:

� Para quem você emprestaria R$ 500,00 ?

� Situação: pessoa solicita um empréstimo.

� Tarefa: o banco deve aprovar o empréstimo?

1111

� Tarefa: o banco deve aprovar o empréstimo?

� Observação: pessoas com muito crédito em geral não precisam de empréstimos, enquanto que pessoas com pouco crédito provavelmente não pagarão o empréstimo. Como identificar os melhores clientes?

� Atualmente muitas instituições financeiras adotam técnicas de mineração de dados (classificação) pra resolver este problema.

Page 12: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Comércio eletrônico

�Consideremos que uma pessoa compra um livro na Amazon.com.

� Tarefa: recomendar outros livros (produtos) potencialmente interessantes para a pessoa em questão.

1212

questão.

�Amazon utiliza técnicas de agrupamento que podem proporcionar padrões do tipo:� Clientes que compram “Advances in Knowledge Discovery and Data Mining”, também compram “Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations”

Page 13: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Genomic Microarrays

Considerando-se dados de microarray para uma determinada quantidade de pacientes (amostras), é possível:

� Precisamente diagnosticar a doença?

1313

� Precisamente diagnosticar a doença?

� Prever o resultado para determinado tratamento?

�Recomendar o melhor tratamento?

Page 14: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Exemplo:� 38 casos de treinamento, 34 teste, ~ 7,000 genes

� 2 Classes: Acute Lymphoblastic Leukemia (ALL) vs Acute Myeloid Leukemia (AML)

� Usar dados de treinamento para construir um modelo para diagnóstico:

1414

ALL AML

Resultados na base de teste: 33/34=97% corretos.

Page 15: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Problemas adequados para MD:

� Requerem decisões baseadas em conhecimento;

� Ambiente dinâmico (dados novos);

� Existem métodos sub-ótimos;

1515

� Existem métodos sub-ótimos;

� Há dados acessíveis, relevantes e em quantidade suficiente;

� Proporcionam recompensas elevadas pelas decisões corretas;

� Privacidade é um assunto importante.

Page 16: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Introdução

�Contextualizar a Mineração de Dados

�Aplicações de Mineração de Dados

�Conceitos Básicos

1616

�Conceitos Básicos

�Tarefas de Mineração de Dados

Page 17: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Uma definição de KDD (Knowledge Discovery from Databases):

KDD é o processo não trivial de identificar padrões válidos, novos, potencialmente úteis e compreensíveis em dados.

1717

- Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Chapter 1), AAAI/MIT Press 1996.

Page 18: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Áreas correlatas:

Aprendizado deMáquina / IA Visualização

Mineração de Dados e

Descoberta de Conhecimento

1818

Estatística Banco de Dados

Descoberta de Conhecimento

Page 19: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Estatística, Aprendizado de Máquina e Mineração de Dados:

� Estatística: � Mais baseada na teoria;

� Mais focada em testes de hipóteses.

� Aprendizado de Máquina:� Mais heurísticas;

Focada em melhorar o desempenho de agentes de aprendizado;

1919

� Focada em melhorar o desempenho de agentes de aprendizado;

� Aprendizado em tempo-real e robótica (em geral não abordados em MD).

� MD/KDD – muito empregados indistintamente:� Procura integrar teoria e heurísticas;

� Inclui preparação de dados, visualização de resultados, pós-processamento;

� Geralmente empregada em grandes bases de dados.

* Distinções são mais ou menos nebulosas!

witten&eibe

Page 20: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Fluxo do KDD:

Monitoring

see www.crisp-dm.orgfor more

2020

for more information

Page 21: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Introdução

�Contextualizar a Mineração de Dados

�Aplicações de Mineração de Dados

�Conceitos Básicos

2121

�Conceitos Básicos

�Tarefas de Mineração de Dados

Page 22: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Principais tarefas de MD:

� Classificação: prever uma classe;

� Agrupamento: encontrar clusters;

� Associações: e.g. A & B & C ocorrem freqüentemente;

2222

� Visualização: facilitar descoberta por humanos;

� Sumarização: descrever um grupo;

� Detecção de Desvios: encontrar mudanças;

� Estimação: prever valores contínuos;

� …

Page 23: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Classificação:- Aprender um método para prever a classe a partir de exemplos pré-classificados.

Muitas abordagens:

Estatística,

2323

Estatística, Árvores de decisão, Redes neurais, ...

Page 24: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Agrupamento (Clustering):- Encontrar grupos naturais de exemplos

(dados não rotulados)

2424

Page 25: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Sumário:

� Tendências tecnológicas têm nos levado a um problema de super-abundância de dados;

� MD é necessária para “dar sentido” aos dados;

�MD possui muitas aplicações (importante lembrar

2525

�MD possui muitas aplicações (importante lembrar que com e sem sucesso);

� Tarefas de MD:

� classificação, clustering, associação, ...

Page 26: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Mais sobre MD e KDD:

KDnuggets.com

�Notícias, Publicações;

�Software, Soluções;

2626

�Software, Soluções;

�Cursos, Encontros, Conferências;

�Publicações, Websites, Bases de dados;

�Oportunidades de Empregos

�…

Page 27: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

Alguns Centros de Pesquisa:

�Microsoft Research Group (Cambridge, Beijing, San Francisco);

�IBM Research Center (8 centros) / Intelligent Miner;

2727

Intelligent Miner;

�HP Labs – Cambridge, Palo Alto.

Page 28: Mineração de Dados - wiki.icmc.usp.brwiki.icmc.usp.br/images/b/b1/MD1_09.pdf · Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível

2828