kdd e data mining

30
UNIVERSIDADE FEDERAL DA PARAÍBA CENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO CAMPUS IV – LITORAL NORTE DISCIPLINA: INTELIGÊNCIA ARTIFICIAL PROFESSOR: ANDREI FORMIGA KNOWLEDGE DISCOVERY DATABASE (KDD) E DATA MINING (DM)

Upload: thiago-oliveira

Post on 11-Jun-2015

9.980 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: KDD e Data Mining

UNIVERSIDADE FEDERAL DA PARAÍBACENTRO DE CIÊNCIAS APLICADAS E EDUCAÇÃO

CAMPUS IV – LITORAL NORTE

DISCIPLINA: INTELIGÊNCIA ARTIFICIALPROFESSOR: ANDREI FORMIGA

KNOWLEDGE DISCOVERY DATABASE (KDD) E DATA MINING (DM)

Page 2: KDD e Data Mining

EQUIPE

• HERMANNY ALEXANDRE– [email protected]

• GEORGE LIMA– [email protected]

• THIAGO OLIVEIRA– [email protected]– http://about.me/thiagooliveira

Page 3: KDD e Data Mining

Agenda• Introdução• KDD– Visão Geral– Processo– Tarefas

• Data Mining– Objetivos– Como implementar– Aplicações– Processos

• Exemplos de Aplicações• Conclusões

Page 4: KDD e Data Mining

Introdução

Page 5: KDD e Data Mining

KDDVisão Geral

• Knowledge Discovery Database (Descoberta de Conhecimento em Base de Dados ) é o processo de transformação de dados em conhecimento.

É empregado para descrever todo o processo de extração de conhecimentos dos dados, e possui varias etapas interligadas como: seleção, pré-processamento, transformação, Data-Mining e interpretação enquanto que data mining é empregado somente para o estagio de descoberta do processo de KDD.

• O objetivo fundamental do KDD é descobrir conhecimento útil, válido, relevante e novo sobre uma determinada atividade através de algoritmos, tendo em conta as ordens de magnitude crescente nos dados .

Page 6: KDD e Data Mining

• A extração de conhecimento, além das informações empíricas, possui a capacidade de detectar e colher informação mais profundas e “escondidas” entre os bancos de dados. Na prática, se assemelha ao conceito do data-mining (mineração de dados).

KDDVisão Geral

Page 7: KDD e Data Mining

Processo de KDD

Page 8: KDD e Data Mining

1. Compreensão do Domínio de Aplicação

• Levantamento dos requisitos necessários;

• Geralmente trabalham o especialista do domínio e o analista juntos.

Page 9: KDD e Data Mining

2. Seleção

• Seleção ou segmentação dos dados apropriados para a análise de acordo com algum critério;

• Exemplos: Todas as pessoas que possuem carro.

Page 10: KDD e Data Mining

3. Pré-processamento

• Estágio de limpeza dos dados;

• Reconfiguração dos dados para assegurar formatos consistentes;

• Ex: sexo = “F” ou “M” sexo = “M” ou “H”

Page 11: KDD e Data Mining

4. Transformação

• Padronizar os dados para suprir limitações das técnicas de Mineração de dados;

• Exemplos: atributos de data e hora.

• Disponibilizar os dados de maneira usável e navegável;

Page 12: KDD e Data Mining

5. Mineração de Dados

• Aplica-se técnicas e algoritmos para descobrir novos conhecimentos;

– Oriundas de diversas áreas: Aprendizado de Máquina, Estatística, Redes Neurais, Banco de Dados, etc.

Page 13: KDD e Data Mining

6. Interpretação e Avaliação do Conhecimento

• Interpretar o conhecimento extraído através de ferramentas estatísticas e de visualização;

• Caso seja irrelevante, refazer as etapas anteriores.

Page 14: KDD e Data Mining

• As tarefas são dependentes da aplicação e do interesse do usuário. Assim cada tarefa de KDD extrai um tipo diferente de conhecimento do BD e requer um algoritmo diferente para a extração de conhecimento.

KDDTarefas de KDD

• Regras de Associação

• Classificação

• Clustering.

• O KDD é dividido em 3 tarefas:

Page 15: KDD e Data Mining

Tarefas de KDDRegras de Associaçao

• A transformação de uma tabela da base de dados para o formato binário é realizada substituindo um atributo de cardinalidade K por K atributos binários.

• Uma regra de associação é um relacionamento da forma X => Y, onde X e Y sãoconjuntos de itens e a interseção deles, X ∩ Y, é o conjunto vazio.

• Cada regra é associada a um fator suporte superior (Fsup), e a um fator de confidência (Fconf).

• A definição desses fatores fornece uma medida capaz de distinguir associações interessantes, dado que as regras geradas em forma binária aumentam consideravelmente o espaço de busca de qualquer algoritmo minerador.

Page 16: KDD e Data Mining

Tarefas de KDDClassificação

• Na tarefa de classificação cada tupla ou registro pertence a uma classe dentre um conjunto pré-definido de classes. As tuplas compõe-se de atributos preditivos e um atributo objetivo, cujo valor definido pelo usuário indica a que classe essa tupla pertence.

• O atributo objetivo pode ter valores discretos como SIM ou NÃO, um valor pertencente a um intervalo de números inteiros, etc.

• O propósito da tarefa de classificação é descobrir algum tipo de relacionamento entre os atributos preditivos e o atributo objetivo que permita encontrar um conhecimento que possa ser utilizado para prever a classe de uma tupla ainda não classificada.

Page 17: KDD e Data Mining

Tarefas de KDDClassificação

• A análise de pequenos conjuntos de dados normalmente é realizada manualmente, mas para grandes conjuntos é mais eficiente realizar um processo automático de clustering por meio da tecnologia de mineração de dados.

• Na clusterização, classes são criadas através da produção de partições do banco de dadosem conjuntos de tuplas com valores de atributos semelhantes. Após a criação das classes,emprega-se um algoritmo de classificação para produzir regras para cada uma delas.

• A qualidade da clusterização depende da medida utilizada para aferir a similaridade das tuplas. Um bom agrupamento possui similaridade intra-classe alta e inter-classe baixa.

Mede-se também a qualidade do método pela sua habilidade para descobrir algum ou todos os padrões escondidos.

Page 18: KDD e Data Mining

Data Mining

“É o processo de busca por dados, por PADRÕES anteriormente desconhecidos e uso frequente desses padrões para predizer CONSEQUÊNCIAS futuras.”

• Jeff Jonas e Jim Harper

Page 19: KDD e Data Mining

Data Mining

“É a concepção de modelos computacionais capazes de identificar e revelar padrões desconhecidos mas existentes entre dados pertencentes a uma ou mais bases de dados”

Page 20: KDD e Data Mining

Objetivos da DM• Descobrir PADRÕES– Representar informações úteis para a empresa– Caso da Cerveja e da Fralda

• Descrever– Explicar resultados ou valores obtidos em

determinados dados ou negócios

• Prever– Antecipar o comportamento ou valor futuro de algum

fenômeno com base em conhecimento prévio.

Page 21: KDD e Data Mining

Como implementar Data Mining• Algoritmos baseados em redes neurais– Processamento de dados de maneira semelhante ao

cérebro humano– Decisões baseadas na aprendizagem

• Algoritmos estatísticos– Utilizados na análise de dados, a fim de encontrar padrões

e correlações entre eles

• Algoritmos de Aprendizado– Extrair padrões a partir da interação com o ambiente

Page 22: KDD e Data Mining

Aplicações de Data Mining

• Cross-Selling– Identificar associação entre produtos

• Up-Selling– Identificar potenciais clientes para determinados

produtos

• Fidelização– Descobrir fatores associados a perda de clientes

Page 23: KDD e Data Mining

Processo de DM

Entendimento do Negócio

Entendimento dos Dados

Preparação dos Dados

ModelagemAvaliação

Aplicação

Data

Page 24: KDD e Data Mining

Exemplos

Áreas de aplicações potenciais– Médica• Comportamento de pacientes• Identificar terapias de sucessos para diferentes

tratamentos• Fraudes em planos de saúdes• Comportamento de usuários de planos de saúde

Page 25: KDD e Data Mining

Exemplo 1

• Fraldas e cervejas– O que as cervejas tem a ver com as fraldas ?– homens casados, entre 25 e 30 anos;– compravam fraldas e/ou cervejas às sextas-feiras à

tarde no caminho do trabalho para casa;– Wal-Mart otimizou às gôndolas nos pontos de

vendas, colocando as fraldas ao lado das cervejas;– Resultado: o consumo cresceu 30% .

Page 26: KDD e Data Mining

Exemplo 2

• Lojas Brasileiras (Info 03/98)– Aplicou 1 milhão de dólares em técnicas de data

mining – Reduziu de 51000 produtos para 14000 produtos

oferecidos em suas lojas.– Exemplo de anomalias detectadas:

–Roupas de inverno e guarda chuvas encalhadas no nordeste

–Batedeiras 110v a venda em SC onde a corrente elétrica é 220v

Page 27: KDD e Data Mining

Exemplo 3

Bank of America (Info 03/98)– Selecionou entre seus 36 milhões de clientes• Aqueles com menor risco de dar calotes • Tinham filhos com idades entre 18 e 21 anos• Resultado em três anos o banco lucrou 30 milhões de

dólares com a carteira de empréstimos.

Page 28: KDD e Data Mining

Concluindo...

• Destaca-se Data Mining como parte de um processo maior, denominado KDD, e que se refere ao meio pelo qual padrões são extraídos e enumerados a partir dos dados;

• O uso dessas técnicas proporciona meios para encontrar informações que permitam detectar tendências e características até então desconhecidas, reagir rapidamente a um evento que ainda pode estar por vir, entre outras coisas.

Page 29: KDD e Data Mining

Referências• Conceitos e Aplicações de Data Mining – Universidade Metodista de

Piracicaba – Heloisa & Angela;

• Fayyad et al. (1996). Advances in knowledge discovery and data mining, AAAI Press/MIT Press;

• http://www.infolink.com.br/~mpolito/mining/mining.html;

• http://www.lci.ufrj.br/~labbd/semins/grupo1;

• Redes Neurais – Uma ferramenta para KDD e Data Mining – Antonio Carlos.

Page 30: KDD e Data Mining