descoberta de conhecimento em bases de dados - dcbd (mineração de dados, data mining) luis otavio...

40
Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS [email protected]

Upload: internet

Post on 17-Apr-2015

111 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Descoberta de Conhecimento em Bases de Dados - DCBD(mineração de dados, data mining)

Luis Otavio Alvares – II/UFRGS

[email protected]

Page 2: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Sumário

• Introdução

• Conceito de DCBD

• Tipos de descobertas

• Processo de DCBD

• Bibliografia

Page 3: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Introdução

• Grande quantidade de informações armazenadas em muitas áreas: comércio,indústria, governo, etc.

• Exemplos:– cada compra em um supermercado fica registrada

em um arquivo (código de barra)– todas as chamadas telefônicas (origem, destino,

horário, duração, ...)– o SUS mantém registro magnético de todos os

atendimentos realizados (hospital, data, médico, diagnóstico, procedimentos realizados, ...)

Page 4: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Exemplo de uso de conhecimento

Michael Dell: venda de assinaturas de jornais

Page 5: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

BDs atuais

• BDs atuais são feitos para armazenar e recuperar rápida e eficientemente dados operacionais

• BDs atuais são úteis para recuperar dados específicos, mas não são capazes de extrair conhecimento genérico

• Exemplo: um sistema bancário recupera rapidamente as últimas movimentações ou o saldo de uma conta, mas teria dificuldade em descrever o perfil do cliente em relação a outros clientes ou determinar se ele seria um bom pagador em caso de fazer um empréstimo

Page 6: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

• Introdução

Conceito de DCBD

• Tipos de descobertas

• Processo de DCBD

• Bibliografia

Page 7: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Descoberta de conhecimento em bases de dados

Objetivo: estudar e desenvolver um processo capaz de extrair conhecimento novo, útil e interessante implícito em coleções de dados (BD) e representá-lo de forma acessível para o usuário.

Page 8: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Descoberta de conhecimento em bases de dados

Objetivo: – descoberta de “conhecimento” a partir de

dados existentes– identificar relacionamentos entre os dados e

gerar regras para aplicar em casos futuros

Page 9: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Relações da DCBD com outras áreas

• O processo de DCBD utiliza conhecimento de várias áreas:– BD– IA: aprendizagem de máquina, redes neurais,

representação de conhecimento, ...– estatística

Page 10: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

DCBD: Exemplo

Predição de consumo de água:

• Dados: – consumo diário de água– aspectos do tempo (temperatura, umidade do

ar, …)– dia da semana e do mês, feriado, férias, ...

• Objetivo: minimizar o consumo de energia elétrica no bombeamento

Page 11: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

• Introdução

• Conceito de DCBD

Tipos de descobertas

• Processo de DCBD

• Bibliografia

Page 12: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Tipos de descobertas

Os dois principais objetivos de alto nível da DCBD são a descrição e a previsão

• a descrição se concentra em encontrar padrões que descrevem os dados de forma compreensível para o usuário

• a previsão envolve usar valores conhecidos de campos ou variáveis para prever o valor desconhecido ou futuro de variáveis de interesse

para isso, utiliza-se vários tipos de descoberta ou tarefas de DCBD

Page 13: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

“Tipos” de descobertas

• Dependência (associação) entre atributos (o valor de um influencia o outro)

• Exemplos: – determinados procedimentos médicos aparecem

sempre juntos– determinados procedimento médicos aparecem

sempre associados a homens e outros a mulheres– compradores de leite geralmente compram pão na

mesma transação– em 80% das transações em que é comprada

cerveja, também é comprada batata frita

Page 14: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Exemplo: vendas casadas

PRODUTO APRODUTO A

PRODUTO APRODUTO A

PRODUTO BPRODUTO B

Oferta deproduto relacionado

Compra deproduto

Page 15: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

“Tipos” de descobertas (cont.)

• Formação de agrupamentos: é uma tarefa descritiva onde se procura identificar um conjunto finito de categorias ou agrupamentos que descrevem os dados

+

+

+++

+

++

+

+ +

+

+

+

+

+

+

++

+

+++

Renda

Dívida

Agrupamento 3

Agrupamento 1

Agrupamento 2

Page 16: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

“Tipos” de descobertas (cont.)

• Detecção de seqüências: detecção de dependências em relação ao tempo, em uma ordem determinada.

• Exemplo: – determinado procedimento médico sempre precede

outro– determinado procedimento só pode ser repetido após

um intervalo mínimo de tempo

Page 17: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

“Tipos” de descobertas (cont.)

• Detecção de desvios: utilizada para detectar anomalias em bases de dados. Pode evidenciar problemas na qualidade dos dados, fraudes ou descobrir eventos raros

• Exemplos:– um paciente foi submetido a três cirurgias para

extração de rim– um homem submetido à cesariana– a incidência da doença “x” é bem maior no município

“y” do que nos municípios vizinhos

Page 18: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Exemplos de aplicações

• Cartões de crédito

• Empresas de energia elétrica e água

• SUS

Page 19: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

exemplo: sistema de mortalidade

• Doenças “P” – Algumas afecções originadas no período perinatal:– Uruguaiana apresenta um desvio significativo em

relação a esta doença, pois foram registrados muito mais casos de morte do que o esperado.

– Porto Alegre registrou menos mortes do que a quantidade esperada, para esta doença.

• Caxias do Sul apresenta um desvio em relação às doenças “Q- malformação congênita, deformidades e anomalias cromossômicas”. Foi registrado um número de mortes significantemente maior do que o esperado para a cidade.

Page 20: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

“Tipos” de descobertas (cont.)

• Classificação ou descrição de conceitos (aprendizado supervisionado): dado um atributo que indique a classe, o algoritmo monta uma descrição para cada classe, identificando características comuns entre os membros da classe

• exemplo: – se tem salário alto, é casado, tem conta no banco e o

valor da prestação é baixo então é bom pagador– se tem salário baixo e a prestação é alta então é mau

pagador

Page 21: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Exemplos de uso

• Upgrade de pacotes de TV por assinatura

• Cancelamento de assinaturas

• Análise para concessão de empréstimos bancários

Page 22: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

• Introdução

• Conceito de DCBD

• Tipos de descobertas

Processo de DCBD

• Bibliografia

Page 23: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

O processo de DCBD

• Pouco explorado na bibliografia

• Longo

• Trabalhoso

• Muito dependente do usuário

Page 24: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Metodologia CRISP-DM

• CRISP-DM = CRoss – Industry Standard Process for Data Mining

(projeto ESPRIT com vários parceiros industriais)

• Geral - não se restringe a ferramenta ou tecnologia específica

Page 25: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Fases do CRISP-DM

Page 26: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Entendimento do Negócio(ou do domínio do problema)

Identificação dos objetivos do usuário sob o ponto de vista de DCBD e preparação de um plano inicial

• Determinar os objetivos• Avaliar a situação: disponibilidade de recursos, limitações,

etc.• Determinar os objetivos da DC: objetivo, tipo de problema

(classificação, clustering,...), critérios para avaliação do modelo.

• Produzir plano do projeto

Page 27: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Entendimento dos Dados A partir da coleta inicial, explorar os dados,

verificando suas propriedades e qualidade

• Coletar dados iniciais• Descrever os dados

– Número de atributos e instâncias em cada arquivo– Tipos e faixas de valores dos atributos– Significado de cada atributo e sua importância para o objetivo– Estatísticas básicas para alguns atributos(média, DP, máximo,

mínimo, etc.)– Relações entre os atributos-chave

• Explorar os dados• Verificar qualidade dos dados

Page 28: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Preparação de Dados

Produção de um conjunto de dados adequado aos algoritmos de mineração

• Selecionar os dados• Limpar os dados• Construir dados• Integrar dados: combinar múltiplas tabelas ou outras fontes • Formatar dados: modificações sintáticas nos dados, sem alterar o

seu significado. Ex:– Primeiro atributo tem que ser uma chave única– O arquivo tem que estar em uma ordem determinada– Retirar vírgulas dos campos para gerar um arquivo com atributos

separados por vírgulas

Page 29: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Preparação de dados – seleção de dados

Seleção de atributos• motivos:

– Requisitos de tempo e espaço– Simplicidade do modelo gerado– Relevância dos atributos– Redundância entre atributos– Acurácia pode ser aumentada

• forma:– Manual– Por algoritmos: mais de 30 algoritmos

Page 30: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Preparação de dados – seleção de dados

• Seleção de instâncias (exemplos, registros)– Manual– Por algoritmos

Page 31: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Preparação de dados – Limpeza dos dados

Visa garantir a qualidade dos dados

• Eliminação de dados errôneos –• Padronização de dados: formato de datas, abreviaturas, valores de

atributos (ex. sexo: M ou F, 0 ou 1, Mas e Fem, ...)• Eliminação de duplicatas• Tratamento de valores ausentes

– Excluir instâncias

– Completar valores ausentes• Complemento manual• Complemento com valor constante global: ex: “desconhecido”• Complementar com o valor mais provável• Complementar com o valor médio do atributo

Page 32: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Preparação de dados – Construir dados

• Transformação de dados– Normalização – Transformação de valores simbólicos para numéricos– Discretização de atributos

• Criação de novos atributos. Ex: área = comprimento x largura

Page 33: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Cabeça Corpo Sorri Segura Classe

Triangular Triangular Sim Balão Amigo

Quadrada Quadrado Sim Balão Amigo

Redonda Redondo Sim Bandeira Amigo

Quadrada Triangular Não Espada Inimigo

Triangular Redondo Sim Espada Inimigo

Redonda Quadrado Não Bandeira Inimigo

inimigo

sorri

segura

amigo inimigo

sim não

balão espada

inimigo

bandeira ou

Page 34: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Cabeça Corpo Sorri Segura Mesma forma Classe

Triangular Triangular Sim Balão Sim Amigo

Quadrada Quadrado Sim Balão Sim Amigo

Redonda Redondo Sim Bandeira Sim Amigo

Quadrada Triangular Não Espada Não Inimigo

Triangular Redondo Não Espada Não Inimigo

Redonda Quadrado Não Bandeira Não Inimigo

mesma-forma

amigo inimigo

sim não

mesma-forma

amigo inimigo

sim não

Page 35: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Modelagem

Corresponde a fase de Mineração de Dados utilizada por outros autores

• Selecionar a técnica de modelagem• Gerar projeto de teste• Construir modelo: mineração propriamente dita (aplicação do

algoritmo)• Avaliar modelo

Page 36: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Avaliação

• Interpretar e avaliar os resultados em relação aos objetivos do usuário

• Avaliar resultados• Revisar o processo• Determinar próximos passos: ir para a fase final de

disponibilização ou voltar para alguma etapa anterior

Page 37: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Disponibilização

• Planejar disponibilização: decidir a estratégia para a integração dos resultados obtidos no ambiente da organização

• Planejar monitoramento e manutenção: • Produzir relatório final• Revisar o projeto: avaliar pontos positivos e negativos do

projeto, problemas e sugestões

Page 38: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

DESAFIOS:

Descoberta de Conhecimento em Bases de Dados

0

10

20

30

40

50

60

70

80

Identificaçãodo domínio

Preparaçãodo dados

Mineraçãode dados

Análise dosresultados

Esforço (%)

Etapa

Fonte: Adriaans

Page 39: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

• Introdução

• Conceito de DCBD

• Tipos de descobertas

• Processo de DCBD

Bibliografia

Page 40: Descoberta de Conhecimento em Bases de Dados - DCBD (mineração de dados, data mining) Luis Otavio Alvares – II/UFRGS alvares@inf.ufrgs.br

Bibliografia

• ADRIAANS, Pieter, ZANTINGE, Dolf. Data Mining. Harlow :

Addison-Wesley, 1997. 158p.

• FAYYAD, Usama M. et al. Advances in Knowledge Discovery

and Data Mining. Califórnia : American Association for Artificial

Intelligence, 1996. 611p.

• BERRY, Michael J. A.; LINOFF, Gordon. Data Mining techniques

for marketing, sales and custumer support. New York: John

Wiley, 1997. 454p.

• PYLE, Dorian. Data preparation for data mining. San Diego: Academic Press, 1999. 540p.