descoberta de conhecimento em bases de dados e mineração de dados

Descoberta de Conhecimento em Bases de Dados

e Mineração de DadosRicardo Bezerra de Andrade e Silva

[email protected]

Exemplo preliminar

Roteiro

Exemplo preliminar Motivação Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão

Problema

Um problema do mundo dos negócios: entender o perfil dos clientes– para desenvolvimento de novos produtos;– para controle de estoque em postos de

distribuição;– propaganda mal direcionada gera maiores gastos e

desestimula o possível interessado a procurar as ofertas adequadas;

Quais são meus clientes típicos?

Prólogo

Situação

A empresa possui registro de todas as transações efetuadas;

O conteúdo desse banco de dados possui informação suficiente para categorizar diferentes comportamentos;

Mas como aproveitar este conteúdo?– “Afogados em dados, mas mendigando por

informação”; Solução: apoio em ferramentas de análise

automatizada;

Prólogo

Definição da tarefa

Tarefa escolhida: segmentação de mercado consumidor para auxílio a marketing;

Categorias (classes): – produtos de esporte;– equipamentos de exercício;– eletrodomésticos;– produtos de entretenimento;– produtos para o lar;

Prólogo

Seleção de dados

Utilizando o conhecimento que dispõe do domínio, o analista responsável decide que todas as informações necessárias encontram-se nas seguintes tabelas:– clientes: nome, identificação, idade, sexo, estado civil,

endereço, renda, proprietário da casa;

– produtos: nome, identificação, preço, categoria, quantidade em estoque, quantidade encomendada;

– transações: identificador de cliente, identificador de produto, data e hora, quantidade;

Prólogo

Seleção de Dados (II)

Agrupando informações em uma única tabela;

Prólogo

Prólogo

Aplicação de algoritmo

Decidiu-se aplicar um algoritmo de aprendizado para agrupar os clientes em quatro conjuntos– ex.: rede de Kohonen do tipo vector quantization;

A idéia do algoritmo é dispor, em conjuntos, clientes que apresentem aspectos similares;

Posteriormente, os dados são organizados em uma planilha, onde o número do grupo (1, 2, 3, ou 4) é utilizado como chave primária;

A planilha calcula estatísticas de cada grupo, comparando-as com toda população;

Alguns resultados (I)

Prólogo

Alguns resultados (II)

Prólogo

Motivação

Roteiro


Motivação

A informatização dos meios produtivos permitiu a geração de grandes volumes de dados:– Transações eletrônicas;– Novos equipamentos científicos e industriais para

observação e controle;– Dispositivos de armazenamento em massa;

O uso adequado da informação permite ganho de competitividade: conhecimento é poder,

Motivação

Motivação

Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução: – processo iterativo de criação, teste e

refinamento de hipóteses;

Tornam-se necessários novos métodos capazes de automatizar parte deste processo– busca em um espaço de hipóteses;

Motivação

Descoberta de Conhecimento em Bancos de Dados “O processo não trivial de extração de

informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”;

“Torture os dados até eles confessarem”; Envolve a etapa de mineração de dados: a

aplicação de algoritmos de análise de dados;

Motivação

Interesse em Ascensão

International Conference onKnowledge Discovery and Data Mining

Junho de 1998: ACM SIGKDD Algumas companhias envolvidas:

– IBM– Microsoft– SAS Institute– Silicon Graphics

Motivação

Conceitos básicos

Roteiro


Conhecimento, sobre a ótica de KDD (Fayyad et al., 1996):

Conhecimento ={ X | f(X, V, N, U, I) > T}

O Que é Um Padrão Interessante? Válido; Novo; Útil; Interpretável;

KDD x Data Mining

Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável;

KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;

Conceitos

Processo

Compreensão do domínio e dos objetivos da tarefa;Criação do conjunto de dados envolvendo as variáveis necessárias;

Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc.

Redução de dimensionalidade, combinação de atributos;

Escolha e execução do algoritmo de acordo com a tarefa a ser cumprida

Interpretação dos resultados, com possível retorno aos passos anteriores;

Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados; Conceitos

Métodos de data mining

Roteiro


Métodos de mineração de dados: campos relacionados (I) Inteligência Artificial

– aprendizado de máquina;– representação de conhecimento e inferência;

Estatística– inferência estatística;– análise exploratória de dados;

Computação gráfica– visualização de dados;

Métodos

Métodos de mineração de dados: campos relacionados (II) Bancos de dados

– linguagens de consulta• o que é uma descoberta, afinal? Exibir todos os

empregados que ganham dentro de uma determinada faixa salarial é uma descoberta?

– armazém de dados (data warehousing);– processamento analítico on-line (OLAP);– paralelização de processos;– tendências:

• consultas por similaridade;• consultas de classificadores, grupos e outros objetos;

Métodos

Métodos de mineração de dados

Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais;

Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva;

Métodos

Tarefas básicas

Previsão– Cálculo de variáveis de interesse a partir dos

valores de um conjunto de variáveis de explicação;

– É comumente visada em aprendizado de máquina/estatística;

– Exemplos: classificação e regressão;

Métodos

Tarefas básicas

Descrição– Reportar relações entre as variáveis do modelo

de forma simétrica;– À princípio, está mais relacionada ao processo

de KDD;– Exemplos: agrupamento, sumarização

(incluindo sumário de textos), dependências, análise de desvio;

Métodos

Exemplo de previsão (I)

Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra:– se a renda é menor que

t, então o crédito não deve ser liberado

Exemplo: – árvores de decisão;– indução de regras

renda

déb

ito

xx

xx

x

x

x

o

oo

oo

o

o

o

o

t

sem crédito

o

o: exemplo aceitox: exemplo recusado

Análise de crédito

Métodos

Exemplo de previsão (II)

Hiperplano oblíquo: melhor separação:

Exemplos: – regressão linear;

– perceptron;


renda

déb

ito

xx

xx

x

x

x

o

oo

oo

o

o

o

o

t

sem crédito

o


Métodos

Exemplo de previsão (III)

Superfície não linear: melhor poder de classificação, pior interpretação;

Exemplos: – perceptrons

multicamadas;

– regressão não-linear;


renda

déb

ito

xx

xx

x

x

x

o

oo

oo

o

o

o

o

t

sem crédito

o


Métodos

Exemplo de previsão (IV)

Métodos baseado em exemplos;

Exemplos:– k-vizinhos mais

próximos;

– raciocínio baseado em casos;


renda

déb

ito

xx

xx

x

x

x

o

oo

oo

o

o

o

o

t

sem crédito

o


Métodos

Exemplo de descrição (I)

Agrupamento Exemplo:

– vector quantization;

renda

déb

ito

++

++

+

+

+

+

++

++

+

+

+

+

t

+

+: exemplo


Métodos

Exemplo de descrição (II)

Regras de associação– “98% dos consumidores que adquiriram pneus

e acessórios de automóveis também se interessaram por serviços automotivos”;

– descoberta simétrica de relações, ao contrário de métodos de classificação

• qualquer atributo pode ser uma classe ou um atributo de discriminação;

Métodos

Métodos

Exemplo de descrição (III) Previsão de séries temporais

Iden

tifi

caçã

o d

os in

vest

imen

tos

mai

s p

rom

isso

res

nos

pró

xim

os 3

0 d

ias;

Garimpando resultados

Transformar 1.000.000 de registros em mil regras é bom, mas...– o que fazer com estas 1000 regras?

Medidas de utilidade– subjetivas

• dependentes de domínio• demanda especialistas com tempo livre;

– objetivas• mais independentes;• um dos pontos chaves de KDD;

Métodos

Medidas objetivas de utilidade: grau de surpresa Validade

– utilizando limiares de confiança, apenas as regras (por exemplo) mais importantes seriam apresentadas;

E as exceções?– informações úteis não estão simplesmente nas

regularidade mais comuns. Padrões inesperados podem também ser úteis;

– Exemplo de método:• visualização de grupos de outliers;

Métodos

Métodos

Exemplo: algoritmo para regras de pequeno alcance (I) São regras que cobrem apenas uma pequena

quantidade de dados:– potencial para descrever relações interessantes e

anteriormente despercebidas;– porém, são facilmente descartadas em filtragens

por limiar de grau de cobertura;• como distingui-las de ruído?

Idéia do algoritmo: – criar pequenas generalizações das regras em estudo

e comparar a cobertura obtida;

Exemplo: algoritmo para regras de pequeno alcance (II) Algoritmo:

– para cada antecedente a de uma regra• se a é categórico, retire-o da regra;• se a é contínuo, aumente o intervalo no qual o antecedente é válido;• conte o número D de vezes em que a classe obtida é diferente da

classe da regra original;

– calcule uma medida M em função de D e do total de antecedentes N.

• exemplo: M = D/N;

– valores altos de M tenderão a capturar as relações mais úteis;

Métodos

Escalabilidadetécnicas para acelerar um processo KDD

Amostragem– redução de precisão;

Algoritmos distribuídos– particionar o banco de dados em p partições;– utilizar um processador diferente para cada

partição;– utilizar um método de combinação de resultados;

Paralelismo (intra-algorítimico)

Métodos

O perigo da falta de análise:paradoxo de Simpson (I)

Hospital A Hospital B

MorreramSobreviveram

632037

16784

Total 2100 800

Métodos

3% 2%

O hospital A parece ser o menos adequado.

O perigo da falta de análise:paradoxo de Simpson (II)

Números x Bom-senso: “Lies, Damned Lies, and Statistics”

Métodos

...and data mining?

Hosp. A Hosp. B


6594

Total 600 600

8592

Hosp. A Hosp. B


571443

Total 1500 200

8192

1% 1.3%

3.8% 4%

Boas condições

Más condições

O hospital A é melhor!

A busca por causalidade

Correlação não é o mesmo que causalidade– “lama” e “chuva” são dois conceitos

relacionados, mas como inferir que um é causa do outro?

– A média de idade da Flórida é grande. O clima da Flórida faz as pessoas viverem mais?

• Explicação plausível: muitas pessoas mudam-se pra lá quando se aposentam;

Experimentos controlados

Métodos

Exemplos de aplicação

Roteiro


SKICAT (Sky Image Cataloging and Analysis Tool)

Digital Palomar Observatory Sky Survey– banco de dados com três terabytes de imagens

da ordem de dois bilhões de objetos celestes;

Tarefas: – diferenciar estrelas de galáxias

• uma vez classificadas, análise científicas mais específicas são aplicadas;

– classificar objetos de brilho fraco

Aplicações

SKICAT: algoritmo de aprendizado

Regras extraídas de algoritmos de geração de árvores originam-se de uma única árvore;

RULER– alternativa: geração de várias árvores. Somente as melhores

regras de cada árvore são mantidas;– Divide-se a base de dados em vários conjuntos treinamento

(para árvores) e teste (para regras);– Podando regras: calcula-se a chance de que uma dada

premissa esteja correlacionada com a classe especificada por pura sorte;

– Produz-se, assim, uma base robusta de regras;– Redução da base por um algoritmo de cobertura de

conjuntos;

Aplicações

SKICAT: pré-processamento

“Em problemas de classificação, a escolha dos atributos utilizados para definir exemplos é o fator mais determinante do sucesso ou fracasso do processo de aprendizado”– garbage in, garbage out;

Uso de um programa público de processamento de imagens:– baseado nos agrupamentos de pixels constituindo cada objeto

detectado, produzem-se os atributos básicos discriminadores• ex,: brilho e orientação;

Aplicações

SKICAT: Gerenciando o conhecimento

Catálogo de objetos on-line utilizando-se um gerenciador de banco de dados– permitir ao usuário localizar corpos celestes e

consultar informações dos mesmos;

Casamento de objetos obtidos de fontes diferentes;

Aplicações

Kefir (Key Findings Reporter)

Análise de desvios– descoberta de diferenças significativas entre

valores medidos e valores anteriores ou padrões;

Funções do Kefir– descobrir, explicar e relatar derivações chave;

Finding– Conjunto de valores relacionados (atual,

anteriores, padrão) de uma dada medida;

Aplicações

Health-Kefir

Motivação: organizações precisam controlar gastos com saúde, planejando medidas que venham a diminuir gastos futuros. MAS,...– gasta-se muito tempo preparando-se relatórios, perdendo-

se oportunidade importantes; Oportunidade para análise automática de dados:

– métodos do mercado de saúde baseiam-se em medidas padrões de vários aspectos, como preço, uso e qualidade;

– dimensões principais:• população: empregados de uma empresa, moradores de um

bairro...;• área de estudo: nascimentos prematuros, internações...;• medidas: tempo de internação...

Aplicações

Health-Kefir

O grau de interesse em um desvio está diretamente relacionado ao benefício atingível através das ações possíveis;– os desvios interessantes são aqueles que indicam

problemas que podem ser corrigidos;– significância estatística;

Pagamentos_por_caso– desvios crescentes desta medida são altamente

relevantes para o sistema Health-Kefir;– como reduzir custos futuros;

Aplicações

Health-Kefir

Cálculo de desvio para cada setor e subsetor;– extrapolação linear;

92 93 94 95

valores padrões

valores reais

desvio

tempo

med

ida

Aplicações

Aplicações

Health-Kefir

Explicações– identificação do subsetor(es) mais responsável(is) pelo

desvio encontrado;

– recursivo;

internação

morte admissão

cirurgia clínica mental gravidez

Health-Kefir

Recomendação– os relatórios preparados precisam indicar

soluções;– uso de conhecimento de domínio para realizar

tal tarefa:SE medida = admissão_por_1000 E setor = partos_prematuros E percentagem_mudança > 0.10RECOMENDE “Iniciar um programa de acompanhamento pré-natal”COM percentagem_de_economia = 0.6

Aplicações

Health-Kefir: exemplo de saída

Aplicações

Admissões médicas

O tempo médio de permanência nesta área de estudo cresceu 22,6%, de 4,1 a 5,1. Em torno de $36.000 poderiam ser economizados se o tempo médio de permanência se mantivesse no valor esperado de 4,9. Se esta tendência permanecer, resultará em gastos adicionais de $263.000 de despesas adicionais.

Explicações: o aumento desta medida está relacionada ao aumento do tempo médio de permanência, no Medical Nervous System, em 247,9%, de 4.4 para 15.2.

Recomendação: ...

Economia prevista: $79.000

Conclusão

Roteiro


Diretrizes

Onde o processo de descoberta de conhecimento deve ser aplicado?– A tarefa é propícia ao estudo de novos experimentos;– não há nenhuma outra boa alternativa de análise de dados;– disponibilidade de dados suficientes;

• com nível aceitável de ruído;• sem problemas de ordem jurídica;

– especialistas disponíveis para• avaliação do grau de interesse das descobertas obtidas;• seleção de atributos;• descrição de conhecimento a priori em geral;

Conclusão

Sumário das aplicações apresentadas Marketing

– agrupamento

SKICAT– classificação

Health-Kefir– análise de desvio com sistema baseado em

conhecimento;

Conclusão

Endereços interessantes

KDNuggets Directory– http://www.kdnuggets.com

The Data Mine– http://www.cs.bham.ac.uk/~anp/TheDataMine.html

Microsoft Decision Theory and Adaptive Systems– http://research.microsoft.com/dtas/

DBMiner: demonstração– http://db.cs.sfu.ca/DBMiner/dbmdemo.html

Conclusão

Referências

Bigus, J. (1995). Data Mining with Neural Networks. McGraw-Hill. Fayyad, U.; Haussler, D.; Stolorz, P. (1996). "KDD for Science Data

Analysis: Issues and Examples”. Proceedings of Second International Conference on Knowledge Discovery and Data Mining (KDD-96), AAAI Press. Disponível no endereço http://research.microsoft.com/ ~fayyad.

Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. (1995). “From Data Mining to Knowledge Discovery: An Overview”, em Advances in Knowledge Discovery and Data Mining. AAAI Press.

Freitas, A. A. (1997). “On objective measures of rule surprisingness”. Em Proceedings of the 2nd European Symposium Principles of Data Mining and Knowledge Discovery. Disponível no endereço http://dainf.cefetpr.br/~alex/thesis.html.

Referências

Imielinski, T; Mannila, H. (1996). “A Database Perspective on Knowledge Discovery”. Communications of the ACM, volume 39, número 11.

Matheus, C.; Piateteky-Shapiro, G.; McNeill, D. (1995). ”Selecting and Reporting What is Interesting”. Em Advances in Knowledge Discovery and Data Mining. AAAI Press.

Spirtes, P.; Glymour, C; Scheines, R. (1993). Causation, Prediction and Search. Lecture Notes in Statistics, 83. Springer-Verlarg. Disponível no endereço http://hss.cmu.edu/html/departments/ philosophy/TETRAD.BOOK/book.html

descoberta de conhecimento em bases de dados e mineração de dados

Documents