descoberta de conhecimento em bases de dados e mineração de dados
DESCRIPTION
Descoberta de Conhecimento em Bases de Dados e Mineração de Dados. Ricardo Bezerra de Andrade e Silva [email protected]. Roteiro. Exemplo preliminar Motivação Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão. Exemplo preliminar. Problema. - PowerPoint PPT PresentationTRANSCRIPT
Descoberta de Conhecimento em Bases de Dados
e Mineração de DadosRicardo Bezerra de Andrade e Silva
Exemplo preliminar
Roteiro
Exemplo preliminar Motivação Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão
Problema
Um problema do mundo dos negócios: entender o perfil dos clientes– para desenvolvimento de novos produtos;– para controle de estoque em postos de
distribuição;– propaganda mal direcionada gera maiores gastos e
desestimula o possível interessado a procurar as ofertas adequadas;
Quais são meus clientes típicos?
Prólogo
Situação
A empresa possui registro de todas as transações efetuadas;
O conteúdo desse banco de dados possui informação suficiente para categorizar diferentes comportamentos;
Mas como aproveitar este conteúdo?– “Afogados em dados, mas mendigando por
informação”; Solução: apoio em ferramentas de análise
automatizada;
Prólogo
Definição da tarefa
Tarefa escolhida: segmentação de mercado consumidor para auxílio a marketing;
Categorias (classes): – produtos de esporte;– equipamentos de exercício;– eletrodomésticos;– produtos de entretenimento;– produtos para o lar;
Prólogo
Seleção de dados
Utilizando o conhecimento que dispõe do domínio, o analista responsável decide que todas as informações necessárias encontram-se nas seguintes tabelas:– clientes: nome, identificação, idade, sexo, estado civil,
endereço, renda, proprietário da casa;
– produtos: nome, identificação, preço, categoria, quantidade em estoque, quantidade encomendada;
– transações: identificador de cliente, identificador de produto, data e hora, quantidade;
Prólogo
Seleção de Dados (II)
Agrupando informações em uma única tabela;
Prólogo
Prólogo
Aplicação de algoritmo
Decidiu-se aplicar um algoritmo de aprendizado para agrupar os clientes em quatro conjuntos– ex.: rede de Kohonen do tipo vector quantization;
A idéia do algoritmo é dispor, em conjuntos, clientes que apresentem aspectos similares;
Posteriormente, os dados são organizados em uma planilha, onde o número do grupo (1, 2, 3, ou 4) é utilizado como chave primária;
A planilha calcula estatísticas de cada grupo, comparando-as com toda população;
Alguns resultados (I)
Prólogo
Alguns resultados (II)
Prólogo
Motivação
Roteiro
Exemplo preliminar Motivação Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão
Motivação
A informatização dos meios produtivos permitiu a geração de grandes volumes de dados:– Transações eletrônicas;– Novos equipamentos científicos e industriais para
observação e controle;– Dispositivos de armazenamento em massa;
O uso adequado da informação permite ganho de competitividade: conhecimento é poder,
Motivação
Motivação
Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução: – processo iterativo de criação, teste e
refinamento de hipóteses;
Tornam-se necessários novos métodos capazes de automatizar parte deste processo– busca em um espaço de hipóteses;
Motivação
Descoberta de Conhecimento em Bancos de Dados “O processo não trivial de extração de
informações implícitas, anteriormente desconhecidas, e potencialmente úteis de uma fonte de dados”;
“Torture os dados até eles confessarem”; Envolve a etapa de mineração de dados: a
aplicação de algoritmos de análise de dados;
Motivação
Interesse em Ascensão
International Conference onKnowledge Discovery and Data Mining
Junho de 1998: ACM SIGKDD Algumas companhias envolvidas:
– IBM– Microsoft– SAS Institute– Silicon Graphics
Motivação
Conceitos básicos
Roteiro
Exemplo preliminar Motivação Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão
Conhecimento, sobre a ótica de KDD (Fayyad et al., 1996):
Conhecimento ={ X | f(X, V, N, U, I) > T}
O Que é Um Padrão Interessante? Válido; Novo; Útil; Interpretável;
KDD x Data Mining
Mineração de dados é o passo do processo de KDD que produz um conjunto de padrões sob um custo computacional aceitável;
KDD utiliza algoritmos de data mining para extrair padrões classificados como “conhecimento”. Incorpora também tarefas como escolha do algoritmo adequado, processamento e amostragem de dados e interpretação de resultados;
Conceitos
Processo
Compreensão do domínio e dos objetivos da tarefa;Criação do conjunto de dados envolvendo as variáveis necessárias;
Operações como identificação de ruídos, outliers, como tratar falta de dados em alguns campos, etc.
Redução de dimensionalidade, combinação de atributos;
Escolha e execução do algoritmo de acordo com a tarefa a ser cumprida
Interpretação dos resultados, com possível retorno aos passos anteriores;
Consolidação: incorporação e documentação do conhecimento e comunicação aos interessados; Conceitos
Métodos de data mining
Roteiro
Exemplo preliminar Motivação Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão
Métodos de mineração de dados: campos relacionados (I) Inteligência Artificial
– aprendizado de máquina;– representação de conhecimento e inferência;
Estatística– inferência estatística;– análise exploratória de dados;
Computação gráfica– visualização de dados;
Métodos
Métodos de mineração de dados: campos relacionados (II) Bancos de dados
– linguagens de consulta• o que é uma descoberta, afinal? Exibir todos os
empregados que ganham dentro de uma determinada faixa salarial é uma descoberta?
– armazém de dados (data warehousing);– processamento analítico on-line (OLAP);– paralelização de processos;– tendências:
• consultas por similaridade;• consultas de classificadores, grupos e outros objetos;
Métodos
Métodos de mineração de dados
Métodos de mineração de dados normalmente são extensões ou combinações de uns poucos métodos fundamentais;
Porém, não é viável a criação de um único método universal: cada algoritmo possui sua própria tendência indutiva;
Métodos
Tarefas básicas
Previsão– Cálculo de variáveis de interesse a partir dos
valores de um conjunto de variáveis de explicação;
– É comumente visada em aprendizado de máquina/estatística;
– Exemplos: classificação e regressão;
Métodos
Tarefas básicas
Descrição– Reportar relações entre as variáveis do modelo
de forma simétrica;– À princípio, está mais relacionada ao processo
de KDD;– Exemplos: agrupamento, sumarização
(incluindo sumário de textos), dependências, análise de desvio;
Métodos
Exemplo de previsão (I)
Um hiperplano paralelo de separação: pode ser interpretado diretamente como uma regra:– se a renda é menor que
t, então o crédito não deve ser liberado
Exemplo: – árvores de decisão;– indução de regras
renda
déb
ito
xx
xx
x
x
x
o
oo
oo
o
o
o
o
t
sem crédito
o
o: exemplo aceitox: exemplo recusado
Análise de crédito
Métodos
Exemplo de previsão (II)
Hiperplano oblíquo: melhor separação:
Exemplos: – regressão linear;
– perceptron;
Análise de crédito
renda
déb
ito
xx
xx
x
x
x
o
oo
oo
o
o
o
o
t
sem crédito
o
o: exemplo aceitox: exemplo recusado
Métodos
Exemplo de previsão (III)
Superfície não linear: melhor poder de classificação, pior interpretação;
Exemplos: – perceptrons
multicamadas;
– regressão não-linear;
Análise de crédito
renda
déb
ito
xx
xx
x
x
x
o
oo
oo
o
o
o
o
t
sem crédito
o
o: exemplo aceitox: exemplo recusado
Métodos
Exemplo de previsão (IV)
Métodos baseado em exemplos;
Exemplos:– k-vizinhos mais
próximos;
– raciocínio baseado em casos;
Análise de crédito
renda
déb
ito
xx
xx
x
x
x
o
oo
oo
o
o
o
o
t
sem crédito
o
o: exemplo aceitox: exemplo recusado
Métodos
Exemplo de descrição (I)
Agrupamento Exemplo:
– vector quantization;
renda
déb
ito
++
++
+
+
+
+
++
++
+
+
+
+
t
+
+: exemplo
Análise de crédito
Métodos
Exemplo de descrição (II)
Regras de associação– “98% dos consumidores que adquiriram pneus
e acessórios de automóveis também se interessaram por serviços automotivos”;
– descoberta simétrica de relações, ao contrário de métodos de classificação
• qualquer atributo pode ser uma classe ou um atributo de discriminação;
Métodos
Métodos
Exemplo de descrição (III) Previsão de séries temporais
Iden
tifi
caçã
o d
os in
vest
imen
tos
mai
s p
rom
isso
res
nos
pró
xim
os 3
0 d
ias;
Garimpando resultados
Transformar 1.000.000 de registros em mil regras é bom, mas...– o que fazer com estas 1000 regras?
Medidas de utilidade– subjetivas
• dependentes de domínio• demanda especialistas com tempo livre;
– objetivas• mais independentes;• um dos pontos chaves de KDD;
Métodos
Medidas objetivas de utilidade: grau de surpresa Validade
– utilizando limiares de confiança, apenas as regras (por exemplo) mais importantes seriam apresentadas;
E as exceções?– informações úteis não estão simplesmente nas
regularidade mais comuns. Padrões inesperados podem também ser úteis;
– Exemplo de método:• visualização de grupos de outliers;
Métodos
Métodos
Exemplo: algoritmo para regras de pequeno alcance (I) São regras que cobrem apenas uma pequena
quantidade de dados:– potencial para descrever relações interessantes e
anteriormente despercebidas;– porém, são facilmente descartadas em filtragens
por limiar de grau de cobertura;• como distingui-las de ruído?
Idéia do algoritmo: – criar pequenas generalizações das regras em estudo
e comparar a cobertura obtida;
Exemplo: algoritmo para regras de pequeno alcance (II) Algoritmo:
– para cada antecedente a de uma regra• se a é categórico, retire-o da regra;• se a é contínuo, aumente o intervalo no qual o antecedente é válido;• conte o número D de vezes em que a classe obtida é diferente da
classe da regra original;
– calcule uma medida M em função de D e do total de antecedentes N.
• exemplo: M = D/N;
– valores altos de M tenderão a capturar as relações mais úteis;
Métodos
Escalabilidadetécnicas para acelerar um processo KDD
Amostragem– redução de precisão;
Algoritmos distribuídos– particionar o banco de dados em p partições;– utilizar um processador diferente para cada
partição;– utilizar um método de combinação de resultados;
Paralelismo (intra-algorítimico)
Métodos
O perigo da falta de análise:paradoxo de Simpson (I)
Hospital A Hospital B
MorreramSobreviveram
632037
16784
Total 2100 800
Métodos
3% 2%
O hospital A parece ser o menos adequado.
O perigo da falta de análise:paradoxo de Simpson (II)
Números x Bom-senso: “Lies, Damned Lies, and Statistics”
Métodos
...and data mining?
Hosp. A Hosp. B
MorreramSobreviveram
6594
Total 600 600
8592
Hosp. A Hosp. B
MorreramSobreviveram
571443
Total 1500 200
8192
1% 1.3%
3.8% 4%
Boas condições
Más condições
O hospital A é melhor!
A busca por causalidade
Correlação não é o mesmo que causalidade– “lama” e “chuva” são dois conceitos
relacionados, mas como inferir que um é causa do outro?
– A média de idade da Flórida é grande. O clima da Flórida faz as pessoas viverem mais?
• Explicação plausível: muitas pessoas mudam-se pra lá quando se aposentam;
Experimentos controlados
Métodos
Exemplos de aplicação
Roteiro
Exemplo preliminar Motivação Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão
SKICAT (Sky Image Cataloging and Analysis Tool)
Digital Palomar Observatory Sky Survey– banco de dados com três terabytes de imagens
da ordem de dois bilhões de objetos celestes;
Tarefas: – diferenciar estrelas de galáxias
• uma vez classificadas, análise científicas mais específicas são aplicadas;
– classificar objetos de brilho fraco
Aplicações
SKICAT: algoritmo de aprendizado
Regras extraídas de algoritmos de geração de árvores originam-se de uma única árvore;
RULER– alternativa: geração de várias árvores. Somente as melhores
regras de cada árvore são mantidas;– Divide-se a base de dados em vários conjuntos treinamento
(para árvores) e teste (para regras);– Podando regras: calcula-se a chance de que uma dada
premissa esteja correlacionada com a classe especificada por pura sorte;
– Produz-se, assim, uma base robusta de regras;– Redução da base por um algoritmo de cobertura de
conjuntos;
Aplicações
SKICAT: pré-processamento
“Em problemas de classificação, a escolha dos atributos utilizados para definir exemplos é o fator mais determinante do sucesso ou fracasso do processo de aprendizado”– garbage in, garbage out;
Uso de um programa público de processamento de imagens:– baseado nos agrupamentos de pixels constituindo cada objeto
detectado, produzem-se os atributos básicos discriminadores• ex,: brilho e orientação;
Aplicações
SKICAT: Gerenciando o conhecimento
Catálogo de objetos on-line utilizando-se um gerenciador de banco de dados– permitir ao usuário localizar corpos celestes e
consultar informações dos mesmos;
Casamento de objetos obtidos de fontes diferentes;
Aplicações
Kefir (Key Findings Reporter)
Análise de desvios– descoberta de diferenças significativas entre
valores medidos e valores anteriores ou padrões;
Funções do Kefir– descobrir, explicar e relatar derivações chave;
Finding– Conjunto de valores relacionados (atual,
anteriores, padrão) de uma dada medida;
Aplicações
Health-Kefir
Motivação: organizações precisam controlar gastos com saúde, planejando medidas que venham a diminuir gastos futuros. MAS,...– gasta-se muito tempo preparando-se relatórios, perdendo-
se oportunidade importantes; Oportunidade para análise automática de dados:
– métodos do mercado de saúde baseiam-se em medidas padrões de vários aspectos, como preço, uso e qualidade;
– dimensões principais:• população: empregados de uma empresa, moradores de um
bairro...;• área de estudo: nascimentos prematuros, internações...;• medidas: tempo de internação...
Aplicações
Health-Kefir
O grau de interesse em um desvio está diretamente relacionado ao benefício atingível através das ações possíveis;– os desvios interessantes são aqueles que indicam
problemas que podem ser corrigidos;– significância estatística;
Pagamentos_por_caso– desvios crescentes desta medida são altamente
relevantes para o sistema Health-Kefir;– como reduzir custos futuros;
Aplicações
Health-Kefir
Cálculo de desvio para cada setor e subsetor;– extrapolação linear;
92 93 94 95
valores padrões
valores reais
desvio
tempo
med
ida
Aplicações
Aplicações
Health-Kefir
Explicações– identificação do subsetor(es) mais responsável(is) pelo
desvio encontrado;
– recursivo;
internação
morte admissão
cirurgia clínica mental gravidez
Health-Kefir
Recomendação– os relatórios preparados precisam indicar
soluções;– uso de conhecimento de domínio para realizar
tal tarefa:SE medida = admissão_por_1000 E setor = partos_prematuros E percentagem_mudança > 0.10RECOMENDE “Iniciar um programa de acompanhamento pré-natal”COM percentagem_de_economia = 0.6
Aplicações
Health-Kefir: exemplo de saída
Aplicações
Admissões médicas
O tempo médio de permanência nesta área de estudo cresceu 22,6%, de 4,1 a 5,1. Em torno de $36.000 poderiam ser economizados se o tempo médio de permanência se mantivesse no valor esperado de 4,9. Se esta tendência permanecer, resultará em gastos adicionais de $263.000 de despesas adicionais.
Explicações: o aumento desta medida está relacionada ao aumento do tempo médio de permanência, no Medical Nervous System, em 247,9%, de 4.4 para 15.2.
Recomendação: ...
Economia prevista: $79.000
Conclusão
Roteiro
Exemplo preliminar Motivação Conceitos básicos Métodos de mineração de dados Exemplos de aplicação Conclusão
Diretrizes
Onde o processo de descoberta de conhecimento deve ser aplicado?– A tarefa é propícia ao estudo de novos experimentos;– não há nenhuma outra boa alternativa de análise de dados;– disponibilidade de dados suficientes;
• com nível aceitável de ruído;• sem problemas de ordem jurídica;
– especialistas disponíveis para• avaliação do grau de interesse das descobertas obtidas;• seleção de atributos;• descrição de conhecimento a priori em geral;
Conclusão
Sumário das aplicações apresentadas Marketing
– agrupamento
SKICAT– classificação
Health-Kefir– análise de desvio com sistema baseado em
conhecimento;
Conclusão
Endereços interessantes
KDNuggets Directory– http://www.kdnuggets.com
The Data Mine– http://www.cs.bham.ac.uk/~anp/TheDataMine.html
Microsoft Decision Theory and Adaptive Systems– http://research.microsoft.com/dtas/
DBMiner: demonstração– http://db.cs.sfu.ca/DBMiner/dbmdemo.html
Conclusão
Referências
Bigus, J. (1995). Data Mining with Neural Networks. McGraw-Hill. Fayyad, U.; Haussler, D.; Stolorz, P. (1996). "KDD for Science Data
Analysis: Issues and Examples”. Proceedings of Second International Conference on Knowledge Discovery and Data Mining (KDD-96), AAAI Press. Disponível no endereço http://research.microsoft.com/ ~fayyad.
Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. (1995). “From Data Mining to Knowledge Discovery: An Overview”, em Advances in Knowledge Discovery and Data Mining. AAAI Press.
Freitas, A. A. (1997). “On objective measures of rule surprisingness”. Em Proceedings of the 2nd European Symposium Principles of Data Mining and Knowledge Discovery. Disponível no endereço http://dainf.cefetpr.br/~alex/thesis.html.
Referências
Imielinski, T; Mannila, H. (1996). “A Database Perspective on Knowledge Discovery”. Communications of the ACM, volume 39, número 11.
Matheus, C.; Piateteky-Shapiro, G.; McNeill, D. (1995). ”Selecting and Reporting What is Interesting”. Em Advances in Knowledge Discovery and Data Mining. AAAI Press.
Spirtes, P.; Glymour, C; Scheines, R. (1993). Causation, Prediction and Search. Lecture Notes in Statistics, 83. Springer-Verlarg. Disponível no endereço http://hss.cmu.edu/html/departments/ philosophy/TETRAD.BOOK/book.html