integração de mineração de dados com sgbd – detecção de...
TRANSCRIPT
Integração de Mineração de Dados
com SGBD – Detecção de
Agrupamentos
Centro de Matemática Computação e Cognição-UFABC
Jéssica Andressa de Souza
Pós-Graduação em Ciência da Computação
Sistemas de Banco de Dados
Professora: Maria Camila Nardini Barioni
Roteiro
• Integração de Métodos de MD com SGBDR• Detecção de Agrupamentos de Dados
▫ Similaridade▫ Funções de Distância▫ Domínios dos Dados Complexos
• Algoritmos
▫ Algoritmos de Particionamento Algoritmo k-means
▫ Algoritmos Hierárquicos
• Agrupamento Semi-Supervisionado• Referências
2
Integração de Métodos de Mineração
de Dados com SGBD Relacionais
• Uma grande quantidade de dados gerada e acumulada nas últimas décadas
▫ Motivação nos estudos de técnicas e métodos de mineração de dados
▫ Dados armazenados fora dos sistemas de gerenciamento de dados (SGBD)
▫ Problema de gerenciamento de dados
▫ Tempo para exportação
3
Integração de Métodos de Mineração
de Dados com SGBD Relacionais
• Facilita o processo de descoberta de conhecimento
• Facilita as consultas
• Gestão de grande conjuntos de dados
▫ Tolerância a falhas
▫ Acesso seguro
▫ Controle de concorrência
▫ [...]
• Implementação de algoritmos utilizando SQL (Ordonez, 2006)
4
Detecção de Agrupamentos de Dados
• Dividir os elementos de um conjunto de dados emgrupos que sejam significativos
▫ Similaridade entre os objetos por meio de uma função dedistância
5
Similaridade
• Medida de Similaridade
▫ Específica para cada domínio
▫ Similaridade é difícil de definir, mas [...] Reconhecemos quando a vemos!
6
Funções de Distância
▫ Existem várias funções de distâncias
Ex.: Função de distância Lp (Minkowski)
Aplicada a domínios vetoriais
7
Domínios dos Dados Complexos
▫ Dados complexos
Não são formados por apenas tipos simples de dados
Objeto binário BLOB (ex.: imagens)
Extrair um conjunto pré-definido de características inerentes de a seus dados
Domínios tradicionais (ex.: posição geográfica)
Comparados por similaridade por meio da aplicação de uma função de distância sobre os valores dos atributos que os compõem
8
Detecção de Agrupamento
• Classificação
▫ Supervisionada É fornecida uma referência do objetivo a ser
alcançado
▫ Semi-supervisionada Baseia-se em um modelo fornecido
▫ Não supervisionada Não é fornecida nenhuma referência externa
9
Algoritmos
• Vários algoritmos de detecção de agrupamento foramdesenvolvidos. Esses algoritmos podem ser divididos emduas categorias:
• Algoritmos de particionamento
▫ Divisão do conjunto de objetos de dados em subconjuntos(grupos) não interseccionados
• Algoritmos hierárquicos
▫ Conjunto de grupos aninhados organizados como umaárvore.
10
Algoritmos
• Sejam os dados: a, b, c, d, e, f
• Algoritmos de particionamento:
▫ {{a, b}; {c, d, e}; {f} }
• Algoritmos hierárquicos:
11
a, b, c, d, e, f
a, b c, d, e, f
a b c, d, e f
Algoritmos
• O algoritmo K-means ou K-médias
▫ Técnica particional
▫ Simples
▫ Centróide
▫ É um dos algoritmos mais antigo e amplamente usado
12
Algoritmo K-means
1. Atribuem-se valores iniciais para os protótipos seguindo algum critério, por exemplo, sorteio aleatório desses valores dentro dos limites de domínio de cada atributo;
2. Atribui-se cada objeto ao grupo cujo protótipo possua maior similaridade com o objeto;
3. Recalcula-se o valor do centróide (protótipo) de cada grupo, como sendo a média dos objetos atuais do grupo;
4. Repete-se os passos 2 e 3 até que os grupos se estabilizem;
13
Algoritmo K-means
14
Algoritmo K-means
15
Algoritmo K-means
• O objetivo do agrupamento geralmente é expresso por uma função objetivo
▫ Depende das proximidades dos pontos
▫ Centróides do grupo
• Dado um conjunto n objetos com p características, deseja-se distribuir estes objetos em k grupos, considerando umamedida de similaridade (distância entre os objetos).
K-means – Demonstração Interativahttp://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html
16
Agrupamento Semi-Supervisionado
• Os exemplos rotulados são utilizados no processo de formação dos clusters
▫ Expressos na forma de restrições
• Vários algoritmos de clustering semi-supervisionado têm sido propostos
▫ COP K-means, SEEDED K-means e CONSTRAINED K-means
17
Agrupamento Semi-Supervisionado
• Categorizados em duas classes:
▫ Agrupamento semi-supervisionado baseado em restrição
▫ Agrupamento semi-supervisionado baseado em distância
18
Restrições
• Must-link
▫ Duas instâncias devem pertencer ao mesmo grupo
• Cannot-link
▫ Duas instâncias não devem ser colocadas no mesmo grupo
19
X Y
YX
Baseado em Restrições
20
Um agrupamento que satisfaça todas as restrições
Baseado em Distâncias
21
Um espaço de distâncias aprendidas
Benefícios e Problemas
▫ Benefícios:
Facilita a previsão dos rótulos dos objetos Maximização da similaridade entre os objetos da
mesma classe
▫ Problemas
Viabilidade Nem todos os conjuntos de restrições são úteis
22
Agrupamento Baseado em Restrições
• Solução para o problema de integração de váriasfontes de dados sem perder informaçõesimportantes.
• Problema de Integração▫ Diferentes fontes de dados▫ Inconsistência e Redundância
COP K-means - Demonstraçãohttp://www.wkiri.com/research/cop-kmeans/
23
Aplicações Potenciais
▫ Bioinformática (agrupamento de proteínas)
(2011) Data Integration via Constrained Clustering: An Application to Enzyme Clustering
▫ Categorização de imagens
(2010) Semi-Supervised Cluster Analysis of ImagingData
24
Artigo
• Jain, Anil J. Data Clustering: 50 yearsbeyond K-means (2010).
• Fazer um resumo do artigo entregar na aula de26/07 - mínimo de 1 e máximo de 3 páginas
25
Referências
Tan, Pang-Ning; Steinbach, Michael; Kumar, Vipin. Introdução aoData Mining. Rio de Janeiro: Editora Ciência Moderna Ltda.,2009.
Hand, Jiawei; Kamber, Micheline. Data Minig – Concepts andTechniques. Second Edition.
Xindong Wu; Kumar, Vipin; Quinlan, Ross J.; et al. Top 10Algorithms in Data Mining, 2007.
26