integração de mineração de dados com sgbd – detecção de...

26
Integração de Mineração de Dados com SGBD Detecção de Agrupamentos Centro de Matemática Computação e Cognição-UFABC Jéssica Andressa de Souza Pós-Graduação em Ciência da Computação Sistemas de Banco de Dados Professora: Maria Camila Nardini Barioni

Upload: others

Post on 31-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Integração de Mineração de Dados

com SGBD – Detecção de

Agrupamentos

Centro de Matemática Computação e Cognição-UFABC

Jéssica Andressa de Souza

Pós-Graduação em Ciência da Computação

Sistemas de Banco de Dados

Professora: Maria Camila Nardini Barioni

Page 2: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Roteiro

• Integração de Métodos de MD com SGBDR• Detecção de Agrupamentos de Dados

▫ Similaridade▫ Funções de Distância▫ Domínios dos Dados Complexos

• Algoritmos

▫ Algoritmos de Particionamento Algoritmo k-means

▫ Algoritmos Hierárquicos

• Agrupamento Semi-Supervisionado• Referências

2

Page 3: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Integração de Métodos de Mineração

de Dados com SGBD Relacionais

• Uma grande quantidade de dados gerada e acumulada nas últimas décadas

▫ Motivação nos estudos de técnicas e métodos de mineração de dados

▫ Dados armazenados fora dos sistemas de gerenciamento de dados (SGBD)

▫ Problema de gerenciamento de dados

▫ Tempo para exportação

3

Page 4: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Integração de Métodos de Mineração

de Dados com SGBD Relacionais

• Facilita o processo de descoberta de conhecimento

• Facilita as consultas

• Gestão de grande conjuntos de dados

▫ Tolerância a falhas

▫ Acesso seguro

▫ Controle de concorrência

▫ [...]

• Implementação de algoritmos utilizando SQL (Ordonez, 2006)

4

Page 5: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Detecção de Agrupamentos de Dados

• Dividir os elementos de um conjunto de dados emgrupos que sejam significativos

▫ Similaridade entre os objetos por meio de uma função dedistância

5

Page 6: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Similaridade

• Medida de Similaridade

▫ Específica para cada domínio

▫ Similaridade é difícil de definir, mas [...] Reconhecemos quando a vemos!

6

Page 7: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Funções de Distância

▫ Existem várias funções de distâncias

Ex.: Função de distância Lp (Minkowski)

Aplicada a domínios vetoriais

7

Page 8: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Domínios dos Dados Complexos

▫ Dados complexos

Não são formados por apenas tipos simples de dados

Objeto binário BLOB (ex.: imagens)

Extrair um conjunto pré-definido de características inerentes de a seus dados

Domínios tradicionais (ex.: posição geográfica)

Comparados por similaridade por meio da aplicação de uma função de distância sobre os valores dos atributos que os compõem

8

Page 9: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Detecção de Agrupamento

• Classificação

▫ Supervisionada É fornecida uma referência do objetivo a ser

alcançado

▫ Semi-supervisionada Baseia-se em um modelo fornecido

▫ Não supervisionada Não é fornecida nenhuma referência externa

9

Page 10: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Algoritmos

• Vários algoritmos de detecção de agrupamento foramdesenvolvidos. Esses algoritmos podem ser divididos emduas categorias:

• Algoritmos de particionamento

▫ Divisão do conjunto de objetos de dados em subconjuntos(grupos) não interseccionados

• Algoritmos hierárquicos

▫ Conjunto de grupos aninhados organizados como umaárvore.

10

Page 11: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Algoritmos

• Sejam os dados: a, b, c, d, e, f

• Algoritmos de particionamento:

▫ {{a, b}; {c, d, e}; {f} }

• Algoritmos hierárquicos:

11

a, b, c, d, e, f

a, b c, d, e, f

a b c, d, e f

Page 12: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Algoritmos

• O algoritmo K-means ou K-médias

▫ Técnica particional

▫ Simples

▫ Centróide

▫ É um dos algoritmos mais antigo e amplamente usado

12

Page 13: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Algoritmo K-means

1. Atribuem-se valores iniciais para os protótipos seguindo algum critério, por exemplo, sorteio aleatório desses valores dentro dos limites de domínio de cada atributo;

2. Atribui-se cada objeto ao grupo cujo protótipo possua maior similaridade com o objeto;

3. Recalcula-se o valor do centróide (protótipo) de cada grupo, como sendo a média dos objetos atuais do grupo;

4. Repete-se os passos 2 e 3 até que os grupos se estabilizem;

13

Page 14: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Algoritmo K-means

14

Page 15: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Algoritmo K-means

15

Page 16: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Algoritmo K-means

• O objetivo do agrupamento geralmente é expresso por uma função objetivo

▫ Depende das proximidades dos pontos

▫ Centróides do grupo

• Dado um conjunto n objetos com p características, deseja-se distribuir estes objetos em k grupos, considerando umamedida de similaridade (distância entre os objetos).

K-means – Demonstração Interativahttp://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html

16

Page 17: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Agrupamento Semi-Supervisionado

• Os exemplos rotulados são utilizados no processo de formação dos clusters

▫ Expressos na forma de restrições

• Vários algoritmos de clustering semi-supervisionado têm sido propostos

▫ COP K-means, SEEDED K-means e CONSTRAINED K-means

17

Page 18: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Agrupamento Semi-Supervisionado

• Categorizados em duas classes:

▫ Agrupamento semi-supervisionado baseado em restrição

▫ Agrupamento semi-supervisionado baseado em distância

18

Page 19: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Restrições

• Must-link

▫ Duas instâncias devem pertencer ao mesmo grupo

• Cannot-link

▫ Duas instâncias não devem ser colocadas no mesmo grupo

19

X Y

YX

Page 20: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Baseado em Restrições

20

Um agrupamento que satisfaça todas as restrições

Page 21: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Baseado em Distâncias

21

Um espaço de distâncias aprendidas

Page 22: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Benefícios e Problemas

▫ Benefícios:

Facilita a previsão dos rótulos dos objetos Maximização da similaridade entre os objetos da

mesma classe

▫ Problemas

Viabilidade Nem todos os conjuntos de restrições são úteis

22

Page 23: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Agrupamento Baseado em Restrições

• Solução para o problema de integração de váriasfontes de dados sem perder informaçõesimportantes.

• Problema de Integração▫ Diferentes fontes de dados▫ Inconsistência e Redundância

COP K-means - Demonstraçãohttp://www.wkiri.com/research/cop-kmeans/

23

Page 24: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Aplicações Potenciais

▫ Bioinformática (agrupamento de proteínas)

(2011) Data Integration via Constrained Clustering: An Application to Enzyme Clustering

▫ Categorização de imagens

(2010) Semi-Supervised Cluster Analysis of ImagingData

24

Page 25: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Artigo

• Jain, Anil J. Data Clustering: 50 yearsbeyond K-means (2010).

• Fazer um resumo do artigo entregar na aula de26/07 - mínimo de 1 e máximo de 3 páginas

25

Page 26: Integração de Mineração de Dados com SGBD – Detecção de ...professor.ufabc.edu.br/~camila.barioni/arquivos/A... · Integração de Mineração de Dados com SGBD –Detecção

Referências

Tan, Pang-Ning; Steinbach, Michael; Kumar, Vipin. Introdução aoData Mining. Rio de Janeiro: Editora Ciência Moderna Ltda.,2009.

Hand, Jiawei; Kamber, Micheline. Data Minig – Concepts andTechniques. Second Edition.

Xindong Wu; Kumar, Vipin; Quinlan, Ross J.; et al. Top 10Algorithms in Data Mining, 2007.

26