clustering: uma revisÃo aos algoritmos bÁsicos hector enrique de la hoz leÓn

33
CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

Upload: internet

Post on 18-Apr-2015

108 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

CLUSTERING: UMA REVISÃO AOS ALGORITMOS

BÁSICOS

H E C T O R E N R I Q U E D E L A H O Z L E Ó N

Page 2: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

ORDEM DA APRESENTAÇÃO

• Introdução• Motivação• Componentes de algoritmos de

clustering• Definições.• Algoritmos de clustering• Aplicação.

Page 3: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

INTRODUÇÃO

• Clustering: É o processo de classificação não supervisionada de padrões em grupos chamados de clusters.

Aprendizado supervisiona

do

dados

Classificação

Aprendizado NÃO

supervisionado

dados

Page 4: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

DADOS NÃO CLASSIFICADOS

DADOS CLUSTERIZADOS

Page 5: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

MOTIVAÇÃO

• Grandes quantidades de dados são geradas e armazenadas diariamente.

• A pressão da competência é forte.

• Os Computadores são poderosos e baratos.

Page 6: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

COMPONENTES DOS SISTEMAS DE CLUSTERING

Clusters

Representação de padrõesDado

Extração de características

Medida de Similaridade

Agrupamento

Loop de Feedback

Page 7: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

CARACTERÍSTICAS

SELEÇÃO

• Ao processo de Identificar o conjunto mais representativo de características.

EXTRAÇÃO

• Utilizar uma ou mais transformações no conjunto de características para gerar novas propriedades ainda mais representativas.

As características podem ser:• Qualitativas .• Quantitativas.

Page 8: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

REPRESENTAÇÃO DOS CLUSTERS

• Pelo centroide do cluster. • Por pontos distantes do cluster.• Utilizando nós em arvores de

classificação.• Utilizando expressões logicas

conjuntivas.

Page 9: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

• Os clusters estão formados por dados com características semelhantes.

• São as relações que medem a distância entre um par de padrões no espaço de características

FUNÇÃO DE SIMILARIDADE

𝑫 (𝒙 𝒊 , 𝒙 𝒋 )=∑𝒌=𝟏

𝒅

√(𝒙 𝒊 ,𝒌−𝒙 𝒋 ,𝒌)𝟐

• Euclidiana.• Minkowski (p>2)• Mahalonobis• Manhattan

Page 10: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

AGRUPAMENTO

Page 11: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

CLASSIFICAÇÃO DOS ALGORITMOS DE CLUSTERING

Clustering

Hierárquico Divisional

Link completo

Busca

Link simples

Erro quadrático CSP

Max. da esperança

k-means

Teoria de grafos

Page 12: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

ABORDAGENS PARA CLUSTERIZAÇÃO (PARTE I)

• Aglomeração.• Inicia tantos cluster quantos dados.

• Separação.• Inicia um clusters só.

• Monothetic.• Todas as características são utilizadas simultaneamente.

• Polithetic.• As características são utilizadas sequencialmente.

Page 13: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

• Duro• Cada dado pertence a um e só um cluster.

• Fuzzi• Cada dado é classificado com uma variável de

pertinência a cada cluster

ABORDAGENS PARA CLUSTERIZAÇÃO (PARTE II)

Page 14: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

EXEMPLOS DAS ABORDAGENS

Aglomerativo Monothetic

Fuzzi

Page 15: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

DEFINIÇÕES FUNDAMENTAIS (PARTE I)

• Padrão: Itens de dados utilizados pelos algoritmos de clustering. Representados por um vetor de características.

• Características: Cada uma das componentes dos padrões (Atributos).

• Conjunto de dados: O conjunto de padrões analisados pelo algoritmo.

Page 16: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

• Classe: • Estado da natureza que governa a geração de

padrões. • uma fonte de padrões cuja distribuição no espaço de

característica esta governada por uma determinada função de densidade de probabilidade.

• Rotulo:• É o valor assignado pelo algoritmo de clustering aos

dados que pertencem à mesma classe.

DEFINIÇÕES FUNDAMENTAIS (PARTE II)

Page 17: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

CLUSTERING HIERARQUICOS(LINK SIMPLES)

• Iniciar o algoritmo colocando cada padrão do conjunto de dados em um cluster diferente.

• Construir a lista das distâncias entre os padrões e organiza-la em forma ascendente.

• Percorrer a lista de distâncias ordenadas, e aglomerar os padrões com distancias menores do que um determinado D.

• Repetir até obter o numero de clusters desejados:• Calcular a distância entre todos os pares de padrões de classes

diferentes.• Aglomerar as classes cuja mínima distância seja menor do que D.• Atualizar as distâncias e atualizar D caso necessário.

Page 18: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

CLUSTERING HIERARQUICOS

L I N K S I M P L E S L I N K C O M P L E T O

Page 19: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

CLUSTERING TEORIA DE GRAFOS

• Calcular o minimal spanning tree (MST).

• Formar os cluster eliminando as ramas de maior valor.

Page 20: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

CLUSTERING INCREMENTAL

• Iniciar o algoritmo associando um padrão ao primer cluster

• Analisar o seguinte padrão do conjunto de dados e classifica-lo em algum dos clusters existentes ou em um novo cluster baseando-se em algum critério de similaridade.

• Repetir o passo anterior até todos os padrões estarem classificados.

Page 21: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

CLUSTERING INCREMENTAL

Page 22: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

K-MEANS

• Escolher k pontos, dentro do espaço de características, representando os centros dos k clusters em que é desejado dividir o conjunto de dados.

• Assignar cada padrão ao centro mais próximo de acordo com a função de similaridade.

• Recalcular os centros dos clusters utilizando os dados membros de cada cluster.

• Repetir o algoritmo desde o item dois até atingir um critério de parada.

Page 23: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

• O seu tempo de convergência é proporcional ao numero de padrões n, ao numero de clusters k e ao numero de iterações l.

• O espaço de memoria requerido é proporcional ao numero de dados e ao numero de clusters.

• Para um dado conjunto inicial de centros, o algoritmo gera a mesma partição de dados sem importar a ordem em que os dados são apresentados.

• sensibilidade com respeito à seleção dos k primeiros centros.

CARACTERÍSTICAS DO K-MEANS

Page 24: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

SELEÇÃO DOS K CENTROS.

• Selecionar os extremos e/ou o centro do espaço de características como centroides iniciais dos clusters.

• Dividir o espaço de características e selecionar randomicamente em cada seção algum ponto como centroide de um cluster. Isto garante que os centroides estejam espalhados por todo o espaço de caraterísticas.

• Selecionar os centros dos clusters perto do centro de massa do conjunto de dados. Cada centro é obtido adicionando um valor randômico ao centro de massa dos dados.

Page 25: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

COMPARAÇÃO ENTRE TÉCNICAS

Algoritmo de

clustering

Complexidade

Tempo Espaço

Líder O(kn) O(k)K-Means O(knl) O(k)ISODATA O(knl) O(k)Shortest Spanning

Path (SPP)

O() O(n)

Link Simples O() O()

Link Completo O() O()

Page 26: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

APLICAÇÃO EM BINARIZAÇÃO DE IMAGENS DIGITAIS

Page 27: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

APLICAÇÃO EM BINARIZAÇÃO DE IMAGENS DIGITAIS (OTSU)

• Efetuar o cálculo do histograma da intesidade dos pixeis.

• Calcular o limiar que maximize a variância ponderada entre as classes

𝝈𝟐=𝝎𝟏 (𝝉 )𝝈𝟐𝟏 (𝝉 )+𝝎𝟐(𝝉)𝝈𝟐

𝟐(𝝉)

Page 28: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

APLICAÇÃO EM BINARIZAÇÃO DE IMAGENS DIGITAIS (OTSU)

Page 29: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

APLICAÇÃO EM BINARIZAÇÃO DE IMAGENS DIGITAIS (OTSU)

Page 30: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

• Efetuar o cálculo do histograma de cores.

• Seleção das cinco cores de maior frequência como possível centroide do cluster.

• Escolhe-se como semente aquela que possui maior quantidade de pixeis a uma distância de Manhattan menor do que um limiar τ (utilizou-se nesta aplicação um limiar τ=20).

APLICAÇÃO EM BINARIZAÇÃO DE IMAGENS DIGITAIS (K-MEANS)

Page 31: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

𝑑𝑖 (𝑝 ,𝑞 )=||𝑝−𝑞𝑖||

APLICAÇÃO EM BINARIZAÇÃO DE IMAGENS DIGITAIS (K-MEANS)

Page 32: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

APLICAÇÃO EM BINARIZAÇÃO DE IMAGENS DIGITAIS (K-MEANS)

Page 33: CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS HECTOR ENRIQUE DE LA HOZ LEÓN

OBRIGADO