introdução à análise de agrupamentos (abordagem numérica e conceptual) prof. francisco de a. t....

53
Introdução à Análise de Introdução à Análise de Agrupamentos Agrupamentos (Abordagem Numérica e (Abordagem Numérica e Conceptual) Conceptual) Prof. Francisco de A. T. de Carvalho [email protected]

Upload: internet

Post on 17-Apr-2015

109 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Introdução à Análise de Introdução à Análise de AgrupamentosAgrupamentos

(Abordagem Numérica e Conceptual)(Abordagem Numérica e Conceptual)

Prof. Francisco de A. T. de [email protected]

Page 2: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Agrupamento (Clustering)Agrupamento (Clustering)

Conjunto de Métodos usados para a construção de grupos de objetos com base nas semelhanças e diferenças entre os mesmos de tal maneira que os grupos obtidos são os mais homogêneos e bem separados possíveis.

Agrupar para que?

Simplificação dos dadosProcura de agrupamentos “naturais”Geração de HipótesesPredição com base nos grupos formados

O que é um grupo? Não existe uma única definição satisfatóriaCoesão internaIsolamento externo

Page 3: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

a) Grupos coesos e isolados

b) Grupos isolados mas não coesos

c) Grupos coesos com vários pontos intermediários

d) Não existência de grupos “naturais”

(a) (b) (c) (d)

Page 4: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

a) Seleção dos indivíduos, objetos, casos, itens, OTU’s

b) Seleção das variáveis, descritores, características

c) Construção da Tabela de Dados

d) Escolha de um Índice de Proximidade

e) Construção da Matriz de Proximidades

f) Seleção de um Algoritmo de Formação de Grupos emfunção do tipo de agrupamento desejado

g) Análise e Interpretação dos Resultados

Principais Etapas da Formação de AgrupamentosPrincipais Etapas da Formação de Agrupamentos

Page 5: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Indivíduos

: conjunto dos indivíduos (população, amostra)

Variáveis

A Cada característica (escolhida pelo usuário ou por um especialista), pode-se associar uma ou mais variáveis:

Di: Domínio da variável yi

)(y

D:y

i

ii

Page 6: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

As variáveis podem ser

quantitativascontínuas (ex, Peso, Altura)discretas (ex, numero de antenas, número de

filhos)qualitativas (ex, sexo, grau de instrução)binárias (ex, presença de asas)

com escala

nominal (ex, sexo (masculino, feminino)),ordinal (ex, Grau de instrução{primário, segundário, superior})intervalar (ex, grau celsius)proporcional (ex, grau kelvin, idade)

Page 7: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Representação do Conhecimento (lista de pares atributo-valor)

Y = {y1, …, yp} : Conjunto de variáveis (descritores, atributos, …)

D = {D1, …, Dp} : Conjunto dos domínios das variáveis

= {1, …, p} : Conjunto dos indivíduos (casos, objetos, observações)

)(y,),(y,),(y

DD:Y

jpjij1j

p1

Page 8: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Tabela de Dados

X = (xij; i = 1, …, p ; j = 1, …, n) onde xij = yi(j)

Tipos de Tabelas

quantitativasqualitativasbináriasheterogêneas

Exemplo:

Nome Cobertura doCorpo

Cavidades doCoração

Temperaturado Corpo

Fertilização

mamífero pelos 4 regulada internapássaro penas 4 regulada interna

réptil pele seca 4 imperfeitas não regulada internaanfíbio pele úmida 3 não regulada externapeixe escamas 2 não regulada externa

Page 9: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Índices de Proximidade

• Similaridade• Dissimilaridade

Índice de Similaridade

É uma função

tal que

),(s),(

R:s

baba

),(),,(s),(s baabba

bababamaxbbaa com ,),(),,(ss),(s),(s

Page 10: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Índice de Dissimilaridade

É uma função

tal que ),(d),(

R:d

baba

),(),,(d),(d baabba

aaa ,0),(d

),(ss),(d bamaxba

Page 11: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

1,)(y)(y),(d

1p

1jbjajba

Exemplos de Índices de Proximidade

a) Tabelas de variáveis quantitativas

b) Tabelas de variáveis binárias

a 1 0

b

1

0

x y

z w

(Jaccard) zyx

x),(s ba

Page 12: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Outros aspectos relativos aos índices de proximidade

•Escala das Variáveis

•Correlação entre as Variáveis

•Descrições heterogêneas (Variáveis de diferentes tipos)

•Índices de proximidade entre padrões descritos por strings ou árvores

•Índices de proximidade dependentes do contexto

•Índices de proximidade conceptual

Page 13: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Tipos de espaços de classificação (ie, estrutura a Tipos de espaços de classificação (ie, estrutura a priori do espaço das observações)priori do espaço das observações)

Seja um conjunto de indivíduos à agrupar

Partição

Uma partição de é um conjunto de subconjuntos não vaziosP = (P1, , Pk) de interseção vazia dois a dois e cuja união forma

a) l {1, , k}, Pl b) l,m {1, , k}, l m, Pl Pm = c) l Pl =

Page 14: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

ObservaçõesObservações

**

* *

*

*

*

P1

P2

P3

**

* *

*

*

*

Partição

Page 15: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

CoberturaCobertura

Uma cobertura de Uma cobertura de é um conjunto de subconjuntos não é um conjunto de subconjuntos não vaziosvaziosP = (PP = (P11, , , P, Pkk) cuja união forma ) cuja união forma

a) a) l l {1, {1, , k}, P, k}, Pll b) b) ll P Pll = =

* **

*

*

*

*

P1

P2

P3

* **

*

*

*

*

Page 16: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

* 7* 5*

6

* 4

* 2

* 1

* 3*

*

*

**

**

HierarquiaHierarquia

Seja H um conjunto de subconjuntos não vazios de Seja H um conjunto de subconjuntos não vazios de . H é . H é uma hierarquia seuma hierarquia se

a) a) H; H;b) b) , {, {} } H Hc) c) h, h h, h’’ H, tem-se: h H, tem-se: h h h’’ = = ou h ou h h h’’ ou h ou h’’ h h

Page 17: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

1 23 4 5 6 7

DendrogramaDendrograma

Page 18: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

PiramidePiramide

Seja P um conjunto de subconjuntos não vazios de de Seja P um conjunto de subconjuntos não vazios de de . P é . P é uma piramide seuma piramide se

a) a) P; P;

b) b) , {, {} } P P

c) c) h, h h, h’’ P, tem-se: h P, tem-se: h h h’’ = = ou h ou h h h’’ P P

d) Existe uma ordem d) Existe uma ordem tal que todo elemento de P seja um tal que todo elemento de P seja um intervalo deintervalo de

Page 19: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

* 2* 1

* 3

1 23 4 5 6 7

* 7* 5*

6

* 4

Page 20: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Métodos de AgrupamentoMétodos de Agrupamento

Em Taxonomia Numerica distingue-se tres grupos de Em Taxonomia Numerica distingue-se tres grupos de métodosmétodos

Técnicas de OtimizaçãoTécnicas de Otimização

Objetivo: obter uma partição. Número de grupos sempre Objetivo: obter uma partição. Número de grupos sempre fornecido pelo usuáriofornecido pelo usuário

Técnicas hierarquicasTécnicas hierarquicas

Objetivo: obter uma hierarquia (ou uma piramide) Objetivo: obter uma hierarquia (ou uma piramide) Pode-se obter uma partição “cortando-se” a hierarquia em Pode-se obter uma partição “cortando-se” a hierarquia em um determinado nível.um determinado nível.

Técnicas de CoberturaTécnicas de Cobertura

Objetivo: obter grupos que eventualmente podem partilhar Objetivo: obter grupos que eventualmente podem partilhar indivíduos.indivíduos.

Page 21: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Outros Aspectos Relativos aos Métodos de Outros Aspectos Relativos aos Métodos de AgrupamentoAgrupamento

Métods Aglomerativos versus Métodos DivisivosMétods Aglomerativos versus Métodos Divisivos

Métodos Monotéticos versus Métodos PoliteticosMétodos Monotéticos versus Métodos Politeticos

Agrupamento Hard versus Agrupamento FuzzyAgrupamento Hard versus Agrupamento Fuzzy

Métodos Incrementais versus Métodos não IncrementaisMétodos Incrementais versus Métodos não Incrementais

Page 22: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Algoritmo Geral de Agrupamento Hierárquico Algoritmo Geral de Agrupamento Hierárquico AglomerativoAglomerativo

Passo 1: Iniciar o agrupamento formado por grupos unitários

Passo 2: Encontre, no agrupamento corrente, o par de grupos de dissimilaridade mínima

Passo 3: Construa um novo grupo pela fusão desse par de grupos de dissimilaridade mínima

Passo 4: Atualize a matriz de dissimilaridades: suprima as linhas e ascolunas correspondentes aos grupos fusionados e adicione uma linha e uma coluna correspondente as dissimilaridades entre o novo grupo e os grupos antigos

Passo 5: Se todos os objetos estão grupados, pare; senão vá para o passo 2

Page 23: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Exemplo Exemplo

E01:E01:(Sono=Pouco,T=Carro,Conic=Sim,Alcool=Não,Sair=Não,Fome=Si(Sono=Pouco,T=Carro,Conic=Sim,Alcool=Não,Sair=Não,Fome=Sim) m) E02:E02:(Sono=Pouco,T=Carona,Conic=Não,Alcool=Não,Sair=Sim,Fome=(Sono=Pouco,T=Carona,Conic=Não,Alcool=Não,Sair=Sim,Fome=Sim) Sim) E03:E03:(Sono=Sim,T=Carro,Conic=Não,Alcool=Sim,Sair=Sim,Fome=Não(Sono=Sim,T=Carro,Conic=Não,Alcool=Sim,Sair=Sim,Fome=Não) ) E04:E04:(Sono=Sim,T=Outros,Conic=Sim,Alcool=Sim,Sair=Sim,Fome=Nã(Sono=Sim,T=Outros,Conic=Sim,Alcool=Sim,Sair=Sim,Fome=Não) o)

Passo 1: C1={E01}, C2={E02}, C3={E03}, C4={E04}Passo 2: dmin = 2 C5= C3 C4 = {E03,E04} Passo 3:

0

20

540

5530

D

0

40

530

D

Page 24: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Exemplo Exemplo

Passo 4: dmin = 3 C6= C1 C2 ={E01,E02} Passo5

Passo 6: dmin = 4 C7 = C5 C6 ={E01,E02,E03,E04}

0

40

E04E03E02E01

C5C6

C07

Page 25: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Técnicas Hierárquicas Aglomerativas Técnicas Hierárquicas Aglomerativas

Single Link

Complete Link

Group Average Link (UPGMA))

Wighted Average Link (WPGMA))

Unweighted Centroid (UPGMC)

Weighted Centroid (WPGMC) ou Mediana

WARD

Page 26: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Algoritmo dos Centros Móveis (MétodosAlgoritmo dos Centros Móveis (Métodos dede PartiçãoPartição) )

Passo 1: Fixe o número de grupos e escolha uma partição inicial

Passo 2: Para cada grupo q encontre o centro de gravidade (vetor de médias)

Passo 3: Atribua cada objeto i à classe q cujo centro de gravidade é o mais próximo

Passo 4: Retornar ao passo 1 enquanto existirem modificações na composição dos grupos

Page 27: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

ExemploExemplo

y1 1.0 1.5 3.0 5.0 3.5 4.5 3.5y2 1.0 2.0 4.0 7.0 5.0 5.0 4.5 Passo 1: k = 2 e G1={1,2,3} e G2={4,5,6,7}

Passo2: g1 = (1.83, 2.33) e g2 = (4.13, 5.38)

Passo3:

d(wi,g1) 1.57 0.47 2.04 5.64 3.15 3.782.74d(wi,g2) 5.38 4.28 1.78 1.83 0.74 0.531.08Grupo G1 G1 G2 G2 G2 G2 G2

Passo 4: G1={1,2} e G2 = {3,4,5,6,7} Houve modificação dos grupos? Sim. Vá para o passo 2

Etc.

Page 28: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Critérios para a obtenção de uma PartiçãoCritérios para a obtenção de uma Partição

Alguns dos principais critérios para a obtenção de uma partição baseiam-se na equação da MANOVA:

T = W + B

T sendo fixo, quando menor W maior será B (maior homogeneidade e maior separação entre os grupos)

Minimização do traço(W) dependente da escalafavorece grupos esféricosfavorece a formação de grupos de mesmo cardinal

Minimização do determinante de Wnão depende da escalanão favorece grupos esféricos impõe a mesma forma aos gruposfavorece a formação de grupos de mesmo cardinal

Page 29: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Agrupamento ConceptualAgrupamento Conceptual

Um grupo pode ser descrito em:

extensão (enumeração dos seus membros) ouem compreensão (conjunto de propriedades que

definem a pertinência de um elemento à um grupo)

Agrupamento não conceptual fornece:

apenas descrição em extensão de cada grupo. a obtenção dos grupos leva em conta apenas as descrições dos individuos.

Agrupamento conceptual fornece:também a descrição em compreensão (intencional)

de cada grupo.formação dos grupos levam em consideração

também a qualidade da descrição em compreensão de cada grupo

Page 30: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Agrupamento Conceitual funciona em 2 fases:Agrupamento Conceitual funciona em 2 fases:

agregação: encontrar grupos de um conjunto de indivíduos segundo uma estrutura considerada e um ou mais critérios fixados

caracterização: determinar uma descrição (conceito) de cada um dos grupos obtidos na fase de agregação

Em aprendizagem de máquina caracterização = aprendizagem à partir de exemplos

As 2 fases podem ser:

simultâneas

seqüenciais (na maioria dos casos)

Page 31: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Geração de k AgrupamentosGeração de k Agrupamentosem competiçãoem competição

Iniciar com (Conjunto de Individuos)

Agrupamento 1Agrupamento k

•••

{C11, …, C1m1}

{Ck1, …, Ckmk}

Iniciar com um Agrupamento

•••

Geração de descrições conceituais em competição par o Agrupamento

{D1(C1), ... D1(C1m1) ... {Dn(C1), ... Dn(C1m1)

Page 32: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Tipos de abordagens em Agrupamento Tipos de abordagens em Agrupamento Conceitual:Conceitual:3 dimensões3 dimensões

Estrutura do espaço de observação:

partição, hierarquia, cobertura

Algoritmo:

incremental (Formação de Conceitos) ou batch (Descoberta de Conceitos)

Linguagem de descrição (representação do conhecimento):

Logica de Atributos (ordem 0)

Logica de Predicados de 1a Ordem

Logica de predicados de 2a Ordem

Page 33: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Caracterização (descrição) dos grupos em lógica 0

Seja um conjunto de observações descritas por p atributos (variáveis) y1, …, yp cujos dominios são D1, …, Dp.

Um objeto simbólico a = [y1 A1] … [y1 Ap], onde Ai Di, i {1, …, p}, expressa a condição “atributo y1 toma seus valores em A1 e … e atributo yp toma os seus valores em Ap”

Pode-se associar à a uma função f: {1, 0} tal quefa() = 1 yi () Ai, i {1, …, p},

A extensão de a é definida como ext (a) = { / fa()=1}

Page 34: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Exemplo

variaveis

Dominios

CorTamanh

oForma

{azul, verm, verde}

{grande, medio, pequeno}

{esfera, bloco, triangulo}

Considere o seguinte objeto simbólico

a = [Cor {az,vm}] [Tam {g}] [Forma {e,b}]

a é uma generalização de qualquer conjunto de objetos cuja cor é azul ou vermelho, cujo tamanho é grande e cuja forma é esfera ou bloco

Page 35: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Da mesma forma, esta na extensão de a (é membro de a) se fa()=1

isto é, se sua cor é azul ou vermelha, seu tamanho é grande e sua forma é esfera ou bloco

Dizemos que um objeto simbólico a é uma generalização de um conjunto de indivíduos se , fa()=1

Sejam dois objetos simbólicos a = i [yi Ai] e b = i [yi Bi].

Diz-se que b < a se Bi Ai i. Nesse caso diz-se que a é mais geral do que b e b é menos geral do que a

Diz-se que um objeto simbólico a é maximamente especifico de um conjunto de indivíduos se:a é uma generalização de e não existe um outro objeto simbólico b generalização de tal que b < a

Page 36: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Sejam os individuos

1 = [Cor {az}] [Tam {g}] [Forma {e}]

2 = [Cor {az}] [Tam {m}] [Forma {e}]

3 = [Cor {az}] [Tam {p}] [Forma {b}]

Três possíveis generalizações desses conjuntos por um objeto simbólico

a = [Cor {az}] [Tam {g,m,p}] [Forma {e,b}]b = [Cor {az}] [Tam {g,m,p}] [Forma {e,b,t}]c = [Cor {az,vm,vd}] [Tam {g,m,p}] [Forma {e,b,t}]

c é mais geral do que b que é mais geral do que a

a é maximamente especifico do conjunto de indivíduos acima.

Page 37: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Um objeto simbólico a é uma descrição discriminante de um conjunto 1 de indivíduos em relação à um outro conjunto 2 de individuos se:

a é uma generalização de 1 e não existe 2 tal que fa()=1

Um objeto simbólico a é uma descrição maximamente discriminante de um conjunto 1 de indivíduos em relação à um outro conjunto 2 de indivíduos se:

a é uma descrição discriminante de 1 em relação à 2 e não existe um outro objeto b i) que seja uma descrição discriminante de 1 em relação à 2 e ii) que seja mais geral do que a (b > a)

Page 38: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Exemplo

Grupo 1 (G1)

1 = [Cor {az}] [Tam {l}] [Forma {e}]

Grupo 2 (G2)

1 = [Cor {vm}] [Tam {l}] [Forma {b}]

1 = [Cor {vm}] [Tam {l}] [Forma {t}]

Descrições maximamente discriminantes de G1 em relação à G2

a = [Cor {az,vd}] [Tam {l,m,p}] [Forma {e,b,t}]

b = [Cor {az,vm,vd}] [Tam {l,m,p}] [Forma {e}]

Descrições maximamente discriminantes de G2 em relação à G1

c = [Cor {vm,vd}] [Tam {l,m,p}] [Forma {e,b,t}]

d = [Cor {az,vm,vd}] [Tam {l,m,p}] [Forma {b,t}]

Page 39: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Atribuição de descrições maximamente discriminantes aos Grupos 1 e 2

Descrições

disjuntas

Descrições

não disjuntas

Grupo1 Grupo 2

b = …[Forma {e}]

d = …[Forma {b,t}]

a = [Cor {az,vd}] …

c = [Cor {vm,vd}] …

a = [Cor {az,vd}] …

d = …[Forma {b,t}]

b = …[Forma {e}]c = [Cor {vm,vd}] …

Em geral conjuntos disjuntos da mesma variável implicarão em descrições maximamente discriminantes de um grupo em relação à outros grupos

Page 40: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Algoritmo CLUSTER/2Algoritmo CLUSTER/2

Descoberta de Conceitos (em batch) Dois módulos

• Partição• Hieraráquico

Exemplo

Nome Cobertura doCorpo

Cavidades doCoração

Temperaturado Corpo

Fertilização

mamífero pelos 4 regulada internapássaro penas 4 regulada internaréptil pele seca 4 imperfeitas não regulada interna

Anfíbio-1 pele úmida 3 não regulada internaAnfibio-2 Pele-úmida 3 não regulada externa

Page 41: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Módulo partiçãoMódulo partição

Formando Agrupamentos inicias

Semente 1 Semente 2 Semente k

D1

1

D1

2

D1n1 D2

1

D2

1

D2n2……

Encontrar descrições maximamente discriminantes

Atribuir os objetos à cada descrição Dij obtendo as classes Cij

C1

1

C1

2

… C1n1 C2

1

C2

1

… C2n2

Page 42: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

• seleção de k(2) sementes aleatoriamente

Nome Cobertura doCorpo

Cavidades doCoração

Temperaturado Corpo

Fertilização

Semente 1 mamífero pelos 4 regulada internaSemente 2 réptil pele seca 4 imperfeitas não regulada interna

encontrar descrições maximamente discriminantes de cada um dos k (2) grupos à partir das sementes

a1=[Cobertura do Corpo={pelos, penas, pele úmida}]

a2= [Cavidades do Coração = {3, 4}]

a3= [Temperatura do Corpo= {regulada}]

b1=[Cobertura do Corpo={penas, pele seca, pele úmida}]b2= [Cavidades do Coração = {3, 4 imperfeitas}]b3= [Temperatura do Corpo= {não regulada}]

Semente 1 Semente 2

Page 43: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

• Atribuição dos objetos à cada descrição Dij obtendo as classes Cij

a2= [Cavidades do Coração = {3, 4}]

b2= [Cavidades do Coração = {3, 4 imperfeitas}]

Semente 1

Semente 2

G1=Ext(a2)={Mamífero, Pássaro, Anfíbio-1, Anfíbio-2}

G2=Ext(a2)={Réptil, Anfíbio-1, Anfíbio-2}

Obtendo descrições dos grupos

Tornando os grupos disjuntos

G1G2

G1={Mamífero, Pássaro} G2={Réptil}

Lista de exceções

{Anfíbio-1, Anfíbio-2}

Page 44: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

• Obtendo descrições maximamente específicas de cada grupo

a2= [Cobertura do Corpo = {pelos, penas}] [Cavidades do Coração = {4}] [Temperatura do Corpo = {regulada}] [Fertilização = {interna}]

G1 = {Mamífero, Pássaro}

G2 = {Réptil}

b2= [Cobertura do Corpo = {pele seca}] [Cavidades do Coração = {4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna}]

Page 45: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

a1= [Cobertura do Corpo = {pelos, penas,pele úmida}] [Cavidades do Coração = {3,4}] [Temperatura do Corpo = {regulada,não regulada}] [Fertilização = {interna}]

Agrupamento A (G1 + Anfíbio-1)

C1

C2

Agrupamento B (G2 + Anfíbio-1)

b1= [Cobertura do Corpo = {pele seca}] [Cavidades do Coração = {4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna}]

a2= [Cobertura do Corpo = {pelos, penas}] [Cavidades do Coração = {4}] [Temperatura do Corpo = {regulada}] [Fertilização = {interna}]

b2= [Cobertura do Corpo = {pele úmida, pele seca}] [Cavidades do Coração = {3,4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna}]

Inserindo o primeiro objetos da lista de exceções nos grupos e obtendo descrições maximamente específicas de cada grupo

Page 46: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Avaliação dos Agrupamentos obtidos em função da qualidade das descrições

Critério: a) para cada par de descrições de agrupamentos diferentes calcula-se o número de variáveis cuja interseção é vazia; b) faz-se a soma para cada par; o agrupamento escolhido é aquele cuja soma é máxima

o Agrupamento B é selecionado

O segundo objeto da lista de exceções é inserido no agrupamento Bum processo semelhante ao descrito para a incorporação de anfíbio-1 é relizado

O processo descrito deve ser realizado para todas as 9 combinações de descrições maximamente discriminantes

Das 9 possibilidades, escolhe-se a melhor partição em dois grupos

Em seguida, novas sementes são selecionadas e o processo continua

Page 47: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

O módulo hierárquico construi uma árvore de classificação Nessa árvore os arcos representam as descrições e nós a

extensão de cada grupo

Módulo Hierarquico

[Cobertura do Corpo = {pelos, penas}] [Cavidades do Coração = {4}] [Temperatura do Corpo = {regulada}] [Fertilização = {interna}]

[Cobertura do Corpo = {pele úmida, pele seca}] [Cavidades do Coração = {3,4 imperfeitas}] [Temperatura do Corpo = {não regulada}] [Fertilização = {interna, externa}]

{mamífero, pássaro, réptil, anfíbio-1, anfíbio-2}

{mamífero, pássaro}

{réptil,anfíbio-1,anfíbio-2}

Page 48: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Classificação politética

Construção de árvore de cima para baixo

O módulo hierárquico usa o módulo partição como uma subrotina

o módulo partição fornece partições de vários tamanhos (2, 3 e 4) e seleciona a melhor

O módulo hierárquico construi um nível da árvore de cada vez

A construção da árvore finaliza quando a qualidade da partição obtida no nível seguinte não é melhorada

Page 49: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

IFCS

BCS SFC GfKlJCS

Congressos Bianuais da IFCS

Congressos anuais das Associações Nacionais

http://edfu.lis.uiuc.edu/~class/ifcs

CSNA•••

Page 50: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Referências Fisher, D.H. and Langley, P. W., “ Methods of Conceptual

Clustering and their relation to Numerical Taxonomy”, Technical Report 85-26, University of California, Irvine, 1985

Fisher, D. H., “ Knowledg Acquisition via Incremental Conceptual Clustering”, Machine Leaning, Vol2, No. 2, pp. 139-172, 1987

Guenoche, ª , “Generalization and Conceptual Classification: Indices and Algorithms”, Proceedings of the Conference on Data Analysis, Learning symbolic and Numeric Knowledg, pp. 503-510, INRIA, Antibes, 1989

Kodratoff, Y. and Ganascia, J., “Improving the Generalization Step in Learning,” Chapter in the book, Machine Learning:An Artificial Intelligence Approach, R. S. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), TIOGA Publishing Co., PaloAlto, pp. 215-244, 1983.

Page 51: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Lebowitz, M., “Experiments with Incremental Concept Formulation:

UNIMEN”, Machine Learning, Vol. 2, No. 2, pp. 103-138, 1987.

Michalski, R. S., Stepp, R., and Diday, E., "A Recent Advance in Data Analysis: Clustering Objects into Classes Characterized by Conjunctive Concepts," Chapter in the book Progress in Pattern Recognition, Vol. 1, L. Kanal and A. Rosenfeld (Editors), North-Holland, pp. 33-55, 1981

Michalski, R. S. and Stepp, R., "Learning from Observation: Conceptual Clustering," Chapter in the book, Machine Learning:An Artificial Intelligence Approach, R. S. Michalski, J.G. Carbonell and T.M. Mitchell (Eds.), TIOGA Publishing Co., PaloAlto, pp. 331-363, 1983.

Michalski, R.S. and Kaufman, K.A., "Data Mining and Knowledge Discovery: A Review of Issues and a Multistrategy Approach," Reports of the Machine Learning and Inference Laboratory, MLI 97-2, George Mason University, Fairfax, VA, 1997.

Page 52: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Formação de ConceitosFormação de Conceitos

Dado: um conjunto de instâncias e as suas descrições respectivas (apresentados seqüencialmente ou não)

Encontrar: agrupamentos que organizem essas instâncias em grupos

Encontrar: uma definição intencional de cada grupo

Encontrar: uma organização hierárquica desses grupos

Com que objetivo: para uma melhor compreensão do mundo e para prever o comportamento do mesmo no futuro

Page 53: Introdução à Análise de Agrupamentos (Abordagem Numérica e Conceptual) Prof. Francisco de A. T. de Carvalho fatc@cin.ufpe.br

Características dos Métodos para Formação de Características dos Métodos para Formação de ConceitosConceitos

Representação do conhecimento em uma hierarquia conceptual

cada nó representa um conceitoos nós são ordenados parcialmente segundo a

generalidadecada nó dispõe de uma descrição intencional do conceito

Classificação Top-dow das instâncias

Natureza não supervisionada das tarefas de aprendizagem

Integração da aprendizagem e da performancea componente performance (classificar uma instância)

dirige a aprendizagem (modificação da hierarquia de conceitos)

Aprendizagem como uma escalada incremental de colinas