análise de agrupamentos marcílio souto dimap/ufrn

Post on 22-Apr-2015

113 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Análise de Agrupamentos

Marcílio Souto

DIMAp/UFRN

O que é Análise de Agrupamentos?

• A análise de agrupamentos “classifica” objetos (instâncias) de modo que cada objeto é muito semelhante aos outros no agrupamento (grupo ou cluster) em relação a algum critério de seleção pré-determinado

• Os grupos resultantes de objetos deve exibir elevada homogeneidade interna (dentro dos grupos) e elevada heterogeneidade externa (entre grupos)

Formalmente, ....

:sverdadeira são condições seguintes as quais os para conjuntos em

de divisão uma é , com de partição Uma

dados} {meus objetos os todos de conjunto o Seja

{}:,

,...,1{},

,},...,,{

},...,,{

21

21

jiji

CC i

i

K

N

CCCCC

DC

KiC

DNKDCCCC

D

i

xxx

Exemplo (1/2)

0

2

4

6

8

10

0 1 2 3 4 5 6 7 8 9 10

V1

V2

D

Exemplo (2/2)

0

2

4

6

8

10

0 1 2 3 4 5 6 7 8 9 10

V1

V2

C1C2

C3

Aplicações

• Exemplo

– Se podemos entender as atitudes de uma população (e.g, clientes de um banco) pela identificação (descoberta) dos principais grupos dentro da população, então reduzimos os dados para população inteira em perfis de alguns grupos

• Desempenho de empresas, subclasses de doenças, padrões de compra, ....

– Descrição mais concisa e compreensível dos objetos (instâncias) .

Como funciona a análise de agrupamentos? (1/2)

• Suponha que um pesquisador de marketing queira determinar segmentos de mercado em uma comunidade com base em seus padrões de lealdade a marcas e lojas

• Uma pequena amostra de sete respondentes é selecionada

– Duas medidas de lealdade - V1 (lealdade à loja) e V2 (lealdade à marca) - foram feitas para cada respondente em uma escala de 0 a 10

Respondentes V1 V2A 3 2B 4 5C 4 7D 2 7E 6 6F 7 7G 6 4

0

2

4

6

8

0 2 4 6 8

V1

V2

Como funciona a análise de agrupamentos? (2/2)

• O objetivo principal da análise de agrupamentos é definir a estrutura dos dados colocando observações (instâncias ou objetos) mais parecidas em grupos

• Mas para conseguir isso, devemos abordar três questões básicas

– Como medir a similaridade?

• Correlação, Distância, Medida de Associação, ...

– Como formamos os grupos (clusters)?

• Não importa apenas medir a similaridade, deve haver um procedimento para agregar as observações mais similares em grupos

– Quantos grupos formamos?

• Compromisso entre menos grupos e mais homogeneidade

Medida de Similaridade: Distância Euclidiana

Respondentes V1 V2A 3 2B 4 5C 4 7D 2 7E 6 6F 7 7G 6 4

0

2

4

6

8

0 2 4 6 8

V1

V2

A B C D E F GA 0,000B 3,162 0,000C 5,099 2,000 0,000D 5,099 2,828 2,000 0,000E 5,000 2,236 2,236 4,123 0,000F 6,403 3,606 3,000 5,000 1,414 0,000G 3,606 2,236 3,606 5,000 2,000 3,162 0,000

Formação de Grupos

• Como já temos a medida de similaridade, devemos desenvolver um procedimento para formar grupos

• Para nosso propósito, usaremos uma regra simples:

– Identifique as duas observações mais semelhantes (mais próximas) que ainda não estão no mesmo grupo e combine seus grupos

– Aplicamos essa regra repetidamente, começando com cada observação em seu próprio grupo e combinando dois grupos por vez, até que todas as observações estejam em um único grupo

– Procedimento Hierárquico e Aglomerativo

Formação de Grupos: Passo 1A B C D E F G

A 0,000B 3,162 0,000C 5,099 2,000 0,000D 5,099 2,828 2,000 0,000E 5,000 2,236 2,236 4,123 0,000F 6,403 3,606 3,000 5,000 1,414 0,000G 3,606 2,236 3,606 5,000 2,000 3,162 0,000

0

2

4

6

8

0 2 4 6 8

V1

V2

1EF

Formação de Grupos: Passo 2A B C D E F G

A 0,000B 3,162 0,000C 5,099 2,000 0,000D 5,099 2,828 2,000 0,000E 5,000 2,236 2,236 4,123 0,000F 6,403 3,606 3,000 5,000 1,414 0,000G 3,606 2,236 3,606 5,000 2,000 3,162 0,000

0

2

4

6

8

0 2 4 6 8

V1

V2

1

2E

F

G

Formação de Grupos: Passo 3A B C D E F G

A 0,000B 3,162 0,000C 5,099 2,000 0,000D 5,099 2,828 2,000 0,000E 5,000 2,236 2,236 4,123 0,000F 6,403 3,606 3,000 5,000 1,414 0,000G 3,606 2,236 3,606 5,000 2,000 3,162 0,000

0

2

4

6

8

0 2 4 6 8

V1

V2

1

2

3E

F

G

D C

Formação de Grupos: Passo 4A B C D E F G

A 0,000B 3,162 0,000C 5,099 2,000 0,000D 5,099 2,828 2,000 0,000E 5,000 2,236 2,236 4,123 0,000F 6,403 3,606 3,000 5,000 1,414 0,000G 3,606 2,236 3,606 5,000 2,000 3,162 0,000

0

2

4

6

8

0 2 4 6 8

V1

V2

1

2

3

4E

F

G

D C

B

Formação de Grupos: Passo 5A B C D E F G

A 0,000B 3,162 0,000C 5,099 2,000 0,000D 5,099 2,828 2,000 0,000E 5,000 2,236 2,236 4,123 0,000F 6,403 3,606 3,000 5,000 1,414 0,000G 3,606 2,236 3,606 5,000 2,000 3,162 0,000

0

2

4

6

8

0 2 4 6 8

V1

V2

1

2

3

45

EF

GB

CD

Formação de Grupos: Passo 6A B C D E F G

A 0,000B 3,162 0,000C 5,099 2,000 0,000D 5,099 2,828 2,000 0,000E 5,000 2,236 2,236 4,123 0,000F 6,403 3,606 3,000 5,000 1,414 0,000G 3,606 2,236 3,606 5,000 2,000 3,162 0,000

0

2

4

6

8

0 2 4 6 8

V1

V2

1

2

3

45

6

EF

GB

CD

A

Representação de um Agrupamento Hierárquico

• Uma abordagem comum para representar um agrupamento hierárquico é o dendograma

O eixo horizontal representa o coeficiente de aglomeração, nesse caso a distância usada para unir grupos

Determinação do número de grupos da solução final

• Um método hierárquico resulta em diversas soluções de agrupamentos (partições)– No caso do exemplo anterior, elas variam de um a seis grupos

• Qual devemos escolher?– Sabemos que quando nos afastamos de grupos unitários, a

homogeneidade diminui

– Então, por que não ficamos com sete grupos, a opção mais homogênea possível?

– O problema é que não definimos qualquer estrutura com sete grupos

– Assim, devemos devemos verificar cada solução para a sua descrição de estrutura versus a homogeneidade dos grupos

Determinação do número de grupos da solução final

• Para fins de ilustração, no nosso exemplo foi usada uma medida muito simples homogeneidade:

– As distâncias médias de todas as observações dentro dos grupos

A B C D E F GA 0,000B 3,162 0,000C 5,099 2,000 0,000D 5,099 2,828 2,000 0,000E 5,000 2,236 2,236 4,123 0,000F 6,403 3,606 3,000 5,000 1,414 0,000G 3,606 2,236 3,606 5,000 2,000 3,162 0,000

Solução Inicial

• Na solução inicial com sete grupos, essa medida de similaridade geral é 0 (nenhum observação faz par com alguma outra)

Passo Par-Instância Pertinência #Grupos Distância(A)(B)(C)(D)(E)(F)(G) 7 0

Distância MínimaProcesso de Aglomeração Solução

Solução Incial

Passo 1

• Nesse passo, a similaridade média (1,414) é a distância entre as duas observações reunidas (E-F)

Passo Par-Instância Pertinência #Grupos Distância(A)(B)(C)(D)(E)(F)(G) 7 0

1 E-F (A)(B)(C)(D)(EF)(G) 6 1,414

Distância MínimaProcesso de Aglomeração Solução

1,414Solução Incial

Passo 2

• Um agrupamento de três elementos (E, F e G) é formado

– A medida de similaridade geral é a média das distâncias entre E e F (1,414), e E e G (2,000), e F e G (3,162), que nos dá 2,192

Passo Par-Instância Pertinência #Grupos Distância(A)(B)(C)(D)(E)(F)(G) 7 0

1 E-F (A)(B)(C)(D)(EF)(G) 6 1,4142 E-G (A)(B)(C)(D)(EFG) 5 2,192

Distância MínimaProcesso de Aglomeração Solução

1,414Solução Incial

2,000

Aumento do valor da similaridade geral, em relação ao passo anterior

Passo 3

• No Passo 3, um novo grupo de dois membros é formado com a distância 2,000

Ligeira diminuição do valor da similaridade geral, em relação ao passo anterior

Passo Par-Instância Pertinência #Grupos Distância(A)(B)(C)(D)(E)(F)(G) 7 0

1 E-F (A)(B)(C)(D)(EF)(G) 6 1,4142 E-G (A)(B)(C)(D)(EFG) 5 2,1923 C-D (A)(B)(CD)(EFG) 4 2,144

Distância MínimaProcesso de Aglomeração Solução

1,414Solução Incial

2,0002,000

Passo 4

• Ligeira alteração do valor da similaridade geral, em relação ao passo anterior

Isto significa que estamos gerando outros grupos essencialmente com a homogeneidade dos grupos existentes

Passo Par-Instância Pertinência #Grupos Distância(A)(B)(C)(D)(E)(F)(G) 7 0

1 E-F (A)(B)(C)(D)(EF)(G) 6 1,4142 E-G (A)(B)(C)(D)(EFG) 5 2,1923 C-D (A)(B)(CD)(EFG) 4 2,1444 B-C (A)(BCD)(EFG) 3 2,234

Distância MínimaProcesso de Aglomeração Solução

1,414

2,000

Solução Incial

2,0002,000

Passo 5• Combinação de dois grupos com três observações. Grande aumento no

valor da similaridade geral, em relação ao passo anterior

Isso é indicativo de que reunir esses dois grupos resultou em um agregado que é bem menos homogêneo

Segundo a nossa medida, poderíamos considerar a solução do Passo 4 muito melhor do que esta

Passo Par-Instância Pertinência #Grupos Distância(A)(B)(C)(D)(E)(F)(G) 7 0

1 E-F (A)(B)(C)(D)(EF)(G) 6 1,4142 E-G (A)(B)(C)(D)(EFG) 5 2,1923 C-D (A)(B)(CD)(EFG) 4 2,1444 B-C (A)(BCD)(EFG) 3 2,2345 B-E (A)(BCDEFG) 2 2,896

Distância MínimaProcesso de Aglomeração Solução

1,414

2,0002,236

Solução Incial

2,0002,000

Passo 6• Nesse passo, a medida geral novamente aumenta consideravelmente

Ou seja, a observação “A” mesmo sozinha ainda foi capaz de mudar a homogeneidade do agrupamento. Observação atípica?

Portanto, segundo a nossa medida, ainda consideraríamos a solução do Passo 4 muito melhor do que esta

Passo Par-Instância Pertinência #Grupos Distância(A)(B)(C)(D)(E)(F)(G) 7 0

1 E-F (A)(B)(C)(D)(EF)(G) 6 1,4142 E-G (A)(B)(C)(D)(EFG) 5 2,1923 C-D (A)(B)(CD)(EFG) 4 2,1444 B-C (A)(BCD)(EFG) 3 2,2345 B-E (A)(BCDEFG) 2 2,8966 A-B (ABCDEFG) 1 3,42

Distância MínimaProcesso de Aglomeração Solução

1,414

2,0002,2363,162

Solução Incial

2,0002,000

Pré-Proc Alg. Clustering

Interpretação Validação

Conhecimento

Dados

Partição

Passos na Análise de Agrupamentos

Medidas de Similaridade

Marcilio Souto

DIMAp/UFRN

Medidas de Similaridade

• A similaridade entre objetos (instâncias) é uma medida de correspondência ou semelhança entre objetos a serem agrupados

• Ela pode ser medida de diversas formas– Medidas Correlacionais (e.g., correlação de Pearson)

– Medidas de Distância (e.g., distância euclidiana)

– Medidas de Associação (e.g., índice de Jaccard)

• Cada uma dessas formas representa uma perspectiva particular da similaridade, dependendo de seus objetivos e do tipo de dados

• Tanto as medidas correlacionais quanto as medidas de distância requerem dados métricos, ao passo que as medidas de associação são para dados não-métricos

Medidas Correlacionais

• Medidas correlacionais representam similaridades pela correspondência de padrões ao longo dos atributos

– Ela não olha a magnitude do valores dos atributos, apenas o padrão global de valores

X1 X2 X3 X4 X5Cliente_1 7,000 10,000 9,000 7,000 10,000Cliente_2 9,000 9,000 8,000 9,000 9,000Cliente_3 5,000 5,000 6,000 7,000 7,000Cliente_4 6,000 6,000 3,000 3,000 4,000Cliente_5 1,000 2,000 2,000 1,000 2,000Cliente_6 4,000 3,000 2,000 3,000 3,000Cliente_7 2,000 4,000 5,000 2,000 5,000

0

2

4

6

8

10

12

X1 X2 X3 X4 X5

Cliente_1

Cliente_2

Cliente_3

Cliente_4

Cliente_5

Cliente_6

Cliente_7

Exemplo

0

2

4

6

8

10

12

X1 X2 X3 X4 X5

Cliente_1

Cliente_2

Cliente_3

Cliente_4

Cliente_5

Cliente_6

Cliente_7

Medidas Correlacionais

Cliente_1 Cliente_2 Cliente_3 Cliente_4 Cliente_5 Cliente_6 Cliente_7Cliente_1 1,000Cliente_2 -0,147 1,000Cliente_3 0,000 0,000 1,000Cliente_4 0,087 0,516 -0,824 1,000Cliente_5 0,963 -0,408 0,000 -0,060 1,000Cliente_6 -0,466 0,791 -0,354 0,699 -0,645 1,000Cliente_7 0,891 -0,516 0,165 -0,239 0,963 -0,699 1,000

As instâncias 1, 5 e 7 têm padrões semelhantes e correlação (positiva) altaDa mesma forma instâncias 2, 4 e 6A instância 3 tem correlação baixa ou negativas com todas as demais, de modo que talvez forme um grupo por si mesmaPortanto, as correlações representam padrões ao longo dos atributos, muito mais do que as magnitudes

Medidas de Distância

• Representam a similaridade como a proximidade entre observações (instâncias) ao longo dos atributos

• As medidas de distância são, na verdade, uma medida de dissimilaridade, em que os valores maiores denotam menor similaridade

• A distância é convertida em similaridade pelo uso da relação inversa (1 - distância)

Medidas de Distância: Exemplo

• Distância Euclidiana

Cliente_1 Cliente_2 Cliente_3 Cliente_4 Cliente_5 Cliente_6 Cliente_7Cliente_1 0,00Cliente_2 3,32 0,00Cliente_3 6,86 6,63 0,00Cliente_4 10,24 10,20 6,00 0,00Cliente_5 15,78 16,19 10,10 7,07 0,00Cliente_6 13,11 13,00 7,28 3,87 3,87 0,00Cliente_7 11,27 12,16 6,32 5,10 4,90 4,36 0,00

Distância versus Correlação

• As medidas de distância se concentram na magnitude dos valores e representam casos similares que estão próximos, mas podem ter padrões muito diferentes ao longo dos atributos

• No caso do exemplo anterior, vemos emergir grupos muitos diferentes quando a distância é considerada em lugar da correlação

• Como as distâncias menores representam maior similaridade, percebemos que as instâncias 1 e 2 formam um grupo e as instâncias 4, 5, 6 e 7 formam outro

• Um terceiro grupo, que consiste apenas do caso 3, difere dos outros dois porque possui valores que são tantos altos quanto baixos

Distância versus Correlação

• Agrupamentos baseados em medidas correlacionais podem não ter valores similares, mas sim padrões similares

• Agrupamentos baseados em distância têm valores mais similares no conjunto de atributos, mas os padrões podem ser bem diferentes

top related