agrupamentos baseados em probabilidade marcílio souto dimap/ufrn

Agrupamentos Baseados em Probabilidade

Marcílio SoutoDIMAp/UFRN

Introdução

Suponha que tenhamos os dados abaixo a serem agrupados

Introdução

De um ponto de vista probabilístico, o objetivo da análise de agrupamentos é encontrar o conjunto de grupos (C) mais provável, dadas as instâncias ou evidências (D)

Uma quantidade finita de evidência não é suficiente para se tomar uma decisão segura sobre a pertinência de cada instância a um determinado grupo

As instâncias não deveriam ser atribuidas categoricamente a um ou outro grupo

De fato, elas deveriam ter um certa probabilidade de pertencer a cada um dos grupos

A base para o agrupamento probabiblístico é um modelo chamado de mistura finita (finite mixture)

Mistura Finita

Uma mistura é um conjunto de k distribuições de probabilidade (representando k grupos) que governam os valores dos atributos dos seus membros

Cada grupo possui uma distribuição de probabilidade diferente Os grupos não precisam ser igualmente prováveis

Há uma distribuição de probabilidade que reflete suas populações relativas

em que as fi são as distribuições representado os grupos Gaussianas, Poisson, Exponencial,....

Mais comum: Mistura de Gaussianas

P Di 1

kwi f i D i

Exemplo: Mistura Finita de Duas Gaussianas

35 40 45 50 55 60 65 70 75

A

B

μA=50, σA=5, pA=0.6

μB=65, σB=2, pA=0.4

P D pA f A D A ; A pB f B D B ; B

P D Ai 1

n 1

2 A

e1 2

x i A

A

2

Mistura Finita de Gaussianas

O processo de agrupamento pode ser vista como o de encontrar os parâmetros de uma uma mistura de Gaussianas, e então efetuar a classificação de acordo com a regra de Bayes.

P(D|Ci)*P(C

i)

----------------- P(D)P(C

i|D) =

em que P(D|Ci) é a PDF do grupo C

i, avaliada em D (conjunto de dados);

P(Ci) é a probabilidade a priori para o grupo C

i, e P(D) é a PDF do conjunto

de dados (D).

P D C i i 1

kwk Gk

Mistura Finita: Exemplo

Um exemplo simples de mistura finita ocorre quando há apenas um atributo numérico cujos valores obdecem uma distribuição normal (gaussiana) para cada grupo

Cada distribuição (grupo) possui diferentes médias e variância

O problema de agrupamento é Dado um conjunto de instâncias e um número pré-definido

de grupos Encontrar a média e a variância de cada grupo, como

também a distribuição da população entre os grupos A figura a seguir ilustra um exemplo em que há dois grupos A e

B (cada um definido por uma distribuição normal)


35 40 45 50 55 60 65 70 75

A

BμA=50, σA=5, pA=0.6

μB=65, σB=2, pA=0.4


Grupo Atributo_1 Grupo Atributo_1 Grupo Atributo_1A 51 B 62 B 64A 43 A 47 A 51B 62 A 52 A 52B 64 B 64 B 62A 45 A 51 A 49A 42 B 65 A 48A 46 A 48 B 62A 45 A 49 A 43A 45 A 46 A 40

Dados gerados a partir da mistura

Se tivessemos os rótulos disponíveis, poderiamos usar o Naive Bayespara classificar um nova instância

P(A|x)=P(x|A)*P(A) ------------ P(x)

2

2

2

)(

2

1)(

x

exfP(x|A)~


Grupo Atributo_1 Grupo Atributo_1 Grupo Atributo_1A 51 B 62 B 64A 43 A 47 A 51B 62 A 52 A 52B 64 B 64 B 62A 45 A 51 A 49A 42 B 65 A 48A 46 A 48 B 62A 45 A 49 A 43A 45 A 46 A 40

Suponha que tenhamos disponível o conjunto de dados sem os rótulos dos grupos

Como poderiamos determinar os cinco parâmetros que caracterizam o modelo: μA, σA, pA, μB e σB (pB pode ser determinado diretamente a partir de pA)?

Mistura de Gaussianas

No contexto probabilístico, o processo de agrupamento pode ser vista como o de encontrar os parâmetros de uma uma mistura de Gaussianas, e então efetuar a classificação de acordo com a regra de Bayes:

P(D|Ci)*P(C

i)

----------------- P(D)

P(Ci|D) =

em que P(D|Ci) é a PDF do grupo C

i, avaliada em D (conjunto de dados);

P(Ci) é a probabilidade a priori para o grupo C

i, e P(D) é a PDF do conjunto

de dados (D).

X P(X|A) X*P(X|A) P(X|B) X*P(X|B)51 0,69 35,19 0,31 15,8143 0,99 42,57 0,01 0,4362 0 0 1 6264 0 0 1 6445 0,98 44,1 0,02 0,942 1 42 0 046 0,97 44,62 0,03 1,3866 0 0 1 6668 0 0 1 68

Média 54,11 45,03 63,73

Media Inicial 4565

Bibliografia

Hair-Jr., J. F. et al (2005). Análise multivariada de dados. Capítulo 9 - Análise de Agrupamentos. pp. 381-419. Bookman.

Jain, A K. et al (1999). Data clustering: a review. ACM Computing Surveys, v. 31, pp. 264-323.

Xu, R. and Wunsch II, D. (2005). Survey of Clustering Algorithms. IEEE Trans. on Neural Networks, v. 16, pp. 645-678.

agrupamentos baseados em probabilidade marcílio souto dimap/ufrn

Documents