um estudo comparativo entre as funções de validação para ... · leila r. s. da silva,...

5
IV Congresso Brasileiro de Computação – CBComp 2004 Inteligência Artificial 266 Abstract—This paper presents a comparison of the main clustering validity indices adopted in fuzzy clustering. Fuzzy clustering aims at finding a fuzzy partition of data sets expressed via a membership matrix to characterize a group structure, that is, a partition of a finite data set. Here the membership matrix is found using two clustering algorithms, Gustafson-Kessel (GK) and Participatory Learning (AP), respectively. Comparison of validity indices is made in two circumstances. The first uses representative synthetic data sets suggested in the literature and the second the well-known Iris Data. Index Terms -- cluster validity indices, fuzzy clustering, participatory learning, unsupervised clustering. I. INTRODUÇÃO problema de agrupamento de dados é encontrado em muitos contextos por pesquisadores das mais diversas áreas, refletindo a importância de explorar e analisar dados para se obter informação. As aplicações de técnicas de agrupamento de dados incluem áreas como comunicação homem–máquina, reconhecimento automático de objetos, medicina, transporte, geoprocessamento, recursos naturais (agricultura, florestas, geologia, meio ambiente), indústrias (teste, inspeção e controle de qualidade em montagem, modelagem e controle de processos) [9]. Contudo, os métodos de agrupamento existentes possuem limitações e restrições de aplicação, como é observado em [6], onde se encontra uma comparação entre algoritmos de agrupamento. O resultado do algoritmo de agrupamento é uma partição do conjunto de dados. Esta partição pode ser ou rígida, com valores de funções de pertinência em {0,1} ou nebulosa, com valores de funções de pertinência no intervalo [0,1]. Para obter esta partição muitas vezes presume-se a existência de c grupos. Surge, portanto, a necessidade de formular critérios ou métodos quantitativos para uma avaliação objetiva dos resultados dos algoritmos de agrupamento. Critérios e métodos quantitativos se traduzem em índices que auxiliam na validação dos agrupamentos realizados pelos algoritmos. O ideal é obter um algoritmo de agrupamento que seja capaz de incorporar um índice de validação. Contudo, este ainda não é o caso da grande maioria dos algoritmos de agrupamento. O objetivo deste trabalho é apresentar uma comparação das principais funções (alternativamente, índices) de L. R. S. da Silva, (e-mail: [email protected]) F. Gomide. (e-mail: [email protected]) validação. Estas funções são utilizadas para avaliar as matrizes de pertinência de dois algoritmos de agrupamento nebuloso de dados, Gustafson-Kessel (GK) e Aprendizagem Participativa (AP). Estes algoritmos foram escolhidos por encontrarem os grupos desejados para os conjuntos de dados considerados neste trabalho e por fornecerem as partições na forma de uma matriz de pertinência nebulosa. Os algoritmos de agrupamento GK e AP não serão descritos por estarem fora do escopo deste artigo. Detalhes são fornecidos em [4] e [10], respectivamente. Este artigo possui a seguinte organização: Após esta introdução, a Seção II resume as principais funções de validação propostas na literatura. A Seção ΙΙΙ apresenta os resultados proporcionados pelas funções de validação na avaliação das partições fornecidas pelos algoritmos de agrupamento. Na Seção IV, discute-se e compara-se os resultados da seção anterior. A Seção V finaliza o artigo resumindo suas principais conclusões e trabalhos futuros. II. FUNÇÃO DE VALIDAÇÃO Quando um algoritmo de agrupamento não considera um critério de validação em sua estrutura, utiliza-se de métodos para determinar o número de grupos e a partição mais adequada dentre aquelas encontradas. Estes métodos baseiam- se em funções de validação aplicadas sobre a partição. As funções de validação podem ser vistas como indicadores da qualidade da partição via índices de validação. Estes índices são os valores das funções e disponibilizam um modo de avaliar resultados de agrupamento. Os critérios para definir uma partição aceitável baseiam-se nos três requisitos citados abaixo [7]: 1. Clara separação entre grupos resultantes; 2. Uma determinada concentração (coesão) de pontos em torno do centro de um grupo. 3. Menor número de grupos possível, desde que também obedecendo aos requisitos anteriores. A seguir resume-se os mais importantes índices de validação utilizados para avaliar partições nebulosas. Observando que µ ki denota o grau de pertinência de x k X, X={x 1 ...x n }, ao i-ésimo grupo representado pelo seu centro v i . A matriz de pertinência [ µ ki ] define uma partição de X. || . || denota norma Euclidiana. A. Partição entrópica - PE Índice de particionamento entrópico (Partitioning entropy) [3][12]: Um estudo comparativo entre as funções de validação para agrupamento nebuloso de dados Leila R. S. da Silva, Medianeira, Mestre, CEFET-PR, Fernando Gomide. Campinas, Doutor, Unicamp O

Upload: dangthuan

Post on 24-Nov-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Um estudo comparativo entre as funções de validação para ... · Leila R. S. da Silva, Medianeira, Mestre, CEFET-PR, Fernando Gomide. Campinas, Doutor, Unicamp O. IV Congresso

IV Congresso Brasileiro de Computação – CBComp 2004 Inteligência Artificial

266

Abstract—This paper presents a comparison of the main

clustering validity indices adopted in fuzzy clustering. Fuzzy clustering aims at finding a fuzzy partition of data sets expressed via a membership matrix to characterize a group structure, that is, a partition of a finite data set. Here the membership matrix is found using two clustering algorithms, Gustafson-Kessel (GK) and Participatory Learning (AP), respectively. Comparison of validity indices is made in two circumstances. The first uses representative synthetic data sets suggested in the literature and the second the well-known Iris Data.

Index Terms -- cluster validity indices, fuzzy clustering, participatory learning, unsupervised clustering.

I. INTRODUÇÃO problema de agrupamento de dados é encontrado em muitos contextos por pesquisadores das mais diversas

áreas, refletindo a importância de explorar e analisar dados para se obter informação. As aplicações de técnicas de agrupamento de dados incluem áreas como comunicação homem–máquina, reconhecimento automático de objetos, medicina, transporte, geoprocessamento, recursos naturais (agricultura, florestas, geologia, meio ambiente), indústrias (teste, inspeção e controle de qualidade em montagem, modelagem e controle de processos) [9].

Contudo, os métodos de agrupamento existentes possuem limitações e restrições de aplicação, como é observado em [6], onde se encontra uma comparação entre algoritmos de agrupamento. O resultado do algoritmo de agrupamento é uma partição do conjunto de dados. Esta partição pode ser ou rígida, com valores de funções de pertinência em {0,1} ou nebulosa, com valores de funções de pertinência no intervalo [0,1]. Para obter esta partição muitas vezes presume-se a existência de c grupos. Surge, portanto, a necessidade de formular critérios ou métodos quantitativos para uma avaliação objetiva dos resultados dos algoritmos de agrupamento. Critérios e métodos quantitativos se traduzem em índices que auxiliam na validação dos agrupamentos realizados pelos algoritmos. O ideal é obter um algoritmo de agrupamento que seja capaz de incorporar um índice de validação. Contudo, este ainda não é o caso da grande maioria dos algoritmos de agrupamento.

O objetivo deste trabalho é apresentar uma comparação das principais funções (alternativamente, índices) de

L. R. S. da Silva, (e-mail: [email protected]) F. Gomide. (e-mail: [email protected])

validação. Estas funções são utilizadas para avaliar as matrizes de pertinência de dois algoritmos de agrupamento nebuloso de dados, Gustafson-Kessel (GK) e Aprendizagem Participativa (AP). Estes algoritmos foram escolhidos por encontrarem os grupos desejados para os conjuntos de dados considerados neste trabalho e por fornecerem as partições na forma de uma matriz de pertinência nebulosa. Os algoritmos de agrupamento GK e AP não serão descritos por estarem fora do escopo deste artigo. Detalhes são fornecidos em [4] e [10], respectivamente.

Este artigo possui a seguinte organização: Após esta introdução, a Seção II resume as principais funções de validação propostas na literatura. A Seção ΙΙΙ apresenta os resultados proporcionados pelas funções de validação na avaliação das partições fornecidas pelos algoritmos de agrupamento. Na Seção IV, discute-se e compara-se os resultados da seção anterior. A Seção V finaliza o artigo resumindo suas principais conclusões e trabalhos futuros.

II. FUNÇÃO DE VALIDAÇÃO Quando um algoritmo de agrupamento não considera um

critério de validação em sua estrutura, utiliza-se de métodos para determinar o número de grupos e a partição mais adequada dentre aquelas encontradas. Estes métodos baseiam-se em funções de validação aplicadas sobre a partição. As funções de validação podem ser vistas como indicadores da qualidade da partição via índices de validação. Estes índices são os valores das funções e disponibilizam um modo de avaliar resultados de agrupamento.

Os critérios para definir uma partição aceitável baseiam-se nos três requisitos citados abaixo [7]:

1. Clara separação entre grupos resultantes; 2. Uma determinada concentração (coesão) de pontos em

torno do centro de um grupo. 3. Menor número de grupos possível, desde que também

obedecendo aos requisitos anteriores. A seguir resume-se os mais importantes índices de

validação utilizados para avaliar partições nebulosas. Observando que µ ki denota o grau de pertinência de xk ∈ X, X={x1...xn}, ao i-ésimo grupo representado pelo seu centro vi. A matriz de pertinência [ µ ki] define uma partição de X. || . || denota norma Euclidiana.

A. Partição entrópica - PE Índice de particionamento entrópico (Partitioning entropy)

[3][12]:

Um estudo comparativo entre as funções de validação para agrupamento nebuloso de dados Leila R. S. da Silva, Medianeira, Mestre, CEFET-PR, Fernando Gomide. Campinas, Doutor, Unicamp

O

Page 2: Um estudo comparativo entre as funções de validação para ... · Leila R. S. da Silva, Medianeira, Mestre, CEFET-PR, Fernando Gomide. Campinas, Doutor, Unicamp O. IV Congresso

IV Congresso Brasileiro de Computação – CBComp 2004 Inteligência Artificial

267

∑∑= =

∞<<−=n

k

c

ikiaki a

ncUPE

1 1 1 ,log1),( µµ , (1)

onde a é uma base logarítmica. O índice PE possui valores no intervalo [0, loga c], e é do tipo minimizadora, isto é, o valor de PE tende para 0 quando se têm grupos bem definidos em X, sendo X um conjunto finito de dados {x1...xn}, e n o número de elementos de X. Um valor próximo do limite superior do intervalo (loga c), indica a ausência de estruturas de grupos no conjunto de dados ou a incapacidade do algoritmo de obtê-las.

B. Xie-Beni - XB Índice de Xie-Beni [16]: A função de validação XB

pretende identificar a compactação e a separação das classes de modo a encontrar um número ótimo de grupos. Então a compactação de uma partição nebulosa é definida por (2).

2

1 1

1ki

c

i

n

k

mki xv

nComp −= ∑∑

= =

µ . (2)

Se os conjuntos de dados possuírem um baixo índice de compactação, então todas as classes são compactas e separadas umas das outras. A separação ou a medida de distância entre os centros das classes de uma partição nebulosa é:

2min kikixvSep −=

≠. (3)

A função de validação XB é definida como a razão entre a compactação e a separação da partição nebulosa, isto é, define-se XB =Comp/Sep. Logo, um valor pequeno para XB reflete um valor pequeno de compactação, pois µ ki será grande quando a distância ||vi – xk|| for pequena. O valor ótimo de c é obtido pela minimização XB sobre c∈{2, 3, ..., cmax}. Assume-se que ao menor valor de XB corresponde o número aceitável (alternativamente, desejável) de classes.

C. Fukuyama-Sugeno - FS O Índice de Fukuyama-Sugeno [17][11] é definido como:

( )∑∑= =

−−−=n

k

c

iAiAik

mkim vvvxFS

1 1

22µ , (4)

onde v é o centro do vetor de X e A é uma matriz simétrica definida positiva. Quando A = I, a distância será o quadrado da distância Euclidiana. Para compactar e separar bem as classes espera-se valores pequenos para FSm. O primeiro termo entre parênteses refere-se à compactação das classes, enquanto que o segundo refere-se à distância entre as classes.

D. Coeficiente de Partição - CP Índice ou coeficiente de particionamento (Partitioning

coefficient) [3][12]:

∑∑= =

=n

k

c

ikin

cUCP1 1

21),( µ . (5)

O valor de CP está no intervalo [1/c, 1], onde c é o número de classes. Quando µ ki=1/c, o índice atinge o seu menor

valor. Um valor do índice próximo de 1/c indica a ausência de grupos no conjunto X considerado.

Os índices CP e PE têm alguns inconvenientes [13] tais como:

i. Dependem do número de classes. O valor para CP é inversamente proporcional ao número de classes e para o PE, o valor é diretamente proporcional;

ii. São sensíveis ao parâmetro m1, como é o caso do algoritmo GK;

iii. Não possuem conexão direta com os dados, visto que estes índices não utilizam o conjunto X.

E. Partição pela Densidade Média - AD Índice de partição por densidade média (Average partition

density) [1][7][13]. A densidade média é calculada de acordo com o seguinte:

[ ]∑=

=c

i i

i

FS

cAD

121)det(

1, (6)

onde Si é conhecida como a "soma dos membros dos centros", calculada como:

{ }1)()(| , 1

1<−−∈∀= −

=∑ iki

Tikkk

n

kkii vxFvxxxS µ (7)

onde o hipervolume da i-ésima classe é determinado por hi=[det (Fi)]1/2 , sendo F, a matriz de covariância relacionada ao centro i, isto é:

[ ] ( )( )

[ ]....,,2,1 ,

0

1

1

1

civxvx

F N

k

mlki

n

k

Tlik

lik

mlki

i =−−

=

=

=

µ

µ (8)

Outros métodos de validação de agrupamento são

estudados em [1] [2] [8] [11] [13] [16]. Deve-se enfatizar que, apesar dos avanços e das diferentes

propostas na literatura visando uma avaliação de grupos objetiva e bem determinada, presentemente nenhum dos índices de validação é aceito com unanimidade.

A próxima seção apresenta os índices de validação testados em conjunto de dados sintéticos e em um conjunto de dados real.

III. RESULTADOS No caso deste artigo, as funções de validação avaliaram as

partições fornecidas pelos algoritmos GK e AP. Estes algoritmos determinam uma matriz de pertinência para cada conjunto de dados. Os algoritmos foram inicializados aleatoriamente. Para o algoritmo AP que é um algoritmo não supervisionado, isto é, determina o número de grupos, foi necessário ajustar o parâmetro τ, de modo que, o número de grupos desejado fosse encontrado pelo algoritmo.

A seguir serão apresentados os índices fornecidos pelas funções de validação para os respectivos conjuntos de dados.

1 m: é o valor que modula o quão nebulosa é a partição obtida.

Page 3: Um estudo comparativo entre as funções de validação para ... · Leila R. S. da Silva, Medianeira, Mestre, CEFET-PR, Fernando Gomide. Campinas, Doutor, Unicamp O. IV Congresso

IV Congresso Brasileiro de Computação – CBComp 2004 Inteligência Artificial

268

A. Conjunto dados (a) O primeiro conjunto de dados, Fig. 1, foi sugerido em [14]

e constitui um caso com baixo grau de dificuldade. Devido a esta característica, este conjunto é utilizado para verificar se o algoritmo de agrupamento e a função de validação estão coerentes. Parte-se do princípio que qualquer algoritmo e função possam encontrar e validar apropriadamente os grupos contidos neste conjunto de dados.

Fig. 1. Conjunto de dados original e os respectivos grupos.

TABELA I RESULTADO DAS FUNÇÕES DE VALIDAÇÃO PARA O CONJUNTO DE DADOS (a)

Algoritmos Função no.

Grupos GK AP valor de τ 2 0,09 0,09 0,12 3 0,05 0,05 0,05 4 0,11 0,14 0,015

PE min

5 0,17 0,18 0,01 2 0,23 0,25 3 0,01 0,01 4 0,43 0,20

XB min

5 0,43 0,10 2 0,85 1,38 3 -18,26 -18,25 4 -16,85 -11,91

FS min

5 -15,19 -7,67 2 0,89 0,88 3 0,96 0,96 4 0,88 0,64

CP max

5 0,79 0,36 2 790,06 710,19 3 2059,65 1587,37 4 1551,27 1189,36

AD max

5 1427,82 1324,82

Legenda: min : minimiza função; max : maximiza função;

: número de grupos desejado. A Fig. 1 e Fig. 2 apresentam graficamente a Tabela I. Isto

é, todos os índices para as diferentes matrizes de pertinência determinadas pelos algoritmos de agrupamento. Nestes gráficos é possível visualizar os números de grupos indicados pelas funções de validação para o conjunto de dados (a).

0,000,200,400,600,801,00

2 3 4 5no. de grupos

0,00500,001000,001500,002000,002500,00

PC GKCP APAD GKAD AP

Fig. 2. Índices das funções de validação (max) para o conjunto de dados (a).

0,000,200,400,600,801,00

2 3 4 5

no. de grupos

-20,00-15,00-10,00-5,000,005,00

PE GK

XP GK

PE AP

XB AP

FG GK

FG AP

Fig. 3. Índices das funções de validação (min) para o conjunto de dados (a).

B. Conjunto de dados (b) O segundo conjunto apresentado na Fig. 4. mostra um

conjunto de dados sugerido em [15] que possui dois grupos distantes e com uma grande diferença de densidade entre eles. O conjunto possui 312 pontos, divididos em 301 pontos para o primeiro grupo e 11 pontos para o segundo. Este conjunto de dados tem por principal objetivo avaliar o comportamento das funções de validação segundo a variação na densidade dos dados entre os grupos.

Fig. 4. Conjunto de dados original e os respectivos grupos.

TABELA II

RESULTADO DAS FUNÇÕES DE VALIDAÇÃO PARA O CONJUNTO DE DADOS (B)

Algoritmos Função no.

Grupos GK AP valor de τ2 0,01 0,01 0,05 3 0,18 0,19 0,008 4 0,28 0,28 0,005

PE min

5 0,35 0,29 0,004 2 0,01 0,01 3 0,19 0,19 4 0,21 0,16

XB min

5 0,54 0,10 2 -5,68 -5,23 FS min 3 -7,91 -7,52

Page 4: Um estudo comparativo entre as funções de validação para ... · Leila R. S. da Silva, Medianeira, Mestre, CEFET-PR, Fernando Gomide. Campinas, Doutor, Unicamp O. IV Congresso

IV Congresso Brasileiro de Computação – CBComp 2004 Inteligência Artificial

269

4 -8,35 -8,25 5 -8,34 -2,33 2 0,99 0,99 3 0,74 0,73 4 0,64 0,64

CP max

5 0,58 0,24 2 23229,32 19105,48 3 23838,77 21538,00 4 24629,09 16950,67

AD max

5 23119,89 22853,22

C. Conjunto de dados (c) A Fig. 5. mostra um conjunto de dados muito semelhante

ao sugerido por [4]. Este conjunto de dados foi criado para verificar o comportamento das funções de validação diante de um conjunto de dados que possua uma distribuição quase elipsoidal e grupos que tenham uma sobreposição de pontos. Uma observação importante a ser feita aqui consiste no fato de que ambos os algoritmos de agrupamento de dados escolhidos neste artigo são capazes de encontrar os grupos desejados conforme sugerido pela Fig. 5.

Fig. 5. Conjunto de dados original e os respectivos grupos.

TABELA III

RESULTADO DAS FUNÇÕES DE VALIDAÇÃO PARA O CONJUNTO DE DADOS (c) Algoritmos

Função no.

Grupos GK AP valor de τ2 0,12 0,12 0,04 3 0,23 0,17 0,01 4 0,16 0,26 0,008

PE min

5 0,18 0,17 0,0052 0,20 0,22 3 0,10 0,52 4 0,62 0,34

XB min

5 0,78 0,73 2 -0,35 0,55 3 -8,57 -0,21 4 -3,67 -8,91

FS min

5 -7,64 -6,20 2 0,84 0,84 3 0,72 0,78 4 0,80 0,68

CP max

5 0,78 0,80 2 915,64 895,12 3 806,92 1238,64 4 2370,22 1086,80

AD max

5 3137,13 3364,42

D. Conjunto de dados Iris A Fig. 6. apresenta um conjunto de dados real (Íris [5]).

Este conjunto é freqüentemente utilizado em testes de algoritmos de agrupamento e de classificação. O conjunto possui as medidas, em centímetros, do comprimento e da largura das sépalas e das pétalas, para 50 flores das espécies: Setosa, Versicolor e Virginica. Nesta figura apenas são apresentados os atributos mais representativos, isto é, o primeiro e o terceiro atributo, respectivamente. Este conjunto de dados possui duas classes que não são linearmente separáveis. Novamente aqui, os dois algoritmos de agrupamento considerados neste artigo foram capazes de encontrar os grupos desejados conforme sugerido pela Fig. 6.

Fig. 6. Conjunto de dados real e os respectivos grupos.

TABELA IV

RESULTADO DAS FUNÇÕES DE VALIDAÇÃO PARA O CONJUNTO DE DADOS REAL

Algoritmos Função

no.

Grupos GK AP valor de τ2 0,09 0,08 0,04 3 0,14 0,16 0,01 4 0,21 0,22 0,008

PE min

5 0,28 0,24 0,0052 0,05 0,04 3 0,17 0,44 4 0,17 0,25

XB min

5 0,68 0,13 2 -6,68 -7,31 3 -7,98 -7,20 4 -8,21 -7,34

FS min

5 -6,99 -5,89 2 0,88 0,89 3 0,82 0,79 4 0,75 0,73

CP max

5 0,66 0,47 2 7219,97 7540,45 3 10081,53 9174,85 4 10029,97 8753,78

AD max

5 8598,08 7364,61

IV. DISCUSSÃO SOBRE OS RESULTADOS A Tab. V resume os resultados, ou seja, os valores dos

índices obtidos a partir das funções de validação durante a avaliação das partições (grupos, caracterizados pela matriz de pertinência) geradas pelos algoritmos de agrupamento GK e

Page 5: Um estudo comparativo entre as funções de validação para ... · Leila R. S. da Silva, Medianeira, Mestre, CEFET-PR, Fernando Gomide. Campinas, Doutor, Unicamp O. IV Congresso

IV Congresso Brasileiro de Computação – CBComp 2004 Inteligência Artificial

270

AP.

TABELA V NÚMERO ÓTIMO DE GRUPOS PROPOSTOS PELOS ÍNDICES DE VALIDAÇÃO

Dados (a) 3 grupos

Dados (b) 2 grupos

Dados (c) 3 grupos

Dados reais 3 grupos Índice

no. ótimo de grupos ( GK e AP) PE 3 3 2 2 2 2 2 2 XB 3 3 2 2 3 2 2 2 FS 3 3 4 4 3 4 4 4 CP 3 3 2 2 2 2 2 2 AD 3 3 4 5 5 5 3 3

Todos os índices sugeriram três grupos para o conjunto de

dados (a). Por outro lado, o índice FS indica uma partição com quatro grupos para o conjunto de dados (b), e o índice AD forneceu duas respostas distintas para duas funções de pertinências avaliando o mesmo conjunto de dados, onde os resultados desejados seriam dois grupos. No caso do conjunto de dados (c), apenas os índices XB e FS sugeriram três grupos, conforme desejado, sendo que estes resultados se limitaram apenas para o algoritmo GK, não repetindo o mesmo sucesso para a avaliação das matrizes de pertinência obtida pelo algoritmo AP. Para o conjunto de dados reais somente o índice AD indicou três grupos, conforme desejado.

V. CONCLUSÃO Conforme resultados e discussões das seções V e IV, nota-

se que os índices fornecidos pelas funções de validação são influenciados pelas formas (concentração de pontos, pontos linearmente separáveis, sobreposição de pontos) dos conjuntos de dados e pela própria estrutura dos algoritmos de agrupamento e as correspondentes partições.

Os algoritmos não supervisionados, caso onde não se conhece o número de grupos a priori, possuem o problema de ajuste de alguns parâmetros, como é o caso do algoritmo AP que possui o parâmetro τ. Estes parâmetros podem ser analisados e determinados com o auxílio de funções de validação apresentados na Seção II, pois estas funções podem indicar um valor aceitável para o número de grupos e, portanto, o valor adequado para τ, por exemplo. Alternativamente, é possível utilizar algoritmos genéticos para se determinar um valor aceitável para o parâmetro τ. Contudo, em ambos os casos o resultado dependerá da escolha da função de validação. Como se observa, analisando os resultados da Seção III, a determinação de uma função de validação é uma questão que merece aprofundamento e permanece em aberto. Este trabalho, através de uma comparação de funções de validação, evidenciou elementos importantes para a continuidade da pesquisa na área.

VI. REFERÊNCIA BIBLIOGRÁFICA

[1] A. B. Geva, "Hierarchical-fuzzy clustering of temporal-patterns and its application for time-series prediction." Pattern Recognition Letters. 14 ed, vol. 20, pp. 1519-1532, dez. 1999.

[2] A. B. Geva, Geva, Y. Steinberg, S. Bruckmair, and Ge Nahum, "A comparison of cluster validity criteria for a mixture of normal distributed data." Pattern Recognition Letters. 5 ed, vol. 21, pp. 511-529, mai. 2000.

[3] C. T. Lin and C. S. G. Lee, Neural fuzzy systems: a neuro-fuzzy synergism to intelligent systems. London: Prentice Hall, 1995. p. 180-202.

[4] D. E., Gustafson, W. Kessel, "Fuzzy clustering with a fuzzy covariance matrix." In: Proc IEEE CDC jan. 10-12, 1979, San Diego, CA, 1979. pp. 761-766,. in: Bezdek and Pal, 1992.

[5] E. Anderson, "The irises of the gaspé peninsula." Bulletin of the American Iris Society n. 9, pp. 2-5, 1935.

[6] E. de O. Araújo, "A heuristic adjustment to the calculation of the dissimilarity in the fcm algorithm. " In: Proc. 9th IFSA World Congress and 20th NAFIPS International Conference, jul. 25-28, Vancouver, Canada, v. 1, 2001. pp. 25-30.

[7] I. Gath, A. B. Geva, "Unsupervised optimal fuzzy clustering." IEEE Transactions Pattern Analysis and Machine Intelligence, vol. PAMI-11, n. 7, pp. 773-781, jul. 1989.

[8] J. C. Bezdek, S. K. Pal and R. Nikhil. "Some new indexes of cluster validity." IEEE – Transactions on Systems, Man, and Cybernetics. part B: Cybernetics. vol. 28, n. 3, pp. 301-315, jun. 1998.

[9] J. C. Bezdek and S. K. Pal, Fuzzy models for pattern recognition: methods that search for structures in data. New York: IEEE, 1992.

[10] L. R. S. da Silva, "Aprendizagem participativa em agrupamento nebuloso de dados," mestrado, dissertação, Dept. Faculdade de Engenharia Elétrica, Univ. Estadual de Campinas - Unicamp, 2003.

[11] M., Halkidi, Y. Batistakis, M. Vazirgiannis, "On clustering validation techniques." In: JIIS 17, 2-3. 2001. pp. 107-145. [Online]. Available: http://www.ticam.utexas.edu/~zhangyf/paper/validity_survey.pdf

[12] M. Roubens, "Fuzzy clustering algorithms and their cluster validity. " European Journal of Operational Research, second Euro IV. Special Issue. vol. 10, n. 3, pp. 294-301, jul. 1982.

[13] R. N. Dave, "Validating fuzzy partitions obtained trough c-shells clustering." Pattern Recognition Letters. 6 ed, vol. 17, pp. 613-623, mai. 1996.

[14] R. Yager, D. Filev, "Approximate clustering via mountain method." IEEE Transactions on Systems, Man and Cybernetics. vol. 24, n. 8, pp. 1279–1284, ago. 1994.

[15] U. Kaymak and M. Setnes, "Extended fuzzy clustering algorithms." In: ERIM – Report Series Research in Management – ERS – 2000-51-LIS, publicado novembro 2000, Erasmus Research Institute of Management (ERIM)/ Faculdade Bedrijfskunde. [Online]. Available: http:/www.erim.eur.nl. pp. 24.

[16] X. Xie, G. Beni, "A validity measure for fuzzy clustering." Ing IEEE Transactions Pattern Analysis and Machine Intelligence. vol. 13, n. 8, pp. 841-847, 1991.

[17] Y. Fukuyama, M. Sugeno, "A new method for choosing the number of clusters for fuzzy c-means method." In Proc. 5th Fuzzy System Symposium. 1989, pp. 247-250.

VII. BIOGRAFIA

Leila Roling Scariot da Silva was born in Medianeira, Paraná, Brazil in May 24, 1977. She has a BSc degree from the State University of West Paraná, Unioeste, MSc degree from the State University of Campinas, Unicamp. She has been with Uniguaçu and currently is with CEFET-PR. Her main interest areas include artificial intelligence and computational intelligence.

Fernando Gomide was born in Viçosa, Minas Gerais, Brazil in August 9, 1961. He is BSc in Electrical Engineering, MSc in Computer Engineering and Automation, and PhD in Systems Engineering from Case Western Reserve University, Cleveland, Ohio, USA. Currently he is professor of the Department of Computer Engineering and Automation, Faculty of Electrical and Computer Engineering, State University of Campinas, Unicamp, Campinas, São Paulo.