metodos de cluster para intervalos usando …€¦ · l1 para intervalos. al em deste m eto do,...
Post on 17-Aug-2020
3 Views
Preview:
TRANSCRIPT
Universidade Federal de Pernambuco
Centro de Informatica
Pos-graduacao em Ciencia da Computacao
METODOS DE CLUSTER PARA
INTERVALOS USANDO ALGORITMOS DO
TIPO NUVENS DINAMICAS
Renata Maria Cardoso Rodrigues de Souza
TESE DE DOUTORADO
Recife
19 de dezembro de 2003
Universidade Federal de Pernambuco
Centro de Informatica
Renata Maria Cardoso Rodrigues de Souza
METODOS DE CLUSTER PARA INTERVALOS USANDO
ALGORITMOS DO TIPO NUVENS DINAMICAS
Trabalho apresentado ao Programa de Pos-graduacao em
Ciencia da Computacao do Centro de Informatica da Uni-
versidade Federal de Pernambuco como requisito parcial
para obencao do grau de Doutor em Ciencia da Com-
putacao.
Orientador: Prof. Dr. Francisco de Assis T. de Carvalho
Recife
19 de dezembro de 2003
Dou gracas ao meu Senhor Jesus pela sua fidelidade du-
rante a elaboracao deste trabalho. A Ele toda a honra e
toda a gloria.
RESUMO
A analise de dados simbolicos (Symbolic Data Analysis) e uma nova abordagem na area
de descoberta automatica de conhecimentos que visa desenvolver metodos para dados
descritos por varaveis onde existem conjuntos de categorias, intervalos ou distribuicoes
de probabilidade nas celulas das tabelas de dados. O objetivo deste trabalho e introduzir
metodos de cluster para intervalos usando algoritmos de nuvens dinamicas. Estes algo-
ritmos consistem em obter, simultaneamente, uma particao em classes e identificar um
conjunto de representantes das classes minimizando um criterio que mede a adequacao
entre as classes e os prototipos. Os algoritmos de nuvens dinamicas com distancias adap-
tativas tambem encontram uma particao e um conjunto de representantes minimizando
uma funcao criterio, mas em cada iteracao existe uma distancia diferente para comparar
cada classe com o seu prototipo. A vantagem das distancias adaptativas e que o algo-
ritmo de agrupamento e capaz de reconhecer classes de formas e tamanhos diferentes.
Neste trabalho, foi desenvolvido um metodo de nuvens dinamicas usando a distancia
L1 para intervalos. Alem deste metodo, foram tambem introduzidos tres metodos com,
respectivamente, as distancias L1, L2 e L∞ adaptativas para intervalos. Para validar
os metodos, foram realizados experimentos com um conjunto de especies de peixes e
dois conjuntos de dados artificiais de intervalos com diferentes graus de dificuldade de
classificacao. Os resultados fornecidos pelos metodos tem sido avaliados por um ındice
externo na estrutura de uma experiencia Monte Carlo e testes estatısticos evidenciam
que o desempenho dos metodos adaptativos e superior ao dos metodos nao adaptativos.
Palavras-chave: Analise de Dados Simbolicos, Algoritmos de Nuvens Dinamicas,
Dados de Tipo Intervalo, Distancias Adaptativas.
iv
ABSTRACT
Symbolic Data Analysis (SDA) is a new domain in the area of knowledge discovery that
aims to provide suitable methods for data described through multi-valued variables,
where there are sets of categories, intervals, or weight (probability) distributions in the
cells of the data tables. The main contribution of this paper is to introduce cluster
methods for interval based on dynamical clustering algorithms. The dynamic cluster
algorithms aims to obtain both a single partition into a fixed number of clusters and the
identification of a suitable representation or prototype for each cluster by locally opti-
mizing an criterion that measure the fitting between the clusters and their corresponding
representation. The adaptive dynamic cluster algorithms also obtains a partition and a
prototypes set by optimizing a criterion function, but at each iteration there is a differ-
ent distance to the comparison of each cluster with its representation. The advantage
of these adaptive distances is that the clustering algorithm is able to recognize clusters
of different shapes and sizes. In this work, dynamical clustering method using a L1 dis-
tance for intervals was presented. Moreover, three methods with adaptive L1, L2 e L∞
distances were also introduced. The experiments carried out with a fish interval data set
and two artificial interval data sets with different degrees of clustering difficulty showed
the usefulness of these clustering methods The accuracy of the results furnished by these
clustering methods are assessed by an external index in the framework of a Monte Carlo
experience. Statistic tests support the evidence that the adaptive methods outperform
the non-adaptive methods.
Keywords: Symbolic Data Analysis, Dynamic cluster algorithm, Interval data, adap-
tive distances.
v
CONTEUDO
Capıtulo 1—Introducao 1
1.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Organizacao da TESE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Capıtulo 2—Analise de Dados Simbolicos (SDA) 7
2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Um breve historico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Tabelas de Dados Simbolicos e os Objetos Simbolicos . . . . . . . . . . . 10
2.3.1 Tabelas de Dados Simbolicos . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 Objetos Simbolicos . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.2.1 Objeto Simbolico Booleano . . . . . . . . . . . . . . . . 11
2.3.2.2 Objeto Simbolico Modal . . . . . . . . . . . . . . . . . . 14
2.4 Evolucao da Analise Simbolica de Dados . . . . . . . . . . . . . . . . . . 15
2.4.1 Analise Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.2 Medidas de similaridade e dissimilaridade . . . . . . . . . . . . . . 15
2.4.3 Selecao de variaveis . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.4 Estatısticas descritivas . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.5 Classificacao supervisionada . . . . . . . . . . . . . . . . . . . . . 16
Capıtulo 3—Analise de Cluster 18
3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
vi
conteudo vii
3.2 Analise de Cluster para Dados Usuais . . . . . . . . . . . . . . . . . . . . 20
3.2.1 Tipos de Variaveis . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1.1 Variaveis Qualitativas . . . . . . . . . . . . . . . . . . . 22
3.2.1.2 Variaveis Quantitativas . . . . . . . . . . . . . . . . . . 23
3.2.2 Medidas de Proximidades . . . . . . . . . . . . . . . . . . . . . . 23
3.2.2.1 Variaveis Quantitativas . . . . . . . . . . . . . . . . . . 25
3.2.2.2 Variaveis Binarias . . . . . . . . . . . . . . . . . . . . . 25
3.2.2.3 Variaveis Qualitativas . . . . . . . . . . . . . . . . . . . 25
3.2.2.4 Variaveis mistas . . . . . . . . . . . . . . . . . . . . . . 27
3.2.3 Metodos de cluster . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.3.1 Metodos de Particao . . . . . . . . . . . . . . . . . . . . 29
3.2.3.2 Metodos Hierarquicos . . . . . . . . . . . . . . . . . . . 30
3.2.4 Outros Metodos de Cluster . . . . . . . . . . . . . . . . . . . . . . 31
3.2.4.1 Redes Neurais . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.4.2 Metodos nebulosos . . . . . . . . . . . . . . . . . . . . . 32
3.2.4.3 Classificacao com Sobreposicao . . . . . . . . . . . . . . 33
3.2.4.4 Classificacao com Restricoes . . . . . . . . . . . . . . . . 35
3.2.4.5 Agrupamento Conceitual . . . . . . . . . . . . . . . . . . 35
3.3 Analise de Cluster para Dados Simbolicos . . . . . . . . . . . . . . . . . 36
3.3.1 Tipos de Variavies . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.1.1 Variaveis Nao Modais . . . . . . . . . . . . . . . . . . . 37
3.3.1.2 Variaveis Modais . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Medidas de Proximidades . . . . . . . . . . . . . . . . . . . . . . 39
3.3.2.1 Abordagens para Variaveis Nao Modais . . . . . . . . . 39
3.3.2.2 Uma Abordagem para Variaveis Modais . . . . . . . . . 43
3.3.3 Metodos de cluster . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.3.1 Metodos de particao . . . . . . . . . . . . . . . . . . . . 43
3.3.3.2 Metodos hieraquicos . . . . . . . . . . . . . . . . . . . . 44
Capıtulo 4—Algoritmos do tipo Nuvens Dinamicas 46
conteudo viii
4.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2 Metodos de Nuvens Dinamicas com distancias fixas . . . . . . . . . . . . 47
4.2.1 As funcoes de representacao e alocacao . . . . . . . . . . . . . . . 48
4.2.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2.3 O metodo de nuvens dinamicas com a distancia L1 . . . . . . . . 49
4.2.3.1 O problema de otimizacao . . . . . . . . . . . . . . . . . 49
4.2.3.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.4 O metodo de nuvens dinamicas com a distancia L2 . . . . . . . . 50
4.2.4.1 O problema de otimizacao . . . . . . . . . . . . . . . . . 50
4.2.4.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.5 O metodo de nuvens dinamicas com a distancia de Mahalanobis . 51
4.2.5.1 O problema de otimizacao . . . . . . . . . . . . . . . . . 52
4.2.5.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3 Metodos de Nuvens Dinamicas com distancias adaptativas . . . . . . . . 52
4.3.1 As funcoes de representacao, alocacao e distancia . . . . . . . . . 53
4.3.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3.3 O metodo de nuvens dinamicas com distancias L1 adaptativas . . 55
4.3.3.1 O problema de otimizacao . . . . . . . . . . . . . . . . . 55
4.3.3.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.4 O metodo de nuvens dinamicas com distancias L2 adaptativas . . 56
4.3.4.1 O problema de otimizacao . . . . . . . . . . . . . . . . . 57
4.3.4.2 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.5 O metodo de nuvens dinamicas com distancias de Mahalanobis
adaptativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.5.1 O problema de otimizacao . . . . . . . . . . . . . . . . . 58
4.3.6 O algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Capıtulo 5—Algoritmos do tipo Nuvens Dinamicas para Intervalos 60
5.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2 Metodos de nuvens dinamicas com distancias L1 para intervalos . . . . . 62
conteudo ix
5.2.1 O metodo com a distancia L1 fixa . . . . . . . . . . . . . . . . . . 62
5.2.1.1 Uma funcao de distancia L1 entre dois vetores de intervalos 62
5.2.1.2 O problema de otimizacao . . . . . . . . . . . . . . . . . 63
5.2.2 O metodo com distancias L1 adaptativas . . . . . . . . . . . . . . 63
5.2.2.1 Distancias L1 adaptativas entre dois intervalos . . . . . . 63
5.2.2.2 O problema de otimizacao com a distancia de um com-
ponente . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.2.2.3 O problema de otimizacao com a distancia de dois com-
ponentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.3 Metodos de nuvens dinamicas com distancias L2 para intervalos . . . . . 66
5.3.1 O metodo com a distancia L2 fixa . . . . . . . . . . . . . . . . . . 67
5.3.1.1 Uma funcao de distancia L2 entre dois vetores de intervalos 67
5.3.1.2 O problema de otimizacao . . . . . . . . . . . . . . . . . 67
5.3.2 O metodo com distancias L2 adaptativas . . . . . . . . . . . . . . 68
5.3.2.1 Distancias L2 adaptativas entre dois vetores de intervalos 68
5.3.2.2 O problema de otimizacao com a distancia de um com-
ponente . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.3.2.3 O problema de otimizacao com a distancia de dois com-
ponentes . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.4 Metodos de nuvens dinamicas com distancias L∞ para intervalos . . . . . 71
5.4.1 Metodo com a distancia L∞ fixa . . . . . . . . . . . . . . . . . . . 71
5.4.1.1 Uma funcao de distancia L∞ entre dois vetores de intervalos 72
5.4.1.2 O problema de otimizacao . . . . . . . . . . . . . . . . . 72
5.4.2 Metodo com distancias L∞ adaptativas . . . . . . . . . . . . . . . 72
5.4.2.1 Distancias L∞ adaptativas entre dois intervalos . . . . . 73
5.4.2.2 O problema de otimizacao . . . . . . . . . . . . . . . . . 73
5.5 Os algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.5.1 O algoritmo de nuvens dinamicas para intervalos . . . . . . . . . . 74
5.5.2 O algoritmo de nuvens dinamicas com distancias adaptativas para
intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
conteudo x
Capıtulo 6—Resultados dos Experimentos 78
6.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2 Conjuntos de Dados Artificiais do tipo Intervalo . . . . . . . . . . . . . . 78
6.2.1 Simulacao de Dados Usuais . . . . . . . . . . . . . . . . . . . . . 79
6.2.2 Simulacao de Dados do Tipo Intevalo . . . . . . . . . . . . . . . . 80
6.2.3 Calculo do ındice de validacao . . . . . . . . . . . . . . . . . . . . 81
6.2.4 Resultados para os Metodos L1 . . . . . . . . . . . . . . . . . . . 82
6.2.5 Resultados para os Metodos L2 . . . . . . . . . . . . . . . . . . . 84
6.2.6 Resultados para os Metodos L∞ . . . . . . . . . . . . . . . . . . . 85
6.3 Um Conjunto de Especies de Peixes . . . . . . . . . . . . . . . . . . . . . 86
6.3.1 Resultados para os metodos L1 . . . . . . . . . . . . . . . . . . . 88
6.3.2 Resultados para os metodos L2 . . . . . . . . . . . . . . . . . . . 88
6.3.3 Resultados para os metodos L∞ . . . . . . . . . . . . . . . . . . . 89
Capıtulo 7—Conclusoes e Trabalhos Futuros 91
7.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.2 Consideracoes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Apendice A—Estudo das Propriedades do Algoritmo de Nuvens Dinamicas 94
Apendice B—Estudo das Propriedades do Algoritmo de Nuvens Dinamicas com
Distancias Adaptativas 96
Apendice C—Proposicao 5.2.1 99
Apendice D—Proposicao 5.2.2 101
conteudo xi
Apendice E—Proposicao 5.2.3 103
Apendice F—Proposicao 5.2.4 105
LISTA DE FIGURAS
2.1 Operacoes de juncao e uniao entre dados simbolicos . . . . . . . . . . . . 13
2.2 Operacoes de disjuncao e conjuncao entre dados simbolicos . . . . . . . . 13
3.1 Coesao e Isolamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Etapas da analise de cluster . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Uma rede para as instituicoes educacionais de uma cidade . . . . . . . . 23
3.4 Estruturas de Classificacao . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.5 Estrutura de Cobertura . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.6 Dendogramas de ligacao simples e de ligacao completa . . . . . . . . . . 31
3.7 Clusters disjuntos e nebulosos . . . . . . . . . . . . . . . . . . . . . . . . 33
3.8 Uma piramide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.9 Um histograma descrevendo a altura de um grupo de pessoas . . . . . . . 38
6.1 Conjunto de dados usuais 1 mostrando classes bem separadas . . . . . . 79
6.2 Conjunto de dados usuais 2 mostrando sobreposicao de classes . . . . . . 80
6.3 Conjuntos de retangulos 1 mostrando classes bem separadas . . . . . . . 81
6.4 Conjuntos de retangulos 2 mostrando sobreposicao de classes . . . . . . . 81
xii
LISTA DE TABELAS
2.1 Temperaturas mınima e maxima registradas na China . . . . . . . . . . . 9
2.2 Uma tabela de dados simbolicos . . . . . . . . . . . . . . . . . . . . . . . 11
6.1 Indice CR medio para os metodos L1. . . . . . . . . . . . . . . . . . . . . 83
6.2 Estatısticas de testes t-Student emparelhados para os metodos L1 . . . . 83
6.3 Indice CR medio para os metodos L2. . . . . . . . . . . . . . . . . . . . . 84
6.4 Estatısticas de testes t-Student emparelhados para os metodos L2. . . . . 85
6.5 Indice CR medio para os metodos L∞. . . . . . . . . . . . . . . . . . . . 85
6.6 Estatısticas de testes t-Student emparelhados. . . . . . . . . . . . . . . . 86
6.7 Conjunto de Dados de Peixe descritos por 13 variaveis do tipo intervalo . 87
6.8 Resultados do agrupamento para o conjunto de peixes usando os metodos
L1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.9 Resultados do agrupamento para o conjunto de peixes usando os metodos
L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6.10 Resultados do agrupamento para o conjunto de peixes usando os metodos
L∞ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
xiii
CAPITULO 1
INTRODUCAO
1.1 MOTIVACAO
A disseminacao do uso dos computadores nas organizacoes tem alterado radicalmente
a maneira como as aplicacoes sao conduzidas. A cada dia, mais operacoes corriqueiras sao
automatizadas e a cada nova transacao, como compras com cartao de credito, operacoes
bancarias, novos registros correspondentes sao armazenados. Sistemas de gerenciadores
de banco de dados estao presentes na maioria das organizacoes publicas e empresas de
medio e grande porte, contendo os mais diferentes dados sobre produtos, fornecedores,
clientes, empregados, etc. Alem disso, avancos em aquisicao de dados, desde um simples
leitor de codigo de barras ate sistemas de sensoriamento remoto geram grandes volumes
de dados.
Entretanto num ambiente mutavel torna-se necessario novas tecnicas e ferramentas de
extracao e analise de conhecimentos que agilizem o processo decisorio de uma empresa.
A realizacao de Data Warehousing ([Gar98]) e considerado um dos primeiros passos para
tornar factıvel a analise de grande quantidade de dados no apoio ao processo decisorio.
O objetivo e criar um repositorio, conhecido como Data Warehouse (DW), que contem
dados limpos, agregados e consolidados. No entanto, a analise de dados atraves de um
DW geralmente nao extrapolam a realizacao de simples consultas e diante disto, diversos
estudos tem sido direcionado ao desenvolvimento de tecnologias de extracao automatica
de conhecimentos.
A descoberta de conhecimentos em bases de dados (Knowledge Discovery in Database
KDD) e uma area de pesquisa em bastante evidencia no momento que visa desenvolver
meios automaticos de propesccao de conhecimento em grandes bases de dados. O pro-
cesso de KDD inicia com uma etapa de pre-processamento objetivando assegurar a qual-
1
1.1 motivacao 2
idade dos dados a ser analisados. A proxima etapa e a descoberta de conhecimento
propriamente dita. Esta etapa compreende a escolha de um algoritmo de mineracao de
dados (Data Mining) para extrair informacoes valorosas, aparentemente camufladas ou
escondidas, de uma colecao de dados. Para finalizar o processo de KDD, uma terceira
etapa e empregada com a finalidade de avaliar e utilizar o conhecimento extraıdo visando
apoiar algum processo de tomada de decisao.
As ferramentas para execucao do processo de mineracao sao genericas e derivadas de
diferentes areas de conhecimento tais como da estatıstica, inteligencia artificial e banco
de dados. As tecnicas estatısticas multivariadas englobam algoritmos que podem ser
aplicados para descobrir estruturas em um conjunto de dados. Dentre estas tecnicas
destacamos analise de cluster (analise de agrupamento ou classificacao nao supervision-
ada) que tem como objetivo organizar um conjunto de objetos em classes de tal forma
que os objetos de uma mesma classe sao mais similares entre si do que o objetos perten-
centes a classes diferentes. O atrativo dos metodos de cluster para a mineracao de dados
esta na sua habilidade de extrair novas estruturas diretamente de dados, sem nenhum
conhecimento previo.
Embora as tecnicas multivariadas tradicionais sejam bem aplicadas para sumarizar e
analisar conjuntos de dados, com o explosivo crescimento das tecnologias da informacao
estas tecnicas tem sido inapropriadas para tratar conjuntos de dados representados por
informacoes mais complexas como por exemplo, intervalos. Alem disso, os metodos
estatısticos nao possuem estruturas adequadas que possibilitem sintetizar grandes con-
juntos de dados perdendo o menos possıvel de informacao dos dados originais. Como
uma alternativa para generalizar as atuais tecnicas estatısticas para estas informacoes
mais complexas, surge a analise de dados simbolicos (Symbolic Data Analysis (SDA)).
A analise de dados simbolicos [BD00] e uma nova abordagem na area da descoberta
automatica de conhecimentos (KDD) e gerenciamento de dados, relacionada com analise
de dados multivariados, reconhecimento de padroes, inteligencia artificial e banco de da-
dos. O principal objetivo de SDA e desenvolver metodos para tratamento de dados mais
complexos como intervalos, conjuntos e distribuicao de probabilidades ou de pesos. SDA
inicia com a agregacao/reducao de bases de dados classicos em uma estrutura mais com-
1.2 objetivos 3
plexa chamada de dados simbolicos, pois eles contem variacao interna e sao estruturados.
A etapa seguinte consiste na extensao dos metodos e algoritmos de extracao de conhec-
imentos (tecnicas estatısticas) a partir de dados usuais, para os dados simbolicos. Um
exemplo da aplicacao desta metodologia no processo de descoberta de conhecimentos em
grandes conjuntos de dados e apresentado por Lima Neto e De Carvalho [NdC01].
Os algoritmos da analise de cluster podem ser divididos entre dois grandes grupos:
aqueles que estruturam um conjunto de dados em hierarquias de classes atraves de uma
arvore, chamada de dendograma, e os que estruturam um conjunto de dados em uma
particao em um numero predefinido de classes. Os metodos hierarquicos podem ser di-
vididos em aglomerativos e divisivos. Em geral os metodos que fornecem uma particao
tambem fornecem um conjunto de representantes das classes atraves da otimizacao (lo-
cal) de um criterio de adequacao entre as classes e as suas representacoes.
Varios algoritmos de cluster de dados simbolicos, tanto do tipo hierarquico como do
tipo particional, foram propostos recentemente na literatura. Entretanto os metodos
de particao existentes nao usam distancias adaptativas. Os metodos de particao adap-
tativos sao capazes de produzir uma estrutura de classes melhorando a qualidade do
agrupamento, pois as distancias adaptativas permitem reconhecer classes de formas e
tamanhos diferentes. Este fato torna os metodos adaptativos como uma ferramenta
valiosa para a descoberta de conhecimento em bases de dados.
1.2 OBJETIVOS
O objetivo principal deste trabalho e desenvolver metodos de particao para intervalos
usando algoritmos do tipo nuvens dinamicas com e sem distancias adaptativas. Embora a
literatura da analise de dados simbolicos indique alguns avancos com metodos de particao
para intervalos, estes metodos nao usam distancias adaptativas. Neste contexto, duas
etapas sao abordadas:
1) Desenvolver um metodo de nuvens dinamicas usando uma distancias do tipo L1
(City-Block) para intervalos.
2) Propor metodos de nuvens dinamicas com distancias adaptativas do tipo
1.3 organizacao da tese 4
a) L1 (City-Block);
b) L2 (Euclidiana) e
c) L∞ (Maximo) para intervalos.
No contexto das aplicacoes, dois pontos sao abordados:
1) Avaliar o desempenho dos metodos propostos usando um ındice de validacao ex-
terno. Neste estudo, serao usados conjuntos de dados reais e artificiais de tipo
intervalo com diferentes graus de dificuldade de classificacao. Para dados artifi-
ciais, o ındice de validacao sera estimado no quadro de uma experiencia Monte
Carlo.
2) Comparar os metodos propostos utilizando testes estatısticos t-Student empar-
elhados. Aqui, os testes serao aplicados para comparar as medias dos ındices de
validacao estimados pelo metodo Monte Carlo de acordo com os diferentes metodos
e conjuntos.
1.3 ORGANIZACAO DA TESE
Alem deste capıtulo, esta tese sera apresentada em mais seis capıtulos que sao:
Capıtulo 2 Analise de Dados Simbolicos
A finalidade deste capıtulo e fornecer um breve historico da abordagem simbolica em
analise de dados.
Capıtulo 3 Analise de Cluster
Este capıtulo e dividido em duas grandes secoes. Na primeira secao (3.2) sao descritos
os tipos de dados classicos, algumas medidas de distancias entre eles e por ultimo um
resumo dos principais metodos classicos de cluster. A segunda secao (3.3) apresenta
os dados simbolicos, algumas medidas de proximidades entre estes tipos de dados e
1.3 organizacao da tese 5
finalmente uma breve descricao dos metodos de cluster (particao e hierarquico) da analise
de dados simbolicos.
Capıtulo 4 Algoritmos do tipo Nuvens Dinamicas
Este capıtulo descreve os algoritmos classicos de nuvens dinamicas com e sem distancias
adaptativas. Inicialmente, sao abordados tres metodos de nuvens dinamicas com, re-
spectivamente, as distancias L1, L2 e Mahalanobis (secao 4.2). Posteriormente, sao
apresentados os metodos de nuvens dinamicas com as distancias L1, L2 e Mahalanobis
adaptativas (secao 4.3).
Capıtulo 5 Algoritmos do tipo Nuvens Dinamicas para Intervalos
Neste capıtulo, e descrito o formalismo dos metodos de nuvens dinamicas com e
sem distancias adaptativas para intervalos. Na secao 5.2, sao apresentados os metodos
com e sem distancias L1 adaptativas para intervalos. Na secao 5.3, sao apresentados os
metodos com e sem distancias L2 adaptativas para intervalos. Finalmente, na secao 5.4
sao relatados os metodos com e sem distancias L∞ adaptativas para intervalos.
Capıtulo 6 Resultados dos Experimentos
Na primeira parte deste capıtulo (secao 6.2), e apresentado os resultados de clas-
sificacao fornecidos pelos metodos propostos usando conjuntos de dados artificiais de
intervalos. Alem disso, sao apresentados os resultados de testes t-Student comparando
os metodos nao adaptativos com os adaptativos. Na segunda parte (secao 6.3), e descrita
a aplicacao dos metodos propostos com um conjunto de dados reais.
Capıtulo 7 Conclusoes e Futuros Trabalhos
Neste capıtulo, serao mostradas as conclusoes e consideracoes finais desta tese, bem
como os futuros trabalhos que poderao ser realizados a partir das ideias aqui apresen-
1.3 organizacao da tese 6
tadas.
Apendices
Nos apendices A e B sao apresentados, respectivamente, os estudos das propriedades
dos algoritmos de nuvens dinamicas nao adaptativo e adaptativo. Nos apendices C, D,
E e F sao expostos as demonstracoes das proposicoes 5.2.1, 5.2.2, 5.2.3 e 5.2.4.
CAPITULO 2
ANALISE DE DADOS SIMBOLICOS (SDA)
2.1 INTRODUCAO
Os progressos recentes nas tecnologias das ciencias da informacao tem permitido
o armazenamento de vastos conjuntos de dados em todos os domınios da atividade
humana. Atualmente, assiste-se ao surgimento de diferentes abordagens para descobrir
regularidades, simplificar ou extrair conhecimentos e as informacoes armazenadas nesses
grandes conjuntos de dados. Este processo de extrair conhecimentos em grandes bases de
dados e comumente conhecido como Mineracao de Dados. Um dos objetivos principais
das tecnicas mineracao de dados e extrair valiosas informacoes que estao presentes nos
dados originais mas que ficam ocultas devido ao grande volume de informacao.
A analise de dados simbolicos (SDA) inicialmente consiste em construir automatica-
mente grupos homogeneos de obervacoes a partir de grandes conjuntos de dados definindo
assim novas unidades, chamadas de dados simbolicos, que descrevem esses grupos [BD00].
A obtencao desses dados simbolicos deve conservar o maximo de informacoes, ao mesmo
tempo em que reduz consideravelmente a tabela de dados inicial. O resultado disso sao
novas tabelas de dados, chamadas de ”tabelas de dados simbolicos”, de estrutura mais
complexa, pois cada uma das celulas dessas tabelas nao necessariamente contem, como
usualmente, um valor simples quantitativo ou qualitativo, mas pode conter informacoes
complexas tais como subconjuntos, intervalos, funcoes de diferentes semanticas (proba-
bilista, possibilista, credibilista, etc.) ligadas eventualmente por dependencias e taxono-
mias.
SDA surge como uma alternativa para minerar dados presentes em uma tabela de
dados simbolicos. As colunas destas tabelas sao variaveis simbolicas, usadas para descr-
ever os objetos, e as linhas sao chamadas de ”descricoes simbolicas”desses objetos, pois
7
2.2 um breve historico 8
elas nao sao vetores de valores quantitativos ou categoricos simples, como e usual. Os
objetos dessa tabela podem descrever indivıduos (observacoes individuais), levando ou
nao em conta a imprecisao ou a incerteza, ou podem descrever ıtens mais complexos,
tais como grupos de indivıduos.
Billard e Diday ([BD03]) atestam o crescimento de dados de natureza simbolica
e alertam a necessidade do desenvolvimento de novas metodologias estatısticas para
o tratamento de informacoes dessa natureza. Alem disso, com relacao aos poucos
metodos estatısticos disponıveis, faz-se necessario o estabelecimento de um maior su-
porte matematico e estatıstico a esses metodos, tais como: verificacao de propriedades
estatısticas, estimacao de erros padrao e distribuicoes teoricas, entre outros.
Na secao 2.2, e apresentado um breve historico da analise de dados simbolicos.
Na secao 2.3, sao expostos as tabelas de dados simbolicos e o formalismo dos obje-
tos simbolicos. Na secao 2.4, sao citados alguns trabalhos desenvolvidos no quadro da
analise de dados simbolicos.
2.2 UM BREVE HISTORICO
A analise de dados simbolicos ([BD00]) surgiu, simultaneamente, da influencia de tres
areas: Analise Exploratoria de Dados ([Tuk58], [Boc74], [DLPT84], [Sap90], [LMW95]),
Inteligencia Artificial ( [Mic73], [Win79], [Sow84]) e Taxonomia Numerica [SS73]
As primeiras tentativas de obter objetos simbolicos de dados classicos foram real-
izadas por Belson [Bel59], seguidos de Morgan e Sonquist [MS63], com o metodo AID
(Automatic Interaction Detector). Os primeiros algoritmos, chamados de ”Conceptual
Clustering”, foram apresentados por Diday, Govaert e Lechevalier [DGL80] e Michasky,
Stepp e Diday [MSD81].
SDA constitui uma extensao de alguns metodos utilizados para analise de dados
classicos. Os primeiros trabalhos com os princıpios basicos da abordagem simbolica
apareceram no final dos anos 80 ( [Did87] , [Did89])) e desde entao varios outros trabalhos
foram realizados em diversas direcoes. Bock e Diday [BD00] apresentam de maneira
solida os principais conceitos da analise de dados simbolicos e os principais metodos
2.2 um breve historico 9
estatısticos desenvolvidos para manipular dados desta natureza.
Os dados simbolicos podem ser obtidos em uma das seguintes maneiras:
• pela aplicacao de um algoritmo de classificacao nao supervisionada para simplificar
grandes conjuntos de dados e descrever, de uma maneira auto-explicativa as classes
associadas aos grupos obtidos;
• como resultado da descricao de conceitos por especialistas;
• a partir de bases de dados relacionais para estudar conjuntos de unidades cuja
descricao necessita a fusao eventual de varias relacoes.
Com os avancos das tecnologias da informacao tem sido comum, por exemplo, encon-
trar registros de intervalos em base de dados de aplicacoes oriundas de diversos lugares.
Abaixo e apresentada parte de uma tabela de dados simbolicos reais onde os dados
foram coletados na China. Nesta tabela as linhas sao estacoes na China e as colunas sao
variaveis do tipo intervalo onde cada uma contem as temperaturas mınima e maxima reg-
istradas mensalmente em 60 estacoes na China (ver http://dss.ucar.edu/datasets/ds578.
5/data/).
Tabela 2.1. Temperaturas mınima e maxima registradas na China
Estacoes Temperatura ([min : max]) - Ano 1998
Janeiro Fevereiro ... Novembro Dezembro
AnQing [1.8 : 7.1] [2.1 : 7.2] ... [7.8 : 17.9] [4.3 : 11.8]
... ... ... ... ... ...
ZhiJiang [2.7 : 8.4] [2.7 : 8.7] ... [8.2 : 20] [5.1 : 13.3]
Uma vez obtida uma tabela deste tipo, a fase seguinte consiste em analisar, classificar,
resumir e visualizar as informacoes contidas nesta tabela. Para minerar esses dados,
SDA tem desenvolvido uma metodologia que e uma extensao das ferramentas usuais de
extracao de conhecimentos para dados simbolicos.
2.3 tabelas de dados simbolicos e os objetos simbolicos 10
2.3 TABELAS DE DADOS SIMBOLICOS E OS OBJETOS SIMBOLICOS
Os objetos simbolicos foram introduzidos ([Did89]) com o objetivo de estender os
objetos da analise de dados usuais, fornecendo, assim, uma representacao multivariada
de dados complexos dispostos em um novo tipo de tabela chamada de tabela de dados
simbolicos. Esta secao inicia apresentando as tabelas de dados simbolicos e em seguida
e descrito o formalismo dos objetos simbolicos.
2.3.1 Tabelas de Dados Simbolicos
Os dados simbolicos sao informacoes complexas, definidas conforme o tipo de variavel
que descreve os objetos. Uma variavel simbolica e uma funcao que associa, a cada el-
emento do conjunto de objetos, uma descricao pertencente ao conjunto de descricoes.
As variaveis simbolicas sao diferentes das variaveis usuais, pois estas variaveis podem
assumir diferentes valores, como por exemplo, conjuntos de categorias ou valores, inter-
valos, histogramas, ou distribuicoes de probabilidades. Maiores detalhes sobre os tipos
de variaveis usuais e simbolicas sao encontrados, respectivamente, nas secoes 3.3.1 e 3.3.2
do Capıtulo 3.
Conforme foi citado, os dados simbolicos podem descrever indivıduos, levando em
conta ou nao a imprecisao ou a incerteza, ou podem descrever ıtens mais complexos,
tais como grupos de indivıduos. Abaixo estao alguns exemplos de dados simbolicos
para indivıduos (objetos de primeira ordem) e classes de indivıduos (objetos de segunda
ordem):
• Considere Y uma variavel simbolica que descreve o tempo de estudo diario de um
indivıduo. A descricao de um indivıduo k pode ser: Y (k) = [0, 6] (em horas) ou
Y (k) = (Y (k) ≤ 1(0, 6);Y (k) > 1(0, 4)).
• Considere Y uma variavel simbolica que descreve as instituicoes bancarias exis-
tentes em uma cidade (classes de indivıduos). A descricao de uma cidade k pode
ser: Y (k) = Banco do Brasil, Caixa, Itau, Bradesco.
Em uma tabela de dados simbolicos, as linhas correspondem os indivıduos ou classes
2.3 tabelas de dados simbolicos e os objetos simbolicos 11
de indivıduos e as colunas sao variaveis simbolicas que descrevem os indivıduos ou
classes de indivıduos. Na Tabela 6.1 e apresentado um exemplo de uma tabela de
dados simbolicos onde as linhas sao classes de indivıduos e as colunas sao tres variaveis
simbolicas: peso (expresso por um intervalo), marca de automovel (expresso por um
conjunto de categorias) e por ultimo fumante (expresso por uma distribuicao de pesos).
Tabela 2.2. Uma tabela de dados simbolicos
ID Peso Marca de Fumante
Automovel
1 [58, 8 : 70, 1] Ford, Fiat 3/4 sim, 1/4 nao
2 [65, 6 : 84, 2] Ford, Fiat, GM 1/6 sim, 5/6 nao
3 [49, 4 : 55, 3] Ford, GM 4/5 sim, 1/5 nao
2.3.2 Objetos Simbolicos
Sao definidos dois tipos de objetos simbolicos: booleano e modal.
2.3.2.1 Objeto Simbolico Booleano Sejam E um conjunto de objetos, u ∈ E, D
o conjunto de descricoes expressas por um conjunto de valores discretos ou um intervalo,
Y = (Y1, . . . , Yp)T um vetor de variaveis definido por uma funcao de E → D que associa
cada u a uma descricao d ∈ D, e R uma relacao de comparacao definida em D. Denote
[d′Rd] ∈ L = 0, 1 o resultado da comparacao entre duas descricoes d e d′, onde L = 1
significa que d e d′ estao conectados atraves de R.
Um objeto simbolico booleano e formalmente definido como uma tripla s = (a,R, d)
onde R e uma relacao, entre descricoes, d e uma descricao e a e uma funcao (booleana)
as : E → L com as(u) = ∧pj=1[yj(u)Rdj] = 1 se e somente se [yj(u)Rdj] = 1 para
(j = 1, . . . , p) . A extensao de s e definida como Ext(s) = u ∈ E/as(u) = 1 ([BD00]).
Exemplo 1: Seja s = (a,R, d) um objeto simbolico, onde Y = (Y1 = altura, Y2 =
peso), d = [[140, 1.60], [50, 60]], R uma relacao de pertinencia (isto e ∈) entao a(u) =
[altura(u) ∈ [140, 1.60]] ∧ peso(u) ∈ [50, 60]]. Um indivıduo u e tal que a(w) = 1 se e
2.3 tabelas de dados simbolicos e os objetos simbolicos 12
somente a sua altura estiver entre 140 e 160 e, o seu peso estiver entre 50 e 60.
Para representar o conhecimento usando objetos simbolicos, podem ser levado em
consideracao dependencias entre as variaveis, que sao expressas atraves de regras. Sao
adotados dois tipos de dependencias ( [dC98]):
1) Hierarquica: Uma variavel Y pode tornar-se inaplicavel se outra variavel Z assume
valores em um determinado subconjunto Sz. Por exemplo, seja um objeto simbolico
booleano a = [sexo ∈ M,F] ∧ [parto ∈ sim,nao] a dependencia hierarquica e
expressa pelas regras r1 : se [sexo = M ] entao [parto = NA]] e r2 : se [parto =
NA] entao [sexo = M ] onde NA significa nao aplicavel.
2) Logica: Um subconjunto Sy dos possıveis valores de uma variavel Y , pode estar
em correspondencia com o subconjunto dos possıveis valores da variavel Z. Por
exemplo, seja um objeto simbolico booleano a = [idade ∈ [30, 50]] ∧ [altura ∈
[150, 165]] a dependencia logica e expressa pela regra r : se [idade ∈ [40, 45]]
entao [altura ∈ [155, 160]].
Foram introduzidos quatro operacoes entre objetos simbolicos booleanos que sao:
juncao, uniao, conjuncao e disjuncao. O exemplo abaixo apresenta algumas operacoes
simbolicas que podem ser realizadas entre dois objetos booleanos.
Exemplo 2. Sejam s1 = (a1, R, d1) e s2 = (a2, R, d2) dois objetos simbolicos onde
onde y(u) = [altura(u), peso(u)], d1 = [[120, 1.40], [20, 40]], d2 = [[150, 170], [50, 70]], e R
uma relacao de pertinencia.
• A juncao entre s1 e s2, denotada por s1 ⊕ s2, resulta no objeto s3 = (a3, R, d3)
onde d3 = [[120, 1.70], [20, 70]].
• A uniao entre s1 e s2, denotada por s1 ∪ s2, resulta no objeto s3 = (a3, R, d3) onde
d3 = [[120, 140] ∪ [150, 1.70], [20, 40] ∪ [50, 70]].
• A disjuncao entre s1 e s2, denotada por s1 ∨ s2, resulta no objeto s3 = (a3, R, d3)
onde d3 = [[120, 1.40], [20, 40]] ∨ [[150, 170], [50, 70]].
2.3 tabelas de dados simbolicos e os objetos simbolicos 13
• A conjuncao entre s1 e s2, denotada por s1 ∧ s2, resulta no objeto s3 = (a3, R, d3)
onde d3 = [[120, 1.40] ∧ [150, 170], [20, 40] ∧ [50, 70]].
A Figuras 2.1 (a) e (b) ilustram, respectivamente, as operacoes juncao e uniao entre
dois objetos booleanos quaisquer, s = (a,R, d) e s′ = (a,R, d′).
Figura 2.1. Operacoes de juncao e uniao entre dados simbolicos
A Figuras 2.2 (a) e (b) exemplificam, respectivamente, as operacoes disjuncao e
conjuncao entre os objetos booleanos s e s′.
Figura 2.2. Operacoes de disjuncao e conjuncao entre dados simbolicos
Em [dC95], foi introduzida uma medida positiva para objetos simbolicos. Esta me-
dida representa o volume do produto cartesiano formado pelas descricoes das entidades
que satisfazem, potencialmente, as descricoes definidas por um objeto.
Seja s = (a,R, d) um objeto simbolico onde R e uma relacao de pertinencia, d e uma
descricao e as(u) = ∧pj=1[yj(u)Rdj]. O potencial de descricao de s e definido por:
π(d) =p
∏
j=1
µ(dj) (.)
2.3 tabelas de dados simbolicos e os objetos simbolicos 14
onde µ(dj) e o cardinal de dj, se dj for um conjunto e µ(dj) e a amplitude de dj, se dj
for um intervalo.
Exemplo 3. Seja s o objeto simbolico do Exemplo 1, entao o potencial de s e dado
por π(d) = (160− 140)× (60− 50) = 200
2.3.2.2 Objeto Simbolico Modal Sejam E um conjunto de entidades, u ∈ E, D
o conjunto de descricoes expressas por medidas de ponderacao ou distribuicao, Y =
(Y1, . . . , Yp)T um vetor de variaveis definido por uma funcao de E → D que associa
cada u a uma descricao d ∈ D, e Φ uma relacao de comparacao definida em D. Denote
[d′Φd] ∈ L = [0, 1] o resultado da comparacao entre duas descricoes d e d′.
Um objeto simbolico modal e formalmente definido como uma tripla s = (a,Φ, d)
onde Φ e uma relacao nebulosa entre descricoes, d e uma descricao e a e uma funcao
definida de E em L. A extensao de s e definida como Extα(s) = u ∈ E|as(u) > α onde
α e um limiar ∈ [0, 1].
Exemplo 4: Considere s = (a,Φ, d) um objeto modal onde [d′Φd] = f([yj(u)Φ dj]
j=1,...,p) =∏
j=1,p[d′jΦdj]. Sejam dj = r e d′j = q duas distribuicoes de probabilidade
discretas, associadas em <p e Φ definida da seguinte forma: rΦq =∑p
j=1 rj qj e−minrj ,qj.
Se p = 2 e d = [(0.2)12, (0.8)[20, 28], (0.4)F, (0.60)M] entao um objeto simbolico
modal pode ser definido como: a(u) = [idade(u)Φ(0, 2)12, (0, 8)[20, 28]] ∧ [sexo(u)Φ
(0, 4)F, (0, 6)M]. Um grupo de indivıduos (u) com d′ = [(0, 3)12, (0, 7)[20, 28], (0, 35
)F, (0, 65)M] entao a funcao a(u) = (0, 06×1, 10517+0, 56)×(0, 14,+, 0, 39×1.0512) =
0, 344. Adotando um limiar α = 0, 5 tem-se que a(u) < 0, 5 logo u nao faz parte de
Ext(s).
As operacoes entre objetos simbolicos modais podem ser generalizacoes do tipo:
maximo, mınimo e media. Sejam s1 = (a1,Φ, d1) e s2 = (a2,Φ, d2) dois objetos modais
onde y(ω) = [nıvel educacional(ω)], d1 = [(0, 3)Basico, (0, 5)Fundamental, (0, 2)Superior]
e d2 = [(0, 1)Basico, (0, 8)Fundamental, (0, 1)Superior].
• A generalizacao pelo maximo entre os objetos s1 e s2 resulta no objeto s3 = s1∪s2 =
(a3,Φ, d3) onde d3 = [(0, 3)Basico, (0, 8)Fundamental, (0, 2)Superior].
2.4 evolucao da analise simbolica de dados 15
• A generalizacao pelo mınimo entre os objetos s1 e s2 resulta no objeto s3 = s1∪s2 =
(a3,Φ, d3) onde d3 = [(0, 1)Basico, (0, 5)Fundamental, (0, 1)Superior].
• A generalizacao pela media entre os objetos s1 e s2 resulta no objeto s3 = s1∪s2 =
(a3,Φ, d3) onde d3 = [(0, 2)Basico, (0, 65)Fundamental, (0, 15)Superior].
2.4 EVOLUCAO DA ANALISE SIMBOLICA DE DADOS
Esta secao apresenta uma descricao de alguns trabalhos de SDA nas areas de: analise
fatorial, medidas de similaridade e dissimilaridade, selecao de variaveis, estatısticas de-
scritivas e classificacao supervisionada.
2.4.1 Analise Fatorial
Cazes, et al ( [PCCDS97]) introduziram um metodo geometrico de classificacao nao
supervisionada (analise de componentes principais) em que os indivıduos sao descritos
por vetores de intervalos numericos. Na mesma direcao, Verde e De Carvalho ( [VdC98])
desenvolveram uma abordagem para levar em conta regras de dependencias entre as
variaveis descritoras quando da utilizacao de um metodo de classificacao geometrica nao
supervisionada. Nagabhushan e Gowda ([NG95]) apresentaram uma outra abordagem
para a reducao de dimensionalidade para dados simbolicos;
2.4.2 Medidas de similaridade e dissimilaridade
Na literatura de SDA, tem sido propostas diversas medidas de dissimilaridade: Gowda
e Diday ([GD91a]) apresentaram uma nova medida considerando posicao, extensao e
conteudo dos objetos. Ichino e Yaguchi ([IY94]) propuseram uma generalizacao da
metrica de Minkowski para dados complexos. De Carvalho ([dC94]) introduziu me-
didas de proximidade inspiradas na combinacao dos ındices de variaveis binarias como
uma funcao de comparacao com a metrica de Minkowsky como funcao de agregacao,
levando em conta regras de dependencias entre variaveis.
De Carvalho ([dC98]) propos uma famılia de medidas que utiliza apenas funcoes de
2.4 evolucao da analise simbolica de dados 16
comparacao baseadas no potencial de descricao global. De Carvalho e Souza ( [dCdS98a])
apresentaram uma extensao da medida de Ichino e Yaguchi ( [IY94]) onde sao introduzi-
das dependencias logicas entre as variaveis e De Carvalho e Souza ([dCdS98b]) combinam
histogramas e dependencias logicas para definir medidas de proximidade dependentes do
contexto.
2.4.3 Selecao de variaveis
Ichino ([Ich81]) apresentou um metodo de selecao de variaveis nao parametrico aplicavel
para problemas de reconhecimento padroes baseado em informacoes estatısticas sobre
a estrutura interclasse. Ichino ([IS84]) tambem propos um metodo onde a selecao de
variaveis e representada por um problema de programacao inteira zero-um. Nos anos
seguintes ele generalizou os seus metodos para tratar variaveis simbolicas ([IY94]). Vi-
gnes ([Vig91]) desenvolveu uma outra abordagem para a selecao de variaveis simbolicas
booleanas que foi estendido por Ziani ([Zia96]) para levar em conta regras de dependencia
entre esse tipo de variavel;
2.4.4 Estatısticas descritivas
De Carvalho ([dC95]) introduziu a nocao de histogramas para dados simbolicos
booleanos. Bertrand e Goupil ([B00]) introduziram metodos para calcular a distribuicao
de frequencia para uma variavel simbolica e estenderam, para cada esse tipo de variavel,
os conceitos de media, desvio padrao e mediana. Recentemente, Billard e Diday ([BD02])
estenderam os conceitos de funcao de correlacao e covariancia, proporcionando a obtencao
de uma equacao de regressao linear multipla para dados simbolicos de natureza inter-
valar.
2.4.5 Classificacao supervisionada
Rasson e Lissoir ([RL98]) utilizaram uma funcao de Kernel para medir a concen-
tracao de dados simbolicos e solucionar problemas de discriminacao. Ichino ([Ich79])
2.4 evolucao da analise simbolica de dados 17
definiu um algoritmo que gera hiperetangulos, baseado no operador juncao, para descr-
ever classes de exemplos e classificar novas observacoes. Posteriormente Ichino ([Ich81])
apresentou uma adaptacao desse metodo para tratar mistura de variaveis. Para tratar
dados simbolicos Ichino ([Ich86]) generalizou os seus metodos atraves de um formalismo
que denominou de ”cartesian join system”e definiu o chamado Grafo de Vizinhos Mutuos
(MNG- Mutual Neighborhood Graph) que permite alcancar uma boa discriminacao das
classes de exemplos.
Recentemente Ichino ([IY98]) apresentou um classificador simbolico baseado em uma
abordagem cujo objetivo e encontrar representantes das classes de exemplos e introduzir
um medida de similaridade entre cos representantes e as novas observacoes a classificar.
Souza ([dS99], [dSdCAC99]) apresentou uma modificacao do algoritmo de Ichino ([IY98])
e aplicou esse metodo para imagens SAR (Synthetic Aperture Radar).
CAPITULO 3
ANALISE DE CLUSTER
3.1 INTRODUCAO
O objetivo principal de uma analise exploratoria e extrair informacoes dos dados,
estabelecendo relacoes entre os objetos e as variaveis do conjunto a ser analisado. A
analise exploratoria permite que, a partir das relacoes observadas nos dados, sejam lev-
antadas hipoteses e propostos modelos visando a descoberta de padroes. A classificacao
nao supervisionada, tambem conhecida como analise de agrupamento, e uma tecnica
exploratoria multivariada que se propoe a encontrar classes homogeneas a partir de um
conjunto de objetos (indivıduos).
A analise de agrupamento tem sido aplicada em varias areas incluindo reconhec-
imento padrao, segmentacao de imagem, mineracao de dados e recuperacao de in-
formacao. Alguns exemplos tıpicos de aplicacoes de agrupamento sao: em Marketing,
para ajudar os profissionais a descobrir grupos de clientes e usar este conhecimento para
orientar as campanhas publicitarias; em atividades de seguro, identificando grupos de
segurado com o custo medio elevado de reembolso, e em planejamento urbano, identifi-
cando grupos de habitacao segundo o tipo, o valor e a localizacao geografica ([HK01]).
Os principais objetivos da classificacao sao: simplificacao e predicao dos dados. Os
metodos de cluster sao capazes de organizar grandes conjuntos de dados em estruturas de
classes que permitem simplificar as informacoes contidas nos dados e facilitar a associacao
de novos objetos. Estas informacoes simplificadas podem tambem ser usadas para fazer
predicoes e tambem gerar hipoteses com bases nos grupos formados.
O resultado de um metodo de cluster e, usualmente, uma particao de um conjunto
de objetos em grupos ou classes de maneira que os elementos dentro de um grupo tem
um alto grau de similaridade e os elementos pertencentes a grupos diferentes tem um
18
3.1 introducao 19
alto grau de dissimilaridade. Neste contexto, uma boa aplicacao de cluster requer que
o metodo usado forneca um agrupamento com alta similaridade intra-grupos (classes
coesas) e alta dissimilaridade inter-grupos (classes isoladas).
A Figura 3.1 ilustra os conceitos de coesao interna e isolamento externo. Nesta
figura, (a) significa grupos coesos e isolados, (b) grupos isolados mas nao coesos, (c)
grupos coesos com varios pontos intermediarios e (d) nao existencia de grupos naturais.
Figura 3.1. Coesao e Isolamento
Tradicionalmente, um procedimento de cluster envolve as seguintes etapas: repre-
sentacao dos objetos, definicao de uma medida de proximidade para comparar os ob-
jetos, selecao de um metodo de agrupamento e validacao dos resultados. A Figura 3.2
mostra as etapas de formacao de agrupamentos.
Figura 3.2. Etapas da analise de cluster
A etapa de representacao dos objetos identifica os indivıduos que serao agrupados
e as variaveis que descrevem esses indivıduos. A saıda desta etapa e uma matriz de
dados onde as linhas sao os indivıduos e as colunas sao as variaveis. Alem disso, mais
tres elementos podem ser acrescentados nesta etapa, se for necessario: normalizacao
dos dados, e selecao e extracao de variaveis. A normalizacao visa atenuar o efeitos de
3.2 analise de cluster para dados usuais 20
diferentes medidas de escalas. A selecao de variaveis objetiva reduzir o conjunto de
variaveis. A extracao de variaveis identifica a formacao de novas variaveis a partir das
variaveis originais.
A etapa de investigacao de proximidades consiste em considerar uma medida de
distancia para medir a proximidade entre os objetos e, segundo o tipo de variavel difer-
entes medidas de dissimilaridade ou similaridade sao encontradas na literatura ([JD88]).
A saıda desta etapa e uma matriz de proximidades onde as coordenadas representam
as proximidade entre pares de objetos da matriz de dados definida na etapa de repre-
sentacao.
A etapa de agrupamento inicia com a selecao do metodo de agrupamento. Para
isto existem varias abordagens de classificacao, por exemplo: tecnicas hierarquicas, de
particao, agrupamento conceitual e mapas de kohonen. A saıda desta etapa e o agrupa-
mento de objetos similares (clusters) fornecido pelo metodo selecionado.
A etapa final refere a uma avaliacao quantitativa dos resultados do agrupamento.
Esta avaliacao pode ser baseada em ındices de validacao externo e interno. Um ındice
externo e usado para comparar a estrutura de classes obtida por um agrupamento com
uma estrutura definida a priori e um ındice externo determina se a estrutura do agru-
pamento esta apropriada aos dados. Alem disso, testes de hipoteses no quadro de uma
experiencia Monte Carlo podem ser utilizados para comparar duas estruturas de classes
([JMF99]).
O objetivo deste capıtulo e expor os principais componentes de uma analise de cluster
(representacao dos dados, medidas de proximidades e metodos de classificacao) para
dados usuais e simbolicos. Para isto, a secoes 3.2 e 3.3 apresentam, respectivamente, o
tratamento para os dados classicos e os dados simbolicos.
3.2 ANALISE DE CLUSTER PARA DADOS USUAIS
Seja um conjunto Ω = ω1, . . . , ωn de n objetos para serem agrupados. Seja
Y1, . . . , Yp um conjunto de p variaveis que descrevem os objetos. Uma variavel Y
e uma funcao que associa para cada objeto ω ∈ Ω um resultado da realizacao de uma
3.2 analise de cluster para dados usuais 21
caracterıstica observada Y (ω) = x. Cada objeto ωi (i = 1, . . . , n) e representado por
um vetor de caracterısticas x = (x1i , . . . , x
pi ) onde xj
i e o resultado da realizacao da
caracterıstica j observada no objeto ωi .
Uma matriz de dados e uma matriz com n linhas e p colunas onde as linhas sao os
objetos e as colunas sao as variaveis que descrevem estes objetos.
Xn×p =
x11 . . . xj
1 . . . xp1
......
......
...
xpi . . . xp
i . . . xpi
......
......
...
x1n . . . xj
n . . . xpn
Os dados de entrada de uma analise exploratoria sao classificados de acordo com os
seguintes tipos de variaveis.
3.2.1 Tipos de Variaveis
Os objetos a serem agrupados podem representar indivıduos, especies de animais,
documentos, paıses, etc. em diferentes aplicacoes e as variaveis que descrevem cada
indivıduo podem ser qualitativas ou quantitativas. Por exemplo, se peso e cor sao as
variaveis usadas para descrever um objeto, o vetor x = (50, preta) e a representacao
deste objeto que tem 50 kilos e cor preta.
Seja O o conjunto de possıveis resultados (domınio) de uma variavel. Uma variavel
e qualitativa o seu domınio e um conjunto finito e os elementos deste conjunto sao
categorias. Uma variavel e quantitativa se o seu domınio e o conjunto de numeros reais
< ou O ⊆ <. As variaveis qualitativas e quantitativas sao subdividias nos seguintes
tipos [BD00]:
(1) Qualitativas:
a) nominal (exemplo, cor de um carro);
b) ordinal (exemplo, temperatura da agua com O = fria,moderada, quente).
3.2 analise de cluster para dados usuais 22
(2) Quantitativas:
a) discretas (exemplo, numero de computadores);
b) contınuas (exemplo, peso de um adulto).
3.2.1.1 Variaveis Qualitativas Uma variavel e qualitativa nominal se o seu domınio
O e finito e sem significado numerico onde nao existe nenhuma ordenacao entre os seus
elementos. Exemplo: a marca de um carro com O = Ford, Pegeut, F iat. Quando o
domınio destas variaveis tem somente duas categorias que, usualmente sao codificadas
como 0 ou 1: O = 0, 1, estas variaveis sao chamadas de binarias. Exemplo: sexo de
um indivıduo onde 0 significa feminino e 1 significa masculino.
Uma variavel e qualitativa ordinal se o seu domınio e finito e para cada par de objetos
a, b ∈ O existe um ordem linear entre eles a ≺ b ou b ≺ a. Exemplo: a qualidade de
um produto com O = pobre, regular, boa onde pobre ≺ regular ≺ boa. Na pratica,
existem situacoes onde os elementos de O tem uma ordenacao generalizada no sentido
que:
(a) nem todo par de alternativas de a, b ∈ O pode ser comparado por ≺ (ordem
parcial);
(b) o sistema de pares ordenados a ≺ b pode ser desenhado segundo um diagrama de
tipo hierarquia, reticulado ou rede tal que dois nıveis a, b verifica-se b ≺ a se e
somente se existe uma sequencia de ramos conectados que liga a e b.
Exemplo: Sejam Y o nıvel educacional de uma cidade e O = es=escola elemen-
tar, ef=escola fundamental, pe=pedagogico, tc=tecnico, co=contabilidade, ci=cientıfico,
un=universidade, it=instituto tecnologico. A Figura mostra uma rede descrevendo uma
ordenacao generalizada entre os elementos de O. Nesta figura, dois tipos de escola a, b
conectados no sentido a → b significa que um aluno so e aceito no tipo de escola b
(universidade) se ele conclui o estudo em uma escola do tipo a (escola fundamental).
3.2 analise de cluster para dados usuais 23
Figura 3.3. Uma rede para as instituicoes educacionais de uma cidade
3.2.1.2 Variaveis Quantitativas Uma variavel e quantitativa discreta se o seu
domınio e um conjunto finito ou infinito enumeravel de valores. Exemplo: numero
de acidentes no Recife O = 1, 2, . . ..Uma variavel e quantitativa contınua se o range
de seus possıveis valores formam um intervalo. Exemplo: altura (em cm) de um adulto
com O = [1, 50; 2, 20] ⊆ <.
Para atenuar os efeitos de diferentes medidas de escalas quantitativas, e conveniente
padronizar as variaveis transformando as variaveis originais em novas unidades. Por
exemplo dado uma variavel Yj a padronizacao pode ser definida como segue:
1. Calculo do desvio absoluto medio, sj:
sj =1
n(|xj
1 −mj|+ . . .+ |xjn −mj|)
onde xj1, . . . , x
jn sao n valores da variavel j e mj e a media desta variavel.
2. Calculo da normal padrao, zj:
zj =xij −mj
sj
3.2.2 Medidas de Proximidades
As medidas de proximidade desempenham um papel importante na formacao de
agrupamentos pois estas medidas permitem comparar pares de objetos baseando-se nas
semelhancas ou nas diferencas existentes entre os mesmos. A proximidade para cada par
3.2 analise de cluster para dados usuais 24
de objetos (ωi, ωk) (i, k = 1, . . . , n) pode ser representada atraves de funcoes de similar-
idade s(i, k), medindo as semelhancas entre i e k ou dissimilaridade d(i, k), medindo as
diferencas.
Uma matriz de proximidades e uma matriz simetrica com n linhas e n colunas
Dn×n =
0
d(2, 1) 0
d(3, 1) d(3, 2) 0...
......
d(n, 1) d(n, 2) . . . . . . 0
onde d(i, k) mede a proximidade entre dois objetos ik e k de um conjunto de dados Ω.
Uma similaridade s e uma funcao s : Ω × Ω → R+ que satisfaz as seguintes pro-
priedades para ∀ k, t,∈ Ω (k, t, t = 1, . . . , n):
1. ∀k, t,∈ Ω, s(k, t) ≥ 0.
2. ∀k ∈ Ω, s(k, k) ≥ maxts(k, t).
3. ∀(k, t) ∈ Ω× Ω : s(k, t) = s(t, k).
Uma dissimilaridade d e uma funcao d : Ω × Ω → R+ que satisfaz as seguintes
propriedades para ∀ i, k, t ∈ Ω (i, k, t = 1, . . . , n):
1. ∀k, t,∈ Ω, d(k, t) ≥ 0.
2. ∀k ∈ Ω, d(k, k) = 0.
3. ∀(k, t) ∈ Ω× Ω : d(k, t) = d(t, k).
Seja ωi ∈ Ω. Uma distancia d e uma funcao de dissimilaridade que satisfaz tambem
as propriedades 1. a 3. e tambem a propriedade desigualdade triangular:
4. ∀(k, t) ∈ Ω× Ω : d(k, t) ≤ d(k, i) + d(t, i)
As proximidades entre pares de objetos sao calculadas dependendo do tipo da variavel
que descreve os objetos. Sejam xi = (x1i , . . . , x
pi ) e xk = (x1
k, . . . , xpk) dois vetores p-
dimensionais descrevendo, respectivamente, os objetos i e k.
3.2 analise de cluster para dados usuais 25
3.2.2.1 Variaveis Quantitativas Para este tipo de variavel as medidas de distancias
mais usuais sao as metricas de Minkowski: distancia Euclidiana
d(i, k) =√
((x1i − x
1k)
2 + . . .+ (xpi − x
pk)
2 (.)
e distancia de Manhatan (ou City-Block)
d(i, k) = |xi1 − xk1|+ . . .+ |xpi − x
pk| (.)
3.2.2.2 Variaveis Binarias Para o par de objetos (i, k), cada um descrito por um
vetor de p variaveis binarias, onde xji,k = 0 indica ausencia da variavel j e xj
i,k = 1 indica
presenca.
Considere a e o numero de variaveis que assume o valor 1 para ambos os objetos i e
k, b e numero de variaveis que assume o valor 1 para o objeto i e o valor 0 para o objeto
k, c e o numero de variaveis que assume o valor 0 para o objeto i e o valor 1 para o
objeto k e d e o numero de variaveis que assume o valor 0 para ambos os objetos i e k.
Existem diferentes medidas de similaridade e dissimilaridade entre dados binarios
baseadas nos termos a, b, c e d. As medidas mais usuais sao [Gor99]:
1. Coeficiente de matching de Sokal-Michener
s(i, k) =a+ d
p(.)
2. Coeficiente de Jaccard
d(i, k) =b+ c
p(.)
com s(i, k) = 1 e d(i, k) = 1 se a = b = c = 0.
3.2.2.3 Variaveis Qualitativas Para o par de objetos (i, k), cada um descrito por
um vetor de p variaveis nominais (nao ordenadas), onde cj e o numero de possıveis
categorias da variavel j.
3.2 analise de cluster para dados usuais 26
Seja δjlm um ındice de desacordo entre as categorias l e m da variavel j onde δjlm = 1
se l 6= m e δjll = 0 se l = m (l,m = 1, . . . , p). A dissimilaridade entre os objetos i e k
em nıvel da variavel j (j = 1, . . . , p) e definida por dikj = δklm e a similaridade pode ser
obtida por si,k,j = 1− dikj.
As medidas de dissimilaridade e similaridade global entre os objetos i e k podem ser
dadas, respectivamente, pelos seguintes coeficientes de matching
d(i, k) =
∑pj=1 dikj
p(.)
s(i, k) =
∑pj=1 sikj
p(.)
Quando as variaveis qualitativas sao do tipo ordinal, a dissimilaridade entre os objetos
i e k poder ser calculada de maneira muito similar ao calculo para dados quantitativos.
O procedimento consiste das seguintes etapas:
1. Para cada variavel j (j = 1, . . . , p) enumere as suas possıveis categorias segundo
a ordem existente entre as mesmas. Seja 1, . . . ,mj uma lista enumerada das
categorias onde mj o numero total de categorias da variavel j. Para os objetos i
e k, substitua cada categoria xji,k (i, k = 1, . . . , n) pelo seu respectivo numero rj
i,k
onde rji,k ∈ 1, . . . ,mj.
2. Dado que cada variavel tem um numero diferente de categorias, uma normalizacao
dos dados e necessaria e isto pode ser realizado da seguinte forma:
zji,k =
rji,k − 1
mj − 1(.)
com i, k = 1, . . . , n
3. A dissimilaridade entre os objetos i e k pode ser computada usando uma medida
de distancia para dados quantitativos aplicada aos vetores de dados normalizados
zji e zj
k.
3.2 analise de cluster para dados usuais 27
3.2.2.4 Variaveis mistas E comum os objetos de uma analise de dados serem de-
scritos por varios tipos de variaveis por exemplo, um indivıduo tem como descricao
idade=34 (variavel quantitativa), estado civil=casado (variavel nominal) e fumante=nao
(variavel binaria). Nestas situacoes, a proximidade entre os objetos i e k pode ser medida
por:
d(i, k) =
∑pj=1 ω
jikd
jik
∑pj=1 ω
jik
(.)
s(i, k) =
∑pj=1 ω
jiks
jik
∑pj=1 ω
jik
(.)
onde djik e sj
ik sao, respectivamente, a dissimilaridade e similaridade calculada de acordo
com o tipo da variavel j e ωjik e um peso atribuıdo a variavel j que e usualmente 1.
3.2.3 Metodos de cluster
Diferentes abordagens tem sido propostas para agrupar dados. Em analise de dados
distingui-se dois grandes grupos de metodos: hierarquicos e de particao ([Gor99], [Eve93]
[JD88] e [JMF99]). Uma classificacao hierarquica e uma sequencia de particoes que
pode iniciar com n classes unitarias e terminar com uma unica classe contendo todos os
objetos. Uma classificacao de particao e uma simples particao de classes disjuntas As
Figuras 3.4 (a) e (b) ilustram, respectivamente, as estruturas de classificacao hierarquica
e de particao.
Figura 3.4. Estruturas de Classificacao
3.2 analise de cluster para dados usuais 28
Alem dessas estruturas de classificacao, existe tambem a estrutura de cobertura onde
e permitido que as classes partilhem os seus objetos. A Figura 3.5 exemplifica uma
estrutura de classificacao do tipo cobertura.
Figura 3.5. Estrutura de Cobertura
Os metodos de cluster tambem sao classificados segundo os seguintes aspectos:
1. Algomerativos versus Divisivos : Um metodo aglomerativo inicia colocando cada
objeto em uma classe e gradualmente fusiona os objetos formando classes maiores
ate que todos objetos estejam agrupados em uma unica classe. Um metodo divisivo
executa o procedimento aglomearativo na ordem inversa. Os metodos de particao
tambem podem ser caracterizados neste caminho.
2. Incrementais versus Nao Incrementais : Um metodo incremental apresenta os ob-
jetos a serem agrupados um de cada vez enquanto que o nao incremental apresenta
todos os objetos de uma so vez.
3. Monoteticos versus Politeticos : Os metodos monoteticos usam as variaveis uma
de cada vez enquanto os politeticos usam todas as variaveis de uma so vez.
4. Parametricos versus Nao Parametricos : Os metodos parametricos necessitam con-
hecer a distribuicao dos dados enquanto os nao parametricos nao faz uso disto.
5. Geometricos versus Nao Geometricos : Os metodos geometricos usam os conceitos
da teoria dos grafos para definir a classificacao enquanto os nao geometricos usam
termos algebricos tal como error medio quadratico.
3.2 analise de cluster para dados usuais 29
3.2.3.1 Metodos de Particao Consistem em obter uma particao de um dado con-
junto de n objetos em um numero predefinido de grupos ou classes k onde k ≤ n. Este
procedimento requer: a) cada grupo contenha pelo menos um objeto; b) cada objeto
deve pertencer a exatamente um grupo. Usualmente as particoes sao construıdas por
otimizando uma funcao criterio. Neste caso os metodos sao tecnicas de realocacao it-
erativas que, para melhorar a qualidade do agrupamento, os algoritmos sao executados
diversas vezes com diferentes particoes iniciais e a melhor configuracao obtida a partir
desses resultados e selecionada como o agrupamento final.
Os algoritmos de nuvens dinamicas tem dois passos de realocacao iterativos envol-
vendo a construcao das classes e a identificacao de representantes ou prototipos das
classes tais como media, mediana, distribuicao de probabilidade, etc. otimizando um
criterio que mede a adequacao entre as classes e seus representantes. O algoritmo de k-
medias e um caso particular dos algoritmos do tipo nuvem dinamica onde os prototipos
sao os centroides e a funcao criterio e baseada na distancia Euclidiana medindo as
diferencas entre os centroides e as classes. Alem disso o k-medias so e capaz de recon-
hecer regioes esfericas.
A versao adaptativa dos algoritmos de nuvens dinamicas tambem obtem uma particao
e um conjunto de representantes das classes otimizando um criterio que mede a ade-
quacao entre as classes e seus representantes. Entretanto, este algoritmo associa uma
distancia diferente para cada classe que muda a cada iteracao. A vantagem dessas
distancias e que o algoritmo e capaz de reconhecer classes de formas e tamanhos difer-
entes.
Uma outra classe de metodos de particao sao os algoritmos parametricos baseados em
misturas finitas de distribuicao. O metodo supoe que os objetos a serem agrupados foram
extraıdos a partir K distribuicoes de probabilidades e a ideia e identificar os parametros
da distribuicao de cada grupo e usar esses parametros para classificar os objetos. Cada
distribuicao fornece uma probabilidade de que um objeto apresente um certo conjunto
de valores caso se saiba que ela pertenca a um dado grupo. Os parametros sao estimados
por maxima verossimilhanca atraves do algoritmo EM (Expectation Maximization).
3.2 analise de cluster para dados usuais 30
3.2.3.2 Metodos Hierarquicos Classifica um conjunto de objetos em grupos pro-
duzindo uma hierarquia entre eles representada por uma arvore chamada de dendro-
grama. Um dendograma e um conjuntoD de subconjuntos de Ω satisfazendo as seguintes
condicoes:
(i) Ω ∈ D;
(ii) ∅ nao pertence D;
(iii) i ∈ D ∀i ∈ Ω;
(iv) se A,B ∈ D entao A ∩B ∈ ∅, A,B.
As tecnicas hierarquicas podem ser divididos em dois tipos: aglomerativos e divisivos.
Um metodo aglomerativo inicia com n grupos unitarios e obtem, sucessivamente, fusoes
de grupos similares ate que todos os n objetos formem um unico grupo. Um metodo
divisivo inicia com um unico grupo formado por todos os n objetos e em cada iteracao
sucessiva um grupo e subdividido em grupos menores ate que cada grupo tenha um
unico objeto.
Existem diferentes abordagens para fusionar grupos. As mais usuais sao os metodos
aglomerativos de ligacao simples (Sing-link method) e ligacao completa (Complete-link
method. No metodo de ligacao simples, a dissimilaridade entre dois grupos e representada
pela dissimilaridade mınima calculada entre todos os pares de objetos pertencentes a
estes grupos (um objeto do primeiro grupo e um objeto do segundo). No metodo de
ligacao completa, a dissimilaridade entre dois grupos e representada pela dissimilaridade
maxima calculada entre todos os pares de objetos pertencentes a estes grupos.
Alem dos metodos de ligacao simples e completa existem outros caminhos para definir
a dissimilaridade entre dois grupos. Sao estes:
a) No agrupamento de medias de grupos, a dissimilaridade entre dois grupos e definida
como a media das distancias entre todos os pares de objetos, cada um de um grupo
diferente.
3.2 analise de cluster para dados usuais 31
b) No agrupamento de centroides, os dois grupos ja formados sao representados por
centroides (vetores de medias) e a distancia inter-grupos e agora definida em termos
de distancia entre estes vetores de medias.
c) O agrupamento de medianas compara os grupos da mesma forma que o agrupa-
mento de centroides sendo que agora a representacao de cada grupo e um vetor de
medianas. Se os tamanhos dos dois grupos sao muito diferentes, e mais adequado
usar o agrupamento de medianas do que o agrupamento de medias.
As Figuras 3.6(a) e 3.6(b) ilustram, respectivamente, os dendogramas para os metodos
de ligacao simples e completa.
Figura 3.6. Dendogramas de ligacao simples e de ligacao completa
Os agrupamentos de ligacao simples e de ligacao completa tambem podem ser obtidos
usando os conceitos da teoria dos grafos. Neste caso, o metodo de ligacao simples e
definido em termos de sub-grafos conectados e o metodo de ligacao completa em termos
de sub-grafos completos.
3.2.4 Outros Metodos de Cluster
Os metodos de particao e hierarquicos constituem a maioria das tecnicas da analise
de cluster. Contudo, existem outros metodos de clustering que tem sido desenvolvidos
3.2 analise de cluster para dados usuais 32
mas nao sao claramente definidos como de particao ou hierarquico ([Gor00], [Eve93],
[JMF99], [JD88], [HK01]).
3.2.4.1 Redes Neurais As Redes Neurais Artificiais (RNAs) sao modelos computa-
cionais inspirados no cerebro humanos. As (RNAs) tem sido largamente utilizadas em
problemas de classificacao. Algumas das suas caracterısticas importantes para a classi-
ficacao sao: processamento paralelo e distribuıdo, aprendizagem atraves de exemplos e
adaptatibilidade. Os modelos de redes para agrupamento utilizam aprendizagem com-
petiva para agrupar as unidades de entrada (padroes). Na aprendizagem, objetos simi-
lares sao agrupados pela competicao entre varias unidades (neuronios representados por
vetores de peso) e o objeto corrente. A unidade cujo vetor de pesos esta proxima do
objeto corrente vence e a unidade vencedora e seus vizinhos aprendem pelo ajustamento
de pesos.
Um exemplo bem conhecido de RNAs, sao os mapas auto-organizaveis (SOMs)
[Koh89]. A arquitetura desta rede e constituıda de uma camada bidimensional de
neuronios. O algoritmo organiza os nos da rede em vizinhancas locais que agem como
clusters sobre os dados de entrada. O mapa e automaticamente organizado por um
processo cıclico ate que o nenhum padrao mude de classe. A convergencia da rede e
controlada por diversos parametros tais como: taxa de aprendizagem e vizinhanca que
define a quantidade de nos que envolve o no vencedor.
3.2.4.2 Metodos nebulosos Tradicionalmente, as abordagens de clusters geram
particoes de um conjunto de objetos. Em uma particao,cada objeto pertence a uma e
somente uma classe. Neste tipo de agrupamento, conhecido como hard, as classes sao
disjuntas. O agrupamento nebuloso estende este conceito para associar cada padrao a
cada um dos clusters usando uma funcao de pertinencia que assume valores no intervalo
[0, 1].
Neste metodo, cada cluster e um conjunto nebuloso de todos os objetos. A Figura
3.7 ilustra um agrupamento nebuloso de um conjuntos de 9 objetos. Os retangulos H1 e
3.2 analise de cluster para dados usuais 33
H2 sao dois clusters disjuntos e F1 e F2 sao dois clusters nebulosos [JMF99]. O cluster
F1 poderia ser descrito como: (1; 0, 9), (2; 0, 8), (3; 0, 7), (4; 0, 6), (5; 0, 5), (6; 0, 2), (7; 0.2),
(8; 0, 0), (9 : 0, 0). O cluster F2 poderia tambem ser descrito como: (1; 0, 0), (2; 0, 0), (3;
0, 0), (4; 0, 1), (5; 0, 15), (6; 0, 4), (7; 0.35), (8; 1, 0), (9 : 0, 9). Cada par (i, θ) em F1 e F2
significa, respectivamente, o ındice do objeto no conjunto e o grau de pertinencia deste
objeto em F1 ou em F2.
Figura 3.7. Clusters disjuntos e nebulosos
Um problema usual em agrupamento nebuloso e a definicao da funcao de pertinencia
e diferentes funcoes sao usadas entre elas as funcoes baseadas em centroides de clusters.
O algoritmo nebuloso mais usado e o algoritmo c-medias e uma generalizacao deste
algoritmo usando uma famılia de funcoes de pertinencia e apresentada em [Bez81].
3.2.4.3 Classificacao com Sobreposicao Em geral,as classes sao disjuntas, se e
usado um metodo de particao ou as classes sao disjuntas ou encaixadas, se e usado
um metodo hierarquico. Contudo, existem um numero de metodos na literatura de
classificacao que formam classes nao disjuntas ou seja com sobreposicao. Alguns deles
sao: metodo Bk e piramides.
O metodo Bk (k = 1, 2, 3, . . .) [JS68] e uma sequencia de metodos de clustering onde
duas classes podem ter no maximo (k− 1) objetos em comum. Quando k = 1 o metodo
B1 e o metodo de ligacao simples apresentado na secao 3.2.3.2. Para construir as classes
o BK usa os conceitos da teoria dos grafos onde cada objeto e representado com um
vertice no grafo e uma aresta liga dois objetos baseando-se na dissimilaridade entre eles.
3.2 analise de cluster para dados usuais 34
Neste metodo, cada classe corresponde a um sub-grafo completo maximo.
O modelo piramidal, introduzido por Diday [Did86], e uma classificacao hierarquica
que especifica uma ordenacao no conjunto de objetos a serem agrupados. Portanto, uma
piramide e um tipo de dendrograma onde existe uma ordenacao entre as classes. A
Figura 3.8 ilustra uma classificacao usando uma piramide.
Figura 3.8. Uma piramide
Formalmente, uma piramide e definida como um conjunto P de subconjuntos do
conjunto de objetos Ω que satisfazem as seguintes condicoes:
(i) Ω ∈ P ;
(ii) ∅ nao pertence P ;
(iii) i ∈ P ∀i ∈ Ω;
(iv) se A,B ∈ P entao A ∩B ∈ P ∪ ∅;
(v) existe uma order tal que P e um conjunto de intervalos desta ordem.
As piramides generalizam os modelos hierarquicos apresentadas na subsecao 3.2.3.2
permitindo classes nao disjuntas onde cada classe e um intervalo do conjunto de objetos
Ω. Na Figura 3.8 pode se observar que cada classe (no interno) da piramide pode ter
duas classes predecessoras ao contrario dos dendogramas da Figura 3.6 onde cada classe
so tem um classe predecessora. Dado um conjunto de n objetos, o numero maximo de
nos em uma piramide e n(n − 1)/2 enquanto que em um dendograma este numero e
3.2 analise de cluster para dados usuais 35
(n − 1). Uma piramide pode ser construıda a partir de uma matriz de dissimilaridade
usando um algoritmo aglomerativo [Did86].
3.2.4.4 Classificacao com Restricoes Em alguns problemas de classificacao e rel-
evante impor restricoes no conjunto de objtos. O tipo de restricao mais comum e a
contiguidade. Esta restricao ocorre quando os objetos em uma classe sao requeridos
nao somente serem similares mas tambem terem uma contiguidade espacial entre eles.
Por exemplo, em sensoriamento remoto um pixel poderia corresponder um objeto e o
interesse seria identificar regioes homogeneas. Neste caso, a dissimilaridade entre cada
par de objetos espacialmente contıguos pode ser definida combinando um componente
para medir as diferencas fısicas e uma distancia para medir a separacao entre os obje-
tos. Estas dissimilaridades podem ser analisadas usando os metodos convencionais de
classificacao [Gor00].
Segundo Gordon [Gor00], uma abordagem adequada para obter a classificacao requer
a definicao de uma matriz que represente a contiguidade entre todos os pares de objetos.
Uma coordenada desta matriz assume 0, se dois objetos nao sao contıguos ou 1, se os
objetos sao contıguos. No grafo correspondente a esta matriz, cada objeto e representado
por um vertice e uma aresta liga os objetos se os mesmos sao contıguos. Construıdo o
grafo, classificacoes hierarquicas e de particao com restricoes podem ser obtidas usando
versoes modificadas dos metodos descritos na secao 3.2.3.
3.2.4.5 Agrupamento Conceitual Em aplicacoes de agrupamento e usual a saıda
ser uma particao de um dado conjuntos de objetos. Entretanto, em muitas outras
aplicacoes envolvendo tomada de decisoes, nao somente clusters sao descobertos mas
tambem uma descricao de cada cluster e identificada e esta descricao representa um
conceito. No primeiro caso o agrupamento e nao conceptual pois apenas fornece a
descricao em extensao de cada grupo e obtencao dos grupos leva em conta apenas as
descricoes dos indivıduos. No segundo caso, alem da descricao em extensao, tambem e
considerada a descricao em compreensao (intencional) de cada grupo e a formacao dos
3.3 analise de cluster para dados simbolicos 36
grupos leva em conta tambem a qualidade da descricao em compreensao de cada grupo.
Os metodos de agrupamento conceitual funcionam em duas etapas: agregacao e car-
acterizacao. A agregacao consiste em encontrar os grupos de um conjunto de indivıduos
segundo uma estrutura considerada e um ou mais criterios fixados. A caracterizacao
fornece uma descricao (conceito) de cada um dos grupos obtidos na fase de agregacao.
Como ilustracao, podemos citar os metodos CLUSTER/2 [MS83] e COBWEB [Fis87].
O metodo CLUSTER/2 inicia com k sementes, onde k e o numero de clusters a
serem construıdos e associa cada semente com uma descricao discriminante maxima. Em
seguida atribui os objetos (exemplos cobertos) a cada descricao para obter as classes.
Os objetos cobertos por mais de uma classe sao removidos e uma classe e associada para
cada um destes objetos. Assim, novas descricoes discriminantes sao obtidas e o conjunto
final de descricoes discriminantes fornecera a descricao conceitual das classes.
O COBWEB abrange um algoritmo incremental para obter uma classificacao hierar
quica atraves de uma arvore de classificacao. Cada no da arvore refere-se a um conceito
que, representado por uma descricao probabilıstica, resume as descricoes dos objetos
classificados neste no. A classificacao e obtida da seguinte forma: cada objeto percorre
os nos da arvore (no sentido de cima para baixo), iniciando pelo no que compreende todos
os objetos, e por onde o objeto passar as descricoes dos nos sao atualizadas. Dependo
da medida de qualidade usada, o objeto pode ser associado a uma classe existente, uma
nova classe pode ser criada, ou classes existentes podem ser combinadas ou subdivididas.
3.3 ANALISE DE CLUSTER PARA DADOS SIMBOLICOS
Esta secao visa apresentar uma extensao da analise de cluster de dados usuais, ap-
resentada na secao 3.2, para os dados simbolicos. Neste contexto SDA tem proposto
medidas de dissimilaridade e similaridade e metodos (hierarquicos e de particao) para
objetos descritos por vetores de dados simbolicos onde nas coordenadas destes vetores
podem conter um conjunto de valores ou categorias, um intervalo ou uma distribuicao
de pesos ou de probabilidade.
Seja um conjunto E = s1, . . . , sn de n objetos para serem agrupados. Um objeto
3.3 analise de cluster para dados simbolicos 37
pode ser um indivıduos ou um grupo de indivıduos ou um entidade. Seja Y1, . . . , Yp um
conjunto de p variaveis simbolicas que descrevem estes objetos. Uma variavel simbolica
Yj e uma funcao que associa para cada objeto um resultado ou um conjunto de resultados
da realizacao de uma caracterıstica observada Y (s) = ξ. Cada objeto si (i = 1, . . . , n) e
descrito por um vetor de variaveis simbolicas ξi = (ξ1i , . . . , ξ
pi ) onde ξj
i e o resultado da
realizacao da caracterıstica j observada no objeto si .
Uma matriz de dados simbolicos, e uma matriz com n linhas e p colunas onde as
linhas sao os objetos (indivıduos ou classes de indivıduos) e as colunas sao variaveis
simbolicas.
Xn×p =
ξ11 . . . ξj
1 . . . ξp1
......
......
...
ξ1i . . . ξj
i . . . ξpi
......
......
...
ξ1n . . . ξj
n . . . ξpn
onde ξij e o valor da variavel simbolica Yj observada no objeto i.
3.3.1 Tipos de Variavies
Como nos dados classicos, os dados simbolicos tambem sao classificados segundo o
tipo de variavel simbolica que descrevem os objetos e estas por sua vez sao definidas
de acordo com o seu domınio. Por exemplo, a variavel cor descrevendo uma especie de
planta pelo conjunto de categorias verde, lilas e amarelo e uma variavel simbolica do
tipo multi-valorada categorica.
De acordo com Bock e Diday [BD00], as variaveis simbolicas sao classificadas em dois
grandes grupos: nao modais e modais.
3.3.1.1 Variaveis Nao Modais As variaveis simbolicas nao modais sao: multival-
oradas e de tipo intervalo. As variaveis multivaloradas sao definidas como:
(i) categorica (ordinal ou nominal) e
3.3 analise de cluster para dados simbolicos 38
(ii) quantitativa
Uma variavel multivalorada nominal assume ao descrever um objeto um conjunto de
categorias nao ordenados. Por exemplo, seja Y=cartoes de credito e sk um grupo k de
indivıduos entao y(k) = Master, V isa.
Uma variavel multivalorada ordinal assume um conjunto de categorias onde existe
uma ordenacao entre elas . Por exemplo, seja Y=ensino e sk uma escola entao y(k) =
fundamental e superior. No caso classico, esta variavel ao descrever um grupo de
indivıduo so podera assumir uma unica categoria.
Uma variavel multivalorada quantitativa assume um conjunto de valores nao ordena-
dos. Por exemplo, seja Y = o numero de acidentes semanais em tres principais bairros
de uma cidade e sk uma cidade entao, y(k) = 20, 10, 15. Novamente, no caso classico,
esta variavel ao descrever um indivıduo so podera assumir um unico valor.
Uma variavel nao modal do tipo intervalo assume um intervalo [a, b] ∈ I = [a, b] :
a, b ∈ <, a ≤ b. Exemplo, seja Y = salario em reais e sk uma cidade, entao y(k) =
[70, 7000].
3.3.1.2 Variaveis Modais Uma variavel simbolica modal descreve um objeto us-
ando o par (c,π) onde c e um conjunto de categorias que a variavel assume e π e um
vetor de frequencias, pesos ou probabilidades correspondentes as categorias do conjunto
c.
Exemplo, seja Y = a altura dos socios de um clube sk entao, y(k) e uma descricao
dada por: ([1, 50, 1, 60]0, 20); [1, 60; 170]0, 50; [1, 70; 1, 80]0, 20; [1, 80; 1, 90]0, 15). Cada
elemento desta descricao representa um intervalo e a sua frequencia relativa. A Figura
3.9 ilustra o histograma que representa a altura dos socios do clube sk.
3.3 analise de cluster para dados simbolicos 39
Figura 3.9. Um histograma descrevendo a altura de um grupo de pessoas
3.3.2 Medidas de Proximidades
Em SDA, uma matriz de proximidades e uma matriz simetrica com n linhas e n
colunas que representam as proximidades para todos os pares de n objetos.
Dn×n =
0
d(2, 1) 0
d(3, 1) d(3, 2) 0...
......
d(n, 1) d(n, 2) . . . . . . 0
onde d(i, j) pode ser uma funcao de similaridade ou dissimilaridade, ou uma distancia
entre o objetos si e sj.
Diferentes abordagens tem sido propostas para medir as proximidades entre pares de
objetos simbolicos descritos por variaveis nao modais ou modais. A seguir sao apresen-
tadas algumas desses medidas.
3.3.2.1 Abordagens para Variaveis Nao Modais De acordo com Gowda e Diday
([GD91a]) a proximidade entre dois objetos si e sk e definida por:
d(i, k) =p
∑
j=1
D(ξji , ξ
jk) (.)
3.3 analise de cluster para dados simbolicos 40
Esta funcao d(i, k) mede as diferencas entre os vetores ξi = (ξ1i , . . . , ξ
pi ), que repre-
senta si e ξk = (ξ1k, . . . , ξ
pk), que representa sk.
Para medir as diferencas entre o par (ξji , ξ
jk) em nıvel da variavel j (j = 1, . . . , p), a
funcao D(ξji , ξ
jk) tem duas versoes:
(i) Variaveis quantitativa e do tipo intervalo.
Sejam ξji = [aj
i , bji ] e ξj
k = [ajk, b
jk] e Oj o domınio (intervalo maximo) da variavel j
representado por ξjo = [aj
o, bjo]. A funcao D(ξj
i , ξjk) e dada por:
D(ξji , ξ
jk) = Dp(ξ
ji , ξ
jk) +Ds(ξ
ji , ξ
jk) +Dc(ξ
ji , ξ
jk) (.)
com 0 ≤ Dp ≤ 1, 0 ≤ Ds ≤ 1 e 0 ≤ Dc ≤ 1.
A componente Dp(ξji , ξ
jk) mede as diferencas em posicao entre ξj
i e ξjk.
Dp(ξji , ξ
jk) =
|aji − a
jk|
|ajo − b
jo|
(.)
A componente Ds(ξji , ξ
jk) mede as diferencas em extensao entre ξj
i e ξjk.
Dp(ξji , ξ
jk) =
|I(ξji )− I(ξ
jk)|
Is(.)
onde I(ξji ) = |aj
i − bji |, I(ξ
jk) = |aj
k − bjk| e Is = |min(aj
i , ajk)−max(b
ji , b
jk)|.
A componente Dc(ξji , ξ
jk) mede as diferencas em conteudo entre ξj
i e ξjk.
Dc(ξji , ξ
jk) =
I(ξji ) + I(ξj
k)− 2I(ξji ∩ ξ
jk)
Is(.)
onde I(ξji ∩ ξ
jk) = |ξj
i ∩ ξjk|.
(ii) Variaveis Categoricas (ordinais ou nominais): Sejam ξji e ξj
k dois conjuntos quais-
quer. A funcao D(ξji , ξ
jk) e dada por:
D(ξji , ξ
jk) = Ds(ξ
ji , ξ
jk) +Dc(ξ
ji , ξ
jk) (.)
com 0 ≤ Ds ≤ 1 e 0 ≤ Dc ≤ 1.
3.3 analise de cluster para dados simbolicos 41
A componente Ds(ξji , ξ
jk) mede as diferencas em extensao entre ξj
k e ξjk.
Dp(ξji , ξ
jk) =
|I(ξji )− I(ξ
jk)|
Is(.)
onde I(ξji ) e o cardinal de ξj
i , I(ξjk) e o cardinal de ξj
k e Is e o cardinal do conjunto
ξji ∪ ξ
jk.
A componente Dc(ξji , ξ
jk) medindo as diferencas em conteudo entre ξj
i e ξjk e dada
por:
Dc(ξji , ξ
jk) =
I(ξji ) + I(ξj
k)− 2I(ξji ∩ ξ
jk)
Is(.)
onde I(ξji ∩ ξ
jk) e o cardinal do conjunto ξj
i ∩ ξjk.
Ichino e Yaguchi [IY94] usam duas funcoes para medir as diferencas entre dois objetos
si e sk: uma funcao de comparacao em nıvel de cada variavel, e uma funcao de agregacao,
para agregar as comparacoes e obter uma funcao de dissimilaridade global. Estas funcoes
usam o conceito de juncao.
• Para variaveis do tipo intervalo e quantitativas e ordinais com intervalos ξji =
[aji , b
ji ] e ξj
k = [ajk, b
jk], a juncao e definida pelo intervalo ξj
i⊕ξjk = [min(aj
i , ajk),max(b
ji ,
bjk)].
• Para variaveis nominais, a juncao torna-se a a uniao entre ξji e ξj
k: ξji ⊕ ξ
jk = ξj
i ∪ ξjk
Seja Oj o domınio da variavel j representado por ξjo. As funcoes de comparacao e
agregacao para dados quantitativos (e do tipo intervalo) e categoricos sao:
(i) funcao de comparacao
φ(ξji , ξ
jk) = µ(ξj
i ⊕ ξjk)− µ(ξj
i ∩ ξjk) + γ (2µ(ξj
i ∩ ξjk)− µ(ξj
i )− µ(ξjk)) (.)
onde 0 ≤ γ ≤ 0.5 e µ(ξji ) e µ(ξj
k) sao, respectivamente:
– |bji − aji | e |b
jk − a
jk|, se a variavel j e do tipo intervalo;
– |ξji | e |ξ
jk| (cardinais dos conjuntos), se j e uma variavel multivalorada.
3.3 analise de cluster para dados simbolicos 42
Ichino e Yaguchi propuseram uma versao normalizada para φ(ξji , ξ
jk):
Ψ(ξji , ξ
jk) =
φ(ξji , ξ
jk)
µ(ξjo)
onde µ(ξjo) = |aj
o−bjo|, se a variavel e do tipo intervalo ou µ(ξj
o) = |ξjo|, se a variavel
e multivalorada.
De Carvalho [dC96] tambem propos uma versao normalizada para φ(ξji , ξ
jk):
ψ(ξji , ξ
jk) =
φ(ξji , ξ
jk)
µ(ξji ⊕ ξ
jk)
(ii) funcao de agregacao
dq(i, k) =
p∑
j=1
wj(FC(ξji , ξ
jk))
q
1/p
(.)
com q ≥ 1 wj > 0 e∑p
j=1wj = 1 FC = φ, FC = Ψ ou FC = ψ.
De Carvalho ([dC94], [dC96], [dC98], [dCdS98a]) apresentou duas extensoes das me-
didas de Ichino e Yaguchi [IY94]. A primeira combina diferentes funcoes de comparacao
e de agregacao, tal como a distancia de Minkowski e suas variantes. A segunda introduz
dois tipos de dependencias logicas entre as variaveis simbolicas. Uma destas extensoes
para dados simbolicos quantitativos e categoricos e descrita abaixo.
A distancia entre os objetos i e k e definida por:
d(i, k) = π(i⊕ k)− π(i ∩ k) + γ(2π(i ∩ k)− π(i)− π(k)) (.)
onde π(s) e o potencial de descricao do objeto s.
Seja s um objeto representado pelo vetor ξs = (ξ1s , . . . , ξ
ps ). O potencial de descricao
do objeto s e d dado por:
π(s) =p
∏
j=1
µ(ξjs) (.)
A distancia d(i, k) tem duas versoes normalizadas:
3.3 analise de cluster para dados simbolicos 43
(a)
d(i, k) =π(i⊕ k)− π(i ∩ k) + γ(2π(i ∩ k)− π(i)− π(k))
π(O)(.)
onde O e o domınio da variaveis representado por ξo = (ξ1o , . . . , ξ
po) sendo ξj
o o
intervalo maximo que a variavel j assume, se esta e do tipo intervalo ou o conjunto
dos possıveis valores de j, se esta e multivalorada.
(b)
d(i, k) =π(i⊕ k)− π(i ∩ k) + γ(2π(i ∩ k)− π(i)− π(k))
π(i⊕ k)(.)
3.3.2.2 Uma Abordagem para Variaveis Modais Considere agora os objetos si
e sk sendo descritos por p variaveis modais. Entao os objetos si e sk sao representados,
respectivamente, por: [(c1i ; π1i ), . . . , (c
pi ; π
pi )] e [(c1k; π
1k), . . . , (c
pk; π
pk)].
Seja n o numero maximo de categorias do conjunto domınio da variavel j. Os vetores
de pesos dos objetos si e sk para a variavel j sao, respectivamente, dados por:
• πji = (πj
i1, . . . , πjinj) com πj
ih = 0, se categoria h nao pertence ao conjunto cji, e
∑nih=1 π
jih = 1;
• πjk = (πj
k1, . . . , πjknj) com πj
kh = 0, se categoria h nao pertence ao conjunto cjk, e
∑njh=1 π
jkh = 1.
Chavent et al [CdCLV03] introduziram uma distancia entre dados modais que tambem
e definida usando os componentes de comparacao e agregacao. A funcao de comparacao e
a distancia L2 de Minkowski aplicada aos vetores de pesos πji e π
jk em nıvel da variavel j
(j = 1, . . . , p) e a funcao de agregacao e uma medida para agregar todas as comparacoes
e obter uma dissimilaridade global.
(i) funcao de comparacao
dj(πji ,π
jk) =
nj∑
h=1
(πjih − π
jkh)
2 (.)
3.3 analise de cluster para dados simbolicos 44
(ii) funcao de agregacao
d(i, k) =p
∑
j=1
dj(πji ,π
jk) (.)
3.3.3 Metodos de cluster
Esta secao expoe os metodos de cluster da analise de dados simbolicos. Os metodos
de cluster sao hierarquicos e de particao para dados expressos por intervalos, conjuntos
de categorias e distribuicoes de pesos.
3.3.3.1 Metodos de particao Diday e Brito ([DB89]) usaram um algoritmo de
transferencia para particionar um conjunto de objetos em classes descritas por vetores
onde cada coluna contem uma distribuicao de pesos. El-Sonbaty e Ismael ([ESI88]) ap-
resentaram um algoritmo k-media nebuloso para agrupar dados simbolicos descritos por
diferentes tipos de variaveis simbolicas. Verde et al ([VdC01]) introduziram um algo-
ritmo de nuvem dinamica para dados simbolicos considerando funcoes de proximidade
dependente do contexto onde os representantes das classes (prototipos) sao vetores de
distribuicao de pesos.
Gordon ([Gor00]) apresentou um algoritmo de realocacao interativo para particionar
um conjunto de objetos simbolicos em classes minimizando a soma dos potenciais de
descricao das classes. Chavent e Lechevalier ([CdCLV03]) propuseram um algoritmo
de nuvens dinamicas para intervalos onde o prototipo e definido pela otimizacao de
um criterio baseado em uma distancia de Hausdorff. Bock [Boc02] apresentou diversos
metodos de realocacao usando as distancias Euclidiana, Hausdorf e tipo vertice para uma
tabela de dados simbolicos do tipo intervalo. Alem disso, Bock tambem apresenta neste
trabalho uma adaptacao do modelo neural mapas de Kohonen para visualizar dados
simbolicos.
Souza e De Carvalho introduziram varios metodos de nuvens dinamicas: dois al-
goritmos com distancias L1 (fixa e adaptativa) para intervalos ([dSdC03], [dCdS03b],
[dSdCS03]) e dois algoritmos com, respectivamente, as distancias L2 ([dCdS03a]) e L∞
([dSdCL03]) adaptativas entre vetores de intervalos. Os metodos L1 e L2 adaptativos
3.3 analise de cluster para dados simbolicos 45
tem, cada um, duas versoes de distancias adaptativas (versao de um componente e versao
de dois componentes. O metodo com distancias L∞ adaptativas e uma versao adaptativa
do algoritmo de nuvens dinamicas baseado na distancia de Hausdorff ([CdCLV03]).
3.3.3.2 Metodos hieraquicos Um metodo aglomerativo tem sido introduzido para
formar objetos simbolicos usando um operador juncao. A juncao pode ser obtida
baseando-se em dissimilaridade mınima ([GD91a]) ou similaridade maxima ([GD91b]).
Ichino e Yaguchi ([IY94]) propuseram metricas de Minkowski para misturas de variaveis
e apresentaram metodos de ligacao simples para conjuntos de dados representados por
valores numericos e simbolicos. Em [GR95b] e [GR95a] foram introduzidos, respecti-
vamente, algoritmos aglomerativos e divisivos para dados simbolicos baseados em uma
combinacao entre medidas de similaridade e dissimilaridade. Estas medidas sao definidas
levando em conta o conteudo, posicao e espalhamento de objetos simbolicos.
Chavent ([Cha98]) tem apresentado um metodo divisivo para dados simbolicos que
fornece ao mesmo tempo uma hierarquia de um conjunto de dados simbolicos e uma car-
acterizacao monotetica de cada cluster na hierarquia. El-Sonbaty e Ismael ([ESI98]) tem
introduzido uma tecnica hiererarquica aglomerativa baseada no conceito de metodos de
ligacao simples para agrupar dados numericos e simbolicos simultaneamente. Gowda e
Ravi ([GR99a]) desenvolveram um algoritmo para dados simbolicos baseando-se na abor-
dagem gravitacional que e inspirada no movimento de partıculas no espaco de acordo
com a atracao gravitacional mutua das mesmas. Em ([GR99b]) foi apresentado uma
abordagem de cluster ISODATA para dados simbolicos usando algoritmos geneticos.
Brito ([Bri94b], [Bri94a]) apresentou um metodo de agrupamento usando uma estru-
tura de classificacao piramidal para dados simbolicos onde as classes sao construıdas
baseando-se em um conceito de objeto simbolico completo.
CAPITULO 4
ALGORITMOS DO TIPO NUVENS DINAMICAS
4.1 INTRODUCAO
Os algoritmos do tipo nuvens dinamicas sao uma famılia de metodos de cluster nao
hierarquicos cujo objetivo e obter, simultaneamente, uma particao de um conjunto de
elementos em um numero predefinido de classes e identificar um conjunto de prototipos
ou representantes das classes (medias, eixos, distribuicoes de probabilidade, etc.) min-
imizando um criterio que mede a adequacao entre as classes e os prototipos ([DS76],
[Did71], [CGLR89]). As vantagens desses metodos consistem na formulacao de um
problema de classificacao em termos de otimizacao de um criterio de ajustamento entre
classes e seus representantes e na definicao de uma estrutura onde os algoritmos podem
ser usados para encontrar uma solucao otima local. O unico problema e a convergencia
desses algoritmos que depende tanto da configuracao inicial de pontos como da escolha
da funcao de representacao de acordo com a distancia que mede o ajuste entre um grupo
e a sua representacao.
O algoritmo inicia com um conjunto de representantes ou uma particao aleatoria e
aplica iterativamente uma etapa de alocacao para afetar cada elemento a classe onde a
proximidade entre o elemento e o prototipo e mınima, e uma etapa de representacao onde
os prototipos sao atualizados de acordo com o resultado da etapa de alocacao. Estas duas
etapas sao realizadas ate a convergencia do algoritmo, quando o criterio de ajustamento
alcanca um valor estacionario. Para melhorar a qualidade do agrupamento, o algoritmo
e executado diferentes vezes com diferentes particoes iniciais, e a melhor configuracao
de pontos e usada como resultado do agrupamento.
Os algoritmos de nuvens dinamicas com distancias adaptativas ([DG77], [Gov75])
tambem encontram, simultaneamente, uma particao em um numero predefinido de
46
4.2 metodos de nuvens dinamicas com distancias fixas 47
classes e um conjunto de representantes das classes minimizando uma funcao criterio
que mede a dissimilaridade entre as classes e os prototipos, mas em cada iteracao ex-
iste uma distance diferente para comparar cada classe com o seu prototipo. A ideia e
associar cada classe com uma distancia que e normalizada de acordo com o conjunto
de observacoes da classe. A vantagem das distancias adaptativas e que o algoritmo de
agrupamento e capaz de reconhecer classes de formas e tamanhos diferentes.
Na secao 4.2, serao apresentados tres metodos do tipo nuvens dinamicas com distancia
fixa. Os metodos com distancias adaptativas serao descritos na secao 4.3.
4.2 METODOS DE NUVENS DINAMICAS COM DISTANCIAS FIXAS
Seja Ω = ω1, . . . , ωn um conjunto de n objetos descritos por p variaveis. Cada
objeto ωi (i = 1, . . . , n) e representado por um vetor de dados descritos por p variaveis
quantitativas xi = (x1i , . . . , x
ji , . . . , x
pi ). Seja P = (C1, . . . , CK) Lk uma particao de de Ω
em K classes onde cada classe Ck (k = 1, . . . , K) tem um representante (prototipo) Lk
que tambem e descrito por um vetor de dados quantitativos yk = (y1k, . . . , y
jk, . . . , y
pk).
Considere PK um conjunto de particoes P = (C1, . . . , CK) de Ω em K classes e
LK = L× . . .×L um conjunto de K −uplas L = (L1, . . . , LK) com Lk ∈ L. No metodo
de nuvens dinamicas, o problema de classificacao e definido da seguinte forma: encontrar
uma particao P ∗ ∈ PK em K classes e um conjunto de prototipos das classes L∗ ∈ LK
tal que
W (P ∗, L∗) = MinW (P,L)/P ∈ Pk, L ∈ Lk (.)
onde o criterio W (P,L) mede a adequacao entre uma particao P e a representacao desta
particao L.
O algoritmo inicia com uma particao de Ω obtida aleatoriamente P 0 = (C01 , . . . , C
0K) e
aplica iterativamente duas etapas: para obter, respectivamente, o par Lt = (Lt1, . . . , L
tK)
(fixado P ) usando uma funcao de representacao e P t = (Ct1, . . . , C
tK) (fixado L) usando
uma funcao de alocacao ate que o criterio W alcance um valor estacionario. Este algo-
ritmo converge e o criterio W decresce a cada iteracao se a funcao de representacao e
4.2 metodos de nuvens dinamicas com distancias fixas 48
definida de acordo com a medida de distancia usada na etapa de alocacao.
Alem disso, dependendo da solucao inicial (P 0, L0), o algoritmo converge na direcao
de uma solucao otima local paraW . Entao, diferentes valores deW poderao ser obtidos a
partir de diferentes solucoes iniciais. Assim, e usual realizar um numero pre-estabelecido
de repeticoes do algoritmo com diferentes solucoes iniciais obtidas aleatoriamente e se-
lecionar como solucao final o par (P ∗, L∗) cujo valor de W seja mınimo.
4.2.1 As funcoes de representacao e alocacao
Uma funcao de representacao g permitindo associar para cada particao P ∈ PK de
Ω, em K classes, um elemento L = (L1, . . . , LK) ∈ LK e tal que g(P ) = (L1, . . . , LK).
Uma funcao de alocacao f permitindo associar para cada representacao L ∈ LK uma
particao P = (C1, . . . , CK) de PK e tal que f(L) = (C1, . . . , CK).
4.2.2 O algoritmo
O algoritmo de nuvens dinamicas e construıdo com base nas funcoes f e g onde o
par P t e Lt e definido a partir das seguintes relacoes: P t = f(Lt−1) e Lt = g(P t) (ver
estudo das propriedades do algoritmo no apendice A).
(a) Inicializacao
Selecione uma particao P 0 = (C01 , . . . , C
0K) do conjunto de objetos Ω ou selecioneK
objetos diferentes (y1, . . . ,yK) entre E e associe cada objeto i para uma classe Ck∗
tal que (k∗ = argmink=l,...,K d(xi,yk) (proximidade entre xi e yk) para construir
a particao inicial (C01 , . . . , C
0K).
(b) Etapa de representacao: Lt = g(P t)
Para k de 1 ate K obtenha o prototipo yk = (y1k, . . . , y
pk) para representar a classe
Ck ∈ Pt.
(c) Etapa de alocacao: P t+1 = f(Lt)
teste← 0
Para i de 1 ate n faca
4.2 metodos de nuvens dinamicas com distancias fixas 49
defina a classe Ck∗ tal que
k∗ = arg mink=l,...,K
d(xi, yk)
se i ∈ Ck e k∗ 6= k
teste← 1
Ck∗ ← Ck∗ ∪ i
Ck ← Ck\i
(d) Se teste = 0 (P t+1 = P t) FIM, senao va para a etapa (b)
Diferentes funcoes para W sao encontradas na literatura dos metodos de nuvens
dinamicas. Nas proximas secoes serao apresentados tres metodos classicos de nuvens
dinamicas onde as funcoes W sao, respectivamente, baseadas nas distancias City-Block
(L1), Euclidiana (L2) e Mahalanobis para medir a adequacao entre uma classe e seu
representante.
4.2.3 O metodo de nuvens dinamicas com a distancia L1
Neste metodo o criterio W a ser otimizado e definido como:
W (P,L) =K
∑
k=1
∑
i∈Ck
d(xi,yk) (.)
onde
d(xi,yk) =p
∑
j=1
|xji − y
jk| (.)
e a distancia City-Block entre xi e yk.
4.2.3.1 O problema de otimizacao O problema consiste em encontrar um repre-
sentante Lk que minimize um criterio medindo a dissimilaridade entre Lk e Ck. Neste
metodo, o algoritmo procura por yk que minimize
4.2 metodos de nuvens dinamicas com distancias fixas 50
∆(yk) =∑
i∈Ck
p∑
j=1
|xji − y
jk| (.)
Solucao: Seguindo Govaert [Gov75], as coordenadas do vetor de pontos yk mini-
mizando o criterio ∆(yk) sao:
yjk = medianaxj
i/i ∈ Ck (.)
A demonstracao deste resultado pode ser encontrada no apendice C como um caso
particular.
4.2.3.2 O algoritmo Seguindo as etapas do algoritmo de nuvens dinamicas descrito
na subsecao 4.2.2, este algoritmo inicia com P 0 = (C01 , . . . , C
0K) e aplica iterativamente as
etapas de representacao (Lt = g(P t)) e alocacao (P t+1 = f(Lt)) onde, respectivamente,
yjk e a mediana do conjunto xj
i i ∈ Ck, e d(xi, yk) =∑p
j=1 |xji − y
jk|.
4.2.4 O metodo de nuvens dinamicas com a distancia L2
Conhecido como metodo de k−medias [JD88], este metodo representa cada classe
por um vetor de centros (centroide) e afeta cada indivıduo a classe cuja distancia entre o
indivıduo e o seu centroide e minima. Alem disso, o algoritmo so e capaz de reconhecer
classes de forma esferica e o criterio W e dado por:
W (P,L) =K
∑
k=1
∑
i∈Ck
d2(xi,yk) (.)
onde
d(xi,yk) =
√
√
√
√
p∑
j=1
(xji − y
jk)
2 (.)
e a distancia Euclidiana entre xi e yk.
4.2.4.1 O problema de otimizacao O algoritmo procura por um vetor yk que
minimize
4.2 metodos de nuvens dinamicas com distancias fixas 51
∆(yk) =∑
i∈Ck
p∑
j=1
(xji − y
jk)
2 (.)
Solucao: As coordenadas do vetor de pontos yk minimizando o criterio ∆(yk) sao:
yjk =
1
nk
p∑
j=1
xji (.)
onde nk e o cardinal da classe Ck.
A demonstracao deste resultado pode ser encontrada no apendice E como um caso
particular.
4.2.4.2 O algoritmo Este algoritmo tambem e construıdo aplicando iterativamente
as etapas representacao (Lt = g(P t)) e alocacao (P t+1 = f(Lt)) onde, respectivamente,
yjk = 1
nk
∑pj=1 x
ji e d(xi, yk) =
∑pj=1(x
ji − y
jk)
2.
4.2.5 O metodo de nuvens dinamicas com a distancia de Mahalanobis
O objetivo deste metodo e reconhecer classes de forma elıptica que tenham a mesma
dispersao. Neste metodo a dispersao e representada por uma matriz M positiva definida
cujo determinante e igual a 1 [CGLR89]. Quando M = I este metodo passa a ser o
metodo de nuvens dinamicas usando a distancia L2 (subsecao 4.2.4). O criterio W e
definido por:
W (P,L) =K
∑
k=1
∑
i∈Ck
dM(xi,yk) (.)
onde
dM(xi,yk) = (xi − yk)TM(xi − yk) (.)
e a distancia de Mahalanobis entre xi e yk e a matriz M = (det(Qcomb))1/p Q−1
comb
[CGLR89].
Esta matriz Qcomb e a matriz de covariancias combinada com det(Qcomb) 6= 0
4.3 metodos de nuvens dinamicas com distancias adaptativas 52
Qcomb =(n1 − 1)S1 + . . .+ (nK − 1)SK
n1 + . . .+ nK −K(.)
Na equacao (.), SkL e a matriz de covariancias do conjunto de vetores xi/i ∈ Ck
e nk e o cardinal de Ck (k = 1, . . . , K).
4.2.5.1 O problema de otimizacao O algoritmo procura por um vetor yk que
minimize o seguinte criterio:
∆(yk) =∑
i∈Ck
(xi − yk)TM(xi − yk) (.)
Solucao: Fixado a matriz M, as coordenadas do vetor de pontos yk minimizando o
criterio ∆(yk) sao [Gov75]:
yjk =
1
nk
p∑
j=1
xji (.)
onde nk e o cardinal da classe Ck.
A demonstracao deste resultado encontra-se em [Gov75].
4.2.5.2 O algoritmo O algoritmo com distancias de Mahalanobis inicia com P 0 =
(C01 , . . . , C
0K) obtida aleatoriamente e aplica iterativamente as etapas de representacao
(Lt = g(P t)) e alocacao (P t+1 = f(Lt)) onde, respectivamente, yjk e a media do conjunto
xji i ∈ Ck, e d(xi, yk) = (xi − yk)
TM(xi − yk).
4.3 METODOS DE NUVENS DINAMICAS COM DISTANCIAS ADAPTATIVAS
A maioria dos metodos de cluster usam uma distancia fixa para construir as classes.
Nesta secao sera apresentado uma versao do metodo de nuvens dinamicas com distancias
adaptativas. A ideia deste metodo e associar uma distancia diferente para cada classe
que muda a cada iteracao do algoritmo. Estas distancias adaptativas sao capazes de
reconhecer classes de tamanhos e formas diferentes.
4.3 metodos de nuvens dinamicas com distancias adaptativas 53
Sejam PK um conjunto de particoes P = (C1, . . . , CK) de Ω em k classes, LK =
L× . . .× L um conjunto de K-uplas L = (L1, . . . , LK) com Lk ∈ L e dK = d× . . .× d
um conjunto de K distancias d = (d1, . . . , dK) com dk ∈ d.
No metodo de nuvens dinamicas com distancias adaptativas, o problema de classi-
ficacao e definido da seguinte forma: encontrar uma particao P ∗ ∈ Pk em K classes, um
conjunto de prototipos das classes L∗ ∈ LK e um conjunto de distancias d∗ ∈ dK tal que
W (P ∗, L∗, d∗) = MinW (P,L, d)/P ∈ Pk, L ∈ Lk, d ∈ dk (.)
onde o criterio W (P,L, d) mede a adequacao entre uma particao P e a representacao
desta particao L usando um conjunto de distancias d.
Conforme o algoritmo de nuvens dinamicas com distancia fixa, este algoritmo inicia
com uma particao de Ω obtida aleatoriamente P 0 = (C01 , . . . , C
0K) e tambem aplica
iterativamente as etapas representacao e alocacao. A unica diferenca ocorre na etapa de
representacao quando as distancias adaptativas sao atualizadas. O algoritmo converge
e o criterio W decresce de acordo com as funcoes de representacao e distancia definidas
na etapa de representacao.
4.3.1 As funcoes de representacao, alocacao e distancia
Uma funcao de representacao g permitindo associar para cada particao P ∈ PK de Ω
em K classes e um conjunto de K distancias d ∈ dK , um elemento L = (L1, . . . , LK) ∈
LK e tal que g(P, d) = (L1, . . . , LK).
Uma funcao de alocacao f permitindo associar para cada representacao L ∈ LK e
um conjunto de K distancias d ∈ dK , uma particao P = (C1, . . . , CK) de PK e tal que
f(L, d) = (C1, . . . , CK).
Uma funcao de distancia e permitindo associar para cada particao P ∈ PK de Ω em
K classes e uma representacao L ∈ LK , um conjunto de K distancias d ∈ dK tal que
e(P,L) = (d1, . . . , dK).
4.3 metodos de nuvens dinamicas com distancias adaptativas 54
4.3.2 O algoritmo
O algoritmo de nuvens dinamicas e construıdo com base nas funcoes f , g e e onde
a tripla P t, Lt e dt e definida a partir das seguintes relacoes: P t = f(Lt−1, dt−1), Lt =
g(P t, dt−1) e dt = e(P t, Lt) (ver estudo das propriedades do algoritmo no apendice B).
(a) Inicializacao
Selecione uma particao P 0 = (C01 , . . . , C
0K) do conjunto de objetos Ω ou selecioneK
objetos diferentes (y1, . . . ,yK) entre E e associe cada objeto i para uma classe Ck∗
tal que (k∗ = argmink=l,...,K d(xi,yk) (proximidade entre xi e yk) para construir
a particao inicial (C01 , . . . , C
0K).
(b) Etapa de representacao: Lt = g(P t, dt−1) e dt = e(P t, Lt)
Para k de 1 ate K obtenha
– o prototipo yk = (y1k, . . . , y
pk) para representar a classe Ck ∈ P ;
– a distancia dk
(c) Etapa de alocacao: P t+1 = f(Lt, dt)
teste← 0
Para i de 1 ate n faca
defina a classe Ck∗ tal que
k∗ = arg mink=l,...,K
dk(xi, yk)
se i ∈ Ck e k∗ 6= k
teste← 1
Ck∗ ← Ck∗ ∪ i
Ck ← Ck\i
(d) Se teste = 0 (P t+1 = P t) FIM, senao va para a etapa (b)
Na secao anterior foram apresentados tres metodos de nuvens dinamicas usando,
respectivamente, as seguintes distancias L1, L2 e Mahalanobis. A seguir sera apresentada
uma versao adaptativa para cada um destes tres metodos.
4.3 metodos de nuvens dinamicas com distancias adaptativas 55
4.3.3 O metodo de nuvens dinamicas com distancias L1 adaptativas
De acordo com [DG77] e [Gov75], o criterio W e definido por:
W (P,L, d) =K
∑
k=1
∑
i∈Ck
dk(xi,yk) (.)
onde dk e a distancia L1 adaptativa da classe Ck.
Esta distancia dk e definida por um vetor de parametros λk = (λ1k, . . . , λ
pk)
dk(xi,yk) =p
∑
j=1
λjk|x
ji − y
jk| (.)
com λpk > 0 e
∏pj=1 λ
jk = 1
4.3.3.1 O problema de otimizacao No metodo de nuvens dinamicas com distancia
L1 fixa, o vetor de prototipos y = (y1k, . . . , y
pk) da classe Ck e definido otimizando
um funcao criterio. Neste metodo adaptativo, o algoritmo procura por um vetor de
prototipos yk = (y1k, . . . , y
pk) e um vetor de parametros λk = (λ1
k, . . . , λpk) que minimize
∆k(yk, λk) =∑
i∈Ck
p∑
j=1
λjk|x
ji − y
jk| =
p∑
j=1
λjk
∑
i∈Ck
|xji − y
jk| (.)
O problema de otimizacao e dividido em duas etapas:
1) Com a classe Ck e o vetor de parametros λk = (λ1k, . . . , λ
pk) fixos, o algoritmo
procura por um vetor de prototipos yk = (y1k, . . . , y
pk) que minimize o seguinte
criteriop
∑
j=1
∑
i∈Ck
|xji − y
jk| (.)
A solucao para yk (k = 1, . . . , K) e a mesma do metodo com distancia L1 fixa
(subsecao 4.2.3.1). As coordenadas do vetor de pontos yk minimizando o criterio
(.) sao:
yjk = medianaxj
i/i ∈ Ck (.)
4.3 metodos de nuvens dinamicas com distancias adaptativas 56
2) Com a classe Ck e o vetor de prototipos yk = (y1k, . . . , y
pk) fixos, o algoritmo procura
por um vetor de parametros λk = (λ1k, . . . , λ
pk) que, satisfazendo as condicoes: i)
λpk > 0 e ii)
∏pj=1 λ
jk = 1, minimize o seguinte criterio
p∑
j=1
λjkφ
jk (.)
onde φjk =
∑
i∈Ck|xj
i − yjk|. Solucao: Segundo [DG77], as coordenadas do vetor
de parametros λk = (λ1k, . . . , λ
pk) que satisfazem as condicoes i) e ii) e minimizam
o criterio (.) sao:
λjk =
∏ph=1(
∑
i∈Ck|xh
i − yhk |]
1
p
∑
i∈Ck|xj
i − yjk|
(.)
Este vetor de parametros λk = (λ1k, . . . , λ
pk) e obtido pelo Metodo dos Multipli-
cadores de Lagranje e a demonstracao poder ser encontrada no apendice D.
4.3.3.2 O algoritmo Seguindo as etapas do algoritmo de nuvens dinamicas com
distancias adaptativas, este algoritmo inicia com P 0 = (C01 , . . . , C
0K) e aplica itera-
tivamente as etapas de representacao (Lt = g(P t, dt−1) e dt = (P t, Lt)) e alocacao
(P t+1 = f(Lt, dt)) onde, respectivamente, yjk e a mediana do conjunto xj
i i ∈ Ck, e
dk(xi,yk) =∑p
j=1 λjk|x
ji − y
jk| com .
λjk =
∏ph=1(
∑
i∈Ck|xh
i − yhk |]
1
p
∑
i∈Ck|xj
i − yjk|
4.3.4 O metodo de nuvens dinamicas com distancias L2 adaptativas
Esta secao apresenta uma versao adaptativa do metodo de k-medias permitindo
reconhecer classes esfericas que tenham dispersoes diferentes [dCLdS04]. O criterio de
particao W e dado por:
W (P,L, d) =K
∑
k=1
∑
i∈Ck
d2k(xi,yk) (.)
onde
4.3 metodos de nuvens dinamicas com distancias adaptativas 57
d2k(xi,yk) =
p∑
j=1
λjk(x
ji − y
jk)
2 (.)
e a distancia Euclidiana adaptativa da classe Ck entre xi e yk com λpk > 0 e
∏pj=1 λ
jk = 1.
4.3.4.1 O problema de otimizacao O algoritmo procura por um vetor de prototipos
yk = (y1k, . . . , y
pk) e um vetor de parametros λk = (λ1
k, . . . , λpk) que minimize
∆k(yk, λk) =∑
i∈Ck
p∑
j=1
λjk(x
ji − y
jk)
2 =p
∑
j=1
λjk
∑
i∈Ck
(xji − y
jk)
2 (.)
O criterio (.) e otimizado considerando as seguintes etapas:
1) Fixado a classe Ck e o vetor de parametros λk = (λ1k, . . . , λ
pk), o algoritmo procura
por um vetor de prototipos yk = (y1k, . . . , y
pk) que minimize o seguinte criterio
p∑
j=1
λjk
∑
i∈Ck
(xji − y
jk)
2 (.)
A solucao para o vetor de prototipos yk (k = 1, . . . , K) e a mesma do metodo
com distancia L2 fixa (subsecao 4.2.2.1). As coordenadas do vetor de pontos yk
minimizando o criterio (.) sao:
yjk =
1
nk
p∑
j=1
xji (.)
onde nk e o cardinal da classe Ck.
2) Fixado a classe Ck e o vetor de prototipos yk = (y1k, . . . , y
pk), o algoritmo procura
por um vetor de parametros λk = (λ1k, . . . , λ
pk) que, satisfazendo as condicoes: i)
λpk > 0 e ii)
∏pj=1 λ
jk = 1, minimize o seguinte criterio
p∑
j=1
λjkφ
jk (.)
onde φjk =
∑
i∈Ck(xj
i − yjk)
2.
4.3 metodos de nuvens dinamicas com distancias adaptativas 58
Solucao: Seguindo a demonstracao no apendice D, as coordenadas do vetor de
parametros λk = (λ1k, . . . , λ
pk) que satisfazem as condicoes i) e ii) e minimizam o
criterio (.) sao:
λjk =
∏ph=1(
∑
i∈Ck(xh
i − yhk )2]
1
p
∑
i∈Ck(xj
i − yjk)
2(.)
4.3.4.2 O algoritmo Neste algoritmo, as etapas de representacao (Lt = g(P t, dt−1) e
dt = (P t, Lt)) e alocacao (P t+1 = f(Lt, dt)) sao definidas considerando, respectivamente,
yjk como a media do conjunto xj
i i ∈ Ck, e dk(xi,yk) =∑p
j=1 λjk(x
ji − y
jk|)
2 com
λjk =
∏ph=1(
∑
i∈Ck(xh
i − yhk )2]
1
p
∑
i∈Ck(xj
i − yjk)
2
4.3.5 O metodo de nuvens dinamicas com distancias de Mahalanobis adaptativas
Este metodo e capaz de reconhecer classes elıpticas cujas dispersoes sao representadas
por um conjunto de matrizes Mk (k = 1, . . . , K) ([DG77], [Gov75]). Cada matriz Mk
e positiva definida cujo determinante e igual a 1. O criterio de particao W e definido
por:
W (P,L, d) =K
∑
k=1
∑
i∈Ck
dk(xi,yk) (.)
onde
dk(xi,yk) = (xi − yk)TMk(xi − yk) (.)
e a distancia de Mahalanobis adaptativa da classe Ck entre xi e yk e Mk e uma matriz
com det(Mk) = 1.
4.3.5.1 O problema de otimizacao O algoritmo procura por um vetor de prototipos
yk = (y1k, . . . , y
pk) e uma matriz Mk que minimize o seguinte criterio:
4.3 metodos de nuvens dinamicas com distancias adaptativas 59
∆k(yk,Mk) =∑
i∈Ck
(xi − yk)TMk(xi − yk) (.)
Neste contexto o problema de otimizacao e definido nas duas seguintes etapas:
1) Fixado a classe Ck e a matriz Mk, o algoritmo procura por um vetor de prototipos
yk = (y1k, . . . , y
pk) que minimize o criterio ∆k(yk,Mk) dado pela equacao (.). A
solucao para esta etapa e um prototipo yk (k = 1, . . . , K) que tem como coorde-
nadas:
yjk =
1
nk
p∑
j=1
xji (.)
onde nk e o cardinal da classe Ck. Este resultado e tambem o mesmo do metodo
com Mahalanobis fixa.
2) Fixado a classe Ck e o vetor de prototipos yk = (y1k, . . . , y
pk), o algoritmo procura
por uma matriz Mk da classe Ck minimizando o criterio ∆k(yk,Mk) (.) com
det(Mk) = 1 . A solucao de acordo com [Gov75] e: Mk = det(Qk)1/p Q−1
k onde
Qk e a matriz de covariancias da classe Ck com det(Qk) 6= 0.
4.3.6 O algoritmo
O algoritmo com distancias de Mahalanobis adaptativas inicia com P 0 = (C01 , . . . , C
0K)
obtida aleatoriamente e aplica iterativamente as etapas de representacao (Lt = g(P t, dt−1)
e dt = (P t, Lt)) e alocacao (P t+1 = f(Lt, dt)) onde, respectivamente, yjk e a media do
conjunto xji i ∈ Ck, e dk(xi,yk) = (xi− yk)
TMk(xi− yk) com Mk = det(Qk)1/p Q−1
k .
CAPITULO 5
ALGORITMOS DO TIPO NUVENS DINAMICAS
PARA INTERVALOS
5.1 INTRODUCAO
Neste capıtulo serao apresentados os metodos de classificacao do tipo nuvens dinamicas
com e sem distancias adaptativas para intervalos. Estes metodos sao extensoes dos
metodos classicos descritos no capıtulo 4 para intervalos. Seguindo a metodologia dos
algoritmos classicos, os metodos de nuvens dinamicas para intervalos visam, simultane-
amente, obter uma particao de um conjunto de elementos em um numero predefinido de
classes e identificar um conjunto de prototipos ou representantes das classes minimizando
um criterio que mede a adequacao entre as classes e os prototipos.
Seja E = s1, . . . , sn um conjunto de n objetos simbolicos descritos por p variaveis
simbolicas do tipo intervalo. Cada objeto si (i = 1, . . . , n) e representado como um
vetor de intervalos xi = (x1i , . . . , x
pi ), onde xj
i = [aji , b
ji ] ∈ I = [a, b] : a, b ∈ <, a ≤ b
(j = 1, . . . , p). Cada intervalo deste vetor xji = [aj
i , bji ] (j = 1, . . . , p) e representado por
um ponto (aji , b
ji ) ∈ <
2 , onde os limites inferiores dos intervalos sao representados no
eixo dos x e os limites superiores no eixo dos y [dCdS98a].
O algoritmo do tipo nuvens dinamicas procura por uma particao P ∗ = (C1, . . . , CK)
de E em K classes P ∗ ∈ Pk e um conjunto de prototipos das classes L∗ = (L1, . . . , LK) ∈
LK tal que
W (P ∗, L∗) = MinW (P,L)/P ∈ Pk, L ∈ Lk (.)
onde PK e o conjunto de particoes P = (C1, . . . , CK) de E emK classes e LK = L×. . .×L
e o conjunto de K − uplas L = (L1, . . . , LK) com Lk ∈ L.
60
5.1 introducao 61
Neste metodo o prototipo da classe Ck (k = 1, . . . , K) Lk tambem e descrito por um
vetor de intervalos yk = (y1k, . . . , y
pk), onde yj
k = [αjk, β
jk] ∈ I = [α, β] : α, β ∈ <, α ≤ β.
O criterio W (P,L) mede a adequacao entre uma particao P e a representacao desta
particao L.
Como no algoritmo classico, o algoritmo para intervalos tambem inicia com uma
particao de E obtida aleatoriamente P 0 = (C01 , . . . , C
0K) e aplica interativamente duas
etapas: representacao e alocacao, para obter, respectivamente, o par Lt = (Lt1, . . . , L
tK)
e P t = (Ct1, . . . , C
tK) ate que o criterio W alcance um valor estacionario. Este algoritmo
converge e o criterio W decresce a cada iteracao se a funcao de representacao e definida
de acordo com a medida de distancia usada no passo de alocacao (ver o algoritmo na
secao 5.5.1).
A versao adaptativa deste metodo tambem encontra, simultaneamente, uma particao
em um numero predefinido de classes e um conjunto de representantes das classes mini-
mizando uma funcao criterio que mede a dissimilaridade entre as classes e os prototipos.
Como no metodo classico, em cada iteracao deste metodo existe uma distance diferente
para comparar cada classe com o seu prototipo e o problema de classificacao e definido
como: encontrar uma particao P ∗ ∈ Pk em K classes, um conjunto de prototipos das
classes L∗ ∈ LK e um conjunto de distancias d∗ ∈ dK tal que
W (P ∗, L∗, d∗) = MinW (P,L, d)/P ∈ Pk, L ∈ Lk, d ∈ dk (.)
dK = d× . . .× d e o conjunto de K distancias d = (d1, . . . , dK) com dk ∈ d. O criterio
W (P,L, d) mede a adequacao entre uma particao P e a representacao desta particao L
usando o conjunto de distancias d.
Novamente, seguindo os algoritmos classicos com distancias adaptativas, este algo-
ritmo inicia com uma particao de E obtida aleatoriamente P 0 = (C01 , . . . , C
0K) e tambem
aplica interativamente duas etapas: representacao, onde os prototipos e as distancias sao
atualizados e alocacao, para afetar cada elemento a classe onde a proximidade entre o
elemento e o prototipo e minima. O algoritmo tambem converge e o criterio W decresce
se funcoes de representacao e de distancia sao bem definidas na etapa de representacao
(ver o algoritmo na secao 5.5.2).
5.2 metodos de nuvens dinamicas com distancias l1 para intervalos 62
Nas secoes 5.2, 5.3 e 5.4 serao introduzidos, respectivamente, os metodos de nuvens
dinamicas com e sem distancias adaptativas L1, L2 e L∞ para intervalos. Em seguida,
a secao 5.5 apresentara os algoritmos com e sem distancias adaptativas correspondentes
aos metodos introduzidos neste capıtulo.
5.2 METODOS DE NUVENS DINAMICAS COM DISTANCIAS L1 PARA IN-
TERVALOS
Esta secao mostra dois metodos de nuvens dinamicas para intervalos. O primeiro
metodo usa uma extensao da distancia L1 de Minkowski que compara pares de vetores
de intervalos (subsecao 5.2.1). O segundo metodo utiliza duas versoes adaptativas desta
distancia estendida L1 para intervalos (subsecao 5.2.2): na primeira versao, a distancia
adaptativa tem um unico componente, enquanto que na segunda versao a distancia
adaptativa tem dois componentes ([dCdS03b], [dSdC03], [dSdCS03]).
5.2.1 O metodo com a distancia L1 fixa
Neste metodo, o criterio de particao W medindo a proximidade entre as classes e
seus representantes e definido por:
W (P,L) =K
∑
k=1
∑
i∈Ck
d(xi,yk) (.)
onde d(xi,yk) mede a dissimilaridade entre um objeto si ∈ Ck e o prototipo Lk de Ck.
5.2.1.1 Uma funcao de distancia L1 entre dois vetores de intervalos A dis-
similaridade entre os dois vetores de intervalos xi e yk e medida por:
d(xi,yk) =p
∑
j=1
|aji − α
jk|+ |b
ji − β
jk| (.)
Esta distancia e a soma das diferencas entre os limites inferiores e os limites superiores
dos intervalos xji = [aj
i , bji ] e gj
k = [αjk, β
jk]. Isto significa representar um intervalo [a, b]
como um ponto (a, b) ∈ <2, onde os limites inferiores dos intervalos sao representados
5.2 metodos de nuvens dinamicas com distancias l1 para intervalos 63
no eixo dos x, e os limites superiores no eixo dos y [dCdS98a], e entao calcula a distancia
L1 entre os pontos (aji , b
ji ) e (αj
k, βjk).
5.2.1.2 O problema de otimizacao O problema consiste em encontrar um repre-
sentante Lk que minimize um determinado criterio medindo a dissimilaridade entre Lk
e Ck. Desta forma, o algoritmo procura por um vetor yk que minimize
∆(yk) =∑
i∈Ck
p∑
j=1
|aji − α
jk|+ |b
ji − β
jk| (.)
Proposicao 5.2.1 Os limites inferiores e superiores dos intervalos [αjk, β
jk] (j = 1, . . . , p)
minimizando o criterio ∆(yk) sao:
αjk = medianaaj
i/i ∈ Ck e βjk = medianabji/i ∈ Ck (.)
A prova da proposicao 5.2.1 encontra-se no apendice C.
5.2.2 O metodo com distancias L1 adaptativas
De acordo com o algoritmo classico de nuvens dinamicas com distancias adaptativas
(secao 4.3), em cada interacao existe uma distancia diferente associada com cada classe.
Este metodo procura por uma particao P em K classes,um conjunto de K prototipos L e
um conjunto de distancias d tal que um criterio W (P,L, d) seja localmente minimizado.
O criterio W e definido por:
W (P,L, d) =K
∑
k=1
∑
i∈Ck
dk(xi,yk) (.)
onde dk e uma medida de dissimilaridade entre um objeto si ∈ Ck e o prototipo Lk de
Ck.
5.2.2.1 Distancias L1 adaptativas entre dois intervalos Neste metodo, duas
versoes sao propostas para dk:
5.2 metodos de nuvens dinamicas com distancias l1 para intervalos 64
a) Distancia L1 adaptativa de um componente: A distancia dk e definida de acordo
com a estrutura (descricoes dos indivıduos) de Ck e e descrita por um vetor de
parametros λk = (λ1k, . . . , λ
pk)
dk(xi,yk) =p
∑
j=1
λjk
(
|aji − α
jk|+ |b
ji − β
jk|
)
(.)
com λjk > 0 e Πp
j=1λjk = 1.
b) Distancia L1 adaptativa de dois componentes : Esta distancia dk tambem e definida
de acordo com a estrutura (descricoes dos indivıduos) de Ck e e descrita pelos
vetores de parametros λakL = (λ1kL, . . . , λ
pkL) e λkU = (λ1
kU , . . . , λpkU)
dk(xi,yk) =p
∑
j=1
(
λjkL|a
ji − α
jk|+ λj
kU |bji − β
jk|
)
(.)
com λjkL > 0 e Πp
j=1λjkL = 1 e λj
kU > 0 e Πpj=1λ
jkU = 1 .
A principal diferenca entre estas duas versoes e que a distancia de dois componentes
trata os limites inferiores e superiores dos intervalos como dois descritores independentes
enquanto que a outra versao nao considera isto.
5.2.2.2 O problema de otimizacao com a distancia de um componente O
problema e estabelecido da seguinte forma: encontrar um prototipo yk = (y1k, . . . , y
pk) e
um vetor de parametros λk = (λ1k, . . . , λ
pk) da classe Ck que minimize o seguinte criterio
∆1(yk,λk) =∑
i∈Ck
dk(xi, gk) =p
∑
j=1
λjk
∑
i∈Ck
|aji − α
jk|+ |b
ji − β
jk| (.)
1) Com a classe Ck e o vetor de parametros λk = (λ1k, . . . , λ
pk) fixos, o algoritmo
procura por um vetor de prototipos yk = (y1k, . . . , y
pk) que minimize
∑
i∈Ck
|aji − α
jk|+ |b
ji − β
jk| (.)
A solucao para yk (k = 1, . . . , K) e a mesma do metodo com distancia L1 fixa. Os
limites inferiores e superiores dos intervalos [αjk, β
jk] (j = 1, . . . , p) minimizando o
criterio em (.) sao:
5.2 metodos de nuvens dinamicas com distancias l1 para intervalos 65
αjk = medianaaj
i/i ∈ Ck e βjk = medianabji/i ∈ Ck (.)
2) Com a classe Ck e o vetor de prototipos yk = (y1k, . . . , y
pk) fixos, o algoritmo procura
por um vetor de parametros λk = (λ1k, . . . , λ
pk) que, satisfazendo as condicoes: i)
λpk > 0 e ii)
∏pj=1 λ
jk = 1, minimize criterio ∆1(yk,λk).
Proposicao 5.2.2 Seja Φj =∑
i∈Ckφ(xj
i , yjk) (j = 1, . . . , p) onde φ(xj
i , yjk) e uma
medida de distancia entre xji e yj
k. As coordenadas do vetor de parametros λk =
(λ1k, . . . , λ
pk) que satisfazem as condicoes i)λj
k > 0 e ii) Πpj=1λ
jk = 1 e minimizam
um criterio definido comop
∑
j=1
λjkΦj (.)
sao:
λjk =
∏ph=1 Φ
1
p
h
Φj
(.)
A prova desta proposicao encontra-se no apendice D.
Usando esta proposicao com φ(xji , y
jk) = |aj
i − αjk| + |b
ji − βj
k| (j = 1, . . . , p), as
coordenadas do vetor de parametros λk = (λ1k, . . . , λ
pk) que minimizam ∆1(yk, λk)
sao dadas por:
λjk =
∏ph=1(
∑
i∈Ck|aj
i − αjk|+ |b
ji − β
jk|]
1
p
∑
i∈Ck|aj
i − αjk|+ |b
ji − β
jk|
(.)
5.2.2.3 O problema de otimizacao com a distancia de dois componentes O
problema consiste em encontrar, simultaneamente, um prototipo yk = (y1k, . . . , y
pk) e
dois vetores de parametros λkL = (λ1kL, . . . , λ
pkL) e λkU = (λ1
kU , . . . , λpkU) da classe Ck
que minimize o seguinte criterio
∆2(yk,λkL,λkU) =∑
i∈Ck
dk(xi,yk) = (.)
5.3 metodos de nuvens dinamicas com distancias l2 para intervalos 66
=p
∑
j=1
λjkL
∑
i∈Ck
|aji − α
jk|+
p∑
j=1
λjkU
∑
i∈Ck
|bji − βjk|
1) Com a classe Ck e os vetores de parametros λkL e λkU fixos, o algoritmo procura
por um vetor de prototipos yk = (y1k, . . . , y
pk) que minimize, respectivamente,
∑
i∈Ck
|aji − α
jk| e
∑
i∈Ck
|bji − βjk| (.)
Neste caso, o problema torna-se encontrar (para j = 1, . . . , p), o limite inferior αjk
do intervalo yjk = [αj
k, βjk] que minimize
∑
i∈Ck
|aji − α
jk| (.)
e o limite superior βjk do intervalo yj
k = [αjk, β
jk] que minimize
∑
i∈Ck
|bji − βjk| (.)
A solucao como e conhecida da subsecao anterior e αjk = medianaaj
i/i ∈ Ck e
βjk = medianabji/i ∈ Ck (j = 1, . . . , p)
2) Com a classe Ck e o vetor de prototipos yk = (y1k, . . . , y
pk) fixos, o algoritmo procura
pelos vetores de parametros λkL = (λ1kL, . . . , λ
pkL) e λkU = (λ1
kU , . . . , λpkU) que
satisfacam as condicoes: i) λpkL > 0 e λp
kU > 0 e ii)∏p
j=1 λjkL = 1 e
∏pj=1 λ
jkU = 1
e minimizem o criterio ∆2(yk,λkL,λkU). Considerando a proposicao 5.2.2 para os
vetores de parametros λkL com Φj =∑
i∈Ck|aj
i−αjk| e λkU com Φj =
∑
i∈Ck|bji−β
jk|
(j = 1, . . . , p), as coordenadas desses vetores (λ1kL, . . . , λ
pkU) e (λ1
kU , . . . , λpkU) que
minimizam ∆2(yk,λkL,λkU) sao, respectivamente:
λjkL =
[
∏ph=1(
∑
i∈Ck|ah
i − αhk |)
]1
p
∑
i∈Ck|aj
i − αjk|
, λjkU =
[
∏ph=1(
∑
i∈Ck|bhi − β
hk |)
]1
p
∑
i∈Ck|bji − β
jk|
(.)
5.3 METODOS DE NUVENS DINAMICAS COM DISTANCIAS L2 PARA IN-
TERVALOS
Esta secao apresenta dois metodos de nuvens dinamicas para intervalos. O primeiro
metodo e baseado em uma extensao da distancia L2 de Minkowski que compara um par
5.3 metodos de nuvens dinamicas com distancias l2 para intervalos 67
de vetores de intervalos (subsecao 5.3.1) [CBB03]. O segundo metodo considera duas
versoes desta distancia L2 estendida para dados do tipo intervalo (subsecao 5.3.2): a
primeira e uma distancia L2 adaptativa de um componente e a segunda e uma distancias
L2 adaptativa de dois componentes [dCdS03a].
5.3.1 O metodo com a distancia L2 fixa
O criterio de particao W medindo o ajustamento entre uma particao P e um conjunto
de prototipos das classes L e definido por:
W (P,L) =K
∑
k=1
∑
i∈Ck
d(xi,yk) (.)
onde a distancia d(xi,yk) mede a dissimilaridade entre um objeto si ∈ Ck e o prototipo
Lk de Ck.
5.3.1.1 Uma funcao de distancia L2 entre dois vetores de intervalos Como
ja foi dito na introducao deste capıtulo, em [dCdS98a] um intervalo [a, b] e considerado
como um ponto (a, b) ∈ <2, onde os limites inferiores dos intervalos sao representados
no eixo dos x, e os limites superiores no eixo dos y. Usando esta representacao, uma
distancia quadratica entre dois vetores de intervalos xi = ([a1i , b
1i ], . . . , [a
pi , b
pi ]) e yi =
([α1k, β
1k ], . . . , [α
pk, β
pk ]) e definida da seguinte maneira:
d(xi,yk) =p
∑
j=1
(aji − α
jk)
2 + (bji − βjk)
2 (.)
Esta funcao d(xi,yk) foi introduzida em [CBB03] como uma distancia L2 estendida
para intervalos.
5.3.1.2 O problema de otimizacao Uma vez selecionado a distancia d(xi,yk), o
problema de otimizacao e: encontrar um vetor de intervalos yk que represente Lk da
classe Ck tal que minimize o criterio ∆(yk) que e dado por:
5.3 metodos de nuvens dinamicas com distancias l2 para intervalos 68
∆(yk) =∑
i∈Ck
p∑
j=1
(aji − α
jk)
2 + (bji − βjk)
2 (.)
Proposicao 5.3.1 Os limites inferiores e superiores dos intervalos [αjk, β
jk] (j = 1, . . . , p)
minimizando o criterio ∆(yk) sao:
αjk =
1
nk
p∑
j=1
aji , βj
k =1
nk
p∑
j=1
bji (.)
onde nk e o cardinal da classe Ck.
A prova da proposicao 5.3.1 encontra-se no apendice E.
5.3.2 O metodo com distancias L2 adaptativas
No metodo apresentado na subsecao 5.3.1, o criterio W e baseado em uma unica
medida de distancia entre intervalos para comparar classes com seus representantes. No
metodo apresentado nesta secao o criterio de particao W e baseado em uma medida de
distancia L2 adaptativa para intervalos. Este criterio e:
W (P,L, d) =K
∑
k=1
∑
i∈Ck
dk(xi,yk) (.)
onde dk e uma medida de dissimilaridade adaptativa entre um objeto si ∈ Ck e o
prototipo Lk de Ck.
5.3.2.1 Distancias L2 adaptativas entre dois vetores de intervalos Duas versoes
sao propostas para dk:
a) Distancia L2 adaptativa de um componente: Esta distancia dk e descrita por um
vetor de parametros λk = (λ1k, . . . , λ
pk)
dk(xi,yk) =p
∑
j=1
λjk
(
(aji − α
jk)
2 + (bji − βjk)
2)
(.)
com λjk > 0 e Πp
j=1λjk = 1.
5.3 metodos de nuvens dinamicas com distancias l2 para intervalos 69
b) Distancia L2 adaptativa de dois componentes : Nesta versao, a distancia dk e de-
scrita pelos vetores de parametros λkL = (λ1kL, . . . , λ
pkL) e λkU = (λ1
kU , . . . , λpkU)
dk(xi,yk) =p
∑
j=1
(
λjkL(aj
i − αjk)
2 + λjkU(bji − β
jk)
2)
(.)
com λjkL > 0 e Πp
j=1λjkL = 1 e λj
kU > 0 e Πpj=1λ
jkU = 1.
Novamente, a principal diferenca entre estas duas versoes e que a distancia de dois
componentes trata os limites inferiores e superiores dos intervalos independentemente
enquanto que a outra versao nao considera isto.
5.3.2.2 O problema de otimizacao com a distancia de um componente O
problema e: procurar um prototipo yk = (y1k, . . . , y
pk) e um vetor de parametros λk =
(λ1k, . . . , λ
pk) da classe Ck que minimize o seguinte criterio
∆1(yk,λk) =∑
i∈Ck
dk(xi, gk) =p
∑
j=1
λjk
∑
i∈Ck
(aji − α
jk)
2 + (bji − βjk)
2 (.)
Este problema e dividido em dois etapas:
1) Com a classe Ck e o vetor de parametros λk = (λ1k, . . . , λ
pk)
T fixos, o algoritmo
procura por um vetor de prototipos yk = (y1k, . . . , y
pk)
T que minimize
∑
i∈Ck
(aji − α
jk)
2 + (bji − βjk)
2 (.)
A solucao para yk (k = 1, . . . , K) e a mesma do metodo com distancia L2 fixa. Os
limites inferiores e superiores dos intervalos [αjk, β
jk] (j = 1, . . . , p) minimizando o
criterio em (.) sao:
αjk =
1
nk
p∑
j=1
aji , βj
k =1
nk
p∑
j=1
bji (.)
onde nk e o cardinal da classe Ck.
5.3 metodos de nuvens dinamicas com distancias l2 para intervalos 70
2) Com a classe Ck e o vetor de prototipos yk = (y1k, . . . , y
pk) fixos, o algoritmo procura
por um vetor de parametros λk = (λ1k, . . . , λ
pk) que, satisfazendo as condicoes: i)
λpk > 0 e ii)
∏pj=1 λ
jk = 1, minimize criterio ∆1(yk,λk). Usando a proposicao (5.2.2)
com φj(xji , y
jk) = (aj
i−αjk)
2+(bji−βjk)
2, as coordenadas do vetor de parametros λk =
(λ1k, . . . , λ
pk) que satisfazem as condicoes i) e ii) e minimizam o criterio ∆1(yk,λk)
sao:
λjk =
∏ph=1(
∑
i∈Ck(aj
i − αjk)
2 + (bji − βjk)
2)1
p
∑
i∈Ck(aj
i − αjk)
2 + (bji − βjk)
2(.)
5.3.2.3 O problema de otimizacao com a distancia de dois componentes O
problema consiste em encontrar, simultaneamente, um prototipo yk = (y1k, . . . , y
pk) e
dois vetores de parametros λkL = (λ1kL, . . . , λ
pkL) e λkU = (λ1
kU , . . . , λpkU) da classe Ck
que minimize o seguinte criterio
∆2(yk,λkL,λkU) =∑
i∈Ck
dk(xi, gk) = (.)
=p
∑
j=1
λjkL
∑
i∈Ck
(aji − α
jk)
2 +p
∑
j=1
λjkU
∑
i∈Ck
(bji − βjk)
2
1) Com a classe Ck e os vetores de parametros λkL = (λ1kL, . . . , λ
pkL) e λkU =
(λ1kU , . . . , λ
pkU) fixos, o algoritmo procura por um vetor de prototipos (y1
k, . . . , ypk)
que minimize∑
i∈Ck
(aji − α
jk)
2 e∑
i∈Ck
(bji − βjk)
2 (.)
O problema torna-se encontrar (para j = 1, . . . , p), o limite inferior αjk do intervalo
yjk = [αj
k, βjk] que minimize
∑
i∈Ck
(aji − α
jk)
2 (.)
e o limite superior βjk do intervalo yj
k = [αjk, β
jk] que minimize
∑
i∈Ck
(bji − βjk)
2 (.)
Novamente, a solucao e a mesma do metodo L2 com distancia fixa:
5.4 metodos de nuvens dinamicas com distancias l∞ para intervalos 71
αjk =
1
nk
p∑
j=1
aji , βj
k =1
nk
p∑
j=1
bji (.)
2) Com a classe Ck e o vetor de prototipos yk = (y1k, . . . , y
pk)
T fixos, o algoritmo
procura pelos vetores de parametros λkL = (λ1kL, . . . , λ
pkL) e λkU = (λ1
kU , . . . , λpkU)
que satisfazendo as condicoes: i) λpkL > 0 e λp
kU > 0 e ii)∏p
j=1 λjkL = 1 e
∏pj=1 λ
jkU =
1 minimizem o criterio ∆2(yk,λkL,λkU). Novamente, considerando a proposicao
5.2.2 para os vetores de parametros λkL com Φj =∑
i∈Ck(aj
i − ˆalphaj
k)2 e λkU
com Φj =∑
i∈Ck(bji − βj
k)2 (j = 1, . . . , p), as coordenadas desses vetores λkL =
(λ1kL, . . . , λ
pkU) e λkU = (λ1
kU , . . . , λpkU) sao, respectivamente:
ˆλkL
j=
[
∏ph=1(
∑
i∈Ck(ah
i − αhk)
2)]
1
p
∑
i∈Ck(aj
i − αjk)
2, λj
kU =
[
∏ph=1(
∑
i∈Ck(bhi − β
hk )2)
]1
p
∑
i∈Ck(bji − β
jk)
2(.)
5.4 METODOS DE NUVENS DINAMICAS COM DISTANCIAS L∞ PARA IN-
TERVALOS
Dois metodos de nuvens dinamicas sao considerados nesta secao. Os metodos otimizam
um criterio de particao W onde a proximidade entre as classes e seus representantes e
medida por distancias L∞ para intervalos. O primeiro metodo usa uma distancia L∞ que
compara dois intervalos [CL02](subsecao 5.4.1). O segundo metodo utiliza uma versao
adaptativa desta distancia L∞ entre intervalos [dSdCL03] (subsecao 5.4.2).
5.4.1 Metodo com a distancia L∞ fixa
Como em todos os metodos com distancia fixa descritos nas secoes anteriores, o
criterio de particao W com distancias L∞ fixa e tambem definido por:
W (P,L, d) =K
∑
k=1
∑
i∈Ck
d(xi,yk) (.)
onde mede a dissimilaridade entre um objeto si ∈ Ck e o prototipo Lk de Ck.
5.4 metodos de nuvens dinamicas com distancias l∞ para intervalos 72
5.4.1.1 Uma funcao de distancia L∞ entre dois vetores de intervalos A
dissimilaridade entre os dois vetores de intervalos xi e yk e dada por:
d(xi,yk) =p
∑
j=1
max|aji − α
jk|, |b
ji − β
jk| (.)
Novamente, a distancia dk representa um intervalo [a, b] como um ponto (a, b) ∈ <2,
onde os limites inferiores dos intervalos sao representados no eixo dos x, e os limites
superiores no eixo dos y [dCdS98a], e entao calcular a distancia L∞ entre os pontos
(aji , b
ji ) e (αj
i , βji ).
5.4.1.2 O problema de otimizacao Usando a distancia em (.), o problema e
definido da seguinte forma: encontrar um representante Lk que minimize um criterio
medindo a dissimilaridade entre Lk e Ck. Neste metodo o algoritmo procura por yk que
minimize o seguinte criterio
∆(yk) =∑
i∈Ck
p∑
j=1
max|aji − α
jk‖, |b
ji − β
jk| (.)
Proposicao 5.4.1 A solucao para os intervalos [αjk, β
jk] minimizando o criterio ∆(yk) e
αjk = µj
k − δjk e βj
k = µjk + δj
k onde µjk e δj
k sao, respectivamente, a mediana do conjunto
mji , i ∈ Ck, sendo mj
i o ponto medio do intervalo xji = [aj
i , bji ], e a mediana do conjunto
lji , i ∈ Ck, sendo lji a metade do comprimento do intervalo xji = [aj
i , bji ].
A prova da proposicao 5.4.1 encontra-se no apendice F.
5.4.2 Metodo com distancias L∞ adaptativas
No metodo apresentado na subsecao 5.4.1, a dissimilaridade entre dois vetores de
intervalos e uma distancia L∞ fixa para intervalos. Nesta subsecao, sera considerado o
caso onde a distancia L∞ e diferente de uma classe para outra. O criterio que mede o
ajustamento entre uma particao P , um conjunto L de K prototipos e um conjunto d de
K distancias e definido como:
5.4 metodos de nuvens dinamicas com distancias l∞ para intervalos 73
W (P,L, d) =K
∑
k=1
∑
i∈Ck
dk(xi,yk) (.)
onde dk(xi,yk) mede a proximidade entre xi e yk de acordo com a distancia dk de Ck.
5.4.2.1 Distancias L∞ adaptativas entre dois intervalos A funcao adaptativa
dk(xi,yk) e parametrizada pelo vetor de pesos λk = (λ1k, . . . , λ
pk) da seguinte forma:
dk(xi,yk) =k
∑
j=1
λjkmax|a
ji − α
jk|, |b
ji − β
jk| (.)
com λjk > 0 e Πp
j=1λjk = 1.
5.4.2.2 O problema de otimizacao Considerando a distancia dk em (.), o ajus-
tamento entre uma classe Ck, seu representante Lk e medido pelo seguinte criterio:
∆(yk,λk) =∑
i∈Ck
dk(xi,yk) =p
∑
j=1
λjk
∑
i∈Ck
max|aji − α
jk|, |b
ji − β
jk| (.)
O problema de otimizacao e dividido em dois estagios:
1) Com a classe Ck e o vetor de parametros λk = (λ1k, . . . , λ
pk) fixos, o algoritmo
procura por um vetor de prototipos yk = (y1k, . . . , y
pk) que minimize o criterio
∆(yk,λk). Como e conhecido da subsecao 5.4.1.2, a solucao αjk e βj
k sao, respec-
tivamente, µjk − δj
k e µjk + δj
k, onde µjk e δj
k sao, respectivamente, a mediana do
conjunto mji , i ∈ Ck, sendo mj
i o ponto medio do intervalo xji = [aj
i , bji ], e a
mediana do conjunto lji , i ∈ Ck, sendo lji a metade do comprimento do intervalo
xji = [aj
i , bji ].
2) Com a classe Ck e o vetor de prototipos yk = (y1k, . . . , y
pk) fixos, o algoritmo procura
por um vetor de parametros λk = (λ1k, . . . , λ
pk) que, satisfazendo as condicoes: i)
λpk > 0 e ii)
∏pj=1 λ
jk = 1, minimize o criterio ∆(yk,λk). Novamente, usando a
proposicao 5.2.2 com φ(xji , y
jk) =
∑
i∈Ckmax|aj
i − ˆalphaj
k|, |bji − β
jk|, as coorde-
nadas do vetor (λ1k, . . . , λ
pk) sao:
5.5 os algoritmos 74
λjk =
[
∏ph=1(
∑
i∈Ckmax|ah
i − αhk |, |b
hi − β
hk |)
]1
p
∑
i∈Ckmax|aj
i − αjk|, |b
ji − β
jk|
(.)
5.5 OS ALGORITMOS
Esta secao apresenta os algoritmos de nuvens dinamicas com e sem distancias adap-
tativas para vetores de intervalos.
5.5.1 O algoritmo de nuvens dinamicas para intervalos
Seguindo o algoritmo classico de nuvens dinamicas, algoritmo para intervalos tambem
e construıdo com base nas funcoes f (alocacao) e g (representacao) onde o par P t e Lt e
definido a partir das relacoes: P t = f(Lt−1) e Lt = g(P t). Alem disso este algoritmo tem
as mesmas propriedades do algoritmo classico (ver estudo das propriedades do algoritmo
no apendice A).
(a) Inicializacao
Selecione uma particao P 0 = (C01 , . . . , C
0K) do conjunto de objetos Ω ou selecioneK
objetos diferentes (y1, . . . ,yK) entre E e associe cada objeto i para uma classe Ck∗
tal que (k∗ = argmink=l,...,K d(xi,yk) (proximidade entre xi e yk) para construir
a particao inicial (C01 , . . . , C
0K).
(b) Passo de representacao: Lt = g(P t)
Para k de 1 ate K obtenha o prototipo yk = ([α1k, β
1k ], . . . , [α
pk, β
pk ]) para representar
a classe Ck ∈ P onde
i) αjk e a mediana do conjunto aj
i i ∈ Ck e βjk e a mediana do conjunto
bji i ∈ Ck, se e usado o metodo L1;
ii) αjk e a media do conjunto aj
i i ∈ Ck e βjk e a media do conjunto bji i ∈ Ck,
se e usado o metodo L2;
iii) αjk = µj
k − δjk e βj
k = µjk + δj
k, sendo µjk a mediana do conjunto mj
i , i ∈ Ck
(mji = (aj
i + bji )/2) e δjk (lji = (bji − a
ji )/2) a mediana do conjunto lji , i ∈ Ck,
5.5 os algoritmos 75
se e usado o metodo L∞.
(c) Passo de alocacao: P t+1 = f(Lt)
teste← 0
Para i de 1 ate n faca
defina a classe Ck∗ tal que:
k∗ = arg mink=l,...,K
p∑
j=1
d(xi,yk)
onde
i) d(xi,yk) = |aji − α
jk|+ |b
ji − β
jk|, se e usado o metodo L1;
ii) d(xi,yk) = (aji − α
jk)
2 + (bji − βjk)
2, se e usado o metodo L2;
iii) d(xi,yk) = max|aji − α
jk|, |b
ji − β
jk|, se e usado o metodo L∞.
se i ∈ Ck e k∗ 6= k
teste← 1
Ck∗ ← Ck∗ ∪ i
Ck ← Ck\i
Calcule W t+1 onde W =∑K
k=1
∑
i∈Ckd(xi,yk)
(d) Se teste = 0(W t+1 = W t) FIM, senao va para o passo (b)
5.5.2 O algoritmo de nuvens dinamicas com distancias adaptativas para intervalos
Novamente, seguindo o algoritmo classico de nuvens dinamicas com distancias adap-
tativas, o algoritmo para intervalos tambem e construıdo com base nas funcoes f (alocacao)
g (representacao) e e (distancia) onde a tripla P t, Lt dt e definida a partir das relacoes:
P t = f(Lt−1, dt−1), Lt = g(P t, dt−1) e dt = e(P t, Lt). Alem disso, as propriedades deste
algoritmo sao tambem as mesmas do algoritmo classico (ver estudo das propriedades do
algoritmo no apendice B).
5.5 os algoritmos 76
(a) Inicializacao
Selecione uma particao P 0 = (C01 , . . . , C
0K) do conjunto de objetos Ω ou selecioneK
objetos diferentes (y1, . . . ,yK) entre E e associe cada objeto i para uma classe Ck∗
tal que (k∗ = argmink=l,...,K d(xi,yk) (proximidade entre xi e yk) para construir
a particao inicial (C01 , . . . , C
0K).
(b) Passo de representacao: Lt = g(P t, dt−1) e dt = e(P t, Lt)
Para k de 1 ate K obtenha
a) o prototipo yk = ([α1k, β
1k ], . . . , [α
pk, β
pk ])
T para representar a classe Ck ∈ P
onde
i) αjk e a mediana do conjunto aj
i i ∈ Ck e βjk e a mediana do conjunto
bji i ∈ Ck, se e usado o metodo L1;
ii) αjk e a media do conjunto aj
i i ∈ Ck e βjk e a media do conjunto bji i ∈
Ck, se e usado o metodo L2;
iii) αjk = µj
k − δjk e βj
k = µjk + δj
k, com µjk sendo a mediana do conjunto
mji , i ∈ Ck (mj
i = (aji + bji )/2) e δj
k a mediana do conjunto lji , i ∈ Ck
(lji = (bji − aji )/2), se e usado o metodo L∞.
b) o vetor de parametros λk = (λ1k, . . . , λ
pk)
T , se e usado a distancia adaptativa
de um componente ou os vetores de parametros λkL = (λ1kL, . . . , λ
pkL) e λkU =
(λ1kU , . . . , λ
pkU).
(c) Passo de alocacao: P t+1 = f(Lt, dt)
teste← 0
Para i de 1 ate n faca
defina a classe Ck∗ tal que:
k∗ = arg mink=l,...,K
p∑
j=1
d(xi,yk)
onde
5.5 os algoritmos 77
i) d(xi,yk) = λjk
(
|aji − α
jk|+ |b
ji − β
jk|
)
, se e usado a distancia L1 adapta-
tiva de um componente e d(xi,yk) = λjkL|a
ji − αj
k| + λjkU |b
ji − βj
k|, se e
usado a distancia de L1 adaptativa dois componentes;
ii) d(xi,yk) = λjk
(
(aji − α
jk)
2 + (bji − βjk)
2)
, se e usado a distancia L2 adap-
tativa de um componente e d(xi,yk) = λjkL(aj
i − αjk)
2 + λjkU(bji − β
jk)
2, se
e usado a distancia L2 adaptativa de dois componentes;
iii) d(xi,yk) = λjk
(
max|aji − α
jk|, |b
ji − β
jk|
)
, se e usado a distancia L∞
adaptativa.
se i ∈ Ck e k∗ 6= k
teste← 1
Ck∗ ← Ck∗ ∪ i
Ck ← Ck\i
Calcule W t+1 onde W =∑K
k=1
∑
i∈Ckdk(xi,yk)
(d) Se teste = 0(W t+1 = W t) FIM, senao va para o passo (b)
CAPITULO 6
RESULTADOS DOS EXPERIMENTOS
6.1 INTRODUCAO
Com o objetivo de validar os metodos propostos para intervalos, foram realizados
experimentos com dois conjuntos de dados artificiais do tipo intervalo e um conjunto de
dados reais do tipo intervalo. Os conjuntos artificiais foram gerados com diferentes graus
de dificuldade de classificacao: clusters de formas e tamanhos diferentes e linearmente
separaveis ou nao [GGKS78]. O conjunto de dados reais contem descricoes de especies
de peixes que foram coletadas em um estudo realizado na Guyana francesa.
A avaliacao dos resultados de classificacao fornecidos pelos metodos foi baseada em
um ındice de validacao externo [HA85]. Para cada conjunto de dados artificiais o ındice
de validacao e estimado no quadro de uma experiencia Monte Carlos com 100 replicacoes.
A finalidade da aplicacao do metodo Monte Carlo e propiciar uma melhor avaliacao
quantitativa do desempenho dos metodos considerando situacoes com diferentes graus de
dificuldades de classificacao. Testes t-Student emparelhados sao usados para comparar
os metodos de clusters.
Este capıtulo e dividido em duas secoes: a primeira descreve os experimentos e os
resultados da classificacao com os dados artificiais (secao 6.2) e a segunda descreve os
resultados da classificacao com o conjunto de especies de peixes (secao 6.3).
6.2 CONJUNTOS DE DADOS ARTIFICIAIS DO TIPO INTERVALO
Para realizar os experimentos com dados artificiais, foi implementado um sistema
de cluster na linguagem C++ que tem sistema tres etapas: simulacao de dados usuais
e dados do tipo intervalo e calculo do ındice de validacao. As etapas deste sistema sao
78
6.2 conjuntos de dados artificiais do tipo intervalo 79
organizadas no quadro de uma experiencia Monte Carlo.
6.2.1 Simulacao de Dados Usuais
Nesta etapa, foram simulados dois conjuntos de dados usuais em <2 com diferentes
propriedades estatısticas. O conjunto de pontos de cada classe, em cada conjunto, foi
gerado de acordo com uma distribuicao normal bi-variada usando um algoritmo [BF92]
que assume independencia entre as variaveis e vetor de medias e matriz de covariancias
apresentados como:
µ =
µ1
µ2
e Σ =
σ21 0
0 σ22
Cada conjunto tem 450 pontos distribuıdos entre quatro classes de tamanhos e formas
diferentes: duas classes de forma elıptica e de tamanho 150 e duas classes de forma
esferica e tamanhos 50 e 100. Alem disso, um conjunto tem classes bem separadas e o
outro apresenta sobreposicao de classes.
A Figura 6.1 mostra o conjunto de dados 1 com classes bem separadas.
Figura 6.1. Conjunto de dados usuais 1 mostrando classes bem separadas
Os pontos de cada classe neste conjunto de dados foram gerados de acordo com os
seguintes parametros:
6.2 conjuntos de dados artificiais do tipo intervalo 80
a) Classe 1: µ1 = 28, µ2 = 22, σ21 = 100 e σ2
2 = 9;
b) Classe 2: µ1 = 60, µ2 = 30, σ21 = 9 e σ2
2 = 144;
c) Classe 3: µ1 = 45, µ2 = 38, σ21 = 9 eσ2
2 = 9;
d) Classe 4: µ1 = 38, µ2 = −1, σ21 = 25 e σ2
2 = 25;
A Figura 6.2 apresenta o conjunto de dados 2 com sobreposicao de classes.
Figura 6.2. Conjunto de dados usuais 2 mostrando sobreposicao de classes
Os pontos de cada classe neste conjunto foram gerados de acordo com os seguintes
parametros:
a) Classe 1: µ1 = 45, µ2 = 22, σ21 = 100 e σ2
2 = 9;
b) Classe 2: µ1 = 60, µ2 = 30, σ21 = 9 e σ2
2 = 144;
c) Classe 3: µ1 = 52, µ2 = 38, σ21 = 9 e σ2
2 = 9;
d) Classe 4: µ1 = 42, µ2 = 12, σ21 = 25 e σ2
2 = 25;
6.2.2 Simulacao de Dados do Tipo Intevalo
Os conjuntos de dados artificiais do tipo intervalo foram gerados considerando cada
ponto (z1, z2) nas Figuras 6.1 e 6.2 como uma semente de um vetor de intervalos
6.2 conjuntos de dados artificiais do tipo intervalo 81
(retangulo): ([z1 − γ1/2, z1 + γ1/2], [z2 − γ2/2, z2 + γ2/2]). Estes parametros γ1, γ2 sao
selecionados aleatoriamente a partir de um mesmo intervalo predefinido. Os intervalos
considerados nestes experimentos sao: [1, 8], [1, 16], [1, 24], [1, 32], e [1, 40].
As Figuras 6.3 e 6.4 mostram, respectivamente, uma replica do conjunto de retangulos
1 com classes bem separadas e uma replica do conjunto de retangulos 2 com sobreposicao
de classes. Nestes conjuntos os parametros γ1, γ2 foram selecionados aleatoriamente a
partir do intervalo [1, 8].
Figura 6.3. Conjuntos de retangulos 1 mostrando classes bem separadas
Figura 6.4. Conjuntos de retangulos 2 mostrando sobreposicao de classes
6.2.3 Calculo do ındice de validacao
O objetivo desta esta etapa e avaliar o desempenho de um metodo de cluster atraves
da estimativa do ındice corrigido de Rand (CR) obtida no quadro de um experimento
6.2 conjuntos de dados artificiais do tipo intervalo 82
Monte Carlo. 100 replicacoes sao consideradas para cada conjunto de dados de intervalo,
assim como para cada intervalo predefinido para os parametros γ1 e γ2.
A media do ındice de Rand corrigido (CR) [HA85] e calculada entre estas 100
replicacoes. Em cada replicacao um metodo de cluster e executado (ate a convergencia
para um valor estacionario do criterio W ) 50 vezes e o melhor resultado, de acordo com
o criterio W , e selecionado.
O ındice CR mede o grau de similaridade entre uma particao a priori (neste caso, a
particao e definida pelas sementes) e uma particao fornecida pelo algoritmo de cluster.
CR pode tomar valores no intervalo [0,1]. Este ındice CR foi escolhido pois ele nao e
sensıvel ao numero de classes nas particoes e as distribuicoes dos elementos nas classes
[Mil96].
Se U = u1, . . . , ur, . . . , uR e uma particao dada como resultado de um metodo de
cluster, e V = v1, . . . , vc, . . . , vC e particao a priori, o ındice CR e definido como:
CR =
∑Ri=1
∑Cj=1
(
nij
2
)
−(
n2
)−1∑R
i=1
(
ni.
2
)
∑Cj=1
(
n.j
2
)
12[∑R
i=1
(
ni.
2
)
+∑C
j=1
(
n.j
2
)
]−(
n2
)−1∑R
i=1
(
ni.
2
)
∑Cj=1
(
n.j
2
)(.)
onde nij representa o numero de objetos que estao nas classes ui e vi; ni. indica o numero
de objetos que estao na classe ui; n.j indica o numero de objetos que estao na classe vj;
e n e o numero total de objetos.
6.2.4 Resultados para os Metodos L1
A Tabela 6.1 mostra os valores do ındice CR medio de acordo com os metodos L1
(secao 5.2 do capıtulo 5) e os conjuntos de dados de intervalos 1 e 2. Nesta tabela os
metodos adaptativos 1 e 2 significam, respectivamente, metodo com a distancia adapta-
tiva de um componente e metodo com a distancia adaptativa de dois componentes.
6.2 conjuntos de dados artificiais do tipo intervalo 83
Tabela 6.1. Indice CR medio para os metodos L1.
Intervalos Conjunto de Intervalos 1 Conjunto de Intervalos 2
predefinidos Metodo Metodo Metodo Metodo Metodo Metodo
Adaptativo 1 Adaptativo 2 Nao Adaptativo Adaptativo 1 Adaptativo 2 Nao adaptativo
[1, 8] 0.950 0.950 0.790 0.503 0.504 0.433
[1, 16] 0.949 0.946 0.750 0.479 0.487 0.434
[1, 24] 0.927 0.919 0.731 0.457 0.457 0.417
[1, 32] 0.836 0.834 0.722 0.420 0.428 0.393
[1, 40] 0.767 0.784 0.721 0.344 0.339 0.348
Esta tabela mostra que, em todas as situacoes, o ındices CR medios para os metodos
adaptativos sao maiores do que aqueles para os metodos nao adaptativos. A comparacao
entre os metodos L1 e alcancada pelos testes t-Student emparelhados em nıvel de sig-
nificancia de 5%. A Tabela 6.2 apresenta as hipoteses (nula e alternativa) e os valores
observados das estatısticas dos testes seguindo distribuicao t-Student com 99 graus de
liberdade.
Tabela 6.2. Estatısticas de testes t-Student emparelhados para os metodos L1
Intervalos H0 : µ1 = µ2 H0 : µ1 ≤ µ
predefinidos H1 : µ1 6= µ2 H1 : µ1 > µ
Conjunto Conjunto Conjunto Conjunto
de Intervalos 1 de Intervalos 2 de Intervalos 1 de Intervalos 2
[1, 8] -0.32 0.16 17.15 11.02
[1, 16] -1.43 1.62 25.32 8.68
[1, 24] -1.19 0.04 29.22 7.31
[1, 32] -0.19 1.50 13.49 5.26
[1, 40] 2.44 -0.65 7.53 -0.62
Nesta tabela, µ1, µ2 e µ sao, respectivamente, o ındice CR medio para os metodos
6.2 conjuntos de dados artificiais do tipo intervalo 84
adaptativos 1 e 2, e para o metodo nao adaptativo. A partir destes resultados, e aceito a
hipotese que o desempenho medio (medido pelo ındice CR) dos metodos L1 adaptativos e
superior ao desempenho medio do metodo L1 nao adaptativo e que o desempenho medio
do metodo adaptativo 1 e tao bom quanto o desempenho medio do metodo adaptativo
2 com uma confianca de 95 %.
6.2.5 Resultados para os Metodos L2
A Tabela 6.3 mostra os valores do ındice CR medio de acordo com os metodos L2
(secao 5.3 do capıtulo 5) e os conjuntos de retangulos 1 e 2. Nesta tabela os metodos
adaptativos 1 e 2 significam, respectivamente, metodo com a distancia adaptativa de
um componente e metodo com a distancia adaptativa de dois componentes. Esta tabela
mostra que, em todas as situacoes, o ındices CR medios para os metodos adaptativos
sao maiores do que aqueles para o metodo nao adaptativo.
Tabela 6.3. Indice CR medio para os metodos L2.
Intervalos Conjunto de Intervalos 1 Conjunto de Intervalos 2
predefinidos Metodo Metodo Metodo Metodo Metodo Metodo
Adaptativo 1 Adaptativo 2 Nao Adaptativo Adaptativo 1 Adaptativo 2 Nao adaptativo
[1, 8] 0.944 0.948 0.710 0.523 0.525 0.404
[1, 16] 0.934 0.927 0.711 0.496 0.495 0.408
[1, 24] 0.887 0.882 0.705 0.473 0.477 0.404
[1, 32] 0.823 0.830 0.711 0.385 0.449 0.442
[1, 40] 0.781 0.776 0.716 0.397 0.374 0.394
A Tabela 6.4 apresenta as hipoteses (nula e alternativa) e os valores observados das
estatısticas dos testes seguindo distribuicao t-Student com 99 graus de liberdade. A
partir destes resultados e aceito a hipotese que o desempenho medio (medido pelo ındice
CR) dos metodos L2 adaptativos e superior ao desempenho medio do metodo L2 nao
adaptativo e que o desempenho medio do metodo adaptativo 1 e tao bom quanto o
desempenho medio do metodo adaptativo 2 com uma confianca de 95 %.
6.2 conjuntos de dados artificiais do tipo intervalo 85
Tabela 6.4. Estatısticas de testes t-Student emparelhados para os metodos L2.
Intervalos H0 : µ1 = µ2 H0 : µ1 ≤ µ
predefinidos H1 : µ1 6= µ2 H1 : µ1 > µ
Conjunto Conjunto Conjunto Conjunto
de Intervalos 1 de Intervalos 2 de Intervalos 1 de Intervalos 2
[1, 8] 1.25 0.21 70.17 23.20
[1, 16] -1.46 -0.07 55.15 19.61
[1, 24] -0.57 0.58 25.04 13.43
[1, 32] 0.66 -1.21 15.08 9.27
[1, 40] -0.78 -2.94 11.42 0.37
6.2.6 Resultados para os Metodos L∞
A Tabela 6.5 mostra os valores do ındice CR medio de acordo com os metodos
L∞ (secao 5.4 do capıtulo 5) e os conjuntos de dados de retangulos 1 e 2. Em todas
as situacoes, o ındices CR medios para o metodo adaptativo sao maiores do que os
correspondentes para o metodo nao adaptativo.
Tabela 6.5. Indice CR medio para os metodos L∞.
Intervalos Conjunto de Intervalos 1 Conjunto de Intervalos 2
predefinidos Metodo Metodo Metodo Metodo
Adaptativo Nao-adaptativo Adaptativo Nao-adaptativo
γ ∈ [1, 8] 0.942 0.800 0.492 0.436
γ ∈ [1, 16] 0.936 0.789 0.483 0.432
γ ∈ [1, 24] 0.933 0.787 0.463 0.430
γ ∈ [1, 32] 0.920 0.798 0.436 0.390
γ ∈ [1, 40] 0.904 0.769 0.340 0.329
6.3 um conjunto de especies de peixes 86
A Tabela 6.6 apresenta as hipoteses (nula e alternativa) e os valores observados
das estatısticas dos testes seguindo distribuicao t-Student com 99 graus de liberdade.
Analogo aos resultados para os metodos L1 e L2, os valores das estatısticas dos testes
da Tabela 6.6 evidenciam que o desempenho do metodo L∞ adaptativo e superior ao
desempenho do metodo L∞ nao adaptativo com uma confianca de 95 %.
Tabela 6.6. Estatısticas de testes t-Student emparelhados.
Intervalos H0 : µ1 = µ
predefinidos H1 : µ1 > µ
Conjunto Conjunto
de Intervalos 13 de Intervalos 2
γ ∈ [1, 8] 14.00 12.41
γ ∈ [1, 16] 15.37 9.08
γ ∈ [1, 24] 15.80 5.74
γ ∈ [1, 32] 12.60 6.36
γ ∈ [1, 40] 14.65 1.36
Nesta secao foram apresentados os resultados das experiencias Monte Carlo realizadas
de acordo com os metodos L1, L2 e L∞ e diferentes conjuntos de dados artificiais do
tipo intervalo. A partir destes resultados, pode-se concluir que em todas as situacoes os
metodos com distancias L1, L2 e L∞ adaptativas para intervalos sao, respectivamente,
superiores aos metodos com distancias L1, L2 e L∞ nao adaptativas para intervalos e os
testes estatısticos comprovam estes resultados com uma confianca de 95 %.
6.3 UM CONJUNTO DE ESPECIES DE PEIXES
Para tratar dados reais, tambem foi implementado um sistema na linguagem C++ que
classifica um conjunto de dados do tipo intervalo e avalia os resultados da classificacao
usando o ındice de Rand corrigido (CR). A Tabela 6.7 apresenta um conjunto de peixes.
6.3 um conjunto de especies de peixes 87
Tabela 6.7. Conjunto de Dados de Peixe descritos por 13 variaveis do tipo intervalo
Objetos/Classes Variaveis
Comprimento Peso ... Intestino/ Estomago/
Musculo Musculo
Ageneiosusbrevifili 1 [1.8 : 7.1] [2.1 : 7.2] ... [7.8 : 17.9] [4.3 : 11.8]
Cynodongibbus 1 [19 : 32] [77 : 359] . . . [0 : 0.5] [0.2 : 1.24]
Hopliasaımara 1 [25.5 : 63] [340 : 5500] . . . [0.11 : 0.49] [0.09 : 0.4]
Potamotrygonhy. 1 [20.5 : 45] [400 : 6250] . . . [0 : 1.25] [0 : 0.5]
Leporinusfasciatus 3 [18.8 : 25] [125 : 273] . . . [0 : 0] [0.12 : 0.17]
Leporinusfrederici 3 [23 : 24.5] [290 : 350] . . . [0.18 : 0.24] [0.13 : 0.58]
Dorasmicropoeus 2 [19.2 : 31] [128 : 505] . . . [0 : 1.48] [0 : 0.79]
Platydorascostatus 2 13.7 : 25] [60 : 413] . . . [0.3 : 1.45] [0 : 0.61]
Pseudoancistrus. 2 [13 : 20.5] [55 : 210] . . . [0 : 2.31] [0.49 : 1.36]
Semaprochilodusvari 2 [22 : 28] [330 : 700] . . . [0.4 : 1.68] [0 : 1.25]
Acnodonoligacanthus 4 [10 : 16.2] [34.9 : 154.7] . . . [0 : 2.16] [0.23 : 5.97]
Myleusrubripinis 4 [2.7 : 8.4] [2.7 : 8.7] ... [8.2 : 20] [5.1 : 13.3]
Diversos estudos realizados na Guyana francesa tem indicado nıveis anormais de
contaminacao de mercurio em algumas regioes. Esta contaminacao de mercurio e de-
vida ao alto ındice de consumo de peixe de agua doce contaminado [BR98]. Com o
objetivo de obter um melhor conhecimento deste fenomeno, um conjunto de dados foi
coletado por pesquisadores de um laboratorio (LEESA -Laboratoire d’Ecophysiologie
et d’Ecotoxicologie des Systemes Aquatiques). Este conjunto de dados consiste em 12
especies de peixes, cada especie sendo descrita por 13 variaveis do tipo intervalo e 1
variavel categorica. Estas especies estao agrupadas em quatro classes a priori de taman-
hos diferentes de acordo com a variavel categorica: duas classes (Carnivorous and De-
tritivorous) de tamanho 4 e duas classes de tamanho 2 (Omnivorous and Herbivorous).
Nas proximas subsecoes serao apresentados os resultados de classificacao fornecidos
pelos metodos L1, L2 e L∞ para este conjunto. Cada metodo de cluster e executado (ate
6.3 um conjunto de especies de peixes 88
a convergencia para um valor estacionario do criterio W ) 50 vezes e o melhor resultado,
de acordo com o criterio W , e selecionado. A partir da configuracao selecionada o ındice
de Rand (CR) e calculado.
6.3.1 Resultados para os metodos L1
A Tabela 6.8 mostra as classes dada por uma particao a priori, conforme a variavel
categorica, e obtida pelos metodos L1: metodos adaptativos 1 and 2 e o metodo nao
adaptativo. Os ındices CR obtidos a partir dos resultados mostrados nesta tabela sao,
respectivamente, 0.302, 0.209 e -0.016 para os metodos adaptativos 1, 2 e para o metodo
nao adaptativo. Portanto, para este conjunto de peixes, o desempenho dos metodos
adaptativos e superior ao desempenho do metodo nao adaptativo. Alem disso, e inter-
essante observar que, para este conjunto de dados, o desempenho do metodo adaptativo
1 e melhor do que o do metodo adaptativo 2. Este ultimo resultado nao coincide com o
caso para os conjuntos de dados artificiais descritos na secao 6.2.4.
Tabela 6.8. Resultados do agrupamento para o conjunto de peixes usando os metodos L1
Classe 1 Classe 2 Classe 3 Classe 4
Uma particao a priori 1 2 3 4 7 8 9 10 5 6 11 12
Metodo Adaptativo 1 4 10 1 2 3 5 6 7 8 9 11 12
Metodo Adaptativo 2 1 2 3 7 5 8 9 6 11 4 10 12
Metodo Nao-adaptativo 5 6 9 11 12 1 10 2 3 7 4 8
6.3.2 Resultados para os metodos L2
A Tabela 6.9 mostra as classes dada por uma particao a priori, conforme a variavel
categorica, e obtida pelos metodos L2: metodos adaptativos 1 and 2 e o metodo nao
adaptativo. Os ındices CR obtidos a partir dos resultados mostrados nesta tabela sao,
respectivamente, 0.334, 0.208 e -0.016 para os metodos adaptativos 1, 2 e para o metodo
nao adaptativo. Analogo aos resultados fornecidos pelos metodos L1, o desempenho dos
6.3 um conjunto de especies de peixes 89
metodos L2 adaptativos e superior ao desempenho do metodo L2 nao adaptativo e o
desempenho do metodo adaptativo 1 e melhor do que o do metodo adaptativo 2.
Tabela 6.9. Resultados do agrupamento para o conjunto de peixes usando os metodos L2
Classe 1 Classe 2 Classe 3 Classe 4
Uma particao a priori 1 2 3 4 7 8 9 10 5 6 11 12
Metodo Adaptativo 1 3 4 9 11 12 1 2 5 6 7 8 10
Metodo Adaptativo 2 6 9 11 12 1 3 4 5 7 8 2 10
Metodo Nao-adaptativo 5 6 9 11 12 4 8 1 10 2 3 7
6.3.3 Resultados para os metodos L∞
A Tabela 6.10 mostra as classes dada por uma particao a priori, conforme a variavel
categorica, e obtida pelos metodos L∞: metodos adaptativos 1 and 2 e o metodo nao
adaptativo. Os ındices CR obtidos a partir dos resultados mostrados nesta tabela sao,
respectivamente, 0.49 e -0.016 para os metodos adaptativo e nao adaptativo. Nova-
mente, para este conjunto de peixe, o desempenho do metodo adaptativo e superior ao
desempenho do metodo nao adaptativo.
Tabela 6.10. Resultados do agrupamento para o conjunto de peixes usando os metodos L∞
Classe 1 Classe 2 Classe 3 Classe 4
Uma particao a priori 1 2 3 4 7 8 9 10 5 6 11 12
Metodo adaptativo 9 11 12 5 6 7 8 10 1 2 3 4
Metodo Nao-adaptativo 5 6 9 11 12 4 8 1 10 2 3 7
Nesta secao foram apresentados os resultados de agrupamento fornecidos pelos metodos
L1, L2 e L∞ usando um conjunto de dados reais do tipo intervalo. Analoga a conclusao
apresentada para os dados artificiais, pode-se afirmar que, para o conjunto de peixes, os
metodos com distancias L1, L2 e L∞ adaptativas para intervalos sao, respectivamente,
superiores aos metodos com distancias L1, L2 e L∞ nao adaptativas para intervalos.
6.3 um conjunto de especies de peixes 90
Alem disso, nesta aplicacao, o metodo com distancias L∞ adaptativas apresentou o
melhor resultado para o ındice CR.
CAPITULO 7
CONCLUSOES E TRABALHOS FUTUROS
7.1 INTRODUCAO
Neste capıtulo, sao apresentados as consideracoes finais relacionadas com esta tese,
assim como as extensoes que possam existir originadas do trabalho aqui realizado.
7.2 CONSIDERACOES FINAIS
O contexto deste trabalho esta inserido na abordagem simbolica em analise de dados
(SDA-Symbolic Data Analysis) relacionada com metodos para a extracao de conhecimen-
tos em grandes bases de dados. SDA possibilita a reducao de bases de dados em uma
estrutura mais complexa chamada de objetos simbolicos. A relevancia destes objetos
esta na sua capacidade de descrever indivıduos levando ou nao em conta a imprecisao ou
a incerteza, ou podem descrever ıtens mais complexos, tais como grupos de indivıduos.
A partir de uma base de dados significativamente menor, composta de informacoes agre-
gadas, e possıvel a aplicacao de novas tecnicas objetivando a extracao de informacoes
relevantes e a descoberta de conhecimento.
Neste trabalho foram desenvolvidos metodos de cluster para dados simbolicos do
tipo intervalo. Estes metodos sao extensoes dos algoritmos do tipo nuvens dinamicas
com e sem distancias adaptativas para intervalos. Os metodos obtem, simultaneamente,
uma particao em um numero predefinido de classes e um conjunto de representantes
das classes por otimimizacao de um criterio que mede o ajustamento entre as classes
e seus representantes. Inicialmente foi introduzido um algoritmo de nuvens dinamicas
com uma distancia L1 nao adaptativa entre vetores de intervalos. Em seguida foram
introduzidos tres algoritmos de nuvens dinamicas com, respectivamente, as distancias
91
7.2 consideracoes finais 92
L1, L2 e L∞ adaptativas para intervalos. Os algoritmos propostos convergem para
um valor estacionario do criterio que representa o melhor ajustamento entre o tipo de
representacao das classes e as as distancias usadas para comparar uma classe com seu
representante.
Os metodos foram avaliados com diferentes conjuntos de dados artificiais de intervalos
no quadro de experiencias Monte Carlo fazendo-se replicas dos conjuntos com identicas
propriedades estatısticas, com o intuito de obter um resultado representativo da medida
de desempenho de cada metodo. Para isto, adotou-se o ındice de Rand corrigido (CR)
como medida de validacao dos metodos propostos. Uma aplicacao com um conjunto de
dados reais tambem foi considerado neste estudo.
Como conclusao principal, pode-se citar que em todos os conjuntos o desempenho
(medido atraves do ındice CR) dos metodos adaptativos e superior ao desempenho dos
metodos nao adaptativos. Para comparar os metodos, testes t-Student para observacoes
emparelhadas ao nıvel de significancia de 5% foram aplicados. Os resultados das es-
tatısticas dos testes evidenciaram que os metodos adaptativos sao superiores aos nao
adaptativos. A vantagem de usar distancias adaptativas e que os algoritmos sao capazes
de reconhecer classes de diferentes formas e tamanhos.
As principais contribuicoes deste trabalho foram as seguintes:
1) Desenvolvimento de metodos para a descoberta de conhecimentos em grandes bases
de dados.
2) Novas distancias para dados de intervalos que otimizam uma medida de qualidade
de um agrupamento.
3) Avaliacao quantitativa do desempenho dos metodos propostos atraves do metodo
Monte Carlo.
4) Avancos no plano teorico relativos aos metodos e algoritmos na abordagem simbolica
em classificacao e metodos afins.
7.3 trabalhos futuros 93
7.3 TRABALHOS FUTUROS
Com relacao a continuidade deste trabalho, pode-se mencionar as seguintes extensoes:
1) Estudar novas representacoes para os intervalos e usar estas representacoes para
definir novos metodos de particao com distancias adaptativas para intervalos.
2) Propor uma famılia de metodos de particao adaptativos usando uma extensao da
distancia de Minkowski Lr (r = 1, 2...) para intervalos.
3) Introduzir metodos de particao adaptativos para intervalos usando a distancia de
Mahalanobis.
4) Desenvolver metodos de particao com distancias adaptativas para dados descritos
por histogramas (ou distribuicoes de pesos) ou misturas de distribuicoes de prob-
abilidade.
APENDICE A
ESTUDO DAS PROPRIEDADES DO ALGORITMO DE
NUVENS DINAMICAS
A partir de uma solucao inicial v0, o algoritmo do tipo nuvens dinamicas busca por uma
solucao estacionaria para os termos seguintes:
• vt+1 = (P t+1, Lt+1) ∈ PK × LK e
• ut = W (vt)
onde P t+1 = f(Lt) e Lt+1 = g(P t+1) com P t+1 = (Ct+11 , . . . , Ct+1
K ) e Lt+1 = (Lt+11 , . . . , Lt+1
K ).
Proposicao A.0.1 A funcao ut decresce para um valor estacionario.
Demonstracao: A convergencia e demonstrada se e possıvel verificar a seguinte de-
sigualdade:
ut ≥ W (P t+1, Lt) ≥ ut+1
A primeira desigualdade e verificada pois, fixado Lt, a funcao de alocacao f : f(Lt) =
P t+1 permite determinar P t+1 a partir de L(t) para ∀ k = 1, . . . , K da seguinte forma:
Associa-se um indivıduo ωi (i = 1, . . . , n) a classe C t+1k tal que
k = arg minh=l,...,K
d(xi,yth)
Isto implica que
K∑
k=1
∑
i∈Ctk
d(xi,ytk) ≥
K∑
k=1
∑
i∈Ct+1
k
d(xi,ytk)
A segunda desigualdade e
94
estudo das propriedades do algoritmo de nuvens dinamicas 95
W (P t+1k , Lt
k) ≥ W (Pt+1)k , Lt+1
k )
Analoga a primeira desigualdade, a segunda e verificada pois, fixado P t+1 a funcao de
representacao g : g(P t+1) = Lt+1k permite determinar Lt+1 a partir de P t+1 minimizando
a funcao ut+1.
Proposicao A.0.2 A funcao vt e estacionaria.
Demonstracao: Sera provado ∀ t ≥ T vt = vT . Considere que a funcao ut seja
estacionaria na iteracao T , isto e, uT+1 = uT e W (vT+1) = W (vT ). Assumindo isto, a
igualdade uT+1 = uT pode ser definida como:
W (P T , LT ) = W (P T+1, LT ) = W (P T+1, LT+1)
A partir da primeira igualdade, conclui-se que P T = P T+1 pois por definicao P T+1 =
f(LT ). Sabe-se tambem que por definicao LT+1 = g(P T+1) e unica minimizando a funcao
∑
i∈CT+1
k
d(xi,yT+1k )
Portanto, a partir da segunda igualdade verifica-se que LT = LT+1 e estes dois ultimos
resultados implicam que vt = vT .
APENDICE B
ESTUDO DAS PROPRIEDADES DO ALGORITMO DE
NUVENS DINAMICAS COM DISTANCIAS
ADAPTATIVAS
A partir de uma solucao inicial v0, o algoritmo do tipo nuvens dinamicas com distancias
adaptativas visa encontrar uma solucao estacionaria para os termos:
• vt+1 = (P t+1, Lt+1, dt+1) ∈ PK × LK × dK e
• ut = W (vt)
onde P t+1 = f(Lt, dt), Lt+1 = g(P t+1), dt) e dt+1 = e(P t+1, Lt+1) com P t+1 = (Ct+11 , . . . , Ct+1
K ),
Lt+1 = (Lt+11 , . . . , Lt+1
K ) e dt+1 = (dt+11 , . . . , dt+1
K ).
Proposicao B.0.3 A funcao ut decresce para um valor estacionario.
Demonstracao: A convergencia e demonstrada se e possıvel verificar
ut ≥ W (P t+1, Lt, dt) ≥ W (P t+1, Lt+1, dt) ≥ ut+1
A primeira desigualdade e verificada pois, fixado o par Lt e dt, a funcao de alocacao
f : f(Lt, dt) = P t+1 permite determinar P t+1 a partir de Lt usando dt para ∀ k =
1, . . . , K da seguinte forma:
Associa-se um indivıduo ωi (i = 1, . . . , n) a classe C t+1k tal que
k = arg minh=l,...,K
dtk(xi,y
th)
Isto implica que
96
estudo das propriedades do algoritmo de nuvens dinamicas com distancias adaptativas97
K∑
k=1
∑
i∈Ctk
dtk(xi,y
tk) ≥
K∑
k=1
∑
i∈Ct+1
k
dtk(xi,y
tk)
A segunda desigualdade e
W (P t+1, Lt, dt) ≥ W (P t+1, Lt+1, dt)
Analoga a primeira desigualdade, a segunda tambem e verificada pois por definicao,
fixado o par P t+1 e dt, a funcao de representacao g : g(P t+1, dt) = Lt+1 permite deter-
minar Lt+1 minimizando a funcao W (P t+1, Lt+1, dt).
A ultima desigualdade e
W (P t+1, Lt+1, dt) ≥ W (P t+1, Lt+1, dt+1)
Novamente, esta desigualdade e satisfeita pois por definicao, fixado o par P t+1 e Lt+1,
a funcao de distancia e : e(P t+1, Lt+1) = dt+1 permite determinar dt+1 minimizando a
funcao W (P t+1, Lt+1, dt+1).
Proposicao B.0.4 A funcao vt e estacionaria.
Demonstracao: Sera provado ∀ t ≥ T vt = vT . Considere que a funcao ut seja
estacionaria na iteracao T , isto e, uT+1 = uT e W (vT+1) = W (vT ). Assumindo isto, a
igualdade uT+1 = uT pode ser definida como:
W (P T , LT , dT ) = W (P T+1, LT , dT ) = W (P T+1, LT+1, dT ) = W (P T+1, LT+1, dT+1)
A partir da primeira igualdade, verifica-se que P T = P T+1 pois por definicao P T+1 =
f(LT , dT ).
A partir da segunda desigualdade, tem-se por definicao que LT+1 = g(P T+1, dT ) e
unica minimizando o criterio
∑
i∈CT+1
k
dTk (xi, L
T+1k )
E a partir da terceira igualdade, sabe-se tambem que por definicao dT+1 = e(P T+1, LT+1)
e unica minimizando o criterio
estudo das propriedades do algoritmo de nuvens dinamicas com distancias adaptativas98
∑
i∈CT+1
k
dT+1k (xi,y
T+1k )
Portanto, utilizando as duas ultimas igualdades conclui-se, respectivamente, que
LT = LT+1 e dT = dT+1. Para finalizar, estes tres resultados implicam que vt = vT .
APENDICE C
PROPOSICAO 5.2.1
Os limites inferiores e superiores dos intervalos [αjk, β
jk] (j = 1, . . . , p) minimizando o
criterio ∆(yk) sao:
αjk = medianaaj
i/i ∈ Ck e βjk = medianaaj
i/i ∈ Ck (.)
Demonstracao: Como o criterio ∆(yk) e aditivo, o problema de otimizacao e definido
da seguinte forma: encontrar αjk ∈ < e βj
k ∈ < tal que, respectivamente, minimize
∑
i∈Ck
|aji − α
|k + |bji − β
jk| (.)
Este resultado produz dois problemas de minimizacao na norma L1: encontrar αjk ∈ <
e βjk ∈ < tal que minimize, respectivamente,
∑
i∈Ck
|aji − α
jk| e
∑
i∈Ck
|bji − βjk| (.)
Inicialmente, seguindo [Gov75], sera demonstrado que αjk e a mediana do conjunto
aji/i ∈ Ck. Sejam nk o cardinal da classe Ck e aj
1, . . . , ajnk o conjunto de limites
inferiores de Ck em ordem crescente.
a) Se nk e par, o criterio∑
i∈Ck|aj
i − αjk| pode ser dado por:
∑
i∈Ck
|aji − α
jk| =
nk2
∑
i=1
(|aji − α
jk|+ |a
jnk−i+1 − α
jk|) =
nk2
∑
i=1
fi(αjk) (.)
Se αjk ∈ [aj
i , ajnk−i+1] para i = 1, . . . , nk/2, a funcao fi(α
jk) = aj
nk−i+1 − aji nao
depende αk. Se αjk < aj
i ou αjk > aj
nk−i+1 para i = 1, . . . , nk/2:
99
proposicao 5.2.1 100
– αjk < aj
i entao fi(αjk) = aj
nk−i+1 − aji + 2(aj
i − αjk) onde (aj
i − αjk) > 0
– αjk > aj
nk−i+1 entao fi(αjk) = aj
nk−i+1 − aji + 2(αj
k − ajnk−i+1) onde (αj
k −
ajnk−i+1) > 0
Portanto, o criterio∑
i∈Ck|aj
i − αjk| e mınimo para αj
k ∈ [aji , a
jnk−i+1].
b) Se nk e ımpar, o criterio∑
i∈Ck|aj
i − αjk| pode ser dado por:
∑
i∈Ck
|aji − α
jk| =
nk2
∑
i=1
fi(αjk) + |aj
nk2
+1− αj
k| (.)
Se αjk = aj
nk2
+1entao αj
k ∈ [aji , a
jnk−i+1] para i = 1, . . . , nk/2 e a funcao fi(α
jk)
alcanca o valor mınimo.
De acordo com os resultados em (a) e b), pode-se concluir que
αjk = medianaaj
i/i ∈ Ck (.)
minimiza o criterio∑
i∈Ck|aj
i − αjk|.
A prova para os limites superiores e analoga a demonstracao acima. Portanto,
βjk = medianabji/i ∈ Ck (.)
minimiza o criterio∑
i∈Ck|bji − β
jk|.
Conforme foi apresentado nesta demonstracao, a solucao para αjk e βj
k nem sempre
sao unicas pois existira dois intervalos de solucoes quando o cardinal da classe e par.
Nas situacoes em que existe um intervalo de solucoes para cada uma, tem sido usual
definir αjk e βj
k como sendo o ponto medio deste intervalo de solucoes.
APENDICE D
PROPOSICAO 5.2.2
Seja Φj =∑
i∈Ckφ(xj
i , yjk) (j = 1, . . . , p) onde φ(xj
i , yjk) e uma medida de distancia entre
xji e yj
k. As coordenadas do vetor de parametros λk = (λ1k, . . . , λ
pk) que satisfazem as
condicoes i)λjk > 0 e ii) Πp
j=1λjk = 1 e minimizam um criterio definido como
p∑
j=1
λjkΦj (.)
sao:
λjk =
∏ph=1 Φ
1
p
h
Φj
(.)
Demonstracao: De acordo com [Gov75] este vetor de parametros (λ1k, . . . , λ
pk) e obtido
pelo Metodo dos Multiplicadores de Lagranje da seguinte forma:
∂
∂λjk
(p
∑
j=1
λhkΦh − µ
p∏
h=1
λhk) = 0 (.)
para j = 1, . . . , p onde µ e o multiplicador introduzido.
A partir da equacao (.), obtem-se o seguinte resultado:
Φj − µ
∏ph=1 λ
hk
λjk
= 0 (.)
onde
λjk =
µ
Φj
(p
∏
h=1
λhk) (.)
Considerando que Πph=1λ
hk = 1, o parametro λj
k em (.) e dado por
λjk =
µ
φj
(.)
101
proposicao 5.2.2 102
Por outro lado, a restricao Πph=1λ
hk = 1 pode ser escrita como:
1 =p
∏
h=1
µ
Φh
=µp
∏ph=1 Φh
(.)
onde
µ = (p
∏
h=1
Φh)1
p (.)
Finalmente, a solucao para o parametro λjk e (j = 1, . . . , p):
λjk =
µ
Φj
=(∏p
h=1 Φh)1
p
Φj
(.)
APENDICE E
PROPOSICAO 5.2.3
Os limites inferiores e superiores dos intervalos [αjk, β
jk] (j = 1, . . . , p) minimizando o
criterio ∆(yk) sao:
αjk =
1
nk
p∑
j=1
aji , βj
k =1
nk
p∑
j=1
bji (.)
onde nk e o cardinal da classe Ck.
Demonstracao: Como o criterio ∆(yk) e aditivo, este problema torna-se encontrar
um intervalo [αjk ∈ < e βj
k ∈ < tal que, respectivamente, minimize
∑
i∈Ck
(aji − α
jk)
2 + (bji − βjk)
2 (.)
Este resultado produz dois problemas de minimizacao na norma L2: encontrar αjk ∈ <
e βjk ∈ < tal que minimize, respectivamente,
∑
i∈Ck
(aji − α
jk)
2 e∑
i∈Ck
(bji − βjk)
2 (.)
A solucao para esses dois problemas e obtida da seguinte forma:
Sejam as funcoes
fa =∑
i∈Ck
(aji − α
jk)
2 (.)
fb =∑
i∈Ck
(bji − βjk)
2 (.)
Os valores que minimizam as funcoes em (.) e (.) sao, respectivamente, aqueles
para os quais as derivadas parciais de fa e fb em relacao a αjk e βj
k sao nulas, isto e,
103
proposicao 5.2.3 104
∂fa
∂αjk
= −2∑
i∈Ck
aji − α
jk = 0 (.)
∂fb
∂βjk
= −2∑
i∈Ck
bji − βjk = 0 (.)
A partir das equacoes (.) e (.), tem-se, respectivamente, os seguintes resultados:
∑
i∈Ck
(aji − α
jk) =
∑
i∈Ck
aji − nkα
jk (.)
∑
i∈Ck
(bji − βjk) =
∑
i∈Ck
bji − nkβjk (.)
Portanto, os limites αjk e βj
k sao, respectivamente,
αjk =
1
nk
p∑
j=1
aji e βj
k =1
nk
p∑
j=1
bji (.)
APENDICE F
PROPOSICAO 5.2.4
A solucao para os intervalos [αjk, β
jk] minimizando o criterio ∆(yk) e αj
k = µjk − δj
k e
βjk = µj
k + δjk onde µj
k e δjk sao, respectivamente, a mediana de mj
i , i ∈ Ck, os pontos
medios dos intervalos xji = [aj
i , bji ], i ∈ Ck, e a mediana do conjunto lji , i ∈ Ck, metade
dos comprimentos medios dos intervalos xji = [aj
i , bji ], i ∈ Ck.
Demonstracao: Como o criterio ∆(yk) e aditivo, este problema torna-se encontrar
(para j = 1, . . . , p) o intervalo yjk = [αj
k, βjk] que minimize
∑
i∈Ck
max|aji − α
jk|, |b
ji − β
jk| (.)
Em Chavent [CL02], este problema pode ser transformado em dois problemas de
minimizacao na norma L1. Sejam: mjs = (aj
i + bji )/2), o ponto medio do intervalo
xji = [aj
i , bji ] (para j = 1, . . . , p, e lji = (bji − aj
i )/2), a metade do comprimento deste
intervalo.
Considere tambem µji = (αj
i + βji )/2, o ponto medio do intervalo yj
k = [αjk, β
jk] (para
j = 1, . . . , p), e δjk = (βj
k − αjk)/2, a metade do comprimento deste ultimo intervalo.
Usando a seguinte propriedade definida para x and y in <,
max(|x− y|, |x+ y|) = |x|+ |y| (.)
a equacao (.) pode ser escrita como:
∑
s∈Ck
d(xji , y
jk) =
∑
i∈Ck
max|(µjk − δ
jk)− (mj
i − lji )|, |(µ
jk + δj
k)− (mji + lji )|
=∑
s∈Cki
max|(µjk −m
ji )− (δj
k − lji )|, |(µ
jk −m
ji ) + (δj
k − lji )|
105
proposicao 5.2.4 106
=∑
s∈Ck
(|µjk −m
ji |+ |δ
jk − l
ji |)
=∑
s∈Ck
|µjk −m
ji |+
∑
i∈Ck
|δjk − l
ji | (.)
Isto produz dois problemas de minimizacao na norma L1: encontrar µjk ∈ < que
minimize:
∑
s∈Ck
|µjk −m
ji | (.)
e encontrar δjk ∈ < que minimize:
∑
s∈Ck
|δji − l
ji | (.)
Seguindo a demonstracao apresentada no apendice C, a solucao para o par µjk e δj
i e,
respectivamente:
µjk = medianamj
i/i ∈ Ck e δjk = medianalji /i ∈ Ck (.)
Portanto, a solucao para o intervalo [αjk, β
jk] e:
αjk = µj
k − δjk (.)
βjk = µj
k + δjk (.)
BIBLIOGRAFIA
[B00] P. Bertrand and F. Goupil 2000. Descriptive statistics for symbolic data.
In H. H. Bock et al, editor, Analysis of symbolic data, pages 103–124.
Springer, 2000.
[BD00] L. Billard and E. DidaySpringer. Regression analysis for interval-valued
data. In H. A. L. Kiers et al, editor, Data Analysis, Classification and
Related Methods, pages 369–374, Berlin, 200.
[BD00] H. H. Bock and E. Diday. Analysis of Symbolic Data, Exploratory methods
for extracting statistical information from complex data. Springer, Heidel-
berg, 2000.
[BD02] L. Billard and E. Diday. Symbolic regression analysis. In K. Jajuga et al,
editor, Classification, Clustering and Data Analysis, pages 281–288, Berlin,
2002. Springer.
[BD03] L. Billard and E. Diday. From the statistics of data to the statistics of
knowledge: symbolic data analysis. Journal of the American Statistical
Association, 98:470–487, 2003.
[Bel59] W. A. Belson. Matching and prediction on the principle of biological clasi-
fication. Applied Statistics, 3, 1959.
[Bez81] J. C. Bezdek. Pattern Recognition With Fuzzy Objective Function Algo-
rithms. Plenum Press, New York, 1981.
[BF92] O. Bustos and A. C. Frery. Simulacao Estocastica: Teoria e Algoritmos
(versao completa). Instituto de Matematica Pura e Aplicada, 1992.
107
BIBLIOGRAFIA 108
[BM02] W. O. Bussab and P. A. Morettin. Estatıstica Basica. Saraiva, 2002.
[Boc74] H. H. Bock. utomatische Klassifikation. Gottingen, 1974.
[Boc02] H.H. Bock. Clustering alorithms and kohonen maps for symbolic data. J.
Jpn. Soc. Statist., (15):1–13, 2002.
[BR98] A. Bobou and F. Ribeyre. Mercury in the food web: accumulation and
transfer mechanisms. In A. Sigrel and H. Sigrel, editors, Metal Ions in
Biological Systems, pages 289–319, New York, 1998.
[Bri94a] P. Brito. Order strucure of symbolic assertions objects. IEEE Trnas. on
Knowledge and Data Engineering, 6(5), 1994.
[Bri94b] P. Brito. Use of pyramids in symbolic data analysis. pages 378–386.
IFCS’94, 1994.
[CBB03] F. A. T. DE Carvalho, M. P. Brito, and H. H. Bock. Dynamical clustering
for symbolic quantitative data. Cracow, 2003. Workshop in Symbolic Data
Analysis.
[CdCLV03] M. Chavent, F. A. T. de Carvalho, Y. Lechevalier, and R. Verde. Trois
nouvelles methodes de classification automatique de donnees symboliques
de type intervalle. Rev, Statistique Appliquee, LI(4):5–29, 2003.
[CGLR89] G. Celeux, E. Diday G. Govaert, Y. Lechevalier, and H. Ralambondrainy.
Classification automatique des donnees. 1989.
[Cha98] M. Chavent. A monothetic clustering method. Pattern Recognition Letters,
19:989–996, 1998.
[CL02] M. Chavent and Y. Lechevallier. Dynamical clustering algorithm of interval
data: Optimization of an adequacy criterion based on hausdorff distance.
In Sokolowsky et al, editor, Classification, Clustering and Data Analysis,
pages 53–59, Heidelberg, 2002. Springer.
BIBLIOGRAFIA 109
[DB89] E. Diday and M. P. Brit. Symbolic cluster analysis. In O. Opitz, edi-
tor, Conceptual and Numerical Analysis of Data, pages 45–84, Heidelberg,
1989. Springer-Verlag.
[dC94] F. A. T. de Carvalho. Proximity coefficients between boolean symbolic
objects. In New Approaches in Classification and Data Analysis, pages
387–394, Heildeberg, 1994. Springer-Verlag.
[dC95] F. A. T. de Carvalho. Histograms in symbolic data analysis. Annals of
Operations Research, 55:299–322, 1995.
[dC96] F. A. T. de Carvalho. Histogrmmes et indices de proximite en analyse de
donnees symboliques. In LISE-CERAMDE, editor, Actes de l’ecole d’ete
sur l’analyse des donnees symboliques, 1996.
[dC98] F. A. T. de Carvalho. Extension based proximities between constrained
boolean symbolic objects. In Data Science, Classification and Related
Methods, pages 370–378, 1998.
[dCdS98a] F. A. T. de Carvalho and R. M. C. R. de Souza. New metrics for constrained
boolean symbolic objects. In Studies and Reserach: Proceedings of the
Conference on Knowledge Extraction and Symbolic Data Analysis, pages
175–187, Luxemburg, 1998. KESDA’98, Office for Official Publications of
the European Communities.
[dCdS98b] F. A. T. de Carvalho and R. M. C. R. de Souza. Statistical proximity
functions of boolean symbolic objects based on histograms. In A. Rizzi
et al, editor, New Andvances in Data Science and Classification, pages
391–396, Heidelberg, Germany, 1998. Springer - Verlag.
[dCdS03a] F. A. T. de Carvalho and R. M. C. R. de Souza. Clustering of interval
data with quadratic adaptive distances (accept to be published). Bolonha,
Italia, 2003. Meeting of the Classification and Data analysis Group of the
Italian Statistical Society - Cladag.
BIBLIOGRAFIA 110
[dCdS03b] F. A. T. de Carvalho and R. M. C. R. de Souza. Unsupervised pattern
recognition methods for interval data using non-quadratic distances. IEE
Electronics Letters, 39(5):433–434, 2003.
[dCLdS04] F. A. T. de Carvalho, Y. Lechevaliter, and R. M. C. R. de Souza. An
adaptive dynamical cluster algorithm based on a lr distance for quantitative
feature value. IFCS’04, 2004. sumitted.
[DG77] E. Diday and G. Govaert. Classification automatique avec distances adap-
tatives. R.A.I.R.O. Informatique Computer Science, 11(4):329–349, 1977.
[DGL80] E. Diday, G. Govaert, and Y. Lechevalier. Clustering in pattern recogni-
tion. In Proc. 5th Conf. Pattern Recognition, Miami Beach FL, 1980.
[Did71] E. Diday. La methode des nuees dynamiques. Rev. Stat. Appliquees,
XXX(2):19–34, 1971.
[Did86] E. Diday. Orders and overlapping clusters by pyramids. In J. Leeuw et al,
editor, Multidimensional Data Analysis, pages 201–234, New York, 1986.
DSWO Press.
[Did87] E. Diday. The symbolic approach in clustering and related methods of
data analysis. In H. H. Bock, editor, Classification and Related Methods
of Data Analysis, North-Holland, 1987.
[Did89] E. Diday. Introduction a l’approche symbolique en analyse de donnees. Re-
vue d’Automatique, d’Informatique et de Recherche Operationnelle, 23(2),
1989.
[DLPT84] E. Diday, J. Lemaire, J. Pouget, and F. Tetsu. Elements d’analyse des
donnees. Dunod, Paris, 1984.
[DS76] E. Diday and J. J. Simon. Clustering analysis. In K. S. Fu, editor, Digital
Pattern Recognition, pages 47–94, 1976.
BIBLIOGRAFIA 111
[dS99] R. M. C. R. de Souza. Classificacao de imagens sar baseada em uma
abordagem simbolica. Dissertacao de mestrado, Departamento de 1999
Estatıstica -Universidade Federal de Pernambuco, Recife-PE, 1999.
[dSdC03] R. M. C. R. de Souza and F. A. T. de Carvalho. Clustering of interval data
based on city-block distances. Pattern Recognition Letters, in press, 2003.
[dSdCAC99] R. M. C. R. de Souza, F. A .T. de Carvalho, and Frery In: I A. C. Symbolic
approach to sar image classification. In Proceedings of the IEEE 1999.
International Geoscience and Remote Sensing Symposium - IGARSS’99,
1999.
[dSdCL03] R. M. C. R. de Souza, F. A. T. de Carvalho, and Y. Lechevalier. Classifi-
cation automatique des donnees de type intervalle basee sur une distance
de hausdorff adaptative. pages 95–98, Suica, 2003.
[dSdCS03] R. M. C. R. de Souza, F. A. T. de Carvalho, and F. C. D. Silva. Classi-
ficacao nao supervisionada de dados de tipo intervalo baseada em distancias
nao quadraticas. In Anais do XXIII Congresso da Sociedade Brasileira de
Computacao, volume 7, pages 507–516, Sao Paulo, 2003. IV ENIA- Encon-
tro Nacional de Inteligencia Artificial.
[ESI88] Y. El-Sonbaty and M. A. Ismail. Fuzzy clustering for symbolic data. IEEE
Transactions on Fuzzy Systems, 6:195–204, 1888.
[ESI98] Y. El-Sonbaty and M. A. Ismail. On-line hierarchical clustering. Pattern
Recognition Letters, 19:1285–1291, 1998.
[Eve93] B. S. Everitt. Cluster Analysis. Arnold, 3nd edition, 1993.
[Fis87] D. H. Fisher. Knowledge acquisition via incremental conceptual clustering.
Machine Learning, (2):139–172, 1987.
BIBLIOGRAFIA 112
[FPSS96] U. Fayyad, G. Platetsky-Shapiro, and P. Smyth. From data minig to
knowledge discovery: an overview. In Advances in Knowledge Discovery
and Data Mining, pages 1–34, 1996.
[Gar98] S. R. Garden. Bulding the data warehouse. Communications of the ACM,
41(9):52–60, 1998.
[GD91a] K. C. Gowda and E. Diday. Symbolic clustering using a new dissimilarity
measure. Pattern Recognition, 24(6):567–578, 1991.
[GD91b] K. C. Gowda and E. Diday. Symbolic clustering using a new similarity
measure. IEEE Transactions on Systems, Man and Cybernetics, 22:368–
378, 1991.
[GGKS78] K. C. Gowda and 12 G. Krishna SMC-8. Disaggreative clustering using the
concept of mutual nearest neighborhood. IEEE Transactions on Systems,
Man and Cybernetics SMC-8, 12, 1978.
[Gor99] A. D. Gordon. Classification. Chapman Hall/CRC, 2nd edition, 1999.
[Gor00] A. D. Gordon. An iteractive relocation algorithm for classifying symbolic
data. In W. Gaul et al, editor, Data Analysis: Scientific Modeling and
Practical Application, pages 17–23, Berlin, 2000.
[Gov75] G. Govaert. Classification automatique et distances adaptatives. PhD the-
sis, hese de 3eme cycle, Mathematique appliquee, Universite Paris VI, 1975.
[GR95a] K. C. Gowda and T. Ravi. Agglomerative clustering of symbolic objects
using the concepts of both similarity and dissimilarity. Pattern Recognition,
16:647–652, 1995.
[GR95b] K. C. Gowda and T. Ravi. Divisive clustering of symbolic objects us-
ing the concepts of both similarity and dissimilarity. Pattern Recognition,
28(8):1277–1282, 1995.
BIBLIOGRAFIA 113
[GR99a] K. C. Gowda and T. Ravi. Clustering of symbolic objects using gravita-
tional approach. IEEE Transactions on Systems, Man and Cybernetics,
29(6):888–894, 1999.
[GR99b] K. C. Gowda and T. Ravi. An isodata clustering procedure for symbolic
objects using a distributed genetic algorithm. Pattern Recognition Letters,
20:659–666, 1999.
[HA85] L. Hubert and P. Arabie2. Comparing partitions. Journal of Classification,
2:193–218, 1985.
[HK01] J. Han and M. Kamber. Data Mining: Concept and Techiniques. Academic
Press, 2001.
[Ich79] M. Ichino. A nonparametric multiclass pattern classifier. IEEE Transac-
tions on System, Man and Cybernectics, 9(4):345–353, 1979.
[Ich81] M. Ichino. Nonparametric feature selection method based on local inter-
class structure. IEEE Transactions on System, Man and Cybernectics,
11(4):289–296, 1981.
[Ich86] M. Ichino. Pattern classification based on the cartesian join syste: A
general tool for feature selection. IEEE Transactions on System, Man and
Cybernectics, pages 1420–1424, 1986.
[IS84] M. Ichino and J. Sklanky. Optimum feature selection by zero - one in-
teger programing. IEEE Transactions on System, Man and Cybernectics,
14(5):737–746, 1984.
[IY94] M. Ichino and H. Yaguchi. Generalized minkowski metrics for mixed feature
type data analysis. IEEE Transactions on System, Man and Cybernectics,
24(4):698–708, 1994.
[IY98] M. Ichino and H. Yaguchi. Symbolic pattern classifiers based on the carte-
sian system model. In A. Rizzi et al, editor, New Andvances in Data
BIBLIOGRAFIA 114
Science and Classification, pages 359–369, Heildelberg, 1998. Springer -
Verlag.
[JD88] A. K. Jain and R. C. Dubes. Algorithms for Clustering Data. New Jersey,
1988.
[JMF99] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: A review.
ACM Computing Surveys, 31(3):264–323, 199.
[JS68] N. Jardine and R. Sibson. The construction of hierarchic and non-hierarchic
classifications. Computer Journal, (11):177–184, 1968.
[Koh89] T. Kohonen. Self-Organization and Associative Memory. Springer-Verlag,
3nd edition, 1989.
[LMW95] L. Lebart, A. Morineau, and K. M. Warwick. Multivariate descriptive
statistical analysis. Wiley, New York, 1995.
[Mic73] R. Michalski. Computer implementation of a variable-valued logic system
vl1 and examples in pattern recognition. In Proc. Int. Joint Conf. On
Pattern Recognition, pages 3–17, 1973.
[Mil96] G. W. Milligan. Clustering validation: results and implications for applied
analysis. In Clustering and Classification, pages 341–375, Singapore, 1996.
Word Scientific.
[MS63] J. N. Morgan and J. A. Sonquist. Problems in the anlysis for survey data
a proposal. Journal of the American Statistical Association, 58:415–434,
1963.
[MS83] R. S. Michalski and R. E. Stepp. Automated construction of classifications:
conceptual clustering versus numerical taxonomy. IEEE Transactions on
Pattern Analysis and Machine Intelligence, (PAMI-5):396–410, 1983.
BIBLIOGRAFIA 115
[MSD81] R. S. Miachalski, R. E. Stepp, and E. Diday. A recent advances in data
anlaysis: clustering objects into classes characterized by conjunctive con-
cepts. In Kanal and A. Rosenfeld, editors, Progress in Pattern Recognition,
volume 1, 1981.
[NdC01] E. A. Lima Neto and F. A. T. de Carvalho. Analysing administrative man-
agements through a symbolic approach. The Eletronic Journal of Symbolic
Data Analysis, 1(1), 2001.
[NG95] P. Nagabhushan and K. C. Gowda. Dimensionality reduction of symbolic
data. Pattern Recognition Letters, 16:219–223, 1995.
[PCCDS97] P P. Cazes, A. Chouakria, E. Diday, and Y. Schecktman. Extension de
l’analyse de composantes principales a des donnees intervalles. Revue de
Statistique Applique, 53(3):35–51, 1997.
[RL98] J. P. Rasson and S. Lissoir. Symbolic kernel discriminant analysis. 1998.
[Sap90] G. Saporta. Probabilites, analyse des donnees et statistique. Editions
TECHNIP, Paris, 1990.
[Sow84] J. Sowa. Conceptual structures: information processing in mind and ma-
chine. Addison Wesley, Reading, Mass, 1984.
[SS73] P. H. A. Sneath and R. R. Sokal. Numerical Taxonomy. Freeman, San
Francisco, 1973.
[Tuk58] J. W. E. Tukey. Exploratory Data Analysis. Addison Wesley, Reading,
Mass, 1958.
[VdC98] R. Verde and F. A. T. de Carvalho. Dependence rules influence on facto-
rial representation of boolean symbolic objects. In Studies and Reserach:
Proceedings of the Conference on Knowledge Extraction and Symbolic Data
Analysis, Luxemburg, 1998. Office for Official Publications of the European
Communities,.
BIBLIOGRAFIA 116
[VdC01] R. Verde and F. A. T. de Carvalho. A dynamical clustering algorithm for
symbolic data. In Tutorial on Symbolic Data Analisys, Munich, 2001. GfKl
Conference.
[Vig91] R. Vignes. Caracterisation Automatique de Groupes Biologiques. These de
doctorat, Universite Paris VI Pierre et Marie Curie, Paris, 1991.
[Win79] P. Winston. Artificial intelligence. Addison Wesley, 1979.
[Zia96] D. Ziani. Slection de variables sur un ensemble d’objets symboliques. These
de doctorat, Universite Paris IX Dauphine, Paris, 1996.
Tese de Doutorado apresentada por Renata Maria Cardoso Rodrigues de Souza a Pós-
Graduação em Ciência da Computação do Centro de Informática da Universidade Federal
de Pernambuco, sob o título "Métodos de Cluster para Intervalos usando Algoritmos
do tipo Nuvens Dinâmicas" orientada pelo Prof. Francisco de Assis Tenório de
Carvalho e aprovada pela Banca Examinadora formada pelos professores:
O~M~Prof. Teresa Bernarda Ludermir
Departamento de Ciência da Computação - CIn / UFPE
~l~~l'L-J~L~~Prof. Edson costa de Barros Carvalho FilhoDepartamento de Informação e Sistemas - CIn I UFPE
~tVb~~~~Prof. Silvana Maria Bastos Afonso da SilvaDepartamento de Engenharia Civil -CTG I UFPE
JProf. Ivaldõ-Dárlo/da Silva PontesDepartamento de Engenharia Civil- CTG I UFPE
!? IZ.~~ ~y--.tJ(Profa. PauloRoberto MacielLyraDepartamento de Engenharia Mecânica - CTG / UFPE
Visto e permitida a impressão.Recife, 19 de dezembro de 2003.
Pós-Graduação em Ciência da Computação doática da Universidade Federal de Pemambuco.
top related