jakelson carreiro mendes · 2019. 6. 17. · ficha gerada por meio do sigaa/biblioteca com dados...
TRANSCRIPT
Jakelson Carreiro Mendes
Agrupamento de Dados e suas Aplicaccedilotildees
Satildeo Luiacutes
2017
Jakelson Carreiro Mendes
Agrupamento de Dados e suas Aplicaccedilotildees
Monografia apresentada ao curso de Ciecircncia
da Computaccedilatildeo da Universidade Federal do
Maranhatildeo para aprovaccedilatildeo no componente
curricular Monografia II
Universidade Federal do Maranhatildeo ndash UFMA
Curso de Ciecircncia da Computaccedilatildeo
Orientador Prof Dr Ivo Joseacute da Cunha Serra
Satildeo Luiacutes
2017
Ficha gerada por meio do SIGAABiblioteca com dados fornecidos pelo(a) autor(a)Nuacutecleo Integrado de BibliotecasUFMA
Mendes Jakelson Carreiro
Agrupamento de Dados e suas Aplicaccedilotildees Jakelson
Carreiro Mendes - 2017
52 p
Orientador(a) Ivo Joseacute da Cunha Serra
Monografia (Graduaccedilatildeo) - Curso de Ciecircncia da
Computaccedilatildeo Universidade Federal do Maranhatildeo Universidade
Federal do Maranhatildeo Satildeo Luiacutes 2017
1 Agrupamento de Dados 2 Aplicaccedilotildees de
Agrupamento 3 Mineraccedilatildeo de Dados 4 Teacutecnicas de
Agrupamento I Serra Ivo Joseacute da Cunha II Tiacutetulo
Este trabalho eacute dedicado agrave minha matildee Maria da Natividade e em memoacuteria ao meu pai Carlos
Mendes A todos aqueles que de alguma forma estiveram e estatildeo proacuteximos
Agradecimentos
Em primeiro lugar ao professor e orientador Ivo Serra que gentilmente aceitou ser meu
orientador demostrando sempre muito interesse e paciecircncia para a construccedilatildeo deste trabalho
Aos meus pais Carlos e Natividade que independente de qualquer obstaacuteculo sempre
estiveram comigo me dando apoio Agradeccedilo tambeacutem a Deus (Universo) e a minha famiacutelia
irmatildes Luzia Aldenira e Marinalva ao meu cunhado Claudio sobrinhos Alyne e Alisson pelo
grande apoio pela paciecircncia e por sempre acreditarem em mim e no meu potencial Parentes e
amigos que me ajudaram dando palavras de incentivo e me reanimando em momentos difiacuteceis
tambeacutem seratildeo para sempre lembrados
A todos os professores em especial aos professores Portela e Bonini que gentilmente
aceitarem fazer parte da banca e ao professor Hilkias Jordatildeo
Aos grandes amigos e colegas de curso como Aronilson Aguiar Benedito Vieira Thales
Levi Tiago Ramos Danilo Carvalho Gleacutecio Santos Fernando Beleza Alessandro Jorge Maacutercio
Sygeaks e tantos outros que compartilharam comigo momentos de dificuldades e alegrias para
todos o meu grande agradecimento por todos os grandes momentos
ldquoNa eternidade onde natildeo existe o tempo nada pode crescer nada pode se desenvolver nada
muda Entatildeo a morte criou o tempo para que as coisas pudessem crescer e para que
pudessem morrerrdquo
(True Detective HBO No episoacutedio cinco de True Detective da 1a Temporada The Secret Fate
of All Life (O Destino Secreto de toda a Vida))
Resumo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados
A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes
baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o
aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores
de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes
bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento
de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs
teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos
envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos
valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final
seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como
biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de
textos
Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento
Aplicaccedilotildees de Agrupamento
Abstract
In recent years there has been a large increase in the amount of data stored Data mining
was developed with the purpose of identifying and extracting relevant information based
on this database Advances in data storage technologies the increase in speed and capacity
of systems and the improvement of these database management systems have allowed
to transform this enormous amount of data into large databases This work presents
fundamental concepts of Clustering that is the Data Mining technique to make automatic
groupings of data according to their degree of learning three simple techniques methods
are also presented but very important to introduce many of the concepts involved In the
data grouping Grouping techniques are valuable tools in the exploratory analysis of data
and find applications in several areas At the end will be presented some of these diverse
fields of clustering applications such as In biology information retrieval medicine image
segmentation and text mining
Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications
Lista de ilustraccedilotildees
Figura 1 ndash Processo de agrupamento 29
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-
pamentos em uma estrutura 32
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33
Figura 4 ndash Algoritmo de Agrupamento K-Means 35
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35
Figura 6 ndash Densidade baseada em centro 37
Figura 7 ndash Pontos de centro de limite de ruiacutedo 37
Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47
Lista de tabelas
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33
Lista de abreviaturas e siglas
DBSCAN Density Based Spatial Clustering of Application with Noise
Eps Raio de vizinhanccedila de um ponto
MinPts Nuacutemero miacutenimo de pontos
Sumaacuterio
1 INTRODUCcedilAtildeO 23
11 Motivaccedilatildeo 24
12 Objetivo do Trabalho 25
13 Organizaccedilatildeo do Trabalho 25
2 AGRUPAMENTO 27
21 Consideraccedilotildees Iniciais 27
22 Definiccedilotildees 27
23 Teacutecnicas de Agrupamento 31
231 Meacutetodo Hieraacuterquico 31
232 Meacutetodo Particional 34
2321 Algoritmo K-means 34
2322 Algoritmo DBSCAN 36
3 APLICACcedilOtildeES DE AGRUPAMENTO 39
31 Segmentaccedilatildeo de Imagens 40
311 Processamento de Imagens 42
312 O Problema da Segmentaccedilatildeo de Imagens 43
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44
314 Agrupamento na Segmentaccedilatildeo de Imagens 45
32 Mineraccedilatildeo de Textos 45
321 Agrupamento na Mineraccedilatildeo de Textos 47
4 CONCLUSAtildeO 49
REFEREcircNCIAS 51
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
Jakelson Carreiro Mendes
Agrupamento de Dados e suas Aplicaccedilotildees
Monografia apresentada ao curso de Ciecircncia
da Computaccedilatildeo da Universidade Federal do
Maranhatildeo para aprovaccedilatildeo no componente
curricular Monografia II
Universidade Federal do Maranhatildeo ndash UFMA
Curso de Ciecircncia da Computaccedilatildeo
Orientador Prof Dr Ivo Joseacute da Cunha Serra
Satildeo Luiacutes
2017
Ficha gerada por meio do SIGAABiblioteca com dados fornecidos pelo(a) autor(a)Nuacutecleo Integrado de BibliotecasUFMA
Mendes Jakelson Carreiro
Agrupamento de Dados e suas Aplicaccedilotildees Jakelson
Carreiro Mendes - 2017
52 p
Orientador(a) Ivo Joseacute da Cunha Serra
Monografia (Graduaccedilatildeo) - Curso de Ciecircncia da
Computaccedilatildeo Universidade Federal do Maranhatildeo Universidade
Federal do Maranhatildeo Satildeo Luiacutes 2017
1 Agrupamento de Dados 2 Aplicaccedilotildees de
Agrupamento 3 Mineraccedilatildeo de Dados 4 Teacutecnicas de
Agrupamento I Serra Ivo Joseacute da Cunha II Tiacutetulo
Este trabalho eacute dedicado agrave minha matildee Maria da Natividade e em memoacuteria ao meu pai Carlos
Mendes A todos aqueles que de alguma forma estiveram e estatildeo proacuteximos
Agradecimentos
Em primeiro lugar ao professor e orientador Ivo Serra que gentilmente aceitou ser meu
orientador demostrando sempre muito interesse e paciecircncia para a construccedilatildeo deste trabalho
Aos meus pais Carlos e Natividade que independente de qualquer obstaacuteculo sempre
estiveram comigo me dando apoio Agradeccedilo tambeacutem a Deus (Universo) e a minha famiacutelia
irmatildes Luzia Aldenira e Marinalva ao meu cunhado Claudio sobrinhos Alyne e Alisson pelo
grande apoio pela paciecircncia e por sempre acreditarem em mim e no meu potencial Parentes e
amigos que me ajudaram dando palavras de incentivo e me reanimando em momentos difiacuteceis
tambeacutem seratildeo para sempre lembrados
A todos os professores em especial aos professores Portela e Bonini que gentilmente
aceitarem fazer parte da banca e ao professor Hilkias Jordatildeo
Aos grandes amigos e colegas de curso como Aronilson Aguiar Benedito Vieira Thales
Levi Tiago Ramos Danilo Carvalho Gleacutecio Santos Fernando Beleza Alessandro Jorge Maacutercio
Sygeaks e tantos outros que compartilharam comigo momentos de dificuldades e alegrias para
todos o meu grande agradecimento por todos os grandes momentos
ldquoNa eternidade onde natildeo existe o tempo nada pode crescer nada pode se desenvolver nada
muda Entatildeo a morte criou o tempo para que as coisas pudessem crescer e para que
pudessem morrerrdquo
(True Detective HBO No episoacutedio cinco de True Detective da 1a Temporada The Secret Fate
of All Life (O Destino Secreto de toda a Vida))
Resumo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados
A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes
baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o
aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores
de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes
bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento
de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs
teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos
envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos
valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final
seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como
biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de
textos
Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento
Aplicaccedilotildees de Agrupamento
Abstract
In recent years there has been a large increase in the amount of data stored Data mining
was developed with the purpose of identifying and extracting relevant information based
on this database Advances in data storage technologies the increase in speed and capacity
of systems and the improvement of these database management systems have allowed
to transform this enormous amount of data into large databases This work presents
fundamental concepts of Clustering that is the Data Mining technique to make automatic
groupings of data according to their degree of learning three simple techniques methods
are also presented but very important to introduce many of the concepts involved In the
data grouping Grouping techniques are valuable tools in the exploratory analysis of data
and find applications in several areas At the end will be presented some of these diverse
fields of clustering applications such as In biology information retrieval medicine image
segmentation and text mining
Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications
Lista de ilustraccedilotildees
Figura 1 ndash Processo de agrupamento 29
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-
pamentos em uma estrutura 32
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33
Figura 4 ndash Algoritmo de Agrupamento K-Means 35
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35
Figura 6 ndash Densidade baseada em centro 37
Figura 7 ndash Pontos de centro de limite de ruiacutedo 37
Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47
Lista de tabelas
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33
Lista de abreviaturas e siglas
DBSCAN Density Based Spatial Clustering of Application with Noise
Eps Raio de vizinhanccedila de um ponto
MinPts Nuacutemero miacutenimo de pontos
Sumaacuterio
1 INTRODUCcedilAtildeO 23
11 Motivaccedilatildeo 24
12 Objetivo do Trabalho 25
13 Organizaccedilatildeo do Trabalho 25
2 AGRUPAMENTO 27
21 Consideraccedilotildees Iniciais 27
22 Definiccedilotildees 27
23 Teacutecnicas de Agrupamento 31
231 Meacutetodo Hieraacuterquico 31
232 Meacutetodo Particional 34
2321 Algoritmo K-means 34
2322 Algoritmo DBSCAN 36
3 APLICACcedilOtildeES DE AGRUPAMENTO 39
31 Segmentaccedilatildeo de Imagens 40
311 Processamento de Imagens 42
312 O Problema da Segmentaccedilatildeo de Imagens 43
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44
314 Agrupamento na Segmentaccedilatildeo de Imagens 45
32 Mineraccedilatildeo de Textos 45
321 Agrupamento na Mineraccedilatildeo de Textos 47
4 CONCLUSAtildeO 49
REFEREcircNCIAS 51
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
Ficha gerada por meio do SIGAABiblioteca com dados fornecidos pelo(a) autor(a)Nuacutecleo Integrado de BibliotecasUFMA
Mendes Jakelson Carreiro
Agrupamento de Dados e suas Aplicaccedilotildees Jakelson
Carreiro Mendes - 2017
52 p
Orientador(a) Ivo Joseacute da Cunha Serra
Monografia (Graduaccedilatildeo) - Curso de Ciecircncia da
Computaccedilatildeo Universidade Federal do Maranhatildeo Universidade
Federal do Maranhatildeo Satildeo Luiacutes 2017
1 Agrupamento de Dados 2 Aplicaccedilotildees de
Agrupamento 3 Mineraccedilatildeo de Dados 4 Teacutecnicas de
Agrupamento I Serra Ivo Joseacute da Cunha II Tiacutetulo
Este trabalho eacute dedicado agrave minha matildee Maria da Natividade e em memoacuteria ao meu pai Carlos
Mendes A todos aqueles que de alguma forma estiveram e estatildeo proacuteximos
Agradecimentos
Em primeiro lugar ao professor e orientador Ivo Serra que gentilmente aceitou ser meu
orientador demostrando sempre muito interesse e paciecircncia para a construccedilatildeo deste trabalho
Aos meus pais Carlos e Natividade que independente de qualquer obstaacuteculo sempre
estiveram comigo me dando apoio Agradeccedilo tambeacutem a Deus (Universo) e a minha famiacutelia
irmatildes Luzia Aldenira e Marinalva ao meu cunhado Claudio sobrinhos Alyne e Alisson pelo
grande apoio pela paciecircncia e por sempre acreditarem em mim e no meu potencial Parentes e
amigos que me ajudaram dando palavras de incentivo e me reanimando em momentos difiacuteceis
tambeacutem seratildeo para sempre lembrados
A todos os professores em especial aos professores Portela e Bonini que gentilmente
aceitarem fazer parte da banca e ao professor Hilkias Jordatildeo
Aos grandes amigos e colegas de curso como Aronilson Aguiar Benedito Vieira Thales
Levi Tiago Ramos Danilo Carvalho Gleacutecio Santos Fernando Beleza Alessandro Jorge Maacutercio
Sygeaks e tantos outros que compartilharam comigo momentos de dificuldades e alegrias para
todos o meu grande agradecimento por todos os grandes momentos
ldquoNa eternidade onde natildeo existe o tempo nada pode crescer nada pode se desenvolver nada
muda Entatildeo a morte criou o tempo para que as coisas pudessem crescer e para que
pudessem morrerrdquo
(True Detective HBO No episoacutedio cinco de True Detective da 1a Temporada The Secret Fate
of All Life (O Destino Secreto de toda a Vida))
Resumo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados
A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes
baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o
aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores
de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes
bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento
de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs
teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos
envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos
valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final
seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como
biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de
textos
Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento
Aplicaccedilotildees de Agrupamento
Abstract
In recent years there has been a large increase in the amount of data stored Data mining
was developed with the purpose of identifying and extracting relevant information based
on this database Advances in data storage technologies the increase in speed and capacity
of systems and the improvement of these database management systems have allowed
to transform this enormous amount of data into large databases This work presents
fundamental concepts of Clustering that is the Data Mining technique to make automatic
groupings of data according to their degree of learning three simple techniques methods
are also presented but very important to introduce many of the concepts involved In the
data grouping Grouping techniques are valuable tools in the exploratory analysis of data
and find applications in several areas At the end will be presented some of these diverse
fields of clustering applications such as In biology information retrieval medicine image
segmentation and text mining
Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications
Lista de ilustraccedilotildees
Figura 1 ndash Processo de agrupamento 29
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-
pamentos em uma estrutura 32
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33
Figura 4 ndash Algoritmo de Agrupamento K-Means 35
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35
Figura 6 ndash Densidade baseada em centro 37
Figura 7 ndash Pontos de centro de limite de ruiacutedo 37
Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47
Lista de tabelas
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33
Lista de abreviaturas e siglas
DBSCAN Density Based Spatial Clustering of Application with Noise
Eps Raio de vizinhanccedila de um ponto
MinPts Nuacutemero miacutenimo de pontos
Sumaacuterio
1 INTRODUCcedilAtildeO 23
11 Motivaccedilatildeo 24
12 Objetivo do Trabalho 25
13 Organizaccedilatildeo do Trabalho 25
2 AGRUPAMENTO 27
21 Consideraccedilotildees Iniciais 27
22 Definiccedilotildees 27
23 Teacutecnicas de Agrupamento 31
231 Meacutetodo Hieraacuterquico 31
232 Meacutetodo Particional 34
2321 Algoritmo K-means 34
2322 Algoritmo DBSCAN 36
3 APLICACcedilOtildeES DE AGRUPAMENTO 39
31 Segmentaccedilatildeo de Imagens 40
311 Processamento de Imagens 42
312 O Problema da Segmentaccedilatildeo de Imagens 43
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44
314 Agrupamento na Segmentaccedilatildeo de Imagens 45
32 Mineraccedilatildeo de Textos 45
321 Agrupamento na Mineraccedilatildeo de Textos 47
4 CONCLUSAtildeO 49
REFEREcircNCIAS 51
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
Este trabalho eacute dedicado agrave minha matildee Maria da Natividade e em memoacuteria ao meu pai Carlos
Mendes A todos aqueles que de alguma forma estiveram e estatildeo proacuteximos
Agradecimentos
Em primeiro lugar ao professor e orientador Ivo Serra que gentilmente aceitou ser meu
orientador demostrando sempre muito interesse e paciecircncia para a construccedilatildeo deste trabalho
Aos meus pais Carlos e Natividade que independente de qualquer obstaacuteculo sempre
estiveram comigo me dando apoio Agradeccedilo tambeacutem a Deus (Universo) e a minha famiacutelia
irmatildes Luzia Aldenira e Marinalva ao meu cunhado Claudio sobrinhos Alyne e Alisson pelo
grande apoio pela paciecircncia e por sempre acreditarem em mim e no meu potencial Parentes e
amigos que me ajudaram dando palavras de incentivo e me reanimando em momentos difiacuteceis
tambeacutem seratildeo para sempre lembrados
A todos os professores em especial aos professores Portela e Bonini que gentilmente
aceitarem fazer parte da banca e ao professor Hilkias Jordatildeo
Aos grandes amigos e colegas de curso como Aronilson Aguiar Benedito Vieira Thales
Levi Tiago Ramos Danilo Carvalho Gleacutecio Santos Fernando Beleza Alessandro Jorge Maacutercio
Sygeaks e tantos outros que compartilharam comigo momentos de dificuldades e alegrias para
todos o meu grande agradecimento por todos os grandes momentos
ldquoNa eternidade onde natildeo existe o tempo nada pode crescer nada pode se desenvolver nada
muda Entatildeo a morte criou o tempo para que as coisas pudessem crescer e para que
pudessem morrerrdquo
(True Detective HBO No episoacutedio cinco de True Detective da 1a Temporada The Secret Fate
of All Life (O Destino Secreto de toda a Vida))
Resumo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados
A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes
baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o
aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores
de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes
bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento
de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs
teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos
envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos
valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final
seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como
biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de
textos
Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento
Aplicaccedilotildees de Agrupamento
Abstract
In recent years there has been a large increase in the amount of data stored Data mining
was developed with the purpose of identifying and extracting relevant information based
on this database Advances in data storage technologies the increase in speed and capacity
of systems and the improvement of these database management systems have allowed
to transform this enormous amount of data into large databases This work presents
fundamental concepts of Clustering that is the Data Mining technique to make automatic
groupings of data according to their degree of learning three simple techniques methods
are also presented but very important to introduce many of the concepts involved In the
data grouping Grouping techniques are valuable tools in the exploratory analysis of data
and find applications in several areas At the end will be presented some of these diverse
fields of clustering applications such as In biology information retrieval medicine image
segmentation and text mining
Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications
Lista de ilustraccedilotildees
Figura 1 ndash Processo de agrupamento 29
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-
pamentos em uma estrutura 32
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33
Figura 4 ndash Algoritmo de Agrupamento K-Means 35
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35
Figura 6 ndash Densidade baseada em centro 37
Figura 7 ndash Pontos de centro de limite de ruiacutedo 37
Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47
Lista de tabelas
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33
Lista de abreviaturas e siglas
DBSCAN Density Based Spatial Clustering of Application with Noise
Eps Raio de vizinhanccedila de um ponto
MinPts Nuacutemero miacutenimo de pontos
Sumaacuterio
1 INTRODUCcedilAtildeO 23
11 Motivaccedilatildeo 24
12 Objetivo do Trabalho 25
13 Organizaccedilatildeo do Trabalho 25
2 AGRUPAMENTO 27
21 Consideraccedilotildees Iniciais 27
22 Definiccedilotildees 27
23 Teacutecnicas de Agrupamento 31
231 Meacutetodo Hieraacuterquico 31
232 Meacutetodo Particional 34
2321 Algoritmo K-means 34
2322 Algoritmo DBSCAN 36
3 APLICACcedilOtildeES DE AGRUPAMENTO 39
31 Segmentaccedilatildeo de Imagens 40
311 Processamento de Imagens 42
312 O Problema da Segmentaccedilatildeo de Imagens 43
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44
314 Agrupamento na Segmentaccedilatildeo de Imagens 45
32 Mineraccedilatildeo de Textos 45
321 Agrupamento na Mineraccedilatildeo de Textos 47
4 CONCLUSAtildeO 49
REFEREcircNCIAS 51
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
Agradecimentos
Em primeiro lugar ao professor e orientador Ivo Serra que gentilmente aceitou ser meu
orientador demostrando sempre muito interesse e paciecircncia para a construccedilatildeo deste trabalho
Aos meus pais Carlos e Natividade que independente de qualquer obstaacuteculo sempre
estiveram comigo me dando apoio Agradeccedilo tambeacutem a Deus (Universo) e a minha famiacutelia
irmatildes Luzia Aldenira e Marinalva ao meu cunhado Claudio sobrinhos Alyne e Alisson pelo
grande apoio pela paciecircncia e por sempre acreditarem em mim e no meu potencial Parentes e
amigos que me ajudaram dando palavras de incentivo e me reanimando em momentos difiacuteceis
tambeacutem seratildeo para sempre lembrados
A todos os professores em especial aos professores Portela e Bonini que gentilmente
aceitarem fazer parte da banca e ao professor Hilkias Jordatildeo
Aos grandes amigos e colegas de curso como Aronilson Aguiar Benedito Vieira Thales
Levi Tiago Ramos Danilo Carvalho Gleacutecio Santos Fernando Beleza Alessandro Jorge Maacutercio
Sygeaks e tantos outros que compartilharam comigo momentos de dificuldades e alegrias para
todos o meu grande agradecimento por todos os grandes momentos
ldquoNa eternidade onde natildeo existe o tempo nada pode crescer nada pode se desenvolver nada
muda Entatildeo a morte criou o tempo para que as coisas pudessem crescer e para que
pudessem morrerrdquo
(True Detective HBO No episoacutedio cinco de True Detective da 1a Temporada The Secret Fate
of All Life (O Destino Secreto de toda a Vida))
Resumo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados
A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes
baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o
aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores
de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes
bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento
de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs
teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos
envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos
valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final
seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como
biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de
textos
Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento
Aplicaccedilotildees de Agrupamento
Abstract
In recent years there has been a large increase in the amount of data stored Data mining
was developed with the purpose of identifying and extracting relevant information based
on this database Advances in data storage technologies the increase in speed and capacity
of systems and the improvement of these database management systems have allowed
to transform this enormous amount of data into large databases This work presents
fundamental concepts of Clustering that is the Data Mining technique to make automatic
groupings of data according to their degree of learning three simple techniques methods
are also presented but very important to introduce many of the concepts involved In the
data grouping Grouping techniques are valuable tools in the exploratory analysis of data
and find applications in several areas At the end will be presented some of these diverse
fields of clustering applications such as In biology information retrieval medicine image
segmentation and text mining
Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications
Lista de ilustraccedilotildees
Figura 1 ndash Processo de agrupamento 29
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-
pamentos em uma estrutura 32
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33
Figura 4 ndash Algoritmo de Agrupamento K-Means 35
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35
Figura 6 ndash Densidade baseada em centro 37
Figura 7 ndash Pontos de centro de limite de ruiacutedo 37
Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47
Lista de tabelas
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33
Lista de abreviaturas e siglas
DBSCAN Density Based Spatial Clustering of Application with Noise
Eps Raio de vizinhanccedila de um ponto
MinPts Nuacutemero miacutenimo de pontos
Sumaacuterio
1 INTRODUCcedilAtildeO 23
11 Motivaccedilatildeo 24
12 Objetivo do Trabalho 25
13 Organizaccedilatildeo do Trabalho 25
2 AGRUPAMENTO 27
21 Consideraccedilotildees Iniciais 27
22 Definiccedilotildees 27
23 Teacutecnicas de Agrupamento 31
231 Meacutetodo Hieraacuterquico 31
232 Meacutetodo Particional 34
2321 Algoritmo K-means 34
2322 Algoritmo DBSCAN 36
3 APLICACcedilOtildeES DE AGRUPAMENTO 39
31 Segmentaccedilatildeo de Imagens 40
311 Processamento de Imagens 42
312 O Problema da Segmentaccedilatildeo de Imagens 43
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44
314 Agrupamento na Segmentaccedilatildeo de Imagens 45
32 Mineraccedilatildeo de Textos 45
321 Agrupamento na Mineraccedilatildeo de Textos 47
4 CONCLUSAtildeO 49
REFEREcircNCIAS 51
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
ldquoNa eternidade onde natildeo existe o tempo nada pode crescer nada pode se desenvolver nada
muda Entatildeo a morte criou o tempo para que as coisas pudessem crescer e para que
pudessem morrerrdquo
(True Detective HBO No episoacutedio cinco de True Detective da 1a Temporada The Secret Fate
of All Life (O Destino Secreto de toda a Vida))
Resumo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados
A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes
baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o
aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores
de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes
bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento
de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs
teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos
envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos
valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final
seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como
biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de
textos
Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento
Aplicaccedilotildees de Agrupamento
Abstract
In recent years there has been a large increase in the amount of data stored Data mining
was developed with the purpose of identifying and extracting relevant information based
on this database Advances in data storage technologies the increase in speed and capacity
of systems and the improvement of these database management systems have allowed
to transform this enormous amount of data into large databases This work presents
fundamental concepts of Clustering that is the Data Mining technique to make automatic
groupings of data according to their degree of learning three simple techniques methods
are also presented but very important to introduce many of the concepts involved In the
data grouping Grouping techniques are valuable tools in the exploratory analysis of data
and find applications in several areas At the end will be presented some of these diverse
fields of clustering applications such as In biology information retrieval medicine image
segmentation and text mining
Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications
Lista de ilustraccedilotildees
Figura 1 ndash Processo de agrupamento 29
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-
pamentos em uma estrutura 32
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33
Figura 4 ndash Algoritmo de Agrupamento K-Means 35
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35
Figura 6 ndash Densidade baseada em centro 37
Figura 7 ndash Pontos de centro de limite de ruiacutedo 37
Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47
Lista de tabelas
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33
Lista de abreviaturas e siglas
DBSCAN Density Based Spatial Clustering of Application with Noise
Eps Raio de vizinhanccedila de um ponto
MinPts Nuacutemero miacutenimo de pontos
Sumaacuterio
1 INTRODUCcedilAtildeO 23
11 Motivaccedilatildeo 24
12 Objetivo do Trabalho 25
13 Organizaccedilatildeo do Trabalho 25
2 AGRUPAMENTO 27
21 Consideraccedilotildees Iniciais 27
22 Definiccedilotildees 27
23 Teacutecnicas de Agrupamento 31
231 Meacutetodo Hieraacuterquico 31
232 Meacutetodo Particional 34
2321 Algoritmo K-means 34
2322 Algoritmo DBSCAN 36
3 APLICACcedilOtildeES DE AGRUPAMENTO 39
31 Segmentaccedilatildeo de Imagens 40
311 Processamento de Imagens 42
312 O Problema da Segmentaccedilatildeo de Imagens 43
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44
314 Agrupamento na Segmentaccedilatildeo de Imagens 45
32 Mineraccedilatildeo de Textos 45
321 Agrupamento na Mineraccedilatildeo de Textos 47
4 CONCLUSAtildeO 49
REFEREcircNCIAS 51
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
Resumo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados armazenados
A mineraccedilatildeo de dados surgiu com o propoacutesito de identificar e extrair informaccedilotildees relevantes
baseados nessa base de dados Avanccedilos nas tecnologias de armazenamento de dados o
aumento na velocidade e capacidade dos sistemas e a melhoria desses sistemas gerenciadores
de banco de dados tecircm permitido transformar essa enorme quantidade de dados em grandes
bases de dados Este trabalho apresenta os conceitos fundamentais de Agrupamento
de Dados (Clustering) que eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila tambeacutem seratildeo apresentadas trecircs
teacutecnicasmeacutetodos simples mas muito importantes para introduzir muitos dos conceitos
envolvidos no agrupamento de dados As teacutecnicas de agrupamento satildeo instrumentos
valiosos na anaacutelise exploratoacuteria dos dados e encontram aplicaccedilotildees em vaacuterias aacutereas Ao final
seraacute apresentado alguns dos diversos domiacutenios de aplicaccedilotildees de agrupamento tais como
biologia recuperaccedilatildeo de informaccedilotildees medicina segmentaccedilatildeo de imagens e mineraccedilatildeo de
textos
Palavras-chave Mineraccedilatildeo de Dados Agrupamento de Dados Teacutecnicas de Agrupamento
Aplicaccedilotildees de Agrupamento
Abstract
In recent years there has been a large increase in the amount of data stored Data mining
was developed with the purpose of identifying and extracting relevant information based
on this database Advances in data storage technologies the increase in speed and capacity
of systems and the improvement of these database management systems have allowed
to transform this enormous amount of data into large databases This work presents
fundamental concepts of Clustering that is the Data Mining technique to make automatic
groupings of data according to their degree of learning three simple techniques methods
are also presented but very important to introduce many of the concepts involved In the
data grouping Grouping techniques are valuable tools in the exploratory analysis of data
and find applications in several areas At the end will be presented some of these diverse
fields of clustering applications such as In biology information retrieval medicine image
segmentation and text mining
Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications
Lista de ilustraccedilotildees
Figura 1 ndash Processo de agrupamento 29
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-
pamentos em uma estrutura 32
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33
Figura 4 ndash Algoritmo de Agrupamento K-Means 35
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35
Figura 6 ndash Densidade baseada em centro 37
Figura 7 ndash Pontos de centro de limite de ruiacutedo 37
Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47
Lista de tabelas
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33
Lista de abreviaturas e siglas
DBSCAN Density Based Spatial Clustering of Application with Noise
Eps Raio de vizinhanccedila de um ponto
MinPts Nuacutemero miacutenimo de pontos
Sumaacuterio
1 INTRODUCcedilAtildeO 23
11 Motivaccedilatildeo 24
12 Objetivo do Trabalho 25
13 Organizaccedilatildeo do Trabalho 25
2 AGRUPAMENTO 27
21 Consideraccedilotildees Iniciais 27
22 Definiccedilotildees 27
23 Teacutecnicas de Agrupamento 31
231 Meacutetodo Hieraacuterquico 31
232 Meacutetodo Particional 34
2321 Algoritmo K-means 34
2322 Algoritmo DBSCAN 36
3 APLICACcedilOtildeES DE AGRUPAMENTO 39
31 Segmentaccedilatildeo de Imagens 40
311 Processamento de Imagens 42
312 O Problema da Segmentaccedilatildeo de Imagens 43
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44
314 Agrupamento na Segmentaccedilatildeo de Imagens 45
32 Mineraccedilatildeo de Textos 45
321 Agrupamento na Mineraccedilatildeo de Textos 47
4 CONCLUSAtildeO 49
REFEREcircNCIAS 51
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
Abstract
In recent years there has been a large increase in the amount of data stored Data mining
was developed with the purpose of identifying and extracting relevant information based
on this database Advances in data storage technologies the increase in speed and capacity
of systems and the improvement of these database management systems have allowed
to transform this enormous amount of data into large databases This work presents
fundamental concepts of Clustering that is the Data Mining technique to make automatic
groupings of data according to their degree of learning three simple techniques methods
are also presented but very important to introduce many of the concepts involved In the
data grouping Grouping techniques are valuable tools in the exploratory analysis of data
and find applications in several areas At the end will be presented some of these diverse
fields of clustering applications such as In biology information retrieval medicine image
segmentation and text mining
Keywords Data Mining Data Grouping Grouping Techniques Grouping Applications
Lista de ilustraccedilotildees
Figura 1 ndash Processo de agrupamento 29
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-
pamentos em uma estrutura 32
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33
Figura 4 ndash Algoritmo de Agrupamento K-Means 35
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35
Figura 6 ndash Densidade baseada em centro 37
Figura 7 ndash Pontos de centro de limite de ruiacutedo 37
Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47
Lista de tabelas
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33
Lista de abreviaturas e siglas
DBSCAN Density Based Spatial Clustering of Application with Noise
Eps Raio de vizinhanccedila de um ponto
MinPts Nuacutemero miacutenimo de pontos
Sumaacuterio
1 INTRODUCcedilAtildeO 23
11 Motivaccedilatildeo 24
12 Objetivo do Trabalho 25
13 Organizaccedilatildeo do Trabalho 25
2 AGRUPAMENTO 27
21 Consideraccedilotildees Iniciais 27
22 Definiccedilotildees 27
23 Teacutecnicas de Agrupamento 31
231 Meacutetodo Hieraacuterquico 31
232 Meacutetodo Particional 34
2321 Algoritmo K-means 34
2322 Algoritmo DBSCAN 36
3 APLICACcedilOtildeES DE AGRUPAMENTO 39
31 Segmentaccedilatildeo de Imagens 40
311 Processamento de Imagens 42
312 O Problema da Segmentaccedilatildeo de Imagens 43
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44
314 Agrupamento na Segmentaccedilatildeo de Imagens 45
32 Mineraccedilatildeo de Textos 45
321 Agrupamento na Mineraccedilatildeo de Textos 47
4 CONCLUSAtildeO 49
REFEREcircNCIAS 51
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
Lista de ilustraccedilotildees
Figura 1 ndash Processo de agrupamento 29
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agru-
pamentos em uma estrutura 32
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico 33
Figura 4 ndash Algoritmo de Agrupamento K-Means 35
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias 35
Figura 6 ndash Densidade baseada em centro 37
Figura 7 ndash Pontos de centro de limite de ruiacutedo 37
Figura 8 ndash Algoritmo de Agrupamento DBSCAN 38
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens 43
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento 47
Lista de tabelas
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33
Lista de abreviaturas e siglas
DBSCAN Density Based Spatial Clustering of Application with Noise
Eps Raio de vizinhanccedila de um ponto
MinPts Nuacutemero miacutenimo de pontos
Sumaacuterio
1 INTRODUCcedilAtildeO 23
11 Motivaccedilatildeo 24
12 Objetivo do Trabalho 25
13 Organizaccedilatildeo do Trabalho 25
2 AGRUPAMENTO 27
21 Consideraccedilotildees Iniciais 27
22 Definiccedilotildees 27
23 Teacutecnicas de Agrupamento 31
231 Meacutetodo Hieraacuterquico 31
232 Meacutetodo Particional 34
2321 Algoritmo K-means 34
2322 Algoritmo DBSCAN 36
3 APLICACcedilOtildeES DE AGRUPAMENTO 39
31 Segmentaccedilatildeo de Imagens 40
311 Processamento de Imagens 42
312 O Problema da Segmentaccedilatildeo de Imagens 43
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44
314 Agrupamento na Segmentaccedilatildeo de Imagens 45
32 Mineraccedilatildeo de Textos 45
321 Agrupamento na Mineraccedilatildeo de Textos 47
4 CONCLUSAtildeO 49
REFEREcircNCIAS 51
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
Lista de tabelas
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos 33
Lista de abreviaturas e siglas
DBSCAN Density Based Spatial Clustering of Application with Noise
Eps Raio de vizinhanccedila de um ponto
MinPts Nuacutemero miacutenimo de pontos
Sumaacuterio
1 INTRODUCcedilAtildeO 23
11 Motivaccedilatildeo 24
12 Objetivo do Trabalho 25
13 Organizaccedilatildeo do Trabalho 25
2 AGRUPAMENTO 27
21 Consideraccedilotildees Iniciais 27
22 Definiccedilotildees 27
23 Teacutecnicas de Agrupamento 31
231 Meacutetodo Hieraacuterquico 31
232 Meacutetodo Particional 34
2321 Algoritmo K-means 34
2322 Algoritmo DBSCAN 36
3 APLICACcedilOtildeES DE AGRUPAMENTO 39
31 Segmentaccedilatildeo de Imagens 40
311 Processamento de Imagens 42
312 O Problema da Segmentaccedilatildeo de Imagens 43
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44
314 Agrupamento na Segmentaccedilatildeo de Imagens 45
32 Mineraccedilatildeo de Textos 45
321 Agrupamento na Mineraccedilatildeo de Textos 47
4 CONCLUSAtildeO 49
REFEREcircNCIAS 51
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
Lista de abreviaturas e siglas
DBSCAN Density Based Spatial Clustering of Application with Noise
Eps Raio de vizinhanccedila de um ponto
MinPts Nuacutemero miacutenimo de pontos
Sumaacuterio
1 INTRODUCcedilAtildeO 23
11 Motivaccedilatildeo 24
12 Objetivo do Trabalho 25
13 Organizaccedilatildeo do Trabalho 25
2 AGRUPAMENTO 27
21 Consideraccedilotildees Iniciais 27
22 Definiccedilotildees 27
23 Teacutecnicas de Agrupamento 31
231 Meacutetodo Hieraacuterquico 31
232 Meacutetodo Particional 34
2321 Algoritmo K-means 34
2322 Algoritmo DBSCAN 36
3 APLICACcedilOtildeES DE AGRUPAMENTO 39
31 Segmentaccedilatildeo de Imagens 40
311 Processamento de Imagens 42
312 O Problema da Segmentaccedilatildeo de Imagens 43
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44
314 Agrupamento na Segmentaccedilatildeo de Imagens 45
32 Mineraccedilatildeo de Textos 45
321 Agrupamento na Mineraccedilatildeo de Textos 47
4 CONCLUSAtildeO 49
REFEREcircNCIAS 51
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
Sumaacuterio
1 INTRODUCcedilAtildeO 23
11 Motivaccedilatildeo 24
12 Objetivo do Trabalho 25
13 Organizaccedilatildeo do Trabalho 25
2 AGRUPAMENTO 27
21 Consideraccedilotildees Iniciais 27
22 Definiccedilotildees 27
23 Teacutecnicas de Agrupamento 31
231 Meacutetodo Hieraacuterquico 31
232 Meacutetodo Particional 34
2321 Algoritmo K-means 34
2322 Algoritmo DBSCAN 36
3 APLICACcedilOtildeES DE AGRUPAMENTO 39
31 Segmentaccedilatildeo de Imagens 40
311 Processamento de Imagens 42
312 O Problema da Segmentaccedilatildeo de Imagens 43
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens 44
314 Agrupamento na Segmentaccedilatildeo de Imagens 45
32 Mineraccedilatildeo de Textos 45
321 Agrupamento na Mineraccedilatildeo de Textos 47
4 CONCLUSAtildeO 49
REFEREcircNCIAS 51
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
23
1 Introduccedilatildeo
Nos uacuteltimos anos verificou-se um grande crescimento na quantidade de dados arma-
zenados Avanccedilos nas tecnologias de armazenamento de dados o aumento na velocidade e
capacidade dos sistemas o barateamento dos dispositivos de armazenamento e a melhoria dos
sistemas gerenciadores de banco de dados tecircm permitido transformar essa enorme quantidade
de dados em grandes bases de dados (Fayyad Piatetsky-Shapiro e Smyth (1996)) Estima-se
que a cada 20 meses as empresas no mundo dobrem o volume de dados acumulados em seus
computadores (Diniz e Neto (2000))
As teacutecnicas de agrupamento satildeo instrumentos valiosos na anaacutelise exploratoacuteria dos
dados e encontram aplicaccedilotildees em vaacuterias aacutereas tais como biologia medicina engenharia
marketing visatildeo computacional e sensoriamento remoto Uma aacuterea de aplicaccedilatildeo recente que
tem se beneficiado significativamente da anaacutelise de agrupamento eacute a bioinformaacutetica Nessa
aacuterea muitos trabalhos tecircm sido desenvolvidos aplicando-se algoritmos de agrupamento para
anaacutelise de dados de expressatildeo gecircnica (Faceli (2006))
Teacutecnicas de agrupamento fornecem um meio de explorar e verificar estruturas presentes
nos dados organizando-os em grupos de objetos similares (Jain e Dubes (1988)) O agrupamento
pode ser visto como pertencente ao paradigma de aprendizado natildeo supervisionado em que o
aprendizado eacute dirigido aos dados natildeo requerendo conhecimento preacutevio sobre as suas classes ou
categorias (Mitchell et al (1997))
A quantidade de informaccedilotildees disponiacuteveis ultrapassou a capacidade humana de compre-
ensatildeo Natildeo eacute viaacutevel sem o auxiacutelio de ferramentas computacionais apropriadas a anaacutelise de
grandes quantidades de dados pelo homem Portanto torna-se imprescindiacutevel o desenvolvimento
de ferramentas que auxiliem o homem de forma automaacutetica e inteligente na tarefa de analisar
interpretar e relacionar esses dados para que se possa desenvolver e selecionar estrateacutegias de
accedilatildeo em cada contexto de aplicaccedilatildeo (GOLDSCHMIDT e PASSOS (2005))
Dados produzidos e armazenados em larga escala satildeo inviaacuteveis de serem analisados
por especialistas atraveacutes de meacutetodos tradicionais tais como planilhas de caacutelculos e relatoacuterios
informativos operacionais onde o especialista testa sua hipoacutetese contra a base de dados
(AUREacuteLIO 1999)
Dentre vaacuterias tarefas desempenhadas em mineraccedilatildeo de dados o agrupamento de Dados
eacute um dos problemas centrais o qual consiste em determinar um conjunto de categorias para
descrever uma coleccedilatildeo de objetos de acordo com as suas similaridades ou inter-relacionamentos
(Kaufman e Rousseeuw (2009)) A soluccedilatildeo para esse problema consiste frequentemente no
objetivo final de mineraccedilatildeo de dados apresentando uma ampla aplicabilidade em diversas aacutereas
(Everitt e Dunn (2001))
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
24 Capiacutetulo 1 Introduccedilatildeo
A soluccedilatildeo de um problema de agrupamento tambeacutem pode ajudar a solucionar outros
problemas relacionados tais como classificaccedilatildeo de padrotildees extraccedilatildeo de regras em bases de
dados sumarizaccedilatildeo de documentos e compressatildeo de dados (Wang amp Fu 2015 Tan et al 2005)
A complexidade do problema de agrupamento de dados adveacutem em boa parte de sua natureza
natildeo supervisionada em que natildeo se dispotildee objetivamente de um resultado final desejado Em
outras palavras em contraste aos problemas supervisionados como classificaccedilatildeo de padrotildees
natildeo se dispotildee em agrupamento de dados de uma meta concreta a ser alcanccedilada O que
acontece eacute que a dificuldade do problema comeccedila pela proacutepria definiccedilatildeo do que se entende por
grupo (cluster) conceito com elevado grau de subjetividade Eacute importante mencionar que na
maioria dos casos existe uma variedade de categorizaccedilotildees alternativas para um mesmo conjunto
de objetos ou seja os objetos podem ser agrupados de maneiras diferentes dependendo da
perspectiva Por exemplo um sistema bancaacuterio pode estar interessado em encontrar grupos
nos quais os objetos (clientes) do mesmo grupo apresentam informaccedilotildees econocircmicas similares
levando em conta informaccedilotildees como renda familiar quantidade de pessoas na famiacutelia e
quantidade de bens Soacute que o mesmo sistema bancaacuterio tambeacutem pode estar interessado em
encontrar grupos nos quais os objetos do mesmo grupo apresentem informaccedilotildees como por
exemplo endereccedilo contados
11 Motivaccedilatildeo
A anaacutelise de agrupamento eacute de grande utilidade na anaacutelise exploratoacuteria de dados sobre os
quais existe pouco ou nenhum conhecimento preacutevio disponiacutevel (Jain e Dubes (1988)) O objetivo
do agrupamento eacute encontrar uma estrutura de grupos nos dados em que cada grupo conteacutem
objetos que compartilham algumas caracteriacutesticas ou propriedades consideradas relevantes para
o domiacutenio dos dados estudados (Jain e Dubes (1988)) Entretanto natildeo existe uma definiccedilatildeo
precisa do que eacute um grupo e haacute uma grande variedade de algoritmos de agrupamento descrita na
literatura cada algoritmo com suas proacuteprias caracteriacutesticas e peculiaridades (Barbara (2000))
Cada algoritmo eacute baseado em uma definiccedilatildeo de cluster e faz uso de alguma heuriacutestica
para achar o melhor agrupamento para um determinado conjunto de dados Assim cada
algoritmo de agrupamento pode apresentar um comportamento superior aos demais para uma
conformaccedilatildeo especiacutefica dos dados no espaccedilo de atributos Por exemplo um algoritmo pode ser
apropriado para encontrar apenas grupos especiacuteficos e outro podem encontrar grupos de formas
arbitraacuterias mas que possuam a mesma densidade Nesse ponto surge a primeira dificuldade em
anaacutelise de agrupamento mesmo que os dados estejam estruturados idealmente segundo uma
das possiacuteveis definiccedilotildees de cluster como selecionar o algoritmo mais apropriado uma vez que
as caracteriacutesticas dos dados natildeo satildeo conhecidas previamente
Aleacutem disso cada algoritmo de agrupamento eacute capaz de encontrar estruturas com
diferentes niacuteveis de refinamento (estruturas com diferentes nuacutemeros de grupo ou com grupos
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
12 Objetivo do Trabalho 25
de densidades diferentes) dependendo dos valores de seus paracircmetros (Jain e Dubes (1988))
Por exemplo o algoritmo k-meacutedias encontra uma estrutura diferente para cada nuacutemero de
clusters k dado como paracircmetro ao algoritmo Poreacutem na anaacutelise exploratoacuteria de um conjunto
de dados em geral o nuacutemero de clusters presentes nos dados natildeo eacute conhecido previamente
Esse aspecto oferece a segunda dificuldade da anaacutelise de agrupamento dado que se conheccedila o
algoritmo de agrupamento mais apropriado para um determinado conjunto de dados como
estabelecer quais valores de seus paracircmetros fornecem as estruturas mais representativas do
conjunto de dados Em outras palavras em que niacuteveis de refinamento podem ser encontradas
as estruturas subjacentes nos dados
Os sistemas natildeo supervisionados tambeacutem conhecidos como agrupamento ou clustering
tecircm o objetivo de separar um conjunto de observaccedilotildees natildeo classificadas em um nuacutemero discreto
de grupos que satildeo definidos pela estrutura natural dos dados sem uso de qualquer informaccedilatildeo
preacutevia sobre os grupos Deste modo quando se tem necessidade de explorar a desconhecida
natureza dos dados independente de se ter uma preacute-informaccedilatildeo de pertinecircncia a anaacutelise de
grupos eacute a ferramenta mais adequada (Xu e Wunsch (2009))
Este trabalho eacute motivado pelo interesse em discutir alguns domiacutenios de aplicaccedilatildeo de
agrupamento de dados
12 Objetivo do Trabalho
O objetivo principal deste trabalho eacute realizar uma discussatildeo sobre agrupamento as
teacutecnicas mais utilizadas quando se falar em agrupamento de dados as teacutecnicas de agrupamento
hieraacuterquico aglomerativo e os particionas K-means e DBSCAN (Clusterizaccedilatildeo Espacial Baseada
em Densidade de Aplicaccedilotildees com Ruiacutedo) e por fim mostrar algumas das diversas aacutereas onde
se pode fazer aplicaccedilotildees utilizando agrupamento de dados particulamente em segmentaccedilatildeo de
imagens e mineraccedilatildeo de textos
13 Organizaccedilatildeo do Trabalho
Este trabalho eacute composto aleacutem deste capiacutetulo de trecircs outros capiacutetulos que estatildeo
organizados da seguinte forma
O capiacutetulo 2 faz uma abordagem sobre agrupamento Apresenta toacutepicos sobre o
significado de agrupamento uma exposiccedilatildeo sobre os principais meacutetodos utilizados atualmente
em agrupamento de dados
Capiacutetulo 3 apresenta algumas das diversas aacutereas de aplicaccedilotildees onde pode-se utilizar
agrupamento de dados como na biologia recuperaccedilatildeo de informaccedilotildees clima psicologia
medicina negoacutecios segmentaccedilatildeo de imagens e na mineraccedilatildeo de textos
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
26 Capiacutetulo 1 Introduccedilatildeo
O capiacutetulo 4 apresenta as conclusotildees obtidas do que foi realizado no capiacutetulo 2 e 3
aleacutem de sugestotildees para a realizaccedilatildeo de trabalhos futuros
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
27
2 Agrupamento
21 Consideraccedilotildees Iniciais
Neste capiacutetulo seratildeo descritos os conceitos baacutesicos de agrupamento e as seguintes trecircs
teacutecnicas simples Agrupamento Hieraacuterquico Aglomerativo K-means e DBSCAN (Tan Steinbach
e Kumar (2009)) poreacutem importantes para introduzir muitos dos conceitos em agrupamento
22 Definiccedilotildees
Agrupamentos satildeo classes ou grupos conceitualmente significativos de objetos que
compartilhem caracteriacutesticas comuns desempenham um papel importante em como as pessoas
analisam e descrevem o mundo De fato seres humanos tecircm habilidades na divisatildeo de objetos
em grupos (agrupamento) e atribuir objetos particulares a esses grupos (classificaccedilatildeo) Mesmo
crianccedilas relativamente jovens podem rotular rapidamente os objetos em uma fotografia como
veiacuteculos preacutedios pessoas animais e dentre outros ou seja Os seres humanos estatildeo sempre
classificando o que percebem a sua volta por exemplo criando classes de relaccedilotildees humanas
diferentes e dando a cada classe uma forma diferente de tratamento formando classes de
comportamento em diferentes ambientes definindo classes sociais estabelecendo preconcei-
tos e tratando as pessoas segundo estes estereoacutetipos entre outras formas de classificaccedilatildeo
(CARVALHO 2002)
A Mineraccedilatildeo de Dados tambeacutem conhecida pelo termo inglecircs Data Mining eacute o processo
de explorar grandes quantidades de dados Consiste em uma funcionalidade que agrega e
organiza dados encontrando neles padrotildees associaccedilotildees mudanccedilas e anomalias relevantes
Agrupamento (clustering) eacute uma teacutecnica de Data Mining para fazer agrupamentos
automaacuteticos de dados segundo seu grau de semelhanccedila Por exemplo procedimento de agru-
pamento tambeacutem pode ser aplicado a bases de texto utilizando algoritmos de Text Mining
onde o algoritmo procura agrupar textos que falem sobre o mesmo assunto e separar textos
de conteuacutedo diferentes Agrupamento eacute uma classificaccedilatildeo natildeo supervisionada (sem classes
predefinidas) A classificaccedilatildeo natildeo-supervisionada baseia-se no princiacutepio de que o algoritmo
computacional eacute capaz de identificar por si soacute as classes dentro de um conjunto de dados Esse
tipo de classificaccedilatildeo eacute frequentemente realizado atraveacutes de meacutetodos de agrupamentos
Dessa forma o agrupamento procura encontrar conjuntos de dados que se agrupam
naturalmente por alguma similaridade gerando diversos grupos menores sendo muito uacutetil pelo
motivo de natildeo conhecer com antecedecircncias as categorias existentes nos conjuntos de dados
que seratildeo analisados
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
28 Capiacutetulo 2 Agrupamento
Teacutecnicas ou algoritmos de agrupamento permitem a construccedilatildeo de importantes ferra-
mentas para a anaacutelise exploratoacuteria de dados para os quais existe pouco ou nenhum conhecimento
preacutevio (Jain e Dubes (1988))
O objetivo de uma teacutecnica de agrupamento eacute encontrar uma estrutura de grupos
(clusters) nos dados em que os objetos pertencentes a cada grupo compartilham alguma
caracteriacutestica ou propriedade relevante para o domiacutenio do problema em estudo (Jain e Dubes
(1988)) Embora a ideia do que constitui um grupo seja intuitiva natildeo existe uma definiccedilatildeo
formal uacutenica e precisa para esse conceito Ao contraacuterio existe uma grande variedade de
definiccedilotildees na literatura ou seja haacute aacute diversas noccedilotildees de um grupo que se provam uacuteteis
na praacutetica Isso eacute resultado da grande diversidade de visotildeesobjetivos dos pesquisadores de
diferentes aacutereas que utilizamdesenvolvem teacutecnicas de agrupamento
Um grupo eacute um conjunto de entidades semelhantes e entidades pertencentes a grupos
diferentes natildeo semelhantes (Jain Murty e Flynn (1999))
Grupos podem ser descritos como regiotildees conectadas de um espaccedilo multidimensional
contendo uma alta densidade relativa de pontos separados de outras regiotildees por uma regiatildeo
contendo uma baixa densidade relatica de pontos (Everitt 1993 Mertz 2006)
Agrupamento tambeacutem eacute um processo subjetivo deste modo eacute necessaacuterio atenccedilatildeo extra
ao se realizar uma anaacutelise de grupo nos dados A subjetividade estaacute presente em diversos
aspectos entre eles nas hipoacuteteses estabelecidas sobre os dados a definiccedilatildeo da medida de
proximidade a determinaccedilatildeo do nuacutemero de grupos a seleccedilatildeo do algoritmo de agrupamento e
a determinaccedilatildeo dos iacutendices de validaccedilatildeo (Xu e Wunsch (2009))
Aleacutem disso para o mesmo conjunto de dados objetivos diferentes geralmente levam a
diferentes particcedilotildees Um exemplo simples e direto eacute na particcedilatildeo de animais uma aacuteguia um
canaacuterio um leatildeo uma pantera e um carneiro Se os animais satildeo divididos com base no criteacuterio
de poder ou natildeo voar temos dois clusters com a aacuteguia e o canaacuterio em um grupo e o restante
em outro grupo No entanto se mudarmos o criteacuterio e avaliarmos se eles satildeo ou natildeo carniacutevoros
temos uma particcedilatildeo completamente diferente com o canaacuterio e o carneiro em um cluster e os
outros trecircs no segundo grupo (Xu e Wunsch (2009))
Algumas das definiccedilotildees comuns para grupo satildeo (Barbara (2000))
Grupos bem separado um grupo eacute um conjunto de pontos tal que qualquer ponto
em um determinado grupo estaacute mais proacuteximo (ou eacute mais similar) a cada outro ponto nesse
grupo do que a qualquer ponto natildeo pertencente a ele
Grupos baseado em centro um grupo eacute um conjunto de pontos tal que qualquer
ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais similar) ao centro desse grupo do que
ao centro de qualquer outro grupo O centro de um grupo pode ser um centroide como a
meacutedia aritmeacutetica dos pontos do grupo ou um medoacuteide (isto eacute o ponto mais representativo do
grupo)
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
22 Definiccedilotildees 29
Grupos contiacutenuo (vizinho mais proacuteximo ou agrupamento transitivo) um grupo eacute um
conjunto de pontos tal que qualquer ponto em um dado grupo estaacute mais proacuteximo (ou eacute mais
similar) a um ou mais pontos nesse grupo do que a qualquer ponto que natildeo pertence a ele
Grupos baseado em densidade um grupo eacute uma regiatildeo densa de pontos separada
de outras regiotildees de alta densidade por regiotildees de baixa densidade
Grupos baseado em similaridade um grupo eacute um conjunto de pontos que satildeo
similares enquanto pontos em grupos diferentes natildeo satildeo similares
O processo de agrupamento compreende diversas etapas que vatildeo desde a preparaccedilatildeo
dos objetos ateacute a interpretaccedilatildeo dos grupos obtidos A Figura 1 resume as etapas do processo
de agrupamento com as informaccedilotildees utilizadas e geradas em cada etapa As etapas e a figura
apresentada satildeo baseadas nas informaccedilotildees apresentadas por (Jain Murty e Flynn (1999)) e
(Barbara (2000)) cada uma dessas etapas satildeo descritas a seguir
Figura 1 ndash Processo de agrupamento
Fonte Produzido pelo autor
Preparaccedilatildeo Os objetos a serem agrupados podem representar um objeto fiacutesico como
uma cadeira ou uma noccedilatildeo abstrata como um estilo de escrita Tais objetos tambeacutem satildeo
comumente chamados de padrotildees exemplos amostras instancias ou pontos A preparaccedilatildeo
dos dados para o agrupamento envolve vaacuterios aspectos relacionados ao seu preacute-processamento
e agrave forma de representaccedilatildeo apropriada para sua utilizaccedilatildeo por um algoritmo de agrupamento
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
30 Capiacutetulo 2 Agrupamento
O preacute-processamento pode envolver por exemplo normalizaccedilotildees conversatildeo de tipos
e reduccedilatildeo do nuacutemero de atributos por meio de seleccedilatildeo ou extraccedilatildeo de caracteriacutesticas (Jain
Murty e Flynn (1999)) Vaacuterios trabalhos discutem formas de padronizaccedilatildeo dos dados seleccedilatildeo
de atributos e outros aspectos relativos agrave preparaccedilatildeo dos dados como os de (Jain Murty e
Flynn (1999)) (Barbara (2000))
Proximidade Esta etapa consiste da definiccedilatildeo de uma medida de proximidade apropri-
ada ao domiacutenio da aplicaccedilatildeo Essa medida de proximidade pode ser uma medida de similaridade
ou de dissimilaridade entre dois objetos A escolha da medida de proximidade a ser empregada
com um algoritmo de agrupamento deve considerar os tipos e escalas dos atributos que definem
os objetos e tambeacutem as propriedades dos dados que o pesquisador deseja focalizar Por exemplo
o pesquisador deve ter em mente se a magnitude relativa dos atributos descrevendo dois
objetos eacute suficiente ou seu valor absoluto deve ser considerado (Gordon 1999) As medidas de
proximidade em geral consideram que todos os atributos satildeo igualmente importantes
(Jain e Dubes (1988)) descrevem detalhadamente as medidas de proximidade mais
apropriadas para cada tipo e escala de atributo possiacutevel Uma das medidas de proximidade
mais comumente utilizada eacute a Distacircncia Euclidiana formalizada pela seguinte equaccedilatildeo
d(x y) =
radic
radic
radic
radic
nsum
k=1
(xk minus yk)2
Em matemaacutetica distacircncia euclidiana (ou distacircncia meacutetrica) eacute a distacircncia entre dois
pontos A distacircncia entre dois objetos (x e y) onde n eacute o nuacutemero de dimensotildees e xk e yk satildeo
respectivamente os atributos(componentes) de iacutendice k de x e y
Agrupamento Esta etapa consiste da aplicaccedilatildeo de um algoritmo de agrupamento ou
seja de uma teacutecnica de agrupamento apropriado para agrupar os dados de acordo com um
objetivo especiacutefico essas teacutecnicas seratildeo vistas nas Seccedilotildees 231 e 232
Validaccedilatildeo Esta etapa se refere agrave avaliaccedilatildeo do resultado de um agrupamento e deve de
forma objetiva determinar se os grupos satildeo significativos ou seja se a soluccedilatildeo eacute representativa
para o conjunto de dados analisado Uma estrutura de agrupamento eacute vaacutelida se natildeo ocorreu por
acaso ou se eacute ldquorarardquo em algum sentido jaacute que qualquer algoritmo de agrupamento encontraraacute
grupos independentemente de existir ou natildeo similaridade nos dados (Jain e Dubes (1988))
Interpretaccedilatildeo Refere-se ao processo de examinar cada grupo com relaccedilatildeo a seus
objetos para rotulaacute-los descrevendo a natureza do grupo A interpretaccedilatildeo de grupos eacute mais
que apenas uma descriccedilatildeo Aleacutem de ser uma forma de avaliaccedilatildeo dos grupos encontrados e da
hipoacutetese inicial de um modo confirmatoacuterio os grupos podem permitir avaliaccedilotildees subjetivas
que tenham um significado praacutetico Ou seja o especialista pode ter interesse em encontrar
diferenccedilas semacircnticas de acordo com os objetos e valores de seus atributos em cada grupo
Mais detalhes sobre cada um desses passos do agrupamento eacute encontrado em (Faceli
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
23 Teacutecnicas de Agrupamento 31
Carvalho e Souto (2005))
Existe um grande nuacutemero de algoritmos de agrupamento descritos na literatura mas
poreacutem natildeo existe um algoritmo de agrupamento universal capaz de revelar toda a variedade
de estruturas que podem estar presentes em um conjunto de dados Aleacutem disso como lembra
(Hartigan (1985)) ldquodiferentes agrupamentos satildeo adequados para diferentes propoacutesitos Dessa
forma natildeo eacute possiacutevel afirmar que um agrupamento eacute melhor que outrordquo Isso tudo leva a
dificuldades na escolha do melhor algoritmo a ser aplicado a um problema especiacutefico Apesar
de tambeacutem existir uma grande diversidade de teacutecnicas de validaccedilatildeo capazes de auxiliar nessa
escolha em geral cada uma apresenta uma tendecircncia de favorecer um tipo de algoritmo
por ser baseada no mesmo conceito que o criteacuterio de agrupamento dos algoritmos desse tipo
(Handl Knowles e Kell (2005))
Aleacutem da dificuldade da escolha do melhor algoritmo para uma dada aplicaccedilatildeo muitos
dos algoritmos apresentam restriccedilotildees Alguns dos problemas comuns a vaacuterios algoritmos de
agrupamento satildeo (Jain e Dubes (1988)) e (Handl Knowles e Kell (2005))
bull Adequaccedilatildeo a domiacutenios eou conjuntos de dados restritos
bull Restriccedilatildeo dos formatos da estrutura que pode ser encontrada
bull Necessidade de conhecimento preacutevio do nuacutemero de clusters presentes nos dados ou o
difiacutecil ajuste de paracircmetros
bull Instabilidade dos resultados obtidos Vaacuterias execuccedilotildees de um algoritmo produzem
agrupamentos diferentes podendo associar um mesmo objeto a clusters diferentes
23 Teacutecnicas de Agrupamento
231 Meacutetodo Hieraacuterquico
Neste meacutetodo o processo de identificaccedilatildeo de grupos eacute geralmente realimentado recursi-
vamente utilizando tanto objetos quanto grupos jaacute identificados previamente como entrada
para o processamento Deste modo constroacutei-se uma hierarquia de grupos de objetos no estilo
de uma aacutervore (Diniz e Neto (2000))
As teacutecnicas de agrupamento do tipo hieraacuterquico produzem uma hierarquia entre os
grupos Essa hierarquia pode ser representada por uma aacutervore de grupos que eacute conhecida
como dendograma (diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentos em uma
estrutura) Figura 2 Nesta representaccedilatildeo os dados individuais satildeo as folhas da aacutervore e os noacutes
do interior satildeo aglomerados de grupos Por padratildeo o niacutevel de similaridade eacute medido no eixo
vertical e as diferentes observaccedilotildees (objetoselementos) satildeo listadas ao longo do eixo horizontal
O graacutefico mostra como os agrupamentos satildeo formados unindo duas observaccedilotildees individuais ou
pareando uma observaccedilatildeo individual com um agrupamento existente Eacute possiacutevel ver em que
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
32 Capiacutetulo 2 Agrupamento
niacutevel de similaridade os agrupamentos satildeo formados e a composiccedilatildeo dos agrupamentos da
particcedilatildeo final O corte no dendrograma indicado pela linha tracejada representa uma particcedilatildeo
do conjunto de objetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 com
trecircs grupos g1 = 1 19 15 11 12 4 6 9 10 g2 = 2 16 18 8 13 14 5 e g3 = 3 7
17 20 Os meacutetodos hieraacuterquicos permitem assim a exploraccedilatildeo dos dados em diferentes niacuteveis
de granularidade Ou seja os algoritmos hieraacuterquicos criam uma hierarquia de relacionamentos
entre os elementos
Figura 2 ndash Dendrograma diagrama que mostra a hierarquia e a relaccedilatildeo dos agrupamentosem uma estrutura
Fonte lthttpsgooglnz3KZ6gt
Os meacutetodos hieraacuterquicos natildeo requerem que seja definido um nuacutemero a priori de grupos
Atraveacutes da anaacutelise do dendograma pode-se inferir no nuacutemero de agrupamentos adequados
Os meacutetodos hieraacuterquicos requerem uma matriz Tabela 1 contendo as meacutetricas de
distacircncia entre os agrupamentos em cada estaacutegio do algoritmo Essa matriz eacute conhecida como
matriz de similaridades entre agrupamentos Dessa forma imaginando um estaacutegio do algoritmo
onde o nuacutemero de agrupamentos corrente eacute trecircs (G1 G2 G3) pode-se supor a seguinte matriz
de similaridades entre os agrupamentos
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
23 Teacutecnicas de Agrupamento 33
Tabela 1 ndash Tabela ilustrativa da Matriz de Similaridades entre Grupos
G1 G2 G3G1 0 01 03G2 01 0 04G3 03 04 0
Fonte Produzido pelo autor
Pela tabela ilustrativa acima se pode observar que G1 e G2 satildeo os agrupamentos mais
similares enquanto que G2 e G3 satildeo os menos similares Satildeo utilizados os medidas de distacircncia
entre grupos para o caacutelculo dos valores de proximidade entre os agrupamentos
As teacutecnicas de agrupamento do tipo hieraacuterquico satildeo subdivididos em meacutetodos Aglome-
rativos e Divisivos ou seja haacute duas abordagens baacutesicas para gerar um agrupamento hieraacuterquico
os meacutetodos aglomerativos (bottom-up) e os meacutetodos de divisatildeo ou divisivos (top-down) (Tan
Steinbach e Kumar (2009))
Aglomerativo Inicia com os pontos como grupos individuais e em cada etapa funde
os pares mais proacuteximos de grupos Isto requer a definiccedilatildeo de uma noccedilatildeo de proximidade de
grupos
Divisivo Inicia com um grupo inclusivo com tudo e a cada etapa divide um grupo ateacute
que reste apenas grupos uacutenicos de pontos individuais Neste caso eacute preciso decidir qual grupo
dividir em cada etapa e como fazer a divisatildeo
As teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo as mais comuns entre as
teacutecnicas de agrupamento do tipo hieraacuterquico e nesta seccedilatildeo enfocaremos exclusivamente este
meacutetodo
Muitas teacutecnicas de agrupamento hieraacuterquico aglomerativo satildeo variaccedilotildees sobre uma
abordagem uacutenica iniciando com pontos individuais como grupos funde sucessivamente os
dois grupos mais proacuteximos ateacute que reste apenas um grupo Esta abordagem eacute expressada mais
formalmente no Algoritmo 1 da Figura 3
Figura 3 ndash Algoritmo de Agrupamento Hieraacuterquico Aglomerativo Baacutesico
Fonte Produzido pelo autor
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
34 Capiacutetulo 2 Agrupamento
232 Meacutetodo Particional
Um agrupamento particional eacute uma divisatildeo do conjunto de objetos de dados em
subconjuntos (grupos) natildeo interseccionados de modo que cada objeto de dado esteja exatamente
em um subconjunto No proacuteximo toacutepico eacute feita uma descriccedilatildeo dos algoritmos K-means e
DBSCAN (Tan Steinbach e Kumar (2009))
2321 Algoritmo K-means
O algoritmo K-Means (MacQueen et al (1967) Duda Hart e Stork (2001)) tambeacutem
chamado de K-Meacutedias eacute uma das teacutecnicas de agrupamento particionais mais populares por
possuir o maior nuacutemero de variaccedilotildees devido agrave sua simplicidade e facilidade de implementar em
linguagens computacionais
A ideia do algoritmo K-Means eacute fornecer uma classificaccedilatildeo de informaccedilotildees de acordo
com os proacuteprios dados Esta classificaccedilatildeo eacute baseada em anaacutelise e comparaccedilotildees entre os
valores numeacutericos dos dados Desta maneira o algoritmo automaticamente vai fornecer uma
classificaccedilatildeo automaacutetica sem a necessidade de nenhuma supervisatildeo humana ou seja sem
nenhuma preacute-classificaccedilatildeo existente
O algoritmo K-Means implementa uma teacutecnica de agrupamento baseada em protoacutetipos
(centros) O K-Means define um protoacutetipo em termos de um centroide que normalmente
corresponde agrave meacutedia dos padrotildees em um grupo K-Means inicia escolhendo K centroides
iniciais em que K eacute um paracircmetro definido pelo usuaacuterio que representa o nuacutemero de grupos
desejados Cada padratildeo eacute entatildeo atribuiacutedo ao centroide mais proacuteximo e cada coleccedilatildeo de padrotildees
atribuiacuteda ao centroide forma um grupo O centroide de cada grupo eacute entatildeo atualizado baseado
nos padrotildees atribuiacutedos ao grupo O processo de atribuiccedilatildeo dos padrotildees e a atualizaccedilatildeo dos
centroides se repete ateacute que os centroides permaneccedilam inalterados
Como eacute ilustrado no Algoritmo 2 da Figura 4 O algoritmo K-Means pode ser descrito
da seguinte maneira Escolhe-se K distintos valores para os centros dos grupos (isso pode ser
feito aleatoriamente) associa cada ponto ao centro mais proacuteximo (pode-se usar a distacircncia
euclidiana) recalcular o centro de cada grupo e isso ocorre ateacute que as iteraccedilotildees acabem ou
natildeo ocorra mais mudanccedila de objetos dos grupos
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
23 Teacutecnicas de Agrupamento 35
Figura 4 ndash Algoritmo de Agrupamento K-Means
Fonte Produzido pelo autor
A Figura 5 mostra um exemplo praacutetico dos passos da aplicaccedilatildeo do algoritmo K-Means
Inicialmente escolhesse arbitrariamente k objetos como centro inicial do grupo eacute atribuiacutedo cada
objeto ao centro mais proacuteximo e atualizado o centro de cada grupo Novamente eacute atribuiacutedo
os objetos pelos grupos e atualizado o centro do grupo e isso ocorre ateacute que nenhum objeto
mude mais de grupo
Figura 5 ndash Passos de aplicaccedilatildeo do algoritmo K-meacutedias
Fonte lthttpsgooglG1NNyFgt
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
36 Capiacutetulo 2 Agrupamento
2322 Algoritmo DBSCAN
DBSCAN abreviaccedilatildeo do termo lsquoDensity Based Spatial Clustering of Application with
Noisersquo (Clusterizaccedilatildeo Espacial Baseada em Densidade de Aplicaccedilotildees com Ruiacutedo) eacute um meacutetodo
de agrupamento natildeo parameacutetrico baseado em densidade (nuacutemero de pontos dentro de um
raio especiacutefico (Eps) proposto no ano de 1996 por (Ester et al (1996)) publicaram o artigo
intitulado A Density Based Spatial Clustering of Applications With Noise
Agrupamentos baseados em densidade localizam regiotildees de alta densidade que estejam
separadas entre si por regiotildees de baixa densidade DBSCAN eacute um algoritmo de agrupamento
baseado em densidade simples e eficaz que ilustra uma quantidade de conceitos que satildeo
importantes para qualquer abordagem de agrupamento baseado em densidade
Os dois paracircmetros de entrada que o DBSCAN necessita satildeo
Raio de vizinhanccedila de um ponto determina o raio de vizinhanccedila (Eps) para cada ponto
da base de dados Dado o paracircmetro Eps o algoritmo DBSCAN verifica a quantidade de
pontos contidos no raio (Eps) para cada ponto da base de dados e se essa quantidade exceder
certo nuacutemero um cluster eacute formado
Nuacutemero miacutenimo de pontos (MinPts) paracircmetro que especifica o nuacutemero miacutenimo de
pontos no dado raio (Eps) que um ponto precisa possuir para ser considerado um ponto
central e consequumlentemente de acordo com as definiccedilotildees de cluster baseado em densidade
inicia a formaccedilatildeo de um cluster
Com os paracircmetros Eps e MinPts definidos o algoritmo basicamente realiza a separaccedilatildeo
do conjunto de observaccedilotildees em trecircs classes
Pontos Centrais Estes pontos estatildeo no interior de um grupo baseado em densidade
Um ponto eacute central se o nuacutemero de pontos dentro de uma determinada vizinhanccedila em torno do
ponto conforme determinado pela funccedilatildeo de distacircncia e um paracircmetro de distacircncia especificada
pelo usuaacuterio Eps exceder um determinado limite MinPts que tambeacutem eacute um paracircmetro
especificado pelo usuaacuterio Na Figura 7 o ponto A eacute um ponto central para o raio indicado
Eps se MinPts le 7
Pontos Limites Um ponto de limite natildeo eacute um ponto central mas fica dentro da
vizinhanccedila de um ponto central Na Figura 7 o ponto B eacute um ponto de limite Um ponto de
limite pode cair dentro das vizinhanccedilas de diversos pontos centrais
Pontos de Ruiacutedos Um ponto de ruiacutedo eacute qualquer ponto que natildeo seja nem um ponto
central nem um ponto limite Na Figura 7 o ponto C eacute um ponto de ruiacutedo
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
23 Teacutecnicas de Agrupamento 37
Figura 6 ndash Densidade baseada em centro
Fonte Produzido pelo autor
Figura 7 ndash Pontos de centro de limite de ruiacutedo
Fonte Produzido pelo autor
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
38 Capiacutetulo 2 Agrupamento
Dadas as definiccedilotildees de pontos de centro de limite e de ruiacutedo o algoritmo DBSCAN
pode ser descrito informalmente da seguinte maneira Quaisquer dois pontos do centro que
estejam suficientemente proacuteximos dentro de uma distacircncia Eps entre si satildeo colocados no
mesmo grupo Da mesma forma qualquer ponto de limite que esteja suficientemente proacuteximo
de um ponto do centro eacute colocado no mesmo grupo do ponto de centro Pontos de ruiacutedo satildeo
descartados Os detalhes formais apresentados no Algoritmo 3 da Figura 8
Figura 8 ndash Algoritmo de Agrupamento DBSCAN
Fonte Produzido pelo autor
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
39
3 Aplicaccedilotildees de Agrupamento
Neste capiacutetulo eacute feita uma descriccedilatildeo de algumas das diversas formas e aacutereas onde
agrupamento de dados satildeo utilizados com objetivo de se alcanccedilar um determinado fim ou seja
seraacute comentado onde pode ser aplicado por exemplo na segmentaccedilatildeo de imagens e mineraccedilatildeo
de texto
Existe uma ampla variedade de campos onde pode-se aplicar agrupamento de dados
como por exemplo na psicologia e outras ciecircncias sociais biologia estatiacutestica reconhecimento
de padrotildees recuperaccedilatildeo de informaccedilotildees aprendizado de maacutequina e mineraccedilatildeo de dados A
seguir estatildeo alguns exemplos (Tan Steinbach e Kumar (2009))
bull Biologia Bioacutelogos gastaram muitos anos criando uma taxonomia ou seja uma
classificaccedilatildeo hieraacuterquica de todas as coisas vivas conhecidas pelo homem em reino filo
classe ordem famiacutelia gecircnero e espeacutecie Assim talvez natildeo seja surpreendente que muito do
trabalho inicial em anaacutelise de grupos procurou criar uma disciplina de taxonomia matemaacutetica
que pudesse encontrar automaticamente tais estruturas de classificaccedilatildeo Mais recentemente
bioacutelogos aplicaram o agrupamento para analisar as grandes quantidades de informaccedilotildees geneacuteticas
que agora estatildeo disponiacuteveis Por exemplo o agrupamento tem sido usado para encontrar grupos
de genes que tenham funccedilotildees semelhantes com isso uma aacuterea de aplicaccedilatildeo recente tem se
beneficiado significativamente da anaacutelise de agrupamento a bioinformaacutetica (Baldi and Brunak
1998 Wang et al 2003 Narayanan 2005) Nessa aacuterea muitos trabalhos tecircm sido desenvolvidos
aplicando algoritmos de agrupamento para anaacutelise de dados de expressatildeo gecircnica (Wang et
al 2003 Lorkowski and Cullen 2003 Zhao and Karypis 2005 Azuaje and Dopazo 2005
Narayanan 2005) Na bioinformaacutetica as investigaccedilotildees em genocircmica funcional e a anaacutelise de
dados de expressatildeo gecircnica tecircm utilizado teacutecnicas de agrupamento para encontrar grupos de
genes amostras ou ambos O agrupamento de genes eacute baseado na similaridade dos perfis
moleculares de ceacutelulas em diferentes condiccedilotildees e pode ser utilizado por exemplo para estudar
os mecanismos regulatoacuterios dos genes ou dividir o genoma em conjuntos de genes que estatildeo
envolvidos nos mesmos processos ou em processos relacionados (Eisen et al 1998 Spellman et
al 1998 Tamayo et al 1999 Nikkila et al 2002 Hautaniemi et al 2003)
bull Recuperaccedilatildeo de Informaccedilotildees A Word Wide Web consiste de bilhotildees de paacuteginas
Web e os resultados de consulta a uma ldquoferramenta de pesquisardquo pode retornar milhotildees de
paacuteginas O agrupamento pode ser usado para agrupar estes resultados de pesquisas em um
nuacutemero pequeno de grupos cada um dos quais captura um determinado aspecto da consulta
Por exemplo uma consulta de ldquofilmerdquo poderia retornar paacuteginas Web agrupadas em categorias
como resenha trailers elencos e cinemas Cada categoria ou seja grupo pode ser dividida em
subcategorias (subgrupos) produzindo uma estrutura hieraacuterquica que auxilie mais a exploraccedilatildeo
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
40 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
de um usuaacuterio nos resultados das consultas
bull Clima Compreender o clima da terra requer encontra padrotildees na atmosfera e no
oceano Para este fim a anaacutelise de grupos tem sido aplicada para encontrar padrotildees na pressatildeo
atmosfeacuterica de regiotildees polares e aacutereas do oceano que tenham um impacto significativo sobre o
clima da terra
bull Psicologia e Medicina Uma doenccedila ou condiccedilatildeo possui frequentemente uma
quantidade de variantes e a anaacutelise de agrupamentos pode ser usada para identificar essas
diferentes subcategorias Por exemplo o agrupamento tem sido usado para identificar diferente
tipos de depressatildeo A anaacutelise de agrupamentos tambeacutem pode ser usada para padrotildees na
distribuiccedilatildeo espacial ou temporal de uma doenccedila
bull Negoacutecios Negoacutecios juntam imensas quantidades de informaccedilotildees sobre clientes atuais
e potencias O agrupamento pode ser usado para segmentar clientes em um nuacutemero menor de
grupos para anaacutelise adicional e atividades de marketing
A seguir na Seccedilatildeo 31 e 32 descreve de forma mais detalhada alguns exemplos de
domiacutenio onde se pode aplicar agrupamento de dados como em segmentaccedilatildeo de imagens
(Kolossoski (2007)) e mineraccedilatildeo de textos (Rezende Marcacini e Moura (2011))
31 Segmentaccedilatildeo de Imagens
Em visatildeo computacional segmentaccedilatildeo se refere ao processo de dividir uma imagem
digital em muacuteltiplas regiotildees ou objetos com o objetivo de simplificar eou mudar a representaccedilatildeo
de uma imagem para facilitar a sua anaacutelise
O processamento digital de imagens eacute uma ferramenta muito importante pois traz
muitas vantagens e melhorias para aacutereas como a roboacutetica medicina fotografia meteorologia
enfim tudo o que envolve imagens Tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens
por computador visando a extraccedilatildeo de informaccedilatildeo destas para que os resultados venham a
trazer benefiacutecios para as aacutereas citadas anteriormente aleacutem de muitas outras aplicaccedilotildees
Dentro do processamento de imagens levando em consideraccedilatildeo a maneira como as
imagens satildeo processadas digitalmente encontra-se o processo de segmentaccedilatildeo que consiste
em dividir a imagem em vaacuterias partes de acordo com as caracteriacutesticas dos pontos (conjunto
de pixels) Esse eacute um processo simples para o ser humano que consegue segmentar uma cena
obtida atraveacutes da visatildeo imediatamente separar todos os objetos e definir seus contornos
Poreacutem eacute um processo complicado ao niacutevel de computaccedilatildeo
A visatildeo eacute um dos mais poderosos e complicados sentidos que o ser humano possui
Atraveacutes da visatildeo eacute possiacutevel obter as posiccedilotildees e propriedades dos objetos assim como suas
relaccedilotildees entre os mesmos e o ambiente que os cerca A visatildeo permite realizar trecircs tarefas
baacutesicas
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
31 Segmentaccedilatildeo de Imagens 41
bull Percepccedilatildeo do mundo
bull Concepccedilatildeo de uma estrateacutegia para tomada de decisatildeo
bull Execuccedilatildeo de uma accedilatildeo
Enquanto esta visatildeo eacute muito natural para o ser humano foi provado por muitos
especialistas que eacute muito complexo ensinar um computador a funcionar com um sistema de
visatildeo (mesmo rudimentar) Uma causa disto eacute que ateacute hoje eacute difiacutecil explicar precisamente o
processo da percepccedilatildeo Natildeo se podem recuperar todas as informaccedilotildees de uma cena apenas
pela sua intensidade de bordas dos objetos Esta intensidade eacute na verdade resultado de uma
combinaccedilatildeo de fatores como a superfiacutecie de um objeto fonte e direccedilatildeo de iluminaccedilatildeo luz
ambiente condiccedilatildeo atmosfeacuterica entre outros O olho humano eacute sempre comparado a uma
cacircmera e em muitos casos as similaridades satildeo bem evidentes Haacute entretanto uma grande
diferenccedila o processo de visualizaccedilatildeo Na cacircmera a filme as imagens satildeo produzidas no filme
atraveacutes das mudanccedilas fotoquiacutemicas enquanto que no olho humano as mudanccedilas fotoquiacutemicas
provocam impulsos nervosos que satildeo transmitidos ao ceacuterebro Assim o ceacuterebro interpreta estes
impulsos como provenientes de objetos situados fora do corpo sendo impossiacutevel perceber as
imagens como se estivessem na retina Ateacute mesmo as imagens geradas pelo efeito poacutes-imagem
satildeo projetadas para fora do corpo (ainda que de olhos fechados)
Apesar da visatildeo humana ser bem descrita num niacutevel neuroanatocircmico o processamento
da informaccedilatildeo realizado pela retina e pelo coacutertex visual do ceacuterebro permanece ainda hoje
obscuro O conhecimento acerca de visatildeo bioloacutegica ainda eacute muito limitado desconexo e
especulativo Esta hipoacutetese tem motivado pesquisadores em visatildeo computacional a propor
teorias computacionais sobre o que seria o processo de visatildeo Tais teorias tecircm evoluiacutedo ao longo
dos anos baseadas na crescente compreensatildeo deste processo Entre os adventos produzidos
nestas uacuteltimas deacutecadas estaacute o processamento digital de imagens
O processamento digital de imagens conhecido tambeacutem como processamento de imagens
surgiu da teoria de processamento de sinais e se tornou uma das muacuteltiplas facetas da teoria da
informaccedilatildeo Imagens satildeo como a representaccedilatildeo ou descriccedilatildeo de um objeto pessoa ou cena
trazendo informaccedilotildees atraveacutes de distribuiccedilotildees de intensidade de luz
O interesse em meacutetodos de processamento de imagens digitais decorre de duas aacutereas
principais de aplicaccedilatildeo
bull Melhoria da informaccedilatildeo visual para a interpretaccedilatildeo humana
bull Processamento de dados de cenas para percepccedilatildeo automaacutetica atraveacutes de maacutequinas
O processamento digital de imagens eacute uma aacuterea de concentraccedilatildeo do conhecimento
humano que tem como objetivos a manipulaccedilatildeo e anaacutelise de imagens por computador visando
a extraccedilatildeo de informaccedilatildeo destas Os recursos disponibilizados pelo processamento de imagens
satildeo utilizados em vaacuterias atividades entre as quais estatildeo a medicina a roboacutetica e a meteorologia
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
42 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
311 Processamento de Imagens
No Processamento de Imagens podemos dividir o processamento em algumas etapas
A primeira delas eacute a aquisiccedilatildeo da imagem digital Para isso eacute necessaacuterio um sensor para
imageamento (Imagear eacute a capacidade que um sensor tem para discriminar numa aacuterea) que
pode ser uma cacircmera de TV monocromaacutetica ou colorida ou tambeacutem uma cacircmera de varredura
por linha que produz uma uacutenica linha de imagem por vez por exemplo Tatildeo importante quanto
o sensor eacute a capacidade de digitalizar o sinal produzido pelo mesmo
Depois de obtida a imagem digital o proacuteximo passo eacute o preacute-processamento da imagem
A funccedilatildeo chave no preacute-processamento eacute a melhoria da imagem de forma que as chances
de sucesso dos processos seguintes sejam maiores Por exemplo o preacute-processamento pode
envolver teacutecnicas para o realce de contrastes remoccedilatildeo de ruiacutedo e isolamento de regiotildees cuja
textura indique a probabilidade de informaccedilatildeo alfanumeacuterica
A proacutexima etapa eacute a segmentaccedilatildeo que divide uma imagem de entrada em vaacuterias partes
ou objetos constituintes Em geral a segmentaccedilatildeo automaacutetica eacute uma das tarefas mais difiacuteceis
no processamento de imagens digitais
O estaacutegio anterior produz uma saiacuteda constituiacuteda tipicamente por dados em forma de
pixels que correspondem tanto agrave fronteira de uma regiatildeo como a todos os pontos dentro
da mesma Eacute necessaacuterio converter esses dados para uma forma adequada ao processamento
computacional A primeira decisatildeo que precisa ser feita eacute se os dados devem ser representados
como fronteiras ou como regiotildees completas e tambeacutem deve ser especificado um meacutetodo para
descrever os dados de forma que as caracteriacutesticas de interesse sejam enfatizadas
O proacuteximo processo de descriccedilatildeo tambeacutem chamado seleccedilatildeo de caracteriacutesticas procura
extrair caracteriacutesticas baacutesicas para discriminaccedilatildeo entre classes de objetos ou que resultem em
alguma informaccedilatildeo quantitativa de interesse Quando se trata de reconhecimento de caracteres
descritores tais como buracos e concavidades satildeo caracteriacutesticas poderosas que auxiliam na
diferenciaccedilatildeo entre uma parte do alfabeto e outra
O uacuteltimo estaacutegio envolve reconhecimento e interpretaccedilatildeo Reconhecimento eacute o processo
que atribui um roacutetulo a um objeto baseado na informaccedilatildeo fornecida pelo seu descritor A
interpretaccedilatildeo envolve a atribuiccedilatildeo de significado a um conjunto de objetos reconhecidos
A Figura 9 mostra esquematicamente os passos fundamentais no processamento de
imagens
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
31 Segmentaccedilatildeo de Imagens 43
Figura 9 ndash Esquema dos passos fundamentais no processamento de imagens
Fonte lthttpsgooglGsJLvqgt
312 O Problema da Segmentaccedilatildeo de Imagens
Na aacuterea de detecccedilatildeo e reconhecimento de imagens natildeo basta simplesmente representar
uma imagem com diferentes cores ou graduaccedilotildees de cinza Tambeacutem eacute necessaacuterio identificar
regiotildees e estabelecer subdivisotildees na imagem em sua unidade baacutesica (pixel) para que possa ser
interpretada de acordo com uma finalidade especiacutefica A identificaccedilatildeo de regiotildees ou segmentos
(natildeo sobrepostos) na imagem eacute chamada de segmentaccedilatildeo
A segmentaccedilatildeo de imagens traz como resultado um conjunto de regiotildeesobjetos ou
contornos extraiacutedos da imagem Assim os pixels em uma determinada regiatildeo satildeo similares
em alguma caracteriacutestica ou propriedade computacional tais como cor intensidade textura
ou continuidade Em relaccedilatildeo agraves mesmas caracteriacutesticas regiotildees adjacentes devem possuir
diferenccedilas significativas entre umas e outras
Haacute uma certa dificuldade no processo de segmentaccedilatildeo de imagens nos computadores A
identificaccedilatildeo dos segmentos deve obedecer a algumas caracteriacutesticas Os pixels devem possuir
alguma propriedade em comum dentro da imagem Essa propriedade pode ser por exemplo
uma superfiacutecie que representa um osso dentro de uma radiografia uma peccedila sendo submetida
a um controle de qualidade ou um mapa ilustrando alguma caracteriacutestica de uma foto Dentre
as propriedades desejaacuteveis de uma imagem satildeo destacadas algumas a seguir
bull Homogeneidade da regiatildeo representada pelos pixels
bull Os segmentos satildeo regiotildees fechadas e devem ser delimitadas por bordas ou outros
segmentos
bull Cada pixel deve pertencer somente a uma regiatildeo natildeo havendo regiotildees adjacentes
com pixels em comum
bull Os segmentos com relaccedilatildeo a niacuteveis de cinza e textura devem ser uniformes e
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
44 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
homogecircneos
bull As regiotildees devem ser simples e natildeo devem apresentar buracos pequenos
bull Regiotildees adjacentes devem possuir diferenccedilas significativas
bull Os segmentos devem ter bordas precisas
As caracteriacutesticas mencionadas acima na praacutetica satildeo utoacutepicas por que superfiacutecies
homogecircneas satildeo geralmente cheias de furos e as bordas em geral satildeo irregulares Aleacutem disso
podem ocorrer a fusatildeo e perda de bordas nas regiotildees adjacentes Como regra geral a identificaccedilatildeo
de segmentos eacute especifica e tiacutepica para cada aplicaccedilatildeo Geralmente destaca-se a separaccedilatildeo da
regiatildeo de interesse buscando-se descontinuidade e similaridade nos diferentes tons da imagem
As descontinuidades satildeo representadas pelas mudanccedilas bruscas nos tons das cores como linhas
e bordas As similaridades baseiam-se nos limiares dos tons subdivisatildeo da imagem em regiotildees
homogecircneas e crescimento de regiotildees
313 Dificuldades Inerentes na Segmentaccedilatildeo de Imagens
Existem algumas dificuldades inerentes agrave segmentaccedilatildeo de imagens Antes que um
processo de segmentaccedilatildeo seja executado alguns fatores devem ser considerados Dentre eles
podemos destacar os seguintes
bull Segmentaccedilatildeo de forma autocircnoma em larga escala Quando a segmentaccedilatildeo de imagens
envolve processos automaacuteticos haacute uma grande necessidade de controlar o ambiente de onde
a imagem eacute retirada Ambientes bem controlados (grandes contrastes) tendem a facilitar a
interpretaccedilatildeo das imagens Ambientes externos dependentes do clima iluminaccedilatildeo e outros
fatores apresentam vaacuterias dificuldades
bull Controle da luminosidade Conforme a aplicaccedilatildeo envolvida a existecircncia de sombras
tende a dar uma falsa impressatildeo acerca do tamanho real da regiatildeo a ser segmentada
bull As bordas das regiotildees satildeo muitas vezes irregulares e imprecisas
bull A precisatildeo do resultado depende da qualidade da distinccedilatildeo entre os diferentes
elementos da imagem
bull Escolha da melhor estrateacutegia e adequaccedilatildeo agrave aplicaccedilatildeo que se deseja
Vaacuterios algoritmos e teacutecnicas de segmentaccedilatildeo de imagens foram desenvolvidos natildeo
havendo poreacutem uma soluccedilatildeo geral para este problema Muitas vezes para a resoluccedilatildeo de um
problema de segmentaccedilatildeo eacute necessaacuteria a combinaccedilatildeo das teacutecnicas para que ocorra a adaptaccedilatildeo
ao domiacutenio do problema
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28
32 Mineraccedilatildeo de Textos 45
314 Agrupamento na Segmentaccedilatildeo de Imagens
Quando se fala em anaacutelise de imagens o primeiro passo geralmente eacute a segmentaccedilatildeo
da imagem em subdivisotildees de suas partes constituintes ou objetos O quanto a imagem deve
ser subdividida depende unicamente do domiacutenio do problema a ser resolvido por exemplo uma
imagem obtida de um radar de tracircnsito provavelmente teraacute como objetivo a identificaccedilatildeo de
veiacuteculos sendo assim deve ser realizada uma segmentaccedilatildeo de objetos que tenham formato e
tamanho de um carro
Um dos meacutetodos de agrupamento desenvolvidos para resolver o problema da segmenta-
ccedilatildeo de imagens eacute o K-Means o algoritmo k-means eacute utilizado para segmentar imagens baseado
em seus atributos em k pedaccedilos Ele assume que os atributos dos pontos da imagem formam
um espaccedilo vetorial O objetivo do algoritmo eacute minimizar a variacircncia dos atributos dos pontos
que estatildeo dentro de um determinado segmento
Esse meacutetodo de agrupamento utilizado na Segmentaccedilatildeo de Imagens pode derivar varias
outras aplicaccedilotildees com por exemplo
bull Imagens Meacutedicas (Localizaccedilatildeo de tumores e outras patologias Medida de volume
de tecidos Cirurgia guiada por computador Diagnostico de doenccedilas Planos de tratamento
Estudo da estrutura anatocircmica
bull Sistemas de reconhecimento de faces
bull Sistemas de controle automaacutetico de trafego
bull Sistemas de visatildeo computacional
bull Localizaccedilatildeo de objetos em imagens de sateacutelite (estradas florestas entre outros)
32 Mineraccedilatildeo de Textos
O avanccedilo das tecnologias para aquisiccedilatildeo e armazenamento de dados tem permitido que
o volume de informaccedilatildeo gerado em formato digital aumente de forma significativa Cerca de
80 desses dados estatildeo em formato natildeo estruturado no qual uma parte significativa satildeo textos
(Kuechler (2007)) A organizaccedilatildeo inteligente dessas coleccedilotildees textuais eacute de grande interesse
para a maioria das instituiccedilotildees pois agiliza processos de busca e recuperaccedilatildeo da informaccedilatildeo
Nesse contexto a Mineraccedilatildeo de Textos permite a transformaccedilatildeo desse grande volume de dados
textuais natildeo estruturados em conhecimento uacutetil
Entre as diversas maneiras de se instanciar um processo de Mineraccedilatildeo de Textos o uso
de meacutetodos natildeo supervisionados para extraccedilatildeo e organizaccedilatildeo de conhecimento recebe grande
atenccedilatildeo na literatura uma vez que natildeo exigem conhecimento preacutevio a respeito das coleccedilotildees
textuais a serem exploradas Um processo de Mineraccedilatildeo de Textos para extraccedilatildeo e organizaccedilatildeo
natildeo supervisionada de conhecimento pode ser dividido em trecircs fases principais com eacute ilustrado
46 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
na Figura 10 Preacute-Processamento dos Documentos Extraccedilatildeo de Padrotildees com Agrupamento
de Textos e Avaliaccedilatildeo do Conhecimento
No Preacute-processamento dos Documentos os dados textuais satildeo padronizados e represen-
tados de forma estruturada e concisa em um formato adequado para extraccedilatildeo do conhecimento
Assim na extraccedilatildeo de padrotildees meacutetodo de agrupamento (K-Means) de textos descritos na
seccedilatildeo 2321 podem ser utilizados para a organizaccedilatildeo de coleccedilotildees textuais de maneira natildeo
supervisionada (Feldman e Sanger (2006)) Em tarefas de agrupamento o objetivo eacute organizar
um conjunto de documentos em grupos em que documentos de um mesmo grupo satildeo altamente
similares entre si mas dissimilares em relaccedilatildeo aos documentos de outros grupos Os meacutetodos
de agrupamento tambeacutem satildeo conhecidos como algoritmos de aprendizado por observaccedilatildeo ou
anaacutelise exploratoacuteria dos dados pois a organizaccedilatildeo obtida eacute realizada por observaccedilatildeo de regulari-
dades nos dados sem uso de conhecimento externo Por fim na Avaliaccedilatildeo do Conhecimento os
resultados obtidos satildeo avaliados de acordo com o contexto do problema bem como a novidade
e utilidade do conhecimento extraiacutedo
Ao final desse processo as coleccedilotildees textuais satildeo organizadas em grupos de documentos
Em especial busca-se uma organizaccedilatildeo hieraacuterquica da coleccedilatildeo na qual os documentos satildeo
organizados em grupos e subgrupos e cada grupo conteacutem documentos relacionados a um
mesmo tema Os grupos proacuteximos agrave raiz representam conhecimento mais geneacuterico enquanto
seus detalhamentos ou conhecimento mais especiacutefico satildeo representados pelos grupos de niacuteveis
mais baixos Dessa forma o usuaacuterio pode visualizar a informaccedilatildeo de interesse em diversos niacuteveis
de granularidade e explorar interativamente grandes coleccedilotildees de documentos Os resultados
obtidos por meio desse processo auxiliam diversas tarefas de organizaccedilatildeo da informaccedilatildeo textual
partindo-se da hipoacutetese que se um usuaacuterio estaacute interessado em um documento especiacutefico
pertencente a um grupo deve tambeacutem estar interessado em outros documentos desse grupo e
de seus subgrupos
32 Mineraccedilatildeo de Textos 47
Figura 10 ndash Fases para extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento
Fonte lthttpsgooglXxPKM9gt
Para a extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de informaccedilatildeo a partir de dados
textuais o diferencial estaacute na etapa de extraccedilatildeo de padrotildees na qual satildeo utilizados meacutetodos de
agrupamento de textos para organizar coleccedilotildees de documentos em grupos Em seguida satildeo
aplicadas algumas teacutecnicas de seleccedilatildeo de descritores para os agrupamentos formados ou seja
palavras e expressotildees que auxiliam a interpretaccedilatildeo dos grupos Apoacutes validaccedilatildeo dos resultados
o agrupamento hieraacuterquico e seus descritores podem ser utilizados como uma hierarquia de
toacutepicos para tarefas de anaacutelise exploratoacuteria dos textos aleacutem de apoiar sistemas de recuperaccedilatildeo
de informaccedilatildeo
321 Agrupamento na Mineraccedilatildeo de Textos
Com o objetivo de realizar a extraccedilatildeo de padrotildees apoacutes a representaccedilatildeo dos textos em
um formato estruturado utiliza-se meacutetodos de agrupamento de textos para obter a organizaccedilatildeo
dos documentos
O algoritmo k-means eacute o representante mais conhecido para agrupamento particional e
muito utilizado em coleccedilotildees textuais (Steinbach Karypis e Kumar (2000)) Jaacute no agrupamento
hieraacuterquico a maioria dos trabalhos relacionados com agrupamento hieraacuterquico na literatura
referenciam as estrateacutegias aglomerativas mostrando pouco interesse nas estrateacutegias divisivas
A possiacutevel causa eacute a complexidade das estrateacutegias divisivas que cresce exponencialmente em
48 Capiacutetulo 3 Aplicaccedilotildees de Agrupamento
relaccedilatildeo ao tamanho do conjunto de dados proibindo sua aplicaccedilatildeo em conjuntos de dados
grandes
Em um contexto no qual grande parte das informaccedilotildees estatildeo armazenadas na forma
textual faz-se necessaacuterio o desenvolvimento de teacutecnicas computacionais para a organizaccedilatildeo
destas bases e a exploraccedilatildeo do conhecimento nelas contido Para tal fim tarefas eficazes e
eficientes de organizaccedilatildeo do conhecimento textual podem ser aplicadas Dentre elas destacam-
se iniciativas para extraccedilatildeo e organizaccedilatildeo do conhecimento de maneira natildeo supervisionada
obtendo-se uma organizaccedilatildeo da coleccedilatildeo em grupos de documentos em temas e assuntos
similares Esta eacute a forma mais intuitiva de se estruturar o conhecimento para os usuaacuterios uma
vez que o agrupamento obtido fornece uma descriccedilatildeo sucinta e representativa do conhecimento
impliacutecito nos textos
49
4 Conclusatildeo
Este trabalho introduziu uma discussatildeo sobre agrupamento de dados e trecircs teacutecnicas
simples poreacutem importantes para introduzir muitos dos conceitos envolvidos no agrupamento
de dados Satildeo eles
bull K-means Esta eacute uma teacutecnica particional de agrupamento baseada em protoacutetipos que
tenta encontrar (K) nuacutemeros especificado pelo usuaacuterio e representa o nuacutemero de grupos que
satildeo representados pelos seus centroides
bull Agrupamento Hieraacuterquico Aglomerativo Esta abordagem de agrupamento se refere
a um conjunto de teacutecnicas de agrupamento intimamente relacionadas que produzem um
agrupamento hieraacuterquico iniciando com cada ponto como um grupo uacutenico e depois fundindo
repetidamente os dois grupos mais proacuteximos ateacute que reste um uacutenico grupo englobando tudo
Algumas destas teacutecnicas tecircm uma interpretaccedilatildeo natural em termos de um agrupamento baseado
em grafos enquanto que outras tecircm uma interpretaccedilatildeo em termos de uma abordagem baseada
em protoacutetipo
bull DBSCAN Este eacute um algoritmo de agrupamento baseado em densidade que produz
um agrupamento particional no qual o nuacutemero de grupos eacute determinado automaticamente
pelo algoritmo Pontos e regiotildees de densidade baixa satildeo classificadas como ruiacutedo e omitidas
assim o DBSCAN natildeo produz um agrupamento totalmente completo
A preferecircncia pelas teacutecnicas apresentadas agrupamento hieraacuterquico aglomerativo
K-means e DBSCAN se justifica pelo fato de serem bastante aceitos no meio acadecircmico
e cientiacutefico e frequentemente serem usados como padratildeo em agrupamento de dados em
relaccedilatildeo a outros algoritmos Estas teacutecnicas satildeo bastante usadas para o desenvolvimento de
aplicaccedilotildees em diversas aacutereas A discussatildeo gira em torno da definiccedilatildeo de agrupamento de dados
teacutecnicas de agrupamento e alguma das diversas aacutereas de aplicaccedilotildees como na segmentaccedilatildeo
de imagens que em visatildeo computacional se refere ao processo de dividir uma imagem digital
em muacuteltiplas regiotildees (conjunto de pixels) ou objetos com o objetivo de simplificar eou
mudar a representaccedilatildeo de uma imagem para facilitar a sua anaacutelise Segmentaccedilatildeo de imagens eacute
tipicamente usada para localizar objetos e formas (linhas curvas entre outros) em imagens
O resultado da segmentaccedilatildeo de imagens eacute um conjunto de regiotildeesobjetos ou um conjunto
de contornos extraiacutedos da imagem Como resultado cada um dos pixels em uma mesma
regiatildeo eacute similar com referecircncia a alguma caracteriacutestica ou propriedade computacional tais
como cor intensidade textura Regiotildees adjacentes devem possuir diferenccedilas significativas
com respeito a uma mesma caracteriacutestica Uma outra aacuterea de aplicaccedilatildeo de agrupamento de
dados eacute na mineraccedilatildeo de texto conhecida tambeacutem como mineraccedilatildeo de dados textuais e
semelhante agrave anaacutelise textual refere-se ao processo de obtenccedilatildeo de informaccedilotildees importantes
50 Capiacutetulo 4 Conclusatildeo
de um texto Informaccedilotildees importantes satildeo obtidas normalmente pela elaboraccedilatildeo de padrotildees
e tendecircncias Geralmente a mineraccedilatildeo de texto envolve o processo de estruturaccedilatildeo do texto
de entrada de derivaccedilatildeo de padrotildees dentro da estrutura de dados e por fim de avaliaccedilatildeo
e interpretaccedilatildeo do resultado Geralmente ldquoimportanterdquo em mineraccedilatildeo de texto refere-se a
algumas combinaccedilotildees de relevacircncia originalidade e interesse Tarefas tiacutepicas de mineraccedilatildeo de
texto incluem categorizaccedilatildeo e agrupamento de texto extraccedilatildeo de conceitoentidade entre
outros
A anaacutelise de texto envolve informaccedilotildees de recuperaccedilatildeo anaacutelise lexical a fim de estudar
a frequecircncia de distribuiccedilatildeo de palavras reconhecimento de padrotildees identificaccedilatildeoanotaccedilatildeo
extraccedilatildeo de informaccedilotildees teacutecnicas de mineraccedilatildeo de dados que incluem link e associaccedilatildeo de
anaacutelises visualizaccedilatildeo e analiacutetica preditiva O objetivo maior eacute transformar o texto em dados
para anaacutelise por meio da aplicaccedilatildeo do processamento de linguagem natural
Embora teacutecnicas de classificaccedilatildeo (ou categorizaccedilatildeo) e anaacutelise de cluster tenham um
resultado final similar com a divisatildeo de diferentes elementos em classes ou agrupamentos os
meacutetodos de agrupamento de dados satildeo mais poderosos e complexos uma vez que as categorias
ou agrupamentos natildeo satildeo previamente determinados
Quanto as limitaccedilotildees desse trabalho natildeo foram apresentadas outras teacutecnicas utilizadas
no agrupamento de dados dificuldades em encontrar referecircncias bibliograacuteficas e uma falta de
descriccedilotildees mais detalhadas sobre exemplos de aplicaccedilotildees
Como complemento do trabalho realizado e em continuidade ao estudo de agrupamento
de dados seria relevante abordar
bull Outros meacutetodos de agrupamento de dados em especial meacutetodos que utilizem teacutecnicas
fuzzy redes neurais ou algoritmos geneacuteticos
51
Referecircncias
BARBARA D An introduction to cluster analysis for data mining Retrieved November v 12p 2003 2000 Citado 4 vezes nas paacuteginas 24 28 29 e 30
DINIZ C A R NETO F L Data mining uma introduccedilatildeo [Sl] ABE 2000 Citado 2vezes nas paacuteginas 23 e 31
DUDA R O HART P E STORK D G Pattern classification 2nd Edition New Yorkp 55 2001 Citado na paacutegina 34
ESTER M et al Density-based spatial clustering of applications with noise In Int ConfKnowledge Discovery and Data Mining [Sl sn] 1996 v 240 Citado na paacutegina 36
EVERITT B S DUNN G Applied multivariate data analysis [Sl] Wiley Online Library2001 v 2 Citado na paacutegina 23
FACELI K Um framework para anaacutelise de agrupamento baseado na combinaccedilatildeo multi-objetivode algoritmos de agrupamento Tese (Doutorado) mdash Universidade de Satildeo Paulo 2006 Citadona paacutegina 23
FACELI K CARVALHO A SOUTO M de Anaacutelise de dados de expressatildeo gecircnica [Sl]2005 Citado na paacutegina 31
FAYYAD U PIATETSKY-SHAPIRO G SMYTH P From data mining to knowledgediscovery in databases AI magazine v 17 n 3 p 37 1996 Citado na paacutegina 23
FELDMAN R SANGER J Information extraction The Text Mining Handbook AdvancedApproaches in Analyzing Unstructured Data p 94ndash130 2006 Citado na paacutegina 46
GOLDSCHMIDT R PASSOS E Data mining um guia praacutetico conceitos teacutecnicasferramentas orientaccedilotildees e aplicaccedilotildees Rio de Janeiro Campus v 1 2005 Citado na paacutegina23
HANDL J KNOWLES J KELL D B Computational cluster validation in post-genomicdata analysis Bioinformatics Oxford University Press v 21 n 15 p 3201ndash3212 2005Citado na paacutegina 31
HARTIGAN P Algorithm as 217 Computation of the dip statistic to test for unimodalityJournal of the Royal Statistical Society Series C (Applied Statistics) JSTOR v 34 n 3 p320ndash325 1985 Citado na paacutegina 31
JAIN A K DUBES R C Algorithms for clustering data [Sl] Prentice-Hall Inc 1988Citado 6 vezes nas paacuteginas 23 24 25 28 30 e 31
JAIN A K MURTY M N FLYNN P J Data clustering a review ACM computingsurveys (CSUR) Acm v 31 n 3 p 264ndash323 1999 Citado 3 vezes nas paacuteginas 28 29 e 30
KAUFMAN L ROUSSEEUW P J Finding groups in data an introduction to clusteranalysis [Sl] John Wiley amp Sons 2009 v 344 Citado na paacutegina 23
52 Referecircncias
KOLOSSOSKI G Segmentaccedilatildeo de imagens e algoritmo k-means In [sn] 2007 p 2ndash8Disponiacutevel em lthttpsgooglGsJLvqgt Citado na paacutegina 40
KUECHLER W L Business applications of unstructured text Communications of the ACMACM v 50 n 10 p 86ndash93 2007 Citado na paacutegina 45
MACQUEEN J et al Some methods for classification and analysis of multivariate observationsIn OAKLAND CA USA Proceedings of the fifth Berkeley symposium on mathematicalstatistics and probability [Sl] 1967 v 1 n 14 p 281ndash297 Citado na paacutegina 34
MITCHELL T M et al Machine learning WCB [Sl] McGraw-Hill Boston MA 1997Citado na paacutegina 23
REZENDE S O MARCACINI R M MOURA M F O uso da mineraccedilatildeo de textospara extraccedilatildeo e organizaccedilatildeo natildeo supervisionada de conhecimento Revista de Sistemas deInformaccedilatildeo da FSMA n v 7 p 7ndash21 2011 Citado na paacutegina 40
STEINBACH M KARYPIS G KUMAR V A comparison of document clustering algorithmsIn KDD-2000 Text Mining Workshop [Sl sn] 2000 Citado na paacutegina 47
TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao datamining mineraccedilatildeo de dados[Sl] Ciecircncia Moderna 2009 Citado 4 vezes nas paacuteginas 27 33 34 e 39
XU R WUNSCH D C Clustering Hoboken [Sl] NJ Wiley 2009 Citado 2 vezes naspaacuteginas 25 e 28