geisa martins faustino um metodo baseado em minerac¸´ ao...

Geisa Martins Faustino

Um Metodo Baseado em Mineracao de Grafospara Segmentacao e Contagem de Clusters

de Maximos Locais em Imagens Digitais

Tese de Doutorado

Tese apresentada como requisito parcial para obtencaodo grau de Doutor pelo Programa de Posgraduacao emInformatica do Departamento de Informatica do CentroTecnico Cientfico da PUC-Rio

Orientador : Prof. Marcelo GattassCoOrientador: Prof. Carlos Jose Pereira de Lucena

Rio de JaneiroAbril de 2011

Geisa Martins Faustino

Um Metodo Baseado em Mineracao de Grafospara Segmentacao e Contagem de Clusters

de Maximos Locais em Imagens Digitais

Tese apresentada como requisito parcial para obtencaodo grau de Doutor pelo Programa de Posgraduacao emInformatica do Departamento de Informatica do CentroTecnico Cientfico da PUC-Rio. Aprovada pela ComissaoExaminadora abaixo assinada.

Prof. Marcelo GattassOrientador

Departamento de Informatica PUCRio

Prof. Carlos Jose Pereira de LucenaCoOrientador

Departamento de Informatica PUCRio

Prof. Waldemar CelesDepartamento de Informatica PUCRio

Prof. Alberto Barbosa RaposoDepartamento de Informatica PUCRio

Prof. Aristofanes Correa SilvaDepartamento de Engenharia de Eletricidade UFMA

Prof. Stevens Kastrup RehenUniversidade Federal do Rio de Janeiro UFRJ

Prof. Jose Eugenio LealCoordenador Setorial do

Centro Tecnico Cientfico PUCRio

Rio de Janeiro, 08 de Abril de 2011

Todos os direitos reservados. E proibida a reproducao total ouparcial do trabalho sem autorizacao da universidade, do autor edo orientador.

Geisa Martins FaustinoGraduou-se em Bacharel em Matematica pela Universidade doEstado do Rio de Janeiro no ano de 2003. Tornou-se mestre emMatematica com enfase em Computacao Grafica pelo IMPA -Instituto Nacional de Matematica Pura e Aplicada em 2005.

Ficha CatalograficaFaustino, Geisa M.

Um Metodo Baseado em Mineracao de Grafos paraSegmentacao e Contagem de Clusters de MaximosLocais em Imagens Digitais / Geisa Martins Faustino;orientador: Marcelo Gattass; coorientador: Carlos JosePereira de Lucena. Rio de Janeiro : PUCRio, Depar-tamento de Informatica, 2011.

v., 147 f: il. ; 29,7 cm

1. Tese (doutorado) - Pontifcia UniversidadeCatolica do Rio de Janeiro, Departamento de In-formatica.

Inclui referencias bibliograficas.

1. Informatica Tese. 2. Segmentacao e contagemde clusters de maximos locais. 3. Representacao deimagem baseada em grafo. 4. Mineracao de grafo. 5.Clusterizacao de grafo. I. Gattass, Marcelo. II. Lucena,Carlos J. P. de. III. Pontifcia Universidade Catolica doRio de Janeiro. Departamento de Informatica. IV. Ttulo.

CDD: 004

Agradecimentos

Agradeco primeiramente a Deus pelas oportunidades dadas a mim ao longode minha vida. Ele, que em sua infinita bondade colocou em meu caminho pessoasmaravilhosas, que nos momentos tumultuados - naturais no caminho - nao medeixaram cair em abatimento.

A minha famlia, especialmente a minha mae, por todo apoio, carinho,dedicacao, incentivo e paciencia, nao so durante o perodo do doutorado, mas emTODOS os momentos da minha vida.

Aos amigos que sempre estiveram presente, mesmo que de maneira virtual,me apoiando, incentivando e tambem me distraindo quando estava exausta de tantotrabalhar.

Ao meu namorado Joao Vitor, e aos amigos Myriam e Vitor pelo apoio,incentivo, paciencia, compreensao e carinho durante a etapa final deste perodo.

A todos aqueles que foram meus professores.Aos meus orientadores, Marcelo Gattass e Carlos J. P. de Lucena, pela

dedicacao, incentivo, crticas, suporte, ensinamentos e principalmente pelaseguranca na orientacao.

Ao professor e amigo Aristofanes C. Silva por ter confiado e acredi-tado em mim no incio e nos momentos mais difceis do doutorado. Pelasreunioes/discussoes, reais e virtuais (em sua maioria), as vezes curtas, mas todassempre muito proveitosas. Pelo incentivo, crticas, ensinamentos, pela seguranca naorientacao e tambem paciencia.

Ao professor Stevens Rehen e sua equipe, pelo suporte biomedico e imagensfornecidas.

Aos meus chefes no Tecgraf, Leonardo e Ivan, pela compreensao e apoio.A amiga e professora Maria Emlia Loureto (lenguage instructor) pelas aulas

de ingles, fundamentais para o melhoramento das minhas habilidades de leitura,escrita e conversacao na lngua inglesa e aprovacao no exame de proficienciade lngua estrangeira garantindo a minha continuidade no doutorado. Agradecotambem pelas traducoes, correcoes, apoio, incentivo e carinho.

A Carolina Alfaro, pelas correcoes e dicas em meus artigos.A CAPES e CNPq que me proporcionaram bolsa de fomento, fundamental

para a realizacao deste trabalho.

Muito obrigado a todos.

Resumo

Faustino, Geisa M.; Gattass, Marcelo; Lucena, Carlos J. P. de. UmMetodo Baseado em Mineracao de Grafos para Segmentacao eContagem de Clusters de Maximos Locais em Imagens Digitais.Rio de Janeiro, 2011. 147p. Tese de Doutorado Departamento deInformatica, Pontifcia Universidade Catolica do Rio de Janeiro.

Uma imagem monocromatica pode ser interpretada como uma superfcie to-pologica e desta forma objetos de interesse podem aparecer como picos (sharpmountains), domos (smooth hills) ou vales (V- or U-shaped). Um domo geral-mente contem varios pontos de maximo locais em seu topo. Logo, fica bem ca-racterizado por um cluster de maximos locais. Segmentar individualmente ob-jetos em imagens onde estes aparecem parcialmente sobrepostos ou fortementeagrupados e um problema que metodos classicos de segmentacao podem nao so-lucionar adequadamente. Outro problema e contar objetos semelhantes em ima-gens previamente segmentadas. Esta tarefa, quando executada manualmente, de-vido ao cansaco visual exige um grande esforco humano. E tediosa, demorada,alem de gerar resultados subjetivos. O presente trabalho propoe um novo metodopara segmentacao e contagem de clusters de maximos locais em uma imagem di-gital atraves de uma abordagem baseada em grafos. Utilizando a informacao deluminancia, a imagem e representada por um grafo de adjacencias e um algo-ritmo de mineracao e utilizado para segmentar os clusters. Por fim, de acordocom caractersticas da imagem, um algoritmo de clusterizacao pode ser incor-porado ao processo para melhorar o resultado final. A contagem dos objetose um resultado direto do algoritmo de mineracao e de clusterizacao, quandoeste ultimo e aplicado. O metodo proposto e tolerante a variacoes no tamanhoe forma dos objetos e e facilmente parametrizado para lidar com diferentes gru-pos de imagens provenientes de objetos distintos. Testes executados em umabase de dados com 262 imagens, composta de fotos de objetos (grupo 1) e decelulas tronco embrionarias em imagens de microscopia fluorescente (grupo 2),atestam a eficiencia e qualidade do metodo desenvolvido no que diz respeito asegmentacao e a contagem. Os resultados gerados para as imagens do grupo 1 fo-ram validados pela autora e os do grupo 2 pelos biologos do Instituto de CienciasBiomedicas da Universidade Federal do Rio de Janeiro. Para estas imagens fo-ram obtidas uma F-measuare media de 85, 33% e 90, 88%, respectivamente. Porfim, um estudo comparativo com o algoritmo classico de watershed foi realizado.Este alcancou uma F-measuare media de 74, 02% e 78, 28% para os grupos 1 e2, respectivamente, contra 85, 33% e 91, 60% obtido pelo metodo proposto.Palavraschave

Segmentacao e contagem de clusters de maximos locais. Representacao deimagem baseada em grafo. Mineracao de grafo. Clusterizacao de grafo.

Abstract

Faustino, Geisa M.; Gattass, Marcelo; Lucena, Carlos J. P. de. . Riode Janeiro, 2011. 147p. PhD Thesis Department of Informatica,Pontifcia Universidade Catolica do Rio de Janeiro.

A grayscale image can be viewed as a topological surface and this way, objectsof interests may appear as peaks (sharp mountains), domes (smooth hills) orvalleys (V- or U-shaped). Generally, the dome top presents more than one localmaximum. Thus, it can be characterized by a local maximum cluster. Segmentingobjects individually in images where they appear partially or totally fused isa problem which frequently may not be solved by a watershed segmentationor a basic morphological processing of images. Other issue is counting similarobjects in images segmented beforehand. Counting them manually is a tediousand time-consuming task, and its subjective nature can lead to a wide variationin the results. This work presents a new method for segmenting and countingof local maximum clusters in digital images through a graph-based approach.Using the luminance information, the image is represented by a region adjacencygraph and a graph-mining algorithm is applied to segment the clusters. Finally,according to image characteristics, a graph-clustering algorithm can be addedto the process to improve the final result. The object counting step is a directresult from the mining algorithm and the clustering algorithm, when the latteris applied. The proposed method is tolerant to variations in object size andshape and can easily be parameterized to handle different image groups resultingfrom distinct objects. Tests made on a database with 262 images, composed ofphotographs of objects (group 1) and embryonic stem cells under fluorescencemicroscopy images (group 2), attest the effectiveness and quality of the proposedmethod as for segmentation and counting purpose. The images form group 1processed by our method were checked by the author and those ones from group2 by the specialists from the Institute of Biomedical Sciences at UFRJ. For theseimages we obtained an average F-measure of 85.33% and 90.88%, respectively.Finally, a comparative study with the widely used watershed algorithm was done.The watershed achieved an average F-measure of 74.02% e 78.28% for groups 1and 2, respectively, against 85.33% e 91.60% obtained by our method.

KeywordsSegmentation and counting of local maximum clusters. Graph-based image

representation. Graph mining. Graph clustering.

Sumario

1 Introducao 151.1 Contribuicoes 181.2 Trabalhos Relacionados 191.3 Organizacao do Trabalho 22

2 Metodo Proposto 232.1 Pre-processamento 252.2 Particao do Histograma 262.3 Deteccao das Componentes Conectadas 282.4 Construcao do Grafo 292.5 Processo de Mineracao do Grafo 312.6 Algoritmo para Clusterizacao do Grafo 36

3 Resultados Experimentais e Discussao 413.1 Experimento 1: segmentacao e contagem de objetos em ima-

gens reais 423.2 Experimento 2: deteccao e contagem de celulas tronco em-

brionarias em imagem de microscopia fluorescente 49

4 Conclusao 624.1 Trabalhos Futuros 65

Referencias Bibliograficas 72

Artigos Publicados 79

A Artigo publicado nos anais do 6th International Symposium onBiomedical Imaging 80

B Artigo publicado nos anais da 17th International Conference onSystems, Signals and Image Processing 85

C Artigo a publicado em Integrated Computer-Aided Engineering 90

D Artigo submetido para Computer Vision and Image Understanding 107

Lista de figuras

1.1 Exemplo de imagens nao triviais de serem segmentadas. 151.2 Exemplo de objetos que sao representados por CML quando

a imagem e interpretada como uma superfcie topologica: aesquerda a imagem capturada e a direita a visualizacao 3Dcorrespondente. 17

2.1 Visao geral do metodo proposto: cada passo e representadopor uma caixa. Os tens em cinza (clusterizacao do grafo esegmentacao do fundo) representam os passos opcionais. 23

2.2 Curvas de nvel e particao do histograma para a imagemapresentada na Figura 1.2(a) para dois valores de : (a) e(b) apresentam os resultados para = 64 e; (c) e (d) para = 32, respectivamente. 25

2.3 Resultado do filtro Gaussiano: (a) imagem de entrada; (b) e(c) informacao de luminancia e superfcie topologica corre-spondente; (d) e (e) resultado do filtro Gaussiano sobre a im-agem e sobre a superfcie, respectivamente. 26

2.4 Resultado da etapa de segmentacao do fundo e exemplosde quando ela deve ou nao ser aplicada: (a) resultado destaetapa para imagem apresentada na Figura 2.3(a); (b) e (c)imagem de microscopia fluorescente e respectivo resultadoda segmentacao do fundo; e (d) imagem de micangas, a qualnao possui fundo. 26

2.5 Particao do histograma e imagens binarias correspondentespara a imagem apresentada na Figura 2.3(a). 27

2.6 Imagens binarias representando cada intervalo da particaodo histograma apresentado na Figuras 2.2(b) e 2.2(d),respectivamente. As setas na cor vermelha indicam asmudancas decorrentes de valores diferentes para o tamanhodo intervalo 28

2.7 Componentes conectadas com seus respectivos identifi-cadores a uma parte da matriz M para a imagem apresen-tada na Figura 1.2(a). 29

2.8 Matriz M e representacao da imagem baseada em grafo paraa imagem da Figura 1.2(a): (a) pequena parte da matriz M ;(b) componentes detectadas com respectivos identificadores;e (c) RAG correspondente. 30

2.9 Componentes conectadas e representacao da imagembaseada em grafo para a imagem da Figura 2.3(a). 30

2.10 Exemplo de representacao da imagem baseada em grafopara uma imagem natural. 31

2.11 Resultado obtido com o algoritmo de mineracao para aimagem da Figura 2.3(a): (a) imagem de entrada; (b)representacao da imagem baseada em grafo; (c) caminhossimples encontrados; e (d) resultado do algoritmo sobre a im-agem. 35

2.12 Resultado do algoritmo de mineracao de grafo: (a) imagemde entrada; (b) regioes conectadas; (c) objetos identifica-dos; (d) caminhos simples encontrados durante a etapa demineracao do grafo; e (e) representacao da imagem de en-trada baseada em grafo. 36

2.13 Resultado obtido com o algoritmo de mineracao e resultadosdas etapas 1 e 2 do algoritmo de clusterizacao. 39

2.14 Resultados das etapas 3, 4 e 5 do algoritmo de clusterizacao. 40

3.1 Fotos de objetos reais dividas em sete grupos: (a) fotos demicangas (contas); (b) fotos de perolas sinteticas; de (c) a(g) fotos de micangas (contas); de (h) a (l) fotos de perolassinteticas; (m) e (n) fotos de doces; (o) fotos de pedra; de (p)a (r) fotos de graos de feijao; (s) fotos de graos de cafe e; (t)fotos de uvas. 43

3.2 Resultados obtidos com o metodo desenvolvido e o algoritmode watershed em imagens de objetos reais. 47

3.3 Resultados obtidos com o metodo desenvolvido e o algoritmode watershed em imagens de objetos reais. 48

3.4 Comparacao entre o metodo desenvolvido e o algoritmo dewatershed para imagens de objetos reais. Note que nossometodo obteve melhores resultados para a maioria das ima-gens. 48

3.5 Exemplo de imagens de celulas tronco embrionarias: (a)EB cryosection com aumento de 40; (b) e (c) imagensde migracao celular de corpos embrioides com aumento de40 e 20, respectivamente; (d) e (e) imagens de coloniasde celulas mES sobre MEF com aumento de 40 e 20,respectivamente; e (f) neuroesferas. 52

3.6 Resultados obtidos com o metodo proposto: (a) e (b)mostram imagens de EB cryosections com um nvel de rudoaceitavel (grupo 1) e presenca de forte rudo (grupo 2), re-spectivamente; (c) e (d) apresentam imagens de migracao deEB com aumento de 40 e 20 (grupos 3 e 4), respectiva-mente; (e) e (f) mostram imagens de colonias de mES sobreMEF com aumento de 20 e 10 (grupos 5 e 6), respectiva-mente; e (g) apresenta uma imagem de neuroesfera. 55

3.7 Embryonic Stem Cell Counter software (ESCC), aplicativogratuito desenvolvido para detectar e contar automatica-mente celulas tronco embrionarias em imagens de micro-scopia fluorescente. 57

3.8 Resultados obtidos com o nosso metodo e com o algoritmode watershed: (a) e (d) comparam os resultados para ima-gens de EB cryosection; (b) e (e) para imagens de migracaode EB com aumento de 40; e (c) e (f) para imagens demigracao de EB com aumento de 20.Os pontos em ver-melho e em azul assinalam as celulas que foram detectadas. 58

3.9 Resultados obtidos com metodo proposto e com o algoritmode watershed: (a) e (d) para imagens de colonias de celulasmES sobre MEF com aumento de 20; (b) e (e) para ima-gens de colonias de mES sobre MEF com aumento de 10;e (c) e (f) para imagens de neuroesferas. Os pontos em ver-melho e em azul assinalam as celulas que foram detectadas. 59

3.10 Comparacao entre o metodo proposto e a algoritmo de wa-tershed no que diz respeito a imagens de celulas tronco em-brionarias. Todas as imagens foram analisadas e avaliadasvisualmente pela autora baseada em exemplos de contagemcorreta fornecidos pelos biologos do Instituto de CienciasBiomedicas da UFRJ. 61

4.1 Resultados preliminares obtidos com o metodo proposto paraimagens do tipo IKONOS [40]. Os pontos na cor vermelhaindicam as arvores segmentadas. 67

4.2 Resultados preliminares obtidos com o metodo apresentadoneste trabalho para imagens bidimensionais de electrophore-sis gels [79]. Os pontos na cor vermelha indicam os spotssegmentadas. 67

4.3 Resultados preliminares obtidos com o metodo apresentadoneste trabalho para imagens de solitary odontogenic kerato-cyst lining [46]. Os pontos vermelhos representam os cistossegmentados. 68

4.4 Resultados preliminares obtidos com o metodo apresentadoneste trabalho para imagens de micrografias eletronicas mus-cular [77]. Os pontos vermelhos indicam os filamentos demiosina detectados. 68

4.5 Exemplo de imagens de celulas tronco coloridascom tresmarcadores celulares diferentes: (a) marcador DAPI: marcatodas as celulas; (b) - III tubulina - marcador especfico paraneuronios; e (c) GFAP - marcador glial. 69

4.6 Estrutura interna do olho humano. 704.7 Resultados preliminares para deteccao da primeira imagem

de Purkinje. Note que alem do brilho do olho, o metodo detec-tou outros pontos brilhantes, os quais devem ser eliminadosem um passo adicional. 70

Lista de tabelas

3.1 Resultados obtidos e respectivos parametros utilizados paraas imagens de cada grupo. Valores em branco indicam queo respectivo passo nao foi aplicado. A primeira coluna (G.)indica o Grupo de imagens e a ultima linha apresenta a mediaaritmetica para precision, recall e F-measure obtidos pelometodo proposto e pelo algoritmo de watershed. 45

3.2 Base de dados dividida em 7 grupos de imagens e os respec-tivos valores utilizados para os parametros de entrada: valorpara o raio do filtro Gaussiano (), o parametro (x) utilizadopara calcular o threshold, tamanho do intervalo () e metadedo valor medio do diametro da celula (). A segunda colunamostra a quantidade de imagens para em um dos grupos. 53

3.3 Resultados obtidos com metodo proposto para imagens decelulas tronco embrionarias. Todos os numeros sao valoresmedios calculado sobre as imagens de cada grupo. A ultimacoluna mostra quando o sexto passo (clusterizacao do grafo)do algoritmo foi utilizado. A ultima linha apresenta o valormedio para precision, recall e F-measure sobre todas asimagens. 54

3.4 Conjuntos representando os grupos principais. A primeiracoluna indica os conjuntos e a segunda os respectivos gruposque eles representam. A terceira coluna apresenta o numeroe o tipo de imagem. 57

3.5 Comparacao entre metodo proposto, com e sem o passo 6(clusterizacao do grafo), e o algoritmo de watershed [52]. Aprimeira coluna indica os conjuntos de imagens e as demaisapresentam os resultados obtidos pelo metodo proposto epelo watershed. Todos os numeros sao valores medios obti-dos sobre todas as imagens do respectivo conjunto. 58

Lista de Artigos Publicados

A seguir, uma lista com os artigos submetidos/publicados, os quaissao resultados diretos deste trabalho e apresentada. Estes artigos podemser encontrados nos apendices desta tese.

Artigos publicados em anais de conferencia:1. Atomatic Embryonic Stem Cell Detection and Counting Method in

Fluorescence Microscopy Image, publicado nos anais da 6th In-ternational Symposium on Biomedical Imaging (ISBI09), Boston Massachusetts, E.U.A., ISSN:1945-7928, DOI:10.1109, volume1, paginas 799-802, Junho de 2009.

2. Improved Automatic ES Cells Counting Method in FluorescenceMicroscopy Images, publicado nos anais da 17th InternationalConference on Systems, Signals and Image Processing (IWS-SIP2010), volume 1, paginas 296-299, Rio de Janeiro, Brasil,Marco de 2010.

Os artigos acima podem ser encontrados nos Apendices A e B, re-spectivamente.

Artigos submetidos/publicados em Journals:1. A Graph-mining algorithm for automatic detection and count-

ing of embryonic stem cells in fluorescence microscopy image,artigo publicado em Integrated Computer-Aided Engineering,ISSN: 1069-2509(Print) 1875-8835(Online), DOI:10.3233/ICA-2011-0359, volume 18, numero 1, paginas 91-106, Janeiro de2011.

2. Detecting Domes in Digital Images Using a Graph-miningAprroach, submetido para Computer Vision and Image Under-standing, Marco de 2011.

Os artigos acima podem ser encontrados nos Apendices C e D,respectivamente.

Lista de Abreviaturas e Smbolos

desvio-padrao da imagem

diametro medio dos objetos da imagem

valor medio da imagem

tamanho do intervalo da particao do histograma da im-agem

t threshold global simples

x constante definida experimentalmente

CML clusters de maximo locais

EB embryoid body - corpo embrioide

EB cryosection celulas tronco provenientes de secoes de corte em cor-pos embrioides

ES cell embryonic stem cell - celula tronco embrionaria

MEF murine embryonic fibroblasts - fibroblastos embrionariosmurinos

mES murine embryonic stem cells - celulas tronco em-brionarias murinas

RAG Region Adjacency Graph Grafo de adjacencia

Talvez eu venha a envelhecer rapido demais.Mas lutarei para que cada dia tenha valido apena. Talvez eu sofra inumeras desilusoes nodecorrer de minha vida. Mas farei que elas per-cam a importancia diante dos gestos de amorque encontrei. Talvez eu nao tenha forcas pararealizar todos os meus ideais. Mas jamais ireime considerar um derrotado. Talvez um dia osol deixe de brilhar. Mas entao irei me ban-har na chuva. Talvez um dia eu sofra algumainjustica. Mas jamais irei assumir o papel devtima. Talvez eu seja enganado inumeras vezes.Mas nao deixarei de acreditar que em algum lu-gar alguem merece a minha confianca. Talvez al-gumas pessoas queiram o meu mal. Mas irei con-tinuar plantando a semente da fraternidade poronde passar. Talvez eu fique triste ao concluirque nao consigo seguir o ritmo da musica. Masentao, farei com que a musica siga o compassodos meus passos. Talvez eu nao aprenda todas aslicoes necessarias. Mas terei a consciencia queos verdadeiros ensinamentos ja estao gravadosem minha alma. Talvez eu me deprima por naoser capaz de saber a letra daquela musica. Masficarei feliz com as outras capacidades que pos-suo. Talvez eu nao tenha motivos para grandescomemoracoes. Mas nao deixarei de me alegrarcom as pequenas conquistas. Talvez a vontadede abandonar tudo torne-se a minha compan-heira. Mas ao inves de fugir, irei correr atras doque almejo. Talvez eu nao seja exatamente quemgostaria de ser. Mas passarei a admirar quemsou. Porque no final saberei que, mesmo comincontaveis duvidas, eu sou capaz de construiruma vida melhor. E se ainda nao me convencidisso, e porque como diz aquele ditado: Aindanao chegou o fim. Porque no final nao haveranenhum talvez e sim a certeza de que a minhavida valeu a pena e eu fiz o melhor que podia.

Aristoteles, .

1Introducao

A segmentacao de imagens nao triviais, como aquelas apresentadas na Figura1.1, e considerada uma das tarefas mais difceis em processamento de imagens esua acuracia e fator determinante para o eventual sucesso ou fracasso de procedi-mentos de analise computadorizados [38]. E uma etapa fundamental e geralmente eutilizada como ponto de partida na maioria das tarefas que envolvem processamentoe analise de imagens, tais como extracao, contagem e reconhecimento de objetos,classificacao de imagens e visao computacional, dentre outros.

(a)Foto de graos de feijao (b)Foto de micangas (c)Imagem de celulas troncoembrionarias obtida atraves demicroscopio fluorescente

Figura 1.1: Exemplo de imagens nao triviais de serem segmentadas.

Embora avancos na area de processamento de imagens e visao computacionalvem possibilitando a segmentacao, reconhecimento e deteccao automatica de variostipos de objetos, em se tratando de imagens onde os objetos sao identicos ou muitoproximos em relacao a cor ou textura e aparecem parcialmente sobrepostos oufortemente agrupados, segmenta-los individualmente e um problema que metodosclassicos de segmentacao, tais como watershed ou processos morfologicos basicos,podem nao solucionar adequadamente.

Contar objetos em imagens e uma tarefa necessaria em diversas aplicacoes.Contagem de pessoas nas estradas [11, 15], deteccao e contagem de estruturasintracelulares [61], contagem de celulas [73] e de partculas biologicas em imagensde microscopia [13] sao alguns exemplos. De modo geral, a contagem de objetossemelhantes e um procedimento fundamental para o entendimento de cenas ondevarios objetos estao presentes. No entanto, conta-los manualmente em imagensimpressas ou digitais e uma tarefa tediosa, demorada e que, devido ao cansaco

Captulo 1. Introducao 16

visual, exige um grande esforco humano. Alem disso, estas dificuldades podem seragravadas em situacoes onde as imagens nao tenham um alto contraste, apresentemuma grande quantidade de objetos sobrepostos em uma unica cena e os objetosde interesse sofram variacoes no seu tamanho e morfologia. No mais, o caratersubjetivo da contagem manual pode levar a uma grande variacao nos resultados.Na pratica, contar grandes quantidades de objetos manualmente leva a um altodesvio padrao, obtendo-se resultados de baixa qualidade. Portanto, faz-se necessarioo desenvolvimento de um metodo para segmentacao e contagem, capaz de lidaradequadamente com imagens onde os objetos aparecem parcialmente ou totalmentesobrepostos, ou ainda fortemente agrupados.

Uma imagem monocromatica pode ser interpretada como uma superfcietopologica onde a altitude de cada ponto e igual ao valor do pixel correspondente.Desta forma, objetos de interesse podem aparecer como picos (sharp mountains),domos (smooth hills) ou vales (V- or U-shaped). Os domos presentes nesta su-perfcie sao resultados de regioes da imagem que possuem, geralmente, um pontocentral brilhante e esta luminancia diminui gradualmente deste ponto em direcao aborda do objeto. A Figura 1.2 mostra tres imagens de objetos que aparecem comodomo e a respectiva visualizacao 3D, representado a superfcie. Nesta figura pode-se observar que cada objeto na imagem corresponde a um domo na superfcie.Entretanto, devido a fatores como a presenca de rudo, iluminacao inadequada eate mesmo caractersticas intrnsecas dos objetos fotografados, um objeto na im-agem pode apresentar mais de um ponto brilhante. Como consequencia, o domocorrespondente pode conter varios pontos de maximo local em seu topo, conformeilustrado na Figura 1.2(b). Nesta figura, embora o domo posicionado a esquerda dasuperfcie represente um unico objeto, ele apresenta dois pontos de maximo local.Portanto, um domo fica caracterizado por um cluster de maximos locais (CLM).

Existe um grande numero de objetos, nos mais variados tipos de imagens,tais como celulas em imagens de microscopia fluorescente [74], palmeiras deoleo em imagens IKONOS [40], microcalcificacoes em imagens de mamografiadigital [39], filamentos de miosina no musculo em imagens de eletromicrografias[77] e, spots em imagens biologicas [71] e em imagens de 2-DE gel [79], dentreoutros que sao representados por domos, isto e por CML, quando a imagem einterpretada como uma superfcie topologica. Alem disso, objetos que possuamuma superfcie concava e suave, quando fotografados com uma fonte de iluminacaopontual tambem sao representados por esta estrutura. Logo, segmentar e contarestes objetos pode ser reduzido a tarefa de segmentar e contar os CML presentesna superfcie que representa a imagem.

O presente trabalho visa desenvolver um novo metodo para segmentacao econtagem de objetos em imagens digitais. Com o intuito de aplica-lo a objetos di-


(a)Imagem sintetica. (b)Celulas tronco embrionarias em imagem demicroscopia fluorescente.

(c)Imagens de doces.

Figura 1.2: Exemplo de objetos que sao representados por CML quando a imageme interpretada como uma superfcie topologica: a esquerda a imagem capturada e adireita a visualizacao 3D correspondente.

ferentes, este metodo e parametrizavel, tolerante a variacoes no tamanho e formados objetos e e capaz de lidar com imagens onde os objetos aparecem sobre-postos ou fortemente agrupados. Assim, com este metodo, e possvel reduzir osesforcos, eliminar a subjetividade dos resultados, simplificar e agilizar a tarefa desegmentacao e contagem necessaria em varias areas de pesquisa.

Na metodologia apresentado nesta tese a imagem e considerada como umasuperfcie topologica e os objetos de interesse sao representados por CML. Atravesda informacao de luminancia e gerada uma representacao da imagem baseada emgrafo. O CML e caracterizado por um subgrafo e um algoritmo de mineracaoe utilizado para detectar os clusters. Por fim, de acordo com caractersticas daimagem, um algoritmo de clusterizacao pode ser incorporado ao processo paramelhorar o resultado final. A contagem dos objetos e um resultado direto doalgoritmo de mineracao e de clusterizacao, quando este ultimo e aplicado.

Resultados numericos de testes executados em dois grupos de imagens: grupo1 formado por fotos de objetos e grupo 2 formado por imagens de celulas troncoembrionarias obtidas atraves de um microscopio fluorescente, atestam a eficienciae qualidade do metodo proposto no que diz respeito a segmentacao e tambema contagem. Os resultados gerados para as imagens do primeiro grupo foramvalidados pela autora e os resultados para o segundo grupo de imagens foramvalidados pelos biologos do Instituto de Ciencias Biomedicas da Universidadedo Estado do Rio de Janeiro (UFRJ). Por ultimo, um estudo comparativo com oalgoritmo de watershed por imersao proposto por Meyer [52] por foi realizado.


1.1Contribuicoes

Como principais contribuicoes deste trabalho podemos citar:

Desenvolvimento de um novo metodo para segmentacao e contagem declusters de maximos locais em uma imagem digital. Vantagens deste metodoincluem:

1. E facilmente parametrizavel e tolerante a variacoes no tamanho e formados objetos de um mesmo grupo de imagens. Logo, pode ser aplicadoem varios tipos de imagens diferentes provenientes de objetos distintos.

2. Embora nao seja automatico, o metodo proposto pode ser automatizadopara grupos especficos de imagens. Ou seja, uma vez determinadosos valores para os parametros de entrada ( e ) nao e necessaria aintervencao do usuario em etapa alguma do processo.

3. As tarefas de segmentacao e contagem nao sao dependentes. Isto e, epossvel segmentar a imagem e nao totalizar o numero de objetos.

4. E um metodo onde as fases sao independentes. A etapa de particaodo histograma, a representacao da imagem baseada em grafo e osalgoritmos de mineracao e clusterizacao de grafos podem ser usadosde modo independente.

Assim, tambem podemos citar como contribuicao:

Desenvolvimento de um algoritmo de mineracao de grafos para detectarcaminhos simples onde os nos estao em ordem crescente.

Desenvolvimento de um algoritmo de clusterizacao de grafoshierarquico para mesclar os caminhos simples que estejam a umadistancia menor quer um limiar pre-definido.

Desenvolvimento de uma ferramenta computacional para segmentacaoe contagem automatica de celulas tronco embrionarias em imagensde microscopia fluorescente, a qual vem sendo utilizada com sucessopelo biologos do Instituto de Ciencias Biomedicas da UniversidadeFederal do Rio de Janeiro (UFRJ) desde de 2009 e pode ser adquiridagratuitamente na Internet atraves do endereco http://escc.inf.puc-rio.br/.

http://escc.inf.puc-rio.br/http://escc.inf.puc-rio.br/


1.2Trabalhos Relacionados

Existe uma vasta literatura sobre segmentacao de objetos, datando mais de30 anos, com aplicacoes em diversas areas alem de visao computacional. Nestasecao, vamos discutir brevemente alguns dos trabalhos mais relevantes para nossaabordagem.

Metodos muito elementares como reconstrucao de imagens em escala decinza [69, 51], decomposicao morfologica [64], e thresholding [65], sao simplese rapidos de se implementar. Alem disso, dada a variedade de funcoes que desem-penham, podem ser facilmente combinados para atingir a segmentacao completa daimagem [5]. Embora definidos, em sua maioria, para imagens binarias e em escalade cinza, podem ser estendidos para imagens coloridas. No entanto, estes metodostem de ser ajustados manualmente para obter um bom desempenho para tipos es-pecficos de objetos, tendo de ser reconstrudo para objetos diferentes. Sao poucorobustos a variacoes na forma, tamanho e intensidade dos objetos bem como nailuminacao da imagem. Alem disso, nao sao aptos a segmentar objetos individuaisem imagens onde eles aparecem sobrepostos ou fortemente agrupados. De modogeral, estes metodos sao utilizados como um pre-processamento para uma analisemais complexa.

O metodo classico de watershed [52] considera a imagem como um relevoe pode ser interpretado como um processo de inundacao. A partir de pontos es-pecficos, chamados de marcadores (markers), a agua sobe gradualmente e o pro-cesso de alagamento continua ate que toda a imagem esteja segmentada ou o nvelde agua chegue a uma dada altura. Pode ser facilmente implementado e e execu-tado em tempo linear. No entanto, a transformada de watershed e sensvel a rudose geralmente produz uma super-segmentacao como resultado. De modo geral, suarobustez esta diretamente ligada a eficiencia da etapa de pre-processamento, ondeos pontos iniciais (markers) sao detectados. Alem disso, este metodo nao e capazde detectar os limites entre objetos que possuam baixo contraste, o que e ine-rente ao processo de imersao [9]. A fim de reduzir as deficiencias do watershed,diversas tecnicas de pre-processamento tem sido propostas [53, 62, 49]. Entre-tanto, a sub-segmentacao ainda e um problema que nao foi tratado pela maioriados pesquisadores.

Crescimento de regioes e um procedimento que agrupa pixels ou sub-regioesem regioes maiores de acordo com um criterio pre-definido [38]. Seus pontos fortessao sua rapida execucao, facilidade de implementacao e flexibilidade. Entretanto,estes metodos necessitam que os pontos iniciais (sementes), a partir dos quaiscrescem as regioes, sejam previamente selecionados. Esta tarefa e geralmente feitapelo usuario. Alem disso, estes metodos sao sensveis a rudos na imagem e uma


vez que segmentam somente regioes homogeneas geralmente produzem uma super-segmentacao como resultado. Shih and Cheng [35] propuseram um metodo decrescimento de regioes para segmentar imagens coloridas onde os pontos iniciaissao escolhidos automaticamente. No entanto, a falta de informacao a respeito dalocalizacao e proximidade dos objetos, requer um metodo robusto e automaticopara a deteccao das sementes.

Contornos ativos, tambem conhecidos como snakes ou modelos deformaveis[66, 56, 22], aparecem de varias maneiras diferentes na literatura. Uma revisaocompleta pode ser encontrada em [12, 14]. De modo geral, estes metodos naorealizam uma segmentacao completa da imagem. Na verdade, eles sao destinados aisolar objetos de interesse, de modo direto, rotulando todos os pixels. Seu principalponto fraco e a exigencia de um ajuste delicado dos parametros que tem influenciamais significativa. Normalmente nao ha regras para escolha dos valores e este ajustee feito de modo manual atraves de tentativas e erros. Alem disso, estes metodosdevem ser previamente inicializados de modo similar a tarefa de encontrar os pontosiniciais para o algoritmo de watershed.

Metodos de level sets [7, 47, 48] surgiram como uma ferramenta poderosapara segmentar imagens. Sao muito bons em segmentar formas que mudam detopologia como, por exemplo, formas que se dividem em duas ou contenhamburacos. No entanto, quando os objetos estao fortemente agrupados e sao muitoproximos em relacao a cor ou textura, estes metodos nao sao capazes de segmenta-los individualmente. Alem disso, o alto custo computacional pode ser um pontofraco. Em particular, a avaliacao da curvatura local requer o calculo de muitasderivadas parciais - de primeira e segunda ordem - da funcao de imersao para cadaponto a cada iteracao.

Redes neurais vem sendo utilizadas com sucesso em processamento deimagens [6] e metodos baseados em redes neurais para a tarefa especfica desegmentacao e reconhecimento de padroes vem sendo desenvolvidos [25, 58]. Noentanto, estes metodos exigem um conhecimento previo sobre a forma do objeto.Alem disso, variacoes no tamanho, forma e textura dos objetos tornam os metodosbaseados em aprendizagem muito sensveis ao conjunto de treinamento, resultandoem perda de robustez. Logo, como o proposito desta pesquisa e desenvolver ummetodo para segmentacao e contagem de CML que possa ser aplicado em diferen-tes grupos de imagens, um metodo baseado em redes neurais restringiria bastanteos tipos de imagens alem de exigir um ajuste/treinamento delicado para cada umdeles.

Grafos sao flexveis e uma representacao poderosa que vem sendo aplicadacom sucesso em visao computacional, reconhecimento de padroes e areas afins.Na area de reconhecimento de padroes, os grafos vem se mostrando eficazes para


efeito de representacao [59]. Como consequencia, tecnicas que utilizam grafos pararepresentacao e manipulacao de dados tem sido amplamente investigadas na areade processamento e analise de imagens [16, 19, 17]. Graph cuts e uma abordagempopular utilizada em segmentacao de imagens [44, 45]. De modo geral, a imageme modelada como um grafo ponderado e nao direcionado, o qual sera particionadode acordo com um criterio definido. Cada particao de nos do grafo representa umelemento da imagem. Estes metodos podem ser computacionalmente eficientes eproduzem bons resultados para imagens exibindo um unico objeto com texturaregular. Por outro lado, em imagens onde os objetos estao agregados ou sobrepostose sao muito proximos em relacao a cor e textura, esta tecnica nao e capaz desegmenta-los individualmente, separando apenas o aglomerado de objetos do fundoda imagem.

Como ultimo trabalho relacionado podemos citar o metodo desenvolvidopor Restif [61]. Em sua tese foi proposto um metodo de segmentacao para ima-gens de microscopia fluorescente, projetado para lidar com nucleos e sondas cro-mossomicas. A etapa de segmentacao de nucleos utiliza um modelo parametricodo histograma da imagem. Baseado nas caractersticas morfologicas das sondascromossomicas Restif desenvolveu um algoritmo de deteccao de domos para seg-menta-las. Em seu trabalho, um domo e definido como uma regiao de tamanho fixoconstruda ao redor de apenas um ponto de maximo. Uma mascara de tamanho 5x5e centrada em cada ponto de maximo da imagem e a regiao e classificada como umdomo ou rudo. Regioes com mais de dois pontos de maximos locais sao consider-adas rudo. Embora bastante eficiente e robusto este metodo nao pode ser aplicadode forma direta para segmentar objetos com forma e tamanhos variados.

O presente trabalho propoe um metodo para segmentacao e contagem de CMLem imagens digitais. Ao contrario da definicao apresentada por Restif [61], nestetrabalho o objeto de interesse e caracterizado por um CML. Atraves da informacaode lumiancia uma representacao da imagem baseada em grafo e construda e umalgoritmo de mineracao e utilizado para segmentar esta estrutura. Por fim, de acordocom caractersticas da imagem, um algoritmo de clusterizacao pode ser incorporadoao processo melhorando o resultado final e evitando super-segmentacao, resultadoque ocorre com frequencia em metodos como o watershed [52] e crescimento porregioes [38, 35]. Em contraste com metodos baseados em redes neurais [25, 58],a metodologia apresentada nao utiliza qualquer informacao previa a respeito damorfologia dos objetos e ao contrario dos metodos de crescimento por regiao econtornos ativos [12, 14], nao necessita que pontos iniciais sejam previamenteselecionados. Diferentemente de metodos muito elementares [69, 51, 64, 65, 5],level sets [7, 47, 48] e daqueles que utilizam a tecnica de graph-cuts [44, 45], ometodo proposto e tolerante a variacoes no tamanho e forma dos objetos e e capaz de


segmentar individualmente objetos similares em relacao a cor e textura, sobrepostosou fortemente agrupados tais como aqueles mostrados na Figura 1.1. Alem disso,em contraste com os contornos ativos que necessitam de um ajuste delicado dosparametros, o metodo proposto e facilmente parametrizado para lidar com gruposde imagens diferentes provenientes de objetos distintos.

1.3Organizacao do Trabalho

O restante desta tese esta organizado conforme descrito a seguir.O Captulo 2 apresenta o metodo proposto. Este captulo inicia-se com uma

visao geral do metodo, o qual e composto de seis passos: cinco obrigatorios (pre-processamento, particao do histograma, deteccao das componentes conectadas emineracao do grafo) e um passo opcional (clusterizacao do grafo) especfico paracasos em que o objeto de interesse possui mais de um ponto brilhante. Em seguidaas Secoes 2.1, 2.2, 2.3, 2.5 e 2.6 descrevem cada um dos passos em detalhes.

O Captulo 3 apresenta e discute os resultados experimentais. Para avaliara qualidade e eficiencia do metodo proposto, foram feitos testes em dois gruposdistintos: o primeiro formado por fotos de objetos e o segundo formado por imagensde celulas tronco embrionarias obtidas atraves de um microscopio fluorescente. Osresultados para cada grupo sao apresentados separadamente nas Sessoes 3.1 e 3.2,respectivamente. Este captulo tambem apresenta um estudo comparativo com oalgoritmo de watershed proposto por Meyer [52]. Com o intuito de contextualizar oproblema de contagem de celulas tronco em imagens de microscopia, e apresentadona Secao 3.2 uma breve descricao do que sao celulas tronco e sua importancia, oporque e necessario conta-las bem como alguns trabalhos relacionados.

Finalmente, o Captulo 4 apresenta um pequeno resumo, as conclusoes tiradasdeste trabalho bem como algumas sugestoes de trabalhos futuros, principalmenteno que diz respeito a aplicacao do metodo proposto em outros tipos de imagens.Os Apendices de A a D apresentam os artigos submetidos/publicados, os quais saoresultados direto desta tese.

2Metodo Proposto

Este captulo apresenta o metodo proposto para segmentacao e contagem declusters de maximos locais (CML) em uma imagem digital. Este metodo pode serdividido em duas grandes etapas: a etapa de segmentacao e a etapa de contagem.

Na etapa de segmentacao, atraves da informacao de luminancia umarepresentacao da imagem baseada em grafo e construda. O CML e definido comoum subgrafo e um algoritmo de mineracao e utilizado para encontrar os clustersno grafo que representa a imagem. Em situacoes onde o objeto de interesse apre-senta varios pontos brilhantes que possuam alturas muito diferentes, um algoritmode clusterizacao de grafos pode ser incorporado ao processo para agrupar estes pon-tos, melhorando o resultado final. A etapa de contagem dos objetos e um resultadodireto do algoritmo de mineracao e de clusterizacao, quando este ultimo e aplicado.

O metodo como um todo e composto de seis passos: cinco passos obrigatorios(aplicacao do filtro Gaussiano na etapa de pre-processamento, particao do his-tograma, deteccao de componentes conectadas, construcao do grafo e mineracaodo grafo) e um passo opcional (clusterizacao do grafo) para lidar com o caso devarios pontos brilhantes. A Figura 2.1 fornece uma visao geral do metodo proposto.

(a)

Figura 2.1: Visao geral do metodo proposto: cada passo e representado por umacaixa. Os tens em cinza (clusterizacao do grafo e segmentacao do fundo) represen-tam os passos opcionais.

No primeiro passo (pre-processamento) e aplicado um filtro Gaussiano paradiminuir o rudo e se necessario o plano principal da imagem (objetos) e sepa-rado do fundo. No segundo passo, o eixo horizontal do histograma da imagem e

Captulo 2. Metodo Proposto 24

particionado em intervalos de tamanho fixo. Em seguida, no terceiro passo, as com-ponentes conectadas sao detectadas e no passo seguinte um grafo de adjacencia, oqual representa a imagem, e construdo. Finalmente, no quinto passo, um processode mineracao de grafos e aplicado para encontrar os CML. Se necessario, um sextopasso (clusterizacao do grafo) pode ser adicionado ao processo.

Para facilitar o entendimento do metodo proposto sao necessarias algumasdefinicoes, as quais sao apresentadas a seguir.

Seja I : Z2 [0, 255] uma funcao que representa uma imagem emtons de cinza. Esta imagem pode ser visualizada geometricamente como o graficoG(I) da funcao I , G(I) = {(x, y, z); (x, y) e z = I(x, y)}, considerando osvalores de intensidade como a altura z = I(x, y) em cada ponto (x, y) do domnio[8]. Este fato e ilustrado na Figura 1.2. Esta interpretacao geometrica permite umavisao mais intuitiva de certos aspectos da imagem.

Neste trabalho, uma curva de nvel de I em z = c e definida como o conjuntoLc = {(x, y) ; (c 1) I(x, y) < c} para um numero inteiro positivo fixoe c {1, 2, 3, . . . , 256/}. Grandes valores para correspondem a poucas curvasde nvel e vice-versa. As Figuras 2.2(a) e 2.2(c) apresentam exemplos de curvas denvel para valores de = 64 e = 32, respectivamente. O grafico 3D mostradonesta figura corresponde a imagem exibida na Figura 1.2(a). Os planos coloridosrepresentam as curvas de nvel e os numeros a esquerda do eixo z correspondemao valor de c. Como descrito anteriormente, o topo de um CML pode contervarios pontos de maximos locais. Assim, ao tracar estas curvas de nvel, os pontosdo domnio que possuem uma diferenca de altura inferior a sao agrupados emclusters.

Um modo equivalente de se obter os conjuntos Lc acima e dividir o eixohorizontal do histograma da imagem em intervalos de tamanho e agrupar os pixelsde acordo com sua luminancia, conforme ilustrado nas Figuras 2.2(b) e 2.2(d).Estas figuras mostram o histograma da imagem apresentada na Figura 1.2(a) eos respectivos intervalos para valores de = 64 e = 32. Cada intervalo dohistograma corresponde a uma classe de luminancia e os numeros de cada intervaloequivalem ao nvel da curva que ele representa.

As proximas secoes deste captulo apresentam cada passo do metodo propostoem detalhes.


(a) (b)

(c) (d)

Figura 2.2: Curvas de nvel e particao do histograma para a imagem apresentada naFigura 1.2(a) para dois valores de : (a) e (b) apresentam os resultados para = 64e; (c) e (d) para = 32, respectivamente.

2.1Pre-processamento

O passo de pre-processamento e composto por duas etapas: aplicacao de umfiltro Gaussiano para reduzir o rudo e, se necessario, a segmentacao do fundo ondeo plano principal de imagem (objetos) e separado do fundo atraves de um thresholdglobal simples.

O objetivo da aplicacao do filtro Gaussiano e reduzir o numero de falsos picossem borrar ou fundir objetos (CML) diferentes em um. Quando a imagem apresentaobjetos com mais de um ponto brilhante, esta etapa raramente os mescla, conformeilustrado na Figura 2.3(e). Estes picos extras serao tratados pela ultima etapa doalgoritmo. A Figura 2.3(a) apresenta a imagem de entrada e a imagem no cantosuperior esquerdo destaca o fundo nao uniforme. A Figura 2.3(b) mostra a mesmaimagem em tons de cinza (informacao de luminancia) e a Figura 2.3(c) apresenta ografico 3D correspondente. As Figuras 2.3(d) e 2.3(e) mostram o resultado obtidoapos a aplicacao do filtro Gaussiano na imagem e na superfcie, respectivamente.

A segmentacao do fundo e opcional. Esta etapa e, geralmente, aplicadaquando a imagem possui fundo nao uniforme, como as imagens de microscopiafluorescente (Figura 2.4(b)) por exemplo. De modo geral, as imagens sao capturadasem um ambiente controlado e, portanto, o plano principal da imagem (objetos) podeser separado do fundo da imagem atraves de um threshold global simples t = +x,onde e o valor medio da imagem, e o desvio-padrao da imagem, e x e umaconstante definida experimentalmente. A parte final desta etapa consiste em zerar


(a) (b) (c) (d) (e)

Figura 2.3: Resultado do filtro Gaussiano: (a) imagem de entrada; (b) e (c)informacao de luminancia e superfcie topologica correspondente; (d) e (e) resul-tado do filtro Gaussiano sobre a imagem e sobre a superfcie, respectivamente.

os pixels que possuem valor de luminancia menor que t.A Figura 2.4(a) mostra o resultado da etapa de segmentacao de fundo para a

imagem da Figura 2.3(a). As Figuras 2.4(b) e 2.4(d) exemplificam quando a etapa desegmentacao do fundo deve, ou nao, ser aplicada. A imagem apresentada na Figura2.4(b) possui um fundo nao uniforme. Nesta situacao, o plano principal da imagemdeve ser separado do fundo da imagem. O resultado obtido e apresentado na Figura2.4(c). Por outro lado, a imagem da Figura 2.4(d) nao possui fundo. Logo, para estetipo de imagem a etapa de segmentacao nao deve ser aplicada.

(a) (b) (c) (d)

Figura 2.4: Resultado da etapa de segmentacao do fundo e exemplos de quandoela deve ou nao ser aplicada: (a) resultado desta etapa para imagem apresentada naFigura 2.3(a); (b) e (c) imagem de microscopia fluorescente e respectivo resultadoda segmentacao do fundo; e (d) imagem de micangas, a qual nao possui fundo.

2.2Particao do Histograma

O segundo passo do metodo proposto consiste basicamente em particionar oeixo horizontal do histograma da imagem em intervalos de tamanho fixo e agruparos pixels de acordo com o seu valor de luminancia. Cada intervalo da particaodefine uma classe de luminancia. Como consequencia desta particao, os CML saodecompostos em regioes, as quais pertencem a classes diferentes de acordo com suaintensidade.

A variavel recebe valores inteiros positivos divisores de 256 e valorestpicos para sao 8, 16 e 32. Valores muito pequenos para , tais como 1, 2, ou


4, geralmente produzem super-segmentacao como resultado. Como estes valoressao muito pequenos, os pontos de maximo nao sao agrupados nas classes deluminancia e praticamente todos os pontos de maximo local sao segmentados.Como consequencia, o mesmo objeto de interesse e segmentado em varios pedacose contado mais de uma vez. Alem disso, o metodo pode se tornar extremamentelento, pois o grafo que representa a imagem se torna muito grande e denso. Por outrolado, valores muito grandes para como, por exemplo, 64 ou 128, de modo geralimpedem que objetos sobrepostos ou fortemente agrupados sejam segmentadosindividualmente uma vez que pontos com alturas bem diferentes sao agrupados nomesmo intervalo.

Assim, ajustando o tamanho do intervalo de modo adequado, e possveldetectar objetos que tenham mais de um ponto brilhante, ou seja, mais de um pontode maximo local e tambem aqueles que estejam muito proximos ou ate mesmosobrepostos.

Cada intervalo [a, b) da particao e representado por uma imagem binaria ondeos pixels pretos correspondem aqueles cujo valor de luminancia pertencente a [a, b).Como consequencia desta representacao, os CML sao decompostos em compo-nentes conectadas, as quais pertencem a imagens binarias distintas de acordo comsua intensidade. A Figura 2.5 apresenta a particao do histograma e as respectivasimagens binarias para a imagem exibida na Figura 2.3(a). As Figuras 2.6(a) e 2.6(b)mostram as imagens binarias correspondentes a particao do histograma apresentadanas Figuras 2.2(b) e 2.2(d), respectivamente. Os numeros no canto superior direitode cada imagem binaria corresponde ao numero do intervalo da particao que estaimagem representa. Nestas figuras, o histograma da imagem foi particionado em in-tervalos de tamanho = 64 e = 32. Estes valores de sao apenas para propositosde ilustracao. Os reais valores para o tamanho do intervalo da particao e menorcomo mostrado no decorrer deste trabalho.

(a)Histograma da imagemparticionado em intervalos detamanho = 64

(b)Imagens binarias representado cada um dos intervalosda particao

Figura 2.5: Particao do histograma e imagens binarias correspondentes para aimagem apresentada na Figura 2.3(a).

Na Figura 2.6(a) pode-se observar que os CML que estao muito proximos


foram, incorretamente, detectados como um so. Isto acontece quando valoresgrandes para sao utilizados em imagens onde os objetos estao sobrepostos oufortemente agrupados. No entanto, ao se diminuir o tamanho do intervalo para = 32 (Figura 2.6(b)) estes CML sao detectados corretamente. Logo, quantomais sobrepostos ou fortemente agrupados estiverem os objetos, menor deve sero tamanho () do intervalo. Ou seja, o valor de varia de acordo com as carac-tersticas da imagem.

(a) (b)

Figura 2.6: Imagens binarias representando cada intervalo da particao do histogramaapresentado na Figuras 2.2(b) e 2.2(d), respectivamente. As setas na cor vermelhaindicam as mudancas decorrentes de valores diferentes para o tamanho do intervalo

2.3Deteccao das Componentes Conectadas

Apos a particao do histograma, o proximo passo e dividir o plano principalda imagem em regioes 8-conectadas que pertencam a mesma classe de luminancia,ou seja, a mesma imagem binaria. Uma vizinhanca 4-conectada tambem poderia tersido utilizada, no entanto, aumentaria o tamanho do grafo de modo consideravel.

Para detectar as componentes, as imagens binarias sao percorridas em ordemdecrescente de luminancia, isto e, a partir da imagem que contem os pixels maisclaros, a qual representa o intervalo [256 , 256), ate aquela que contem ospixels mais escuros representando o intervalo [0, ). Em cada uma dessas imagense aplicado o algoritmo apresentado em [3], projetado para encontrar componentesconectadas em imagens binarias. A medida que as componentes sao detectas, elaspassam a ser identificadas com numeros naturais consecutivos, tais que regioes commaior luminancia recebem numeros menores. Esta ordem numerica e importantena etapa de mineracao do grafo. Ao adicionar esta condicao a definicao classica decaminho simples [23] um CML fica caracterizado por um subgrafo conforme seramostrado na Secao 2.5. A Figura 2.7(a) apresenta as componentes detectadas emcada imagem binaria e seus respectivos identificadores, apresentados na cor cinza,para a imagem da Figura 2.3(a).

O resultado final da etapa de deteccao das componentes conectadas e umamatriz M com as mesmas dimensoes da imagem de entrada, onde cada entradaM(i, j) da matriz contem o identificador da componente que o pixel p(i, j) per-


tence. Ou seja, M(i, j) = k p(i, j) Ck, 1 k R, onde p(i, j) eum pixel da imagem e R e o numero total de componentes detectadas. A Figura2.7(b) mostra uma pequena parte da matriz M , a qual corresponde a parte da im-agem destacada em vermelho. Esta mesma regiao da imagem e destaca da mesmaforma nas imagens binarias exibidas na Figura 2.7(a). Uma vez criada a matriz M ,o proximo passo e construir a representacao da imagem baseada em grafo conformedescrito a seguir.

(a)Componentes detectadas para cada imagem binaria eseus respectivos identificadores (numeros na cor cinza).

(b)Uma parte da matriz M , a qual corres-ponde a parte da imagem destacada emvermelho.

Figura 2.7: Componentes conectadas com seus respectivos identificadores a umaparte da matriz M para a imagem apresentada na Figura 1.2(a).

2.4Construcao do Grafo

Um grafo G e um par de conjuntos G = (V,E), onde V representa o conjuntode vertices (ou nos) e E contem as arestas (ou linhas) do grafo [76]. Um grafo deadjacencia (region adjacency graph RAG) e uma estrutura de dados que forneceuma visao espacial da imagem. Este tipo de grafo consiste em associar um verticea cada regiao da imagem e uma aresta a cada par de regioes adjacentes [60].

O objetivo final deste passo e construir um RAG baseado na matriz M . Cadavertice vi V representa uma regiao (componente conectada) da imagem e seundice i corresponde diretamente ao identificador da regiao que ele representa. Porexemplo, o vertice v3 no grafo representa a componente conectada que possui oidentificador de numero 3. As arestas em E conectam pares de regioes adjacentes.Com o intuito de reduzir o numero de arestas no grafo, uma vizinhanca 4 4 foiutilizada, como descrito na definicao a seguir:

Definicao 2.1 (Componentes Adjacentes) Duas componentes Ci e Cj sao adja-centes se existir pelo menos um par de pixels pi Ci e pj Cj , tais que pi e pj saovizinhos 4 4.

O grafo de adjacencia G e construdo varrendo-se a matriz M de cimapara baixo e da esquerda para a direita. Para cada elemento m(i, j) M sao


verificados o vizinho superior m(i + 1, j) e o da esquerda m(i, j 1). Se pelomenos o valor em um deles for diferente do valor em m(i, j) entao estes pixelspertencem a componentes diferentes. Logo, de acordo com a Definicao 2.1 acima,estas componentes sao adjacentes e portanto deve existir uma aresta em G ligandoos vertices correspondentes.

A Figura 2.8 mostra uma pequena parte da matriz M (Figura 2.8(a)), ascomponentes conectadas com seus respectivos identificadores (Figura 2.8(b)), osquais correspondem diretamente ao ndice do vertice que a representa, e o RAGque representa esta imagem (Figura 2.8(c)). Nesta figura pode-se observar que ascomponentes 5, 10, 15 e 18 sao adjacentes e como consequencia os vertices v5, v10,v15 e v18 aparecem conectados no grafo.

(a) (b) (c)

Figura 2.8: Matriz M e representacao da imagem baseada em grafo para a imagemda Figura 1.2(a): (a) pequena parte da matriz M ; (b) componentes detectadas comrespectivos identificadores; e (c) RAG correspondente.

A Figura 2.9 apresenta as componentes detectadas e o respectivo grafo deadjacencia para a imagem da Figura 2.3(a). Exemplos de representacao da imagembaseada em grafo apresentada neste trabalho para imagens naturais sao apresentadosna Figuras 2.10 e 2.12.

(a)Componentes detectadas e respectivosidentificadores

(b)Grafo de adjacencia correspondente

Figura 2.9: Componentes conectadas e representacao da imagem baseada em grafopara a imagem da Figura 2.3(a).


Nos grafos que representam a imagem como, por exemplo, aqueles mostradosnas Figuras 2.9(b), 2.10 e 2.12 tem-se que os vertices com ndices menores,isto e aqueles que correspondem as regioes mais brilhantes, estao localizados naextremidade do grafo. Tomando como centro do grafo o vertice de valor maximo,pode-se observar tambem que estes grafos se tornam mais densos a medida que secaminha em direcao ao seu centro. Esta caracterstica deve-se ao fato dos verticescom ndices maiores, de modo geral, corresponderem a regioes vizinhas a variasoutras regioes. Alem disso G e um grafo nao direcionado, simples e que nao contemvertices isolados uma vez que todos os vertices estao conectados, pelo menos,ao vertice que representa o fundo da imagem e/ou aquele que representa a maiorcomponente conectada.

(a)Imagem de microscopia fluo-rescente.

(b)Grafo de adjacencia correspondente para = 8.

Figura 2.10: Exemplo de representacao da imagem baseada em grafo para umaimagem natural.

2.5Processo de Mineracao do Grafo

A mineracao de grafos tem como objetivo encontrar padroes (subgrafos) deinteresse que estejam imersos em um unico grafo ou em uma colecao de grafos.Subgrafos de interesse incluem subgrafos frequentes, de um tipo especial comocompletos ou bi-partidos, e ainda qualquer subgrafo que represente um padraorelevante para aplicacao [20, 10].

O metodo proposto nesta tese tem como objetivo segmentar e contar CML emuma imagem digital. Desta forma, para esta aplicacao em particular, o subgrafo deinteresse e aquele capaz de representar um CML em G. Como as imagens utilizadas


neste trabalho geralmente contem varios objetos que sao representados por CML,este subgrafo alem de representar um padrao relevante e tambem um subgrafofrequente, uma vez que aparece varias vezes no grafo que representa a imagem.

A tarefa de mineracao de grafos pode ser classificada como transaction graph-mining ou single graph-mining. Em se tratando de transaction graph-mining, a basede dados a ser minerada compreende uma colecao de grafos pequenos (transactions)e o objetivo e descobrir subgrafos recorrentes dentro da base de dados. Ja em singlegraph-mining, a entrada para a tarefa de mineracao e um unico grafo, geralmentegrande, e o objetivo e descobrir um tipo de subgrafo frequente que ocorre dentro dografo. Mais detalhes sobre mineracao de grafo podem ser encontrados em [41].

O processo de mineracao de grafos descrito neste trabalho adota um algoritmodo tipo single graph-mining, uma vez que o objetivo e encontrar um subgrafoespecfico - aquele que caracteriza um CML - dentro de um unico grafo, o qualrepresenta a imagem de entrada.

Na etapa de particao do histograma um CML e decomposto em componentesadjacentes, as quais correspondem a uma sequencia de vertices conectados. Alemdisso, uma componente que pertenca a um CML pode ser adjacente, no maximo,a outras duas componentes. Desta forma, esta sequencia contem somente verticescom grau um ou dois. Na Secao 2.3 ficou estabelecido que quanto maior a lu-minancia de uma regiao menor e o numero do seu identificador, o qual correspondediretamente ao ndice do vertice que a representa. Assim, esta sequencia de verticesdeve estar em ordem crescente. Logo, um CML em G fica caracterizado como umcaminho simples, isto e uma sequencia de vertices tal que de cada um dos verticesexiste uma aresta para o proximo vertice da sequencia [76], cujos vertices estao emordem crescente.

De maneira formal, um subgrafo S de G que representa um CML e definidocomo:

Definicao 2.2 (CML como um subgrafo) Um CML em um grafo G e represen-tado por um subgrafo (caminho simples) S que satisfaz:

1. os vertices de S sao todos distintos;

2. se S contem mais de um vertice, entao de cada um deles existe uma aresta

para o proximo vertice da sequencia;

3. cada vertice de S tem, no maximo, grau dois;

4. os ndices dos vertices devem estar em ordem crescente.

Assim, um CML em G e identificado por uma sequencia de vertices S =v0, v1, . . . , vk1, vk, onde as arestas nao estao explicitamente representadas dadoque todos os vertices sao distintos e portanto todas as arestas sao tambem distintas.


Para encontrar os CML presentes em G, foi desenvolvido o processo demineracao de grafo apresentado no Algoritmo 1. Dado que em um grafo tpico,como aquele mostrado nas Figuras 2.12 e 2.10, geralmente os CML (caminhossimples) aparecem na extremidade do grafo, o processo de mineracao desenvolvidoe baseado em busca em largura (breadth-first search BFS) [37]. A entrada e umgrafo finito G = (V,E) e a sada e um conjunto L = {S1, . . . , Sk} onde cadaS S representa um caminho simples. Todos os vertices de G sao inicializadoscomo pertencente a nenhum caminho e como nao visitado. Partindo do vertice v0,o conjunto V e percorrido iterativamente e somente os vertices com grau menordo que tres (dG(v) < 3) sao avaliados, pois de acordo com a Definicao 2.2um subgrafo que representa um CML possui vertices com grau maximo 2. Estesvertices sao classificados como um novo caminho simples ou como parte de algumcaminho detectado anteriormente. Os vertices com grau um e dois sao avaliados porprocedimentos distintos como descrito a seguir.

Algorithm 11: function GRAPHMINING(G = (V,E))2: S = {}3: Set all nodes in G as not visited4: for i 1, |V | do5: Let vi V be the node associated with the ith6: connected component detected.7: if vi has degree 1 then8: EVALUATENODE1(S, vi)9: end if

10: if vi has degree 2 then11: EVALUATENODE2(S, vi)12: end if13: Set vi as visited14: end for15: return S16: end function

O Algoritmo 2 e responsavel por avaliar e classificar os vertices que temum unico vizinho (dG(v) = 1). Sendo G um grafo conexo, estes vertices estaolocalizados na extremidade do grafo. Assim, um vertice de grau 1 e classificadocomo um novo caminho simples se: (a) o seu vizinho ainda nao tiver sido visitado(avaliado) ou (b) se o seu vizinho nao pertencer a caminho simples algum. Casocontrario, o vertice corrente e adicionado ao mesmo caminho simples que seuvizinho pertence. Ao final da avaliacao, os vertices sao definidos como visitados.

Os vertices com grau dois (dG(v) = 2) sao avaliados pelo Algoritmo 3.Para estes vertices tem-se tres possibilidades: (1) ambos os vizinhos estao definidoscomo visitados; (2) somente um vizinho esta definido como visitado e; (3) ambosos vizinhos estao definidos como nao visitados. A seguir, o procedimento para cada


Algorithm 21: procedure EVALUATENODE1(S, v)2: Let v be the neighbor of v3: if v is set as visited and s S | v s then4: s = s {v}5: else6: s = {v}7: S = S s8: end if9: end procedure

uma dessas possibilidades e apresentado. Ao final da avaliacao, os vertices saodefinidos como visitados.

Ambos os vizinhos estao definidos como visitados Se pelo menos um dosvizinhos pertencer a algum caminho simples, entao o vertice corrente correspondea uma regiao que pertence ao mesmo CML que este caminho representa. Logo, overtice corrente e adicionado a este caminho simples (linhas 4-6 do Algoritmo 3).Por outro lado, se os vertices vizinhos pertencem a caminhos diferentes, entao umaregiao da imagem que e adjacente a dois CML distintos foi encontrada. Logo, overtice corrente nao pode ser adicionado a caminho algum.

Apenas um vizinho esta definido como visitado Sendo V avaliado iterativa-mente e em ordem crescente, se o vertice vizinho pertencer a algum caminho sim-ples, entao o vertice corrente corresponde a uma regiao que pertence ao mesmoCML que este caminho representa. Logo, o vertice corrente e adicionado a estecaminho simples (linhas 8-10 do Algoritmo 3). Caso contrario, como o outro verticevizinho esta definido como nao visitado, um novo CML foi encontrado e assim overtice corrente torna-se um novo caminho simples.

Ambos os vizinhos estao definidos como nao visitados Quando ambosos vizinhos estao definidos como nao visitados, significa que um novo CML foiencontrado. Logo, o vertice corrente torna-se um novo caminho simples (linhas12-14 do Algoritmo 3). De modo geral, a iluminacao da imagem nao e uniformee, como consequencia, objetos embora identicos podem aparecer com intensidadesdiferentes. Como resultado, os CML que representam estes objetos podem naoconter pontos tao altos quantos os dos demais CML e assim, aparecem distante daextremidade do grafo.

As Figuras 2.11, 2.12 e 2.13(a) apresentam os resultados obtidos com algo-ritmo de mineracao. Na Figura 2.11, as regioes em vermelho corresponde aos CML


Algorithm 31: procedure EVALUATENODE2(S, v)2: Let v and v be the neighbors of v3: if v and v are set as visited then4: if s S | v s and s S, v / s or5: s S | v s and s S, v / s or6: s S | v, v s then7: s = s {v}8: end if9: else if v is set as visited and s S | v s or

10: v is set as visited and s S | v s then11: s = s {v}12: else13: s = {v}14: S = S s15: end if16: end procedure

encontrados. A tabela apresentada junto com a Figura 2.12(d) mostra os caminhossimples encontrados no grafo exibido na Figura 2.12(e), o qual representa a imagemapresentada na Figura 2.12(a). Para a construcao deste grafo foi utilizado intervalosde tamanho = 32 e os vertices em cor cinza representam os caminhos simples en-contrados. A Figura 2.12(b) mostra as componentes conectadas representando cadaobjeto detectado. Nesta figura, os numeros em cor azul correspondem ao menorndice dentre os vertices que compoe o caminho (subgrafo) que forma esta regiao.Por ultimo, a Figura 2.12(c) apresenta os objetos detectados, os quais estao indica-dos por pequenos pontos azuis.

(a) (b) (c) (d)

Figura 2.11: Resultado obtido com o algoritmo de mineracao para a imagem daFigura 2.3(a): (a) imagem de entrada; (b) representacao da imagem baseada emgrafo; (c) caminhos simples encontrados; e (d) resultado do algoritmo sobre aimagem.

Para as imagens das Figuras 2.11 e 2.12 pode-se notar que o algoritmo apre-sentado prove resultados satisfatorios. De fato, este metodo funciona bem na maio-ria dos casos. No entanto, ele e propenso a erros quando muitos objetos contem maisde um ponto brilhante. A Figura 2.13(a) ilustra esta situacao e a Figura 2.13(b) apre-


(a)

(b)

(c) (d)(e)

Figura 2.12: Resultado do algoritmo de mineracao de grafo: (a) imagem de entrada;(b) regioes conectadas; (c) objetos identificados; (d) caminhos simples encontradosdurante a etapa de mineracao do grafo; e (e) representacao da imagem de entradabaseada em grafo.

senta o RAG correspondente com os caminhos simples encontrados identificadospor linhas tracejadas. As setas em cor rosa indicam os pontos brilhantes e as regioesamarelas representam os caminhos simples, com os maiores ndices dos verticesque o compoe em vermelho. Os pontos vermelhos indicam os objetos encontra-dos. Nestas figuras, pode-se observar que embora os caminhos simples tenham sidosegmentados corretamente, foram encontrados 14 objetos (celulas) ao inves de 5.

Os passos 15 do metodo proposto assumem que os pontos brilhantes adi-cionais presentes no objeto de interesse foram agrupados na etapa de particao dohistograma. Logo, e assumido que os objetos possuem apenas um ponto brilhante eque sua luminancia decai monotonicamente deste ponto em direcao a fronteira doobjeto. Entretanto, devido a presenca de rudo, iluminacao inadequada e ate mesmoparametros intrnsecos dos objetos, nem sempre e possvel agrupar estes pontos cor-retamente e o passo 6 se faz necessario quando a imagem apresenta esta situacao.

2.6Algoritmo para Clusterizacao do Grafo

Para reduzir o numero de falsos positivos, ou seja, elementos que sao incor-retamente classificados como objetos, o passo 6 do metodo proposto executa umaclusterizacao hierarquica do grafo [63]. Nesta etapa, os caminhos simples que repre-


sentam o mesmo objeto (CML) sao agrupados em super conjuntos. Estes caminhossao identificados atraves da distancia Euclidiana e topologia do grafo. Assume-seque se um conjunto de caminhos simples representa um unico objeto, entao taiscaminhos devem ter um vizinho (vertice) em comum. A Figura 2.13(b) ilustra estasituacao. De acordo com a Figura 2.13(a) pode-se notar que os caminhos S5 S6 e S7representam o mesmo objeto e tem o vertice S15 como vizinho comum.

Para facilitar a descricao do algoritmo de clusterizacao as seguintes definicoesdevem ser consideradas:

a distancia entre dois caminhos simples Si e Sj e dada por dE(ci, cj) ondeci e cj sao os centros das bounding boxes das regioes que sao representadaspelos vertices com maiores ndices, em Si e Sj respectivamente.

dois caminho simples Si e Sj sao ditos vizinhos se existir pelo menos umaaresta ligando um vertice de Si a um vertice de Sj .

a vizinhanca de um caminho simples Si e definida pelos vertices vizinhosaos vertices de Si que nao estejam em Si.

um super conjunto S e um conjunto de vertices que contem caminhossimples e vertices adicionais.

de maneira analoga, a vizinhanca de um super conjunto S e dada pelosvertices vizinhos aos vertices de S que nao estao em S e a distancia entredois super conjunto e dada pela distancia euclidiana entre os centros dastextitbounding boxes das regioes que sao representadas pelos vertices commaiores ndices.

Este algoritmo baseia-se no seguinte fato: dois caminhos simples Si e Sjrepresentam o mesmo o objeto se e somente se dE(ci, cj) < , onde e a metadedo diametro medio dos objetos, medido a partir da imagem de entrada.

Dado um grafo G e uma lista L = {S1, . . . , Sk} de caminhos simplesencontrados durante o processo de mineracao do grafo, para por em pratica o passo6 do metodo proposto e assim agrupar os caminhos simples que representam ummesmo objeto em super conjuntos, os cinco itens descritos a seguir devem serexecutados.

1. Agrupar os caminhos simples de L, que possuam um vizinho em comum, emconjuntos de vertices.

2. Para cada conjunto, combinar os caminhos que representem o mesmo objeto(dE(ci, cj) < ) em super conjuntos. Se todos os caminhos simples de umdado conjunto pertencem ao mesmo super conjunto e o vertice comum naorepresentar o fundo da imagem, entao este vertice deve ser adicionado a este


super conjunto. Os caminhos simples que, nesta etapa do processo, nao foramadicionados a super conjunto algum se tornam um super conjunto.

3. Avaliar a vizinhanca de cada super conjunto e adicionar os vertices que: (a)nao pertencam a nenhum outro super conjunto; (b) nao sejam vizinhos deoutros super conjuntos e; (c) nao represente o fundo da imagem.

4. Unir os super conjuntos que representam o mesmo objeto, isto e, super con-juntos vizinhos ou com um vizinho em comum, e que possuam dE(ci, cj)

geisa martins faustino um metodo baseado em minerac¸´ ao...

Documents