segmentação fuzzy de texturas e vídeos · 2017. 11. 4. · universidade do rio grande do...

UNIVERSIDADE DO RIO GRANDE DO NORTEFEDERAL

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE CIÊNCIAS EXATAS E DA TERRA

PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO

SegmentaçãoFuzzy de Texturas e Vídeos

Tiago Souza dos Santos

Orientador: Prof. Dr. Bruno Motta de Carvalho

Dissertação de Mestradoapresentada aoPrograma de Pós-Graduação em Sistemas eComputação da UFRN como parte dos re-quisitos para obtenção do título de Mestreem Sistemas e Computação.

Natal, RN, Agosto de 2012

Divisão de Serviços Técnicos

Catalogação da publicação na fonte. UFRN / Biblioteca Central Zila Mamede

Santos, Tiago souza dos.SegmentaçãoFuzzyde Texturas e Vídeos 64 p.

Orientador: Bruno Motta de Carvalho

Dissertação (mestrado) - Universidade Federal do Rio Grandedo Norte. Cen-tro de Ciências Exatas e da Terra. Programa de Pós-Graduação em Sistemas eComputação.

1. Inteligência computacional - Dissertação. 2. Segmentação Fuzzy de Tex-turas e Vídeos 3. Kullback Leibler Divergence 4. Skew DivergenceRN/UF/BCZM CDU 004.932(043.2)

SegmentaçãoFuzzy de Texturas e Vídeos

Tiago Souza dos Santos

Dissertação de Mestrado aprovada em 17 de Agosto de 2012 pelabanca examinadoracomposta pelos seguintes membros:

Prof. Dr. Bruno Motta de Carvalho (orientador) . . . . . . . . . . . . .. DIMAp/UFRN

Prof. Dr. Selan Rodrigues dos Santos (interno) . . . . . . . . . . . .. . . DIMAp/UFRN

Prof. Dr. Herman Martins Gomes (externo) . . . . . . . . . . . . . . . .. . . . DSC/UFCG

Aos meus Pais, pelo apoio durante arealização deste trabalho.

Agradecimentos

Agradeço primeiramente a Deus por me dar forças para lutar por mais um objetivo na mi-nha vida. Aos meus pais pelo apoio incondicional. Minha filhaAna Letícia que revitalizaminhas energias com a sua inocência, carinho e muitas travessuras. Em fim, a toda minhafamília que sempre acreditou em mim: Fátima, Simone, Cilene,JAQUELINE, Suzana.

Ao Professor Dr. Bruno Motta de Carvalho pela orientação e muita paciência em todosestes anos de pesquisa que trabalhamos juntos. Aos professores e funcionários do DIMApe PPgSC, que foram peças fundamentais na minha formação.

Aos meus amigos Little Pack e Kirotawa pelas críticas e sugestões. Ao Neto por terajudado em algumas fases do desenvolvimento deste trabalho. E por fim ao CNPq peloapoio financeiro em parte deste mestrado.

Resumo

A segmentação de uma imagem tem como objetivo subdividi-la em partes ou obje-

tos constituintes que tenham algum conteúdo semântico relevante. Esta subdivisão pode

também ser aplicada a um vídeo, porém, neste, os objetos estão presentes nos diversos

quadros que compõem o vídeo. A tarefa de segmentar uma imagemtorna-se mais com-

plexa quando estas são compostas por objetos que contenham características texturais,

com pouca ou nenhuma informação de cor. A segmentação difusa, do Inglêsfuzzy, é uma

técnica de segmentação por crescimento de regiões que determina para cada elemento

da imagem um grau de pertinência (entre zero e um) indicando aconfiança de que esse

elemento pertença a um determinado objeto ou região existente na imagem, fazendo-se

uso de funções de afinidade para obter esses valores de pertinência. Neste trabalho é

apresentada uma modificação do algoritmo de segmentaçãofuzzyproposto por Carvalho

[Carvalho et al. 2005], a fim de se obter melhorias na complexidade temporal e espacial.

O algoritmo foi adaptado para segmentar vídeos coloridos tratando-os como volumes 3D.

Para segmentar os vídeos, foram utilizadas informações provenientes de um modelo de

cor convencional ou de um modelo híbrido obtido através de uma metodologia para a

escolha dos melhores canais para realizar a segmentação. O algoritmo de segmentação

fuzzyfoi aplicado também na segmentação de texturas, fazendo-seuso de funções de afi-

nidades adaptativas às texturas de cada objeto. Dois tipos de funções de afinidades foram

utilizadas, uma utilizando a distribuição normal de probabilidade, ou Gaussiana, e outra

utilizando a divergênciaSkew. Esta última, uma variação da divergência deKullback-

Leibler, é uma medida da divergência entre duas distribuições de probabilidades. Por

fim, o algoritmo foi testado com alguns vídeos e também com imagens de mosaicos de

texturas criadas a partir do álbum de Brodatz e outros.

Área de Concentração: Processamento Gráfico.

Palavras-chave: Segmentação de Imagens, Segmentação de Texturas, Segmentação de

Vídeos, SegmentaçãoFuzzy, Modelos de Cores,Divergência Skew, Divergência de

Kullback-Leibler.

Abstract

The segmentation of an image aims to subdivide it into constituent regions or objects

that have some relevant semantic content. This subdivisioncan also be applied to videos.

However, in these cases, the objects appear in various frames that compose the videos.

The task of segmenting an image becomes more complex when they are composed of

objects that are defined by textural features, where the color information alone is not

a good descriptor of the image. Fuzzy Segmentation is a region-growing segmentation

algorithm that uses affinity functions in order to assign to each element in an image a

grade of membership for each object (between 0 and 1). This work presents a modification

of the Fuzzy Segmentation algorithm, for the purpose of improving the temporal and

spatial complexity. The algorithm was adapted to segmenting color videos, treating them

as 3D volume. In order to perform segmentation in videos, conventional color model

or a hybrid model obtained by a method for choosing the best channels were used. The

Fuzzy Segmentation algorithm was also applied to texture segmentation by using adaptive

affinity functions defined for each object texture. Two typesof affinity functions were

used, one defined using the normal (or Gaussian) probabilitydistribution and the other

using the Skew Divergence. This latter, a Kullback-LeiblerDivergence variation, is a

measure of the difference between two probability distributions. Finally, the algorithm

was tested in somes videos and also in texture mosaic images composed by images of the

Brodatz album.

Concentration Area: Graphics Processing and Computational Intelligence.

Key Words: Image Segmentation, Texture Segmentation, Video Segmentation, Fuzzy

Segmentation, Color Model, Skew Divergence, Kullback-Leibler Divergence.

Sumário

Lista de Figuras iii

Lista de Tabelas v

Lista de Símbolos e Abreviaturas vi

1 Introdução 1

1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Estrutura do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Referencial Teórico 4

2.1 Imagens Digitais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1.1 Imagens Digitais Coloridas . . . . . . . . . . . . . . . . . . . . . 5

2.2 Modelos de Cores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2.1 ModeloRGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2.2 ModeloYCbCr . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2.3 ModeloHSI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2.4 ModeloHSL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2.5 ModeloI1I2I3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 Texturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.4 Segmentação de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.4.1 Segmentação por Limiarização . . . . . . . . . . . . . . . . . . . 14

2.4.2 Segmentação Baseada em Regiões . . . . . . . . . . . . . . . . . 14

2.4.2.1 Crescimento de Regiões . . . . . . . . . . . . . . . . . 15

2.4.2.2 Divisão e Fusão de Regiões . . . . . . . . . . . . . . . 16

2.4.3 SegmentaçãoFuzzy. . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4.3.1 Algoritmos para Segmentação Fuzzy: MOFS eFast

MOFS . . . . . . . . . . . . . . . . . . . . . . . . . . 20

i

3 SegmentaçãoFuzzy de Vídeos 23

3.1 Segmentação com Múltiplos Canais . . . . . . . . . . . . . . . . . . . .24

3.2 Seleção de Canais de Cores . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3 Função de Afinidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.4 AlgoritmoFastMOFS Revisado . . . . . . . . . . . . . . . . . . . . . . 30

3.4.1 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.4.2 VídeoPlane . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4 SegmentaçãoFuzzy de Texturas 38

4.1 Função de Afinidade Adaptativa . . . . . . . . . . . . . . . . . . . . . .38

4.2 Afinidade Usando-se Função Gaussiana . . . . . . . . . . . . . . . .. . 40

4.3 Afinidade Usando-se DivergênciaSkew . . . . . . . . . . . . . . . . . . 41

4.3.1 Escolha Automática do Tamanho da Vizinhança . . . . . . . .. . 42

4.4 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.4.1 Função Gaussiana . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.4.2 Divergência Skew . . . . . . . . . . . . . . . . . . . . . . . . . 48

5 Conclusão 54

Referências 56

A Ferramenta FuSe - Fuzzy Segmentation Tool 61

A.1 Editando as Classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

A.2 Escolhendo o Modelo de Cor . . . . . . . . . . . . . . . . . . . . . . . . 63

A.3 Super Zoom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

Lista de Figuras

2.1 Imagem Digital como uma matriz depixels. . . . . . . . . . . . . . . . . 5

2.2 Modelo RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 Representação gráfica do modelo de corHSL. . . . . . . . . . . . . . . . 9

2.4 Uma mesma imagem segmentada de maneiras diferentes. . . .. . . . . . 13

2.5 Limiarização para classificar ospixelsde uma imagem em duas classes. . 14

2.6 Histograma de níveis de cinza de uma imagem que pode ser particionada

em três classes por 2 limiares:T1 eT2. . . . . . . . . . . . . . . . . . . . 15

2.7 Exemplo de duascorrentese seuselos. . . . . . . . . . . . . . . . . . . . 18

2.8 Ilustração do Teorema 2.4.1. . . . . . . . . . . . . . . . . . . . . . . .. 20

3.1 Conjunto deFramesde um vídeo formando um volume. . . . . . . . . . 24

3.2 Vizinhanças usadas no algoritmo de segmentação. . . . . . .. . . . . . . 25

3.3 Exemplo de oclusão em um vídeo. . . . . . . . . . . . . . . . . . . . . . 25

3.4 Exemplo de distância entre as cores de dois objetos. . . . .. . . . . . . . 27

3.5 Distância entre as cores de três objetos usando-se os canaisx ey . . . . . 29

3.6 Framedo vídeo sintéticoPlanecom e sem ruído gaussiano . . . . . . . . 34

3.7 Exemplo de ajuste no conjunto de sementes. . . . . . . . . . . . .. . . . 35

3.8 Resultado da segmentação para oframe16 do vídeoPlaneoriginal usando-

se os modelos de coresRGB, HSI,YCbCr , I1I2I3, HSL, Hib3, Hib4 eHib5. 36

3.9 Resultado da segmentação para oframe16 do vídeoPlaneruidoso usando-

se os modelos de coresRGB, HSI,YCbCr , I1I2I3, HSL, Hib3, Hib4 eHib5. 37

4.1 Vizinhança usada para extrair característica a partir das sementes. . . . . 39

4.2 Texturas com diferentes granularidades. . . . . . . . . . . . .. . . . . . 39

4.3 Vizinhança usada para calcular a afinidade entrespelsvizinhos adjacentes

na segmentação de texturas. . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.4 Texturas do álbum deBrodatzutilizadas nos experimentos. . . . . . . . . 44

4.5 Mosaicos do tipoM2 e oground truthcorrespondente. . . . . . . . . . . 44

4.6 Mosaicos do tipoM5 e oground truthcorrespondente. . . . . . . . . . . 45

4.7 MosaicoZ2-01 obtido comzoomda texturaD105 do álbum de Brodatz. . 45

iii

4.8 Resultado da segmentação dos mosaicos do tipoM2 usando funções gaus-

sianas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.9 Resultado da segmentação dos mosaicos do tipoM5 usando funções gaus-

sianas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.10 Resultado da segmentação do mosaicoZ2-01 usando função gaussiana. . 49

4.11 Exemplo da textura deBrodatz D110 dividida em uma grade 16×16. . . 49

4.12 Gráfico mostrando o aumento da afinidade com o aumento da área da

vizinhança para todas as texturas do álbum deBrodatzutilizadas nesse

trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.13 Gráfico mostrando o aumento da afinidade com o aumento da área da

vizinhança para todas as texturas do álbum deBrodatzutilizadas nesse

trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.14 Resultado da segmentação dos mosaicos do tipoM5 usando a divergência

skew. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.15 Resultado da segmentação do mosaicoZ2-01 usando a divergênciaskew. . 53

A.1 Janela principal da ferramentaFuSe. . . . . . . . . . . . . . . . . . . . . 62

A.2 Janela Editar Classe. Em (a), editando uma classe para segmentar uma

textura; Em (b), editando uma classe para segmentar um vídeo. . . . . . 63

A.3 Janela editar opções de canais. Em (a), opção híbrido automático esco-

lhida; Em (b), opção híbrido manual escolhida . . . . . . . . . . . .. . . 65

A.4 OpçãoSuper Zoomda ferramentaFuSe. . . . . . . . . . . . . . . . . . . 66

Lista de Tabelas

3.1 Configuração da máquina na qual foram realizados os experimentos. . . 33

3.2 Modelos de cores híbridos escolhidos para o vídeoPlane. . . . . . . . . 35

3.3 Resultado da segmentação do vídeoPlane(Porcentagem de Acertos %). 35

4.1 Acurácias das segmentações dos mosaicos do tipoM2. . . . . . . . . . . 46

4.2 Acurácias das segmentações dos mosaicos do tipoM5. . . . . . . . . . . 46

4.3 Acurácias das segmentações dos mosaicos do tipoM5 usando a divergên-

ciaskew. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

v

Lista de Símbolos e Abreviaturas

f (x,y) Função bidimensional de intensidade da luz;

V Conjunto de todos osspelsa ser particionados;

M Quantidade de objetos a serem segmentados;

σ Função que mapeia cadac∈V em um vetor(M+1)-dimensional;

σc Vetor (M+1)-dimensional que armazena as afinidades dec para todos osm obje-

tos;

σc0 Maior afinidade dec para osmobjetos;

σcm Afinidade dec param-ésimo objeto;

〈c(0),c(1), · · · ,c(K)〉 Corrente dek spels;

(c(k−1),c(k)) Elo entre osspels k−1 ek;

ψ-força Força de um elo;

ψm Função de afinidade do objetom;

Ψ Conjunto das funções de afinidade dosmobjetos;

Vm Conjunto das sementes do objetom;

V Conjunto de todos osVm, com 0< m≤M;

σm-corrente Corrente〈c(0), . . . , c(K)〉 ondeσc(k)m > 0 para todo 0≤ k≤ K;

scn-corrente Valor da maior força do objeton (1≤ n≤M) que parte de um pixel semente

deVn e passa porc;

τ Função que mapeia cadac∈V em um par〈τc,σc〉;

τc Afinidade máxima dec;

vi

σc Vetor M-dimensional.σcm = 1 sec pertencer ao objetom, caso contrárioσc

m = 0,

para 0< m≤M;

ch Conjunto dos canais de todos os modelos usados nesse trabalho;

µm Conjunto das médias dos canais de todos os modelos usados nesse trabalho para o

objetom;

µmx Média do canalx para o objetom;

σm Conjunto dos desvios padrões das médiasµm;

σmx Desvio padrão para a médiaσm;

ρµ1,σ1 Função Gaussiana de densidade de probabilidade com médiaµ1 e desvio padrão

σ1 para a média das médias entre todo par despels ce d pertencentes a uma

determinada área;

ρµ2,σ2 Função Gaussiana de densidade de probabilidade com médiaµ2 e desvio padrão

σ2 para a média das diferenças absolutas entre todo par despels ced pertencentes

a uma determinada área;

Sm Conjunto de sementes dom-ésimo objeto;

ηm Número de sementes dom-ésimo objeto;

Asmi

Conjunto despelspertencentes a vizinhança da sementesim do objetom, com

1≤ i ≤ ηm;

Am = {Ams1,Am

s2,Am

s3, . . . ,Am

sηm} Combinação de todos os conjuntosAm

sim, para

i = 1,2,3, . . . ,ηm;

Ac eAd Conjuntos despelspertencentes as vizinhanças dosspels ced respectivamente;

KL(p ‖ q) Divergência deKullback-Leiblerentrep eq;

SD(p ‖ q) Divergênciaskewentrep eq;

H (A) Histograma de uma áreaA;

Capítulo 1

Introdução

Em muitas aplicações faz-se necessário a subdivisão de uma imagem em objetos ou

partes de objetos que tenham um conteúdo semântico relevante, processo este denomi-

nado de Segmentação de Imagem. Encontrar e separar áreas comcaracterísticas seme-

lhantes não é uma tarefa simples de ser implementada em um computador, muito embora,

na maioria das vezes, seja uma tarefa simples para o sistema visual humano.

Uma imagem pode conter áreas com propriedades texturais. Estas propriedades estão

entre as características empregadas pelo sistema visual humano na percepção das dife-

rentes regiões de uma imagem, contendo informações sobre a distribuição espacial e a

variação de luminosidade, além de descrever o arranjo estrutural das superfícies e rela-

ções entre as regiões vizinhas [Pedrini e Schwartz 2008]. Quando a segmentação envolve

imagens com propriedades puramente texturais, a complexidade em se definir um critério

de homogeneidade intra-objeto torna-se ainda maior.

O algoritmo de segmentação difusa (do Inglêsfuzzy) proposto em [Carvalho et al.

2001], é um método interativo de segmentação por crescimento de regiões que através

de funções de afinidades atribui a cada elemento da imagem um valor de pertinência em

relação a um determinado objeto. Este algoritmo vem sendo aplicado em segmentações de

imagens obtendo-se, geralmente, bons resultados. Porém, quando a segmentação envolve

imagens com propriedades puramente texturais, o processo de segmentação torna-se ainda

mais complexo, sendo necessário a escolha de funções de afinidades que sejam mais

robustas, adaptando-se a cada tipo de textura.

Da mesma forma que em uma imagem, também pode-se subdividir um vídeo em seus

objetos ou regiões constituintes. Como um vídeo pode ser tratado como um volume 3D

formado por um conjunto de quadros (ouframes), o algoritmo de segmentaçãofuzzypode

ser adaptado para segmentar também estes vídeos.

Imagens coloridas podem conter mais informações que podem ser usadas na identifi-

cação de regiões do que imagens monocromáticas [Gonzalez e Woods 2007]. A informa-

CAPÍTULO 1. INTRODUÇÃO 2

ção de cor, por tanto, é uma importante característica para definir as funções de afinidade

da segmentaçãofuzzy. Existem diversos modelos que quantificam característicasde cor

como brilho, intensidade, saturação, dentre outras. Alguns exemplos de modelos são:

RGB, HSI, HSL, YCbCr e I1I2I3 (ver Seção 2.2). Destarte, estes modelos serão utilizados

na segmentação de vídeos coloridos.

1.1 Motivação

Diversos são os sistemas computacionais que usam a segmentação como um pré-

processamento efetuado nas imagens de entrada. Este pré-processamento tem como ob-

jetivo a extração de informações que sejam relevantes à aplicação. Na área médica po-

demos citar diversas aplicações, tais como a quantificação de volumes de tecidos [Larie

e Abukmeil 1998], diagnósticos [Taylor 1995], localizaçãode patologias [Zijdenbos e

Dawant 1994], dentre outras. Fora da área médica podemos citar o uso para a localização

de objetos em imagens de sensoriamento remoto (estradas, florestas, alvos de guerra, etc.)

[Awad 2008] [Bo e Jing 2010] [Bao-yun et al. 2011], sistemas para o reconhecimento de

faces [Zhang et al. 2009], fiscalização automática de rodovias [Chen et al. 2011], dentre

outros.

Estes são apenas alguns exemplos dentro de um vasto cenário de aplicações da seg-

mentação de imagens. Estas aplicações necessitam de uma boasegmentação para obter

bons resultados, tornando a busca por melhorias neste processo uma tarefa de grande

importância.

A segmentaçãoFuzzyé um método que mostrou-se bastante robusto, obtendo-se bons

resultados em diversos tipos de imagens. Todavia, sua aplicação em imagens com pro-

priedades texturais precisava de uma maior atenção, uma vezque, até o desenvolvimento

deste trabalho, funções de afinidades eficientes que capturassem com precisão as caracte-

rísticas das texturas ainda não tinham sido obtidas.

Uma extensão do algoritmo faz-se necessária para que o mesmopossa ser aplicado na

segmentação de vídeos. Além disso, há uma necessidade do desenvolvimento de metodo-

logias que utilizem da melhor maneira as informações de cores presentes no vídeo.

1.2 Objetivos

Neste trabalho usa-se a segmentaçãoFuzzypara serem alcançados dois objetivos prin-

cipais: a segmentação de vídeos coloridos e a segmentação deimagens com propriedades

CAPÍTULO 1. INTRODUÇÃO 3

texturais. No primeiro, uma metodologia é proposta para a escolha de quais canais de

cores, dentre os modelos descritos na Seção 2.2, serão utilizados pelo algoritmo para ex-

trair das imagens as informações necessárias à segmentação. Já no segundo, deixando

auto-ajustáveis as funções de extração de característicase de cálculo de afinidade entre os

elementos da imagem, buscou-se tornar o algoritmo mais adaptativo às propriedades de

textura dos objetos envolvidos na segmentação, fazendo a área de extração de caracterís-

ticas variar de acordo com a textura.

Como objetivos secundários tem-se a revisão do algoritmoFast-MOFS, descrito em

[Carvalho et al. 2005], e o desenvolvimento de um aplicativo para auxiliar nos experimen-

tos, principalmente na segmentação de vídeos, onde é necessário lidar, geralmente, com

dezenas ou centenas deframes. Aplicativo este denominado deFuzzy Segmentation Tool

- FuSe.

1.3 Estrutura do Documento

Neste capítulo foi apresentada uma descrição dos problemascujo trabalho em questão

se propõe a resolver, listando também os principais objetivos e o que motivou a realização

deste trabalho. No Capítulo 2 são apresentados alguns conceitos básicos importantes ao

entendimento deste trabalho, enquanto que no Capítulo 2.4 é feita uma revisão sobre os

principais algoritmos de segmentação de imagens da literatura, incluindo a segmentação

fuzzyde imagens e as adaptações aqui propostas a este algoritmo. Nos Capítulos 3 e 4 são

tratados os problemas de segmentação de vídeos coloridos e de segmentação de texturas,

respectivamente, sendo finalizados cada um destes com uma seção onde são descritos os

experimentos realizados. Por fim, no Capítulo 5 têm-se a conclusão do trabalho e no

Apêndice A é descrito o aplicativoFuSe Tool.

Capítulo 2

Referencial Teórico

Neste capítulo serão abordados os conceitos de Imagens Digitais, Modelos de Cores

e Texturas. Este embasamento teórico faz-se necessário para o melhor entendimento do

problema tratado neste trabalho bem como as abordagens das soluções adotadas. Desta

forma, caso o leitor se sinta seguro quanto aos temas outroracitados, pode iniciar a sua

leitura no capítulo subsequente.

2.1 Imagens Digitais

O termo imagem refere-se à função bidimensional de intensidade da luzf (x,y), em

que x e y denotam as coordenadas espaciais, e o valor def em qualquer ponto(x,y)

é proporcional ao brilho (ou níveis de cinza) da imagem naquele ponto [Gonzalez e

Woods 2007]. Em uma imagem digital há uma discretização nos valores das coordenadas

espaciais e no valor do brilho em cada um destes pontos. Cada ponto desta imagem digital

é chamado de elemento da imagem, elemento da figura,pixelsoupels, estes dois últimos,

abreviações depicture elements, ou elementos de figura em Português. Assim, uma ima-

gem digital é uma matriz bidimensional onde cada célula desta matriz corresponde a um

pixelda imagem (ver Figura 2.1).

Este tipo de imagem, em que tem-se apenas o nível de brilho de cada ponto, é dita

monocromática. Nas imagens em tons de cinza, como também sãoconhecidas as imagens

monocromáticas, a intensidade varia do preto (geralmente amenor intensidade) ao branco

(geralmente a maior intensidade). Imagens em preto e brancosão um caso específico das

monocromáticas, onde têm-se apenas dois níveis de cinza: o preto e o branco.

CAPÍTULO 2. REFERENCIAL TEÓRICO 5

Figura 2.1: Imagem Digital como uma matriz depixels.X

Y

2.1.1 Imagens Digitais Coloridas

Devido à capacidade do sistema visual humano em diferenciarmilhares de tons e

intensidades de cores ao contrário das poucas dezenas de níveis de cinza [Pedrini e

Schwartz 2008], uma imagem colorida pode ser mais representativa que uma monocro-

mática. Experimentos mostraram que os sensores de percepção de cores do sistema visual

humano podem ser divididos em três diferentes categorias: vermelho, verde e azul. Desta

forma, as cores são vistas como combinações destas cores primárias.

As quantidades de vermelho, verde e azul necessárias para formar uma cor são cha-

madas de coeficientestriestímulose expressas comoX, Y eZ, respectivamente. Uma cor

é, então, especificada pelos seuscoeficientes tricromáticos, definidos como:

x=X

X+Y+Z

y=Y

X+Y+Z

z=Z

X+Y+Z

(2.1)

Como em uma imagem colorida tem-se mais que apenas a informação de brilho em

cada ponto, pode-se generalizar a resposta da funçãof , da definição de imagem vista

anteriormente, como sendo um vetorn-dimensional, no qualn denota a quantidade de

canais usados para representar as cores. Desta forma, tem-se:

f (x,y) =

f1(x,y)

f2(x,y)...

fn(x,y)

. (2.2)


2.2 Modelos de Cores

Os modelos de cores permitem a especificação de cores em um formato padronizado

para atender a diferentes dispositivos gráficos ou aplicações que requerem a manipula-

ção de cores. Desta forma, existem diversos modelos na literatura que tentam especificar

as características de cores de maneira distinta. Neste trabalho serão utilizados 5 mode-

los: RGB, HSL, HSI, YCbCr e I1I2I3. O RGBé um modelo muito usado em dispositivos

eletrônicos como Monitores, TV’s, Câmeras fotográficas, entre outros. Por outro lado,

quando observamos objetos coloridos, o sistema cognitivo humano os descrevem em ter-

mos de matiz, saturação e brilho [Gonzalez e Woods 2007], desta forma, os modelosHSI

e HSL são muito utilizados em programas de edição de imagens. Os aplicativos Gimp

[GIMP - GNU Image Manipulation Program2001] eInkscape[Inksacape - Open Source

vector graphics editor1991], por exemplo, usam estes modelos por refletirem melhora

forma com que os seres humanos descrevem as cores. O modeloYCbCr foi escolhido por

ser largamente utilizado em vídeos digitais [Pedrini e Schwartz 2008]. Já oI1I2I3 será

usado pois, geralmente, tem-se obtido bons resultados em algoritmos de segmentação de

imagens e também por ser um modelo que é facilmente obtido a partir do modeloRGB

usando-se transformações lineares [Ohta et al. 1980].

A seguir é mostrada uma breve descrição com as principais característica destes mo-

delos. Para maiores detalhes, inclusive sobre conversão a partir do modeloRGB, pode-se

consultar [Azevedo e Conci 2003], [Gonzalez e Woods 2007] e [Pedrini e Schwartz 2008].

2.2.1 ModeloRGB

O modeloRGBpode ser geometricamente representado por um cubo (Figura 2.2). As

coordenadas de cada ponto deste cubo representam as cores primárias vermelho (R,red),

(G, Green) e Azul(B, Blue), respectivamente. Estas cores estão representadas em três

vértices do cubo. As cores primárias complementares ciano,magenta e amarelo, estão

em outros três vértices, o vértice junto à origem é o preto e o mais afastado da origem

corresponde à cor branca.

No modeloRGB, a escala de cinza estende-se através da diagonal do cubo quevai da

origem (preto) até o vértice mais distante (branco).

2.2.2 ModeloYCbCr

Neste modelo, a informação de luminância é representada pela componenteY, en-

quanto que a informação de cor é armazenada nas componentesCb eCr . A componente


Figura 2.2: Modelo RGB

Cb é a diferença entre a cor azul e um valor de referência, o componenteCr é a diferença

entre a cor vermelha e um valor de referência. A conversão do modeloRGBpara oYCbCr

é dada por

Y

Cb

Cr

=

0.299 0.587 0.114

−0.169 −0.331 0.5

0.5 −0.419 −0.081

R

G

B

2.2.3 ModeloHSI

No modeloHSI uma cor é representada em termos do matiz (H,hue), saturação (S,

saturation) e intensidade (I,intensity). Havendo uma separação da informação de cor e de

intensidade. A cor é representada pelo matiz e pela saturação, enquanto que a intensidade,

que descreve o brilho de uma imagem, é determinada pela quantidade de luz. Para obter

esse modelo a partir doRGB, primeiro faz-se uma normalização dos valoresR, G eB:

r =R

R+G+B,g=

GR+G+B

,b=B

R+G+B(2.3)

Os valoresH, Se I são, então, obtidos através das seguintes equações:


I =13(R+G+B) (2.4)

S= 1−3·min(r,g,b) (2.5)

H =

cos−1

(

12 ·

[(r−g)+(r−b)]√(r−g)2+(r−b)(g−b)

)

, seb≤ g

2π−cos−1

(

12 ·

[(r−g)+(r−b)]√(r−g)2+(r−b)(g−b)

)

, caso contrário

. (2.6)

2.2.4 ModeloHSL

O modeloHSLé definido pelo matiz (H,hue), saturação (S,saturation) e luminosi-

dade (L,lightness). A representação gráfica do modeloHSLé formada por dois cones de

altura 1, cujas bases são coincidentes, como podemos ver na Figura 2.3.

O matiz é determinado pelos pontos no círculo da borda das duas bases comuns aos

cones. A saturação varia de 0 a 1, conforme a distância ao eixodo cone. A luminosidade

varia de 0 (preto) a 1 (branco) ao longo do eixo comum aos dois cones, onde se encontra

a escala de cinza. Os matizes puros são encontrados no plano onde a luminosidade é igual

a 0,5 e a saturação é igual a 1.

A conversão do modeloRGBpara oHSL pode ser realizada por meio das seguintes

equações:

H =

60· (G−B)(M−m) , seM = R

60· (B−R)(M−m) +120, seM = G

60· (R−G)(M−m) +240, seM = B

, (2.7)


Figura 2.3: Representação gráfica do modelo de corHSL.


S=

0, seM = m

(M−m)(M+m) , se 0< L≤ 0,5

(M−m)2−(M+m) , seL > 0,5

, (2.8)

L =M+m

2. (2.9)

Ondem= min(R,G,B) eM = max(R,G,B).

2.2.5 ModeloI1I2I3

Este modelo foi obtido através de sucessivos experimentos de segmentação a fim de

se obter características de cores eficientes [Ohta et al. 1980]. Nestes experimentos fo-

ram usadas oito tipos de imagens diferentes e calculados, por transformações a partir do

modeloRGB, mais de 100 características diferentes. Destas, as que obtiveram melhores

resultados foram

I1 =R+G+B

3(2.10)

I2 =R−B

2(2.11)

I3 =2G−R−B

4(2.12)

Quando comparado a outros 7 modelos (RGB, YIQ, HSI, Nrgb,XYZ, CIE(L∗u∗v),

eCIE(L ∗a∗b)), o I1I2I3 foi o mais eficiente em termos de qualidade de segmentação e

em complexidade da transformação [Ohta et al. 1980].

2.3 Texturas

A textura encontra-se entre as características empregadaspelo sistema visual humano,

contendo informações sobre a distribuição espacial e a variação de luminosidade, além de

descrever o arranjo estrutural das superfícies e relações entre as regiões vizinhas [Pedrini

e Schwartz 2008].


Diversas definições de texturas podem ser encontradas na literatura, inexistindo, por

tanto, uma definição única e certa. Uma textura pode ser definida como constituinte de

uma região macroscópica, em que sua estrutura é formada pelarepetição de padrões,

nos quais seus elementos ou primitivas encontram-se arranjados conforme uma regra de

composição ([Tamura et al. 1978]). No trabalho de Rosenfeld eTroy [Rosenfeld e Troy

1970] textura é definida como um arranjo repetitivo de padrões sobre uma área, enquanto

que, segundo Haralick [Haralick 1979], uma textura pode serdescrita pela interação entre

as primitiva tonais que a compõem, estas ocorrendo em diferentes números e formas.

As texturas podem ser descritas usando-se três abordagens principais: estatística, es-

trutural e espectral [Gonzalez e Woods 2007]. Na primeira, atextura é definida por um

conjunto de medidas estatísticas locais extraídas do padrão (ex. entropia, correlação, mé-

dia, contraste e variância), estes serão os tipos de texturas tratados neste trabalho. Na

segunda abordagem utiliza-se a ideia de que texturas são compostas de primitivas dispos-

tas de forma aproximadamente regular e repetitiva, de acordo com regras bem definidas.

Nestas, pode-se observar um padrão de repetição com uma periodicidade bem definida.

Como exemplo, pode-se citar a descrição da textura baseada emlinhas paralelas regu-

larmente espaçadas. Por último, a abordagem espectral baseia-se em propriedades do

espectro de Fourier, sendo principalmente utilizadas na detecção de periodicidade.

Existem diversas técnicas que podem ser utilizadas para extrair a periodicidade de tex-

turas, ou seja, encontrar uma janela mínima que possa caracterizar a estrutura da textura

(suas primitivas).

Por exemplo, é possível encontrar a periodicidade e as primitivas de textura a partir

de funções de autocorrelação, como proposto por Lin et al. [Lin et al. 1997]. Neste

trabalho os autores empregaram uma operação de autocorrelação seguida da aplicação de

um algoritmo para encontrar picos em uma versão suavizada desta função, uma vez que

as funções de autocorrelação são em geral irregulares, o quedificultaria a detecção destes

picos. Em seguida uma transformada de Hough generalizada é aplicada à grade de picos

detectados. Esta operação, tem como objetivo encontrar os vetores de deslocamentos que

descrevam os paralelogramos que definem as primitivas texturais da imagem. As áreas

associadas a estes paralelogramos são as menores possíveis.

Várias abordagens na literatura utilizam matrizes de co-ocorrência na detecção de pe-

riodicidade e também na classificação de texturas [Haralick1979], [Davis 1981]. Uma

abordagem proposta por Jan e Hsueh [Jan e Hsueh 1998], determina a periodicidade atra-

vés da distribuição granulométrica local [Dougherty et al.1992], onde a granulometria

é calculada aplicando-se uma sequência de filtros morfológicos que monotonicamente

diminui a área da imagem. Assim, o tamanho da distribuição pode ser produzida pela me-


dida da área residual depois de cada iteração da sequência defiltros. O método proposto

por Jan e Hsueh [Jan e Hsueh 1998] utiliza então matrizes de co-ocorrência para prever

efetivamente o tamanho da janela para a classificação granulométrica. Já Parkkinen et al.

[Parkkinen et al. 1990] usa matriz de co-ocorrência para calcular uma propriedade esta-

tística denominadaconcordância, que é usada como indicação do período da estrutura.

No problema de classificação de texturas Gotlieb e Kreyszig [Gotlieb e Kreyszig

1990] usaram seis descritores estatísticos baseados em matrizes de co-ocorrências para

classificar exemplos de textura do álbum de Brodatz [Brodatz 1966], reduziram os his-

togramas de co-ocorrências,como usado por Valkealahti e Oja [Valkealahti e Oja 1998],

para manter altas taxas de classificação mas com baixa complexidade de espaço, enquanto

Manjunathi e Ma [Manjunath e Ma 1996] propuseram o uso da transformadawaveletGa-

bor para descrição e recuperação de texturas da base de dadosde Brodatz [Brodatz 1966].

Várias técnicas tem sido aplicadas na segmentação de texturas. Um exemplo é a pro-

posta por Unser e Eden [Unser e Eden 1989], onde eles extraem propriedades texturais

locais usando transformações lineares otimizadas para maximizar a descriminação textu-

ral. Com isso, eles estimam estatísticas locais na saída de umbanco de filtros e geram uma

sequência de multi-resolução utilizando um algoritmo de suavização Gaussiano iterativo.

Matrizes de dispersão são então avaliadas para reduzir as características de texturas para

uma única componente que é limiarizado para produzir a segmentação. Uma abordagem

diferente é proposta por Hofmann et al.??, que também realiza segmentação não super-

visionada de texturas, mas faz isso com base em testes estatísticos como uma medida de

homogeneidade. A segmentação é, então, formulada como um problema declusterização

que é resolvido calculando-se dissimilaridades através defiltros de Gabor multi-escalar.

Existem várias abordagens ([Chellappa 1989], [Manjunath e Chellappa 1991], [Robertson

et al. 1995]) que segmentam texturas modelando o campo de intensidade da textura como

um campo de Gauss-Markov ou como um campo randômico de Markovpara representar a

dependência espacial local entre as intensidades dospixels. Entretanto, estas técnicas tem

um custo computacional elevado pois necessitam de um grandenúmero de iterações para

poderem convergir. Lehmann [Lehmann 2011] propôs uma abordagem alternativa que

modela imagens texturais bi-dimensionais em dois modelos escondidos de Markov autor-

regressivo (HMM-AR) unidimensionais, um para as linhas e outro para as colunas.Então,

a segmentação é feita por um algoritmo que é similar aoturbo decodingno contexto de

error correcting codes, no qual o parâmetro desconhecido doHMM-ARé estimado usando

o algoritmo de maximização das estimativas (Expectation-Maximization).

A seção seguinte trata especificamente do problema de segmentação de imagens, abor-

dando alguns algoritmos tradicionais e também o algoritmo de segmentaçãofuzzy.


2.4 Segmentação de Imagens

Em muitas aplicações faz-se necessário a subdivisão de imagens digitais em objetos

ou partes de objetos que tenham um conteúdo semântico relevante, determinando a forma

e/ou a posição destes objetos para uma melhor interpretaçãodas informações contidas na

imagem. Este processo é denominado Segmentação de Imagens,e consiste em determinar

a qual objeto pertence cada um dospixelsde uma imagem. A Segmentação é usada como

um pré-processamento em diversas áreas, como por exemplo: compressão de imagens,

edição de imagens, visão computacional, renderização não realística, entre outras.

A segmentação é um processo subjetivo que depende do grau de abstração usado para

separar os objetos. Assim, não existe apenas uma maneira correta de subdividir uma

imagem, como podemos ver na Figura 2.4. Nesta, tem-se duas maneiras diferentes de

segmentar a imagem (a): em (b) cada toro foi considerado um objeto diferente, enquanto

que em (c) toda a pilha de toros foi considerada como sendo um único objeto.

Figura 2.4: Uma mesma imagem segmentada de maneiras diferentes. Em (a) tem-se aimagem original e em (b) e (c) tem-se duas maneiras diferentes de segmentá-la.

(a) (b) (c)

Na segmentação usa-se, geralmente, duas abordagens para detectar os objetos da ima-

gem: identificação de descontinuidades ou a identificação desimilaridades. Na primeira

abordagem procura-se por mudanças abruptas de intensidades, ou seja, linhas, bordas

ou pontos. Já na segunda abordagem, a qual é usada neste trabalho, procura-se agrupar

em uma mesma classe os elementos da imagem que possuam valores similares para um

determinado conjunto de características como ocorre, por exemplo, nos algoritmos de

limiarização, crescimento de regiões e divisão e fusão de regiões.

Podemos ainda dividir os algoritmos de segmentação em supervisionados e em não-

supervisionados. No primeiro caso, tem-se alguma informação a priori a respeito dos

objetos existentes na imagem (por exemplo, quantos são e quais as características de


cada um). Já no segundo, o próprio algoritmo deve obter estasinformações para poder

particionar a imagem em seus objetos constituintes.

2.4.1 Segmentação por Limiarização

Suponha que deseja-se separar um objeto de umbackgroundem uma imagem mo-

nocromática. A segmentação porthresholding, ou limiarização, consiste em encontrar

um valorT de intensidade que possibilite a separação dospixelsda imagem nestas duas

classes. Desta forma, ospixelsque forem maiores queT pertencerão a um grupo e os que

forem menores ou iguais pertencerão ao outro (Ver Figura 2.5).

Figura 2.5: Limiarização para classificar ospixelsde uma imagem em duas classes.

Podemos perceber melhor este particionamento fazendo uso de um histograma, uma

vez que este nos permite visualizar a distribuição dos níveis de cinza de uma imagem.

Desta forma, dependendo da imagem, podemos definir valores de níveis de cinza que

separam os objetos a partir da observação deste histograma.Na Figura 2.6 tem-se um

exemplo de um histograma de uma imagem onde pode-se identificar 2 limiares,T1 e T2,

os quais nos permitem classificar ospixelsda imagem como pertencendo a um entre três

objetos: ospixelsque tenham intensidade menor que o nívelT1 pertencem a um objeto, os

que tem nível entreT1 e T2 pertencem a um segundo objeto e os que tenham intensidade

maior queT2 pertencem a um terceiro.

2.4.2 Segmentação Baseada em Regiões

Os algoritmos que usam esta abordagem procuram dividir a imagem em regiões que

compreendam os objetos que se desejá segmentar. Em [Gonzalez e Woods 2007] faz-se

uma formalização deste processo de segmentação, em queR é definido como sendo toda

a região que compreende uma imagemI . SegmentarI é, então, particionarRemn regiões

(R1,R2, . . . ,Rn), tal que


Figura 2.6: Histograma de níveis de cinza de uma imagem que pode ser particionada emtrês classes por 2 limiares:T1 e T2. Ondex é o nível de cinza eP(x) indica o número devezes que a intensidadex aparece na imagem.

��

��

�

(a)n⋃

i=1Ri = R,

(b) Ri é uma região conexa, comi = 1,2, . . . ,n,

(c) Ri ∩Rj =∅ para todoi e j, i 6= j,

(d) P(Ri) =VERDADEIROparai = 1,2, . . . ,n, e

(e) P(Ri ∪Rj) = FALSOparai 6= j,

em que,P(Ri) é um predicado lógico sobre os pontos do conjuntoRi e ∅ é o conjunto

vazio.

A condição (a) indica que a segmentação deve ser completa, ouseja, cadapixel deve

pertencer a uma região. A segunda condição requer que ospixelspertencentes a uma re-

gião estejam todos conectados. A condição (c) indica que as regiões devem ser disjuntas:

um pixel só pode pertencer a uma única região. A condição (d) trata das propriedades

que devem ser satisfeitas pelos pixels em uma região segmentada, indicando que ospixels

que pertencem a esta região possuem características semelhantes. Já a condição (e) indica

queRi e Rj são diferentes no sentido do predicadoP. Os algoritmos mais comuns de

segmentação baseadas em regiões utilizam os conceitos de crescimento de regiões e de

divisão e fusão de regiões, os quais serão descritos a seguir.

2.4.2.1 Crescimento de Regiões

O crescimento de regiões é um procedimento que agrupapixelsou sub-regiões em

regiões maiores. A mais simples dessas abordagens é a agregação depixels, que começa


com um conjunto de pontos “sementes” e, a partir deles, cresce as regiões anexando a

cada ponto semente aquelespixelsque possuam propriedades similares.

Uma dificuldade deste método está na escolha dospixelssementes que representem

adequadamente as regiões que se deseja segmentar, e outra é aescolha das propriedades

que caracterizem ospixelsque devam pertencer a cada uma das regiões.

2.4.2.2 Divisão e Fusão de Regiões

Diferente do método de crescimento de regiões, em que a partir de um pequeno con-

junto de sementes os demaispixelsda imagem são agregados até a região desejada ser

atingida, o método de crescimento e divisão de regiões partede uma subdivisão arbitrá-

ria da imagem em regiões disjuntas e a partir de sub-divisõesou fusão estas regiões são

ajustadas.

Existe um algoritmo simples que usa esta abordagem. Seja um predicadoP, conforme

visto na Seção 2.4.2, se uma regiãoRi qualquer tiverP(Ri) = FALSO, a região pode,

então, ser subdividida. Geralmente começa-se o processo desegmentação com apenas

uma região compreendendo toda a imagem, e enquanto o predicado for falso para alguma

região, a mesma será subdividida. Contudo, se apenas subdividirmos as regiões, podemos

ter ao final da segmentação regiões adjacentes com características similares. Assim, torna-

se necessário um processo de fusão destas regiões; Dadas duas regiões adjacentes,Ri e

Rj , seP(Ri ∪Rj) = VERDADEIROas regiões serão unidas. Este processo de divisão e

fusão deve ser repetido até não ser mais possível realizar nem fusão e nem divisão nas

regiões formadas.

2.4.3 SegmentaçãoFuzzy

A Segmentação Fuzzyé uma técnica de segmentação por crescimento de regiões que

determina um grau de pertinência para cada elemento da imagem, entre zero e um, indi-

cando a certeza desse elemento pertencer ou não a um determinado objeto existente na

imagem [Herman e Carvalho 2001]. A partir dessas informaçõesde pertinência, um al-

goritmo de segmentação pode tomar uma decisão mais flexível sobre a classificação de

cadapixel. Este método pode não satisfazer a condição(e) da definição de algoritmos

de segmentação baseados em regiões (Seção 2.4.2) pois um elemento de uma imagem

segmentada pelo métodofuzzypode pertencer a mais que um objeto simultaneamente.

Pham e Prince ([Pham e Prince 1998], [Pham e Prince 1999]) propuseram um al-

goritmo de agrupamentofuzzy c-meanso qual faz uma classificação difusa dospixels,

permitindo que estes pertençam a múltiplas classes com variados graus de pertinência.


Como no trabalho de Srinivasan et al. [Srinivasan et al. 2012], o algoritmo de segmen-

tação fuzzy aqui proposto pode ser adaptado para a segmentação de imagens com texturas

coloridas, utilizando uma estratégia parecida com a aplicada na segmentação de vídeos

(Capítulo 3). Xia et al. [Xia et al. 2006], propõe um algoritmode agrupamentofuzzyno

qual as funções de dissimilaridades levam em consideração não apenas as características

de cadapixel, mas também a localização destas características.

O algoritmo de segmentaçãofuzzy(MOFS - Mult-ObjectFuzzySegmentation) des-

crito por Herman e Carvalho [Herman e Carvalho 2001], o qual é estendido neste tra-

balho, é um método semi-automático de segmentação onde o usuário escolhe um ou

mais pixels sementes para representar as regiões em que se deseja subdividir a ima-

gem. Este algoritmo utiliza o conceito de conectividadefuzzyintroduzido por Rosenfeld

[Rosenfeld 1979] e foi inspirado no trabalho desenvolvido por Udupa e Samarasekera

[Udupa e Samarasekera 1996], sendo generalizado para espaços digitais arbitrários con-

forme a definição de Herman [Herman 1998]. Um espaço digital éum par(V,π), onde

V é um conjunto eπ é uma relação binária simétrica, tal que, os elementos deV estão

conectados pela relaçãoπ. Devido à natureza geral da abordagem utilizada, os elementos

deV são chamados despels, do Inglêsspatial elements, podendo referir-se apixelsem

uma imagem, pontos em um plano ouvoxelsem um volume.

O objetivo da segmentação é, então, dividir o conjuntoV em subconjuntos que com-

ponham os objetos que deseja-se segmentar. Porém, esta divisão é feita de maneiraFuzzy.

Assim, não se assume apenas que um elemento pertence ou não a um determinado objeto,

mas sim, que osspelsdo conjuntoV possuem um grau de pertinência em relação aos

objetos envolvidos na segmentação. Esta certeza é indicadapor um valor real entre 0 e 1,

onde, 0 indica que um elemento definitivamente não pertence ao objeto e 1 indica que o

elemento definitivamente pertence ao objeto.

Para formalizar o particionamentofuzzydeV foi criado o conceito deM-semisegmen-

tação, do InglêsM-semisegmentation(ondeM é o número de objetos). UmaM-semiseg-

mentaçãodeV é uma funçãoσ que mapeia cadac∈V em um vetor(M+1)-dimensional

σc = (σc0,σ

c1, . . . ,σ

cM), no qual

1. σc0 ∈ [0,1] — isto é,σc

0 é um valor não negativo e não maior que 1;

2. para todom (1≤m≤M), o valor deσcm é 0 ouσc

0; e

3. há pelo menos umm (1≤m≤M), tal queσcm = σc

0.

ondeσcm é o grau de pertinência dospel cem relação aom-ésimo objeto, eσc

0 = max(σc1,

σc2, · · · ,σc

M). Note que a definição acima permite que umspelpertença a mais que um

objeto, desde que ele possua o mesmo grau de pertinência paradois ou mais objetos. Uma


M-segmentaçãoé definida como umaM-semisegmentaçãoσ ondeσc0 é positivo para todo

spel c∈V.

Uma M-semisegmentaçãoserá definida por um grafoM-fuzzy, um conceito que co-

meçará s ser definido a seguir.

Uma sequência despels〈c(0),c(1), · · · ,c(K)〉 é chamada decorrente (chain) e seus

elos (links) são os pares ordenados(c(k−1),c(k)) de spelsconsecutivos na corrente. A

força de umelo também é um conceitofuzzy, ou seja, para todo par ordenado despels

consecutivos da corrente, um valor real no intervalo[0,1] é atribuído a este par. Este valor

é denominado força da ligação dec parad. Umaψ-força de um elo é um valor dado por

uma função de afinidadefuzzyψ : V2→ [0,1], isto é, uma função que retorna um valor

real entre 0 e 1 para cada par ordenado despelspertencentes aV. Estaψ-força é dita

positiva se pertence ao intervalo(0,1].

Uma função de afinidadefuzzydeve ser reflexiva (ψ(c,c) = 1) e simétrica (ψ(c,d) =ψ(d,c)). Ela deve ser específica para cada um dos objetos, uma vez queestes provavel-

mente possuem características diferentes.

A Figura 2.7 mostra um exemplo com duas correntes que se interceptam em umspel C.

Essa interceptação evidencia, como dito anteriormente, o fato de que a segmentaçãofuzzy

permite que um mesmo elemento da imagem pertença simultaneamente a dois ou mais

objetos. Nesta mesma figura pode-se ver, também, os elos entre osspelsconsecutivos.

Figura 2.7: Exemplo de duascorrentese seuselos.

A ψ-força de uma corrente é aψ-força do elo mais fraco. Aψ-força de uma corrente

com apenas umspelé 1 por definição. Um conjuntoU , comU ⊆V, é ditoψ-conectado

se, para todo par despels(c,d) contidos emU , existe uma corrente emU com ψ-força


positiva dec parad.

Um grafoM-fuzzyé um par(V,Ψ), ondeV é um conjunto finito e não vazio eΨ =

(ψ1,ψ2, · · · ,ψM), com ψm ( 1≤ m≤ M) sendo a função de afinidadefuzzypara om-

ésimo objeto. Um grafoM-fuzzysemeado é uma tripla(V,Ψ,V ), onde(V,Ψ) é um grafo

M-fuzzyeV = (V1,V2, · · · ,VM), ondeVm⊆ V, para 1≤ m≤ M, é o conjunto de todos

os spelssementes dom-ésimo objeto. Um grafoM-fuzzysemeado(V, (ψ1, · · · , ψM),

(V1, · · · , VM)) é considerado conectável se

1. o conjuntoV é φψ-conectado, em queφψ(c,d) = min1≤m≤Mψm(c,d) para todo

c,d ∈V, e

2. Vm 6=∅, para pelo menos umm, 1≤m≤M.

Para umaM-semisegmentaçãoσ deV e 1≤ m≤ M , uma corrente〈c(0), . . . , c(K)〉é definida como umaσm-corrente seσc(k)

m > 0, para 0≤ k≤ K. Além disso, para todo

W⊆V ec∈V , será usadoµσ,m,W(c) para denotar aψm-força máxima de umaσm-corrente

de umspelemW parac (essa força será 0 se tal corrente não existir).

Teorema 2.4.1Se(V,Ψ,V ) é um grafo M-fuzzy semeado (ondeΨ = (ψ1, · · · , ψM) e

V = (V1, · · · , VM)), então

(i) existe uma M-semisegmentaçãoσ de V com as seguintes propriedades: para todo

c∈V, se para1≤ n≤M

scn =

1 se c∈Vn,

maxd∈V(min(µσ,n,Vn(d),ψn(d,c))) caso contrário,

(2.13)

então para1≤m≤M

σcm =

scm se scm≥ sc

n, para1≤ n≤M,

0 caso contrário;

(2.14)

(ii) esta M-semisegmentação é única; e

(iii) é uma M-segmentação, uma vez que(V,Ψ,V ) é conectável.

A prova do Teorema 2.4.1 foi publicada por Carvalho et al. [Carvalho et al. 2005]

e uma descrição gráfica pode ser vista na Figura 2.8. Suponha nesta figura quec seja

um spel arbitrário e queσd seja conhecido para todos os outrosspels d. Então, para

1≤ n≤ M (M = 3 na Figura2.8), oscn da Equação (2.13) é aψn-força máxima de uma


〈d(0), · · · ,d(L),c〉 de umspelsemente emVn parac de modo queσd(l)n > 0 (isto é,d(l) per-

tença aon-ésimo objeto) para 0≤ l ≤ L. Intuitivamente, om-ésimo objeto pode afirmar

quec “pertence” a ele se, e somente se,scm é máximo. Isto confirma o que é proposto

pela Condição (2.14):σcm tem um valor positivo somente para o objeto cujo valor desc

m

é o máximo. Além disso, esta propriedade nos mostra como umspelpode se relacionar

com vários objetos, desde queσ seja conhecida para todos os outrosspels, e com a Condi-

ção (2.14) satisfeita, pode-se calcular os valores descn para umspel cutilizando-se a Equa-

ção (2.13). O Teorema 2.4.1 diz que existe uma, e somente uma,M-semisegmentação que

satisfaz simultaneamente as proposições, e que estaM-semisegmentação é de fato uma

M-segmentação pelo fato do grafoM-fuzzysemeado ser conectado.

Figura 2.8: Ilustração do Teorema 2.4.1.

2.4.3.1 Algoritmos para Segmentação Fuzzy: MOFS eFast MOFS

O algoritmo para segmentaçãofuzzy, chamado deMOFS - Multi-Objetct Fuzzy Seg-

mentation, foi proposto por Herman e Carvalho [Herman e Carvalho 2001] e éuma so-

lução gulosa1 para a segmentaçãofuzzy. Neste algoritmo foi utilizado uma estrutura de

dados do tipoHeap Binário[Cormen et al. 2001], na qual todos osspelssão inseridos

com uma chave associadaσc0 e uma única vez. Osspelssão, então, removidos doheap

1Um algoritmo guloso sempre faz a escolha que parece ser a melhor no momento [Cormen et al. 2001]


em uma ordem decrescente do valor finalσc0. O problema deste algoritmo é que toda vez

que o valorσc0 for alterado essa atualização noheapserá da ordemO(logN), comN sendo

o número despelsdo heapem determinado instante. A complexidade do algoritmo é da

ordemO(N(logN+ML)), comN sendo a quantidade total despels, M a quantidade de

objetos, geralmente não superior a 10, eL é uma pequena constate que indica a quanti-

dade de vizinhos usados no crescimento das regiões, neste trabalho esse valor pode ser 4

ou 6.

Em busca de uma maior eficiência na segmentaçãofuzzy, foi proposto por Carva-

lho et al. [Carvalho et al. 2005] um algoritmo mais eficiente, oqual foi denominado

de Fast-MOFS(Algoritmo 2.1). Neste, foi feita uma discretização dos valores gerados

pela função de afinidade. Supõe-se que um conjunto não vazioR de possíveis valores

de afinidadesfuzzy, os quais podem ser atribuídos aosspelsde uma classe particular

de problema, seja sempre um subconjunto do conjuntoA. SendoK a cardinalidade do

conjuntoA∪ 1, e 1= a1 > a2 > · · · > aK > 0 sendo os elementos deA. Por exem-

plo, em muitas aplicações, a qualidade da segmentaçãofuzzynão é significativamente

afetada se cada valor da afinidade for arredondado para três casas decimais. Se for utili-

zado este arredondamento para as afinidades dosspels, poderá ser utilizado um conjunto

A= {0.001,0.002, · · · ,0.999,1.000}, comK = 1000 eak = 1.001−k/1000.

Nesta nova implementação foi utilizada uma matriz de dimensõesM×K denominada

U , ondeM representa o número de objetos eK são os possíveis valores que a afinidade

pode assumir. Todospelque pertença ao objetom com afinidadek estará armazenada

em uma lista ligada [Cormen et al. 2001] cujo nó cabeça éU [m][k]. Esta implementação

é mais eficaz, com uma complexidade de espaço na ordem deO(M(K +V)) se todas as

estruturas de dados puderem ser armazenadas na memória principal.

No algoritmofast-MOFS, quando o valor de qualquer componenteσc0 é trocado, basta

atualizar as listas emU a qual ospel deve agora pertencer, com o custo de tempo na

ordem deO(max(1, |{m≥ 1|σcm > 0}|). A cardinalidade do conjunto{m≥ 1|σc

m > 0} é

no máximoM, o qual é um pequeno valor e normalmente menor que 10 nas aplicações

deste trabalho. Com isso, a complexidade do algoritmo é da ordemO(NML), e comoM

eL são constantes pequenas, a complexidade é da ordemO(N).


Algoritmo 2.1:FastMOFS

1 f o r c∈V do

2 f o r m← 0 to M do

3 σcm← 0

4 end- f o r

5 end- f o r


7 f o r c∈Vm do

8 σc0← σc

m← 1

9 end- f o r

10 U [m][1]←Vm

11 f o r k← 2 to K do

12 U [m][k]←∅

13 end- f o r

14 end- f o r

15 f o r k← 1 to K do


17 whi le U [m][k] 6=∅ do

18 remove umspel ddo conjuntoU [m][k]

19 C←{c∈V | σcm < min(ak,ψm(d,c)) and σc

0≤min(ak,ψm(d,c))}20 whi le C 6=∅ do

21 remove umspel cdo conjuntoC

22 t←min(ak,ψm(d,c))

23 i f σc0 < t then

24 removec do conjuntoU [m][k]

25 f o r n← 1 to M do

26 σcn← 0

27 end- f o r

28 end- i f

29 σc0← σc

m← 1

30 i n s e r e c no c o n j u n t o U [m][l ] onde l é o i n t e i r o al = t

31 end-whi le

32 end-whi le

33 end- f o r

34 end- f o r

Capítulo 3

SegmentaçãoFuzzy de Vídeos

Chung et al. [Chung et al. 2008] propõe um método automático para segmentação

de objetos de seubackgroundem vídeos. Estes objetos devem ser aproximadamente

estáticos porém rodeados por regiões em movimento. Já Byun etal. [Byun et al. 2003]

propôs uma abordagem para detecção automática de faces em vídeos coloridos usando

um algoritmo de decisãofuzzy. Este algoritmo detecta as faces usando a distribuição

espacial das cores no modeloYCbCr . Estes dois métodos se mostram bastante limitados,

o primeiro pelo tipo de movimento presente nos objetos do vídeos, enquanto o segundo se

restringe a segmentar faces detectando regiões que contenham cores semelhantes à peles

faciais.

Neste trabalho, o algoritmo de segmentaçãoFuzzydescrito por Herman e Carvalho

[Herman e Carvalho 2001] foi estendido para segmentar vídeoscoloridos. Um vídeo é

formado por uma sequência de uma ou mais imagens (também chamadas de quadros ou

frames) de uma cena, capturadas ao longo do tempo. Este vídeo pode ser tratado como

um volume, como podemos ver na Figura 3.1. Este volume terá largura e altura (eixosx

e y respectivamente) iguais as do vídeo de entrada, e a profundidade (eixoz) será igual a

quantidade deframesdo vídeo.

O algoritmo de segmentação implementado neste trabalho usaos vizinhos adjacentes

de face para expandir as regiões a serem segmentadas (Figura3.2). Caso a segmentação

seja de uma imagem, os vizinhos de umpixel (x,y) serão:(x+1,y),(x−1,y),(x,y+1) e

(x,y−1) (Figura 3.2-a). Já se a segmentação for de um vídeo, caso em que este é tratado

como um volume 3D, os vizinhos de umpixel(x,y,z) serão:(x+1,y,z),(x−1,y,z),(x,y+

1,z),(x,y−1,z),(x,y,z+1) e (x,y,z−1) (Figura 3.2-b). Assim, usando-se este tipo de

vizinhança as sementes selecionadas para um objeto em um determinadoframede um

vídeo também servirão para os demaisframesque também contenham o mesmo objeto,

pois as regiões irão crescer tanto noframeno qual foram inseridas as sementes quanto

nos que o sucedem e o antecedem.

CAPÍTULO 3. SEGMENTAÇÃOFUZZY DE VÍDEOS 24

Figura 3.1: Conjunto deFramesde um vídeo formando um volume.

Na Figura 3.3 podemos observar o primeiro e o septuagésimoframesde um vídeo

sintético. Uma vez que todos os objetos em que deseja-se segmentar o vídeo encontram-

se visíveis no primeiroframe, Figura 3.3-(a), pode-se escolher as semente necessárias

para cada objeto nesteframe. Porém, no septuagésimoframeo avião vem de uma oclusão

total causada pela pilha de toros. Isso impossibilita que a região que compreende o avião

cresça corretamente para osframessituados após a oclusão, sendo necessária a adição de

mais pontos sementes em algum dosframesque sucedam a oclusão.

O aplicativoFuSe Tool(Fuzzy Segmentation Tool) foi desenvolvido para auxiliar a

segmentação de imagens e vídeos. Nela o usuário pode navegarentre osframesde um

vídeo e adicionar ou remover sementes nestes, fazendo uso deuma interface gráfica de

fácil interação.

3.1 Segmentação com Múltiplos Canais

Devido a capacidade do sistema visual humano em diferenciarmilhares de tons e

intensidades de cores ao contrário das poucas dezenas de níveis de cinza [Pedrini e

Schwartz 2008], o processo de identificação de objetos em umacena ou a interpretação

desta, pode ser mais preciso se forem utilizadas informações de cores. Desta forma, neste

trabalho, os algoritmos de segmentação de vídeos foram implementados para aplicação

em vídeos coloridos.


Figura 3.2: Vizinhanças usadas no algoritmo de segmentação. Em (a), vinhança de 4usada em segmentações de apenas uma imagem; Em (b), vizinhança de 6 usada na seg-mentação de volumes.

(a) (b)

Figura 3.3: Exemplo de oclusão em um vídeo. Em (a), temos o primeiro frame, ondeserão inseridas as sementes. Em (b), tem-se o septuagésimoframe, no qual o avião vemde uma oclusão causada pela pilha de torus.

(a) (b)


3.2 Seleção de Canais de Cores

Como foi citado na seção anterior, existem diversos modelos de cores na literatura que

tentam mensurar diversas características de cores, podendo estes serem mais adequados,

ou não, para uma determinada aplicação. Desta forma, este trabalho propõe um método

para adaptar o algoritmo de segmentação à imagem a ser processada, escolhendo-se as

melhores características.

A ideia é encontrar os canais de cores que consigam um maior grau de separabilidade

entre as classes envolvidas no processo. Assim, podemos adaptar a segmentação para

cada tipo de imagem em tempo de execução do algoritmo, modificando os canais usados

para segmentar, de acordo com a imagem que será segmentada, permitindo uma maior

precisão do algoritmo.

Neste trabalho usamos cinco modelos de cores, todos descritos na seção anterior. Po-

rém, a escolha não se restringirá a selecionar qual modelo melhor segmentaria a imagem,

buscamos, sim, uma combinação híbrida, dentre os canais quecompõem cada modelo,

que obtenha os melhores resultados. Destarte, se usarmos três canais de cores na seg-

mentação, por exemplo, poderiam ser escolhidos os canais:Red(do modeloRGB), Hue

(do modeloHSI) e Y (do modeloYCbCr ). Mas também poderiam ser todos os canais do

modeloRGBou de qualquer outro modelo.

Considerando uma combinação sem repetições de três canais dentre os 15 possíveis

(três para cada um dos modelos considerados), teremosC15,3 = 455 combinações diferen-

tes. Devemos escolher a combinação que nos forneça a maior distância entre as cores de

cada objeto.

Na Figura 3.4 podemos observar dois objetos: o boneco azul com intensidade em

RGB dos seuspixels igual a (0,0,255) e o círculo magenta com intensidade igual a

(255,0,255). Pode-se, assim, calcular a distância entre as cores dos objetos usando-se

a distância euclidiana noR3 através da equação

d2 = (r1− r2)2+(g1−g2)

2+(b1−b2)2 (3.1)

Deste modo, para o problema em questão, teríamos a distânciad2 = (0− 255)2+(0−0)2+(255−255)2 = 2552.

Através desta cena podemos perceber também que nem todos os canais são relevantes

para diferenciarmos um objeto do outro. O único canal que contribui para a diferencia-

ção dos dois objetos é o canalRed, enquanto que os canaisGreene Blue poderiam ser

descartados e substituídos por outros que tenham uma maior relevância.


Figura 3.4: Exemplo de distância entre as cores de dois objetos.

Usando-se esta abordagem surge o seguinte problema: os objetos que compõem uma

cena em uma imagem natural não possuem uma cor constante comono exemplo da Fi-

gura 3.4. Esta variação pode ser causada por ruídos adicionados durante a aquisição

da imagem, por variações de iluminação ambiente onde a imagem foi capturada, ou até

mesmo por uma característica intrínseca da textura do objeto em questão. Pode-se con-

tornar essa situação calculado-se, para cada canal, a médiadas intensidades dospixelsem

toda região do objeto e utilizar esta medida para o cálculo dadistância. Porém, surge um

outro problema: as regiões que compõem os objetos não são conhecidas, pois este é o pro-

blema cuja solução é aqui abordada. Entretanto, pode-se trabalhar com uma amostragem

dospixelsque compõem os objetos, fazendo-se uso de uma das características deste algo-

ritmo de segmentação: a interatividade. Neste método, o usuário escolhe pontos sementes

em cada um dos objetos que se pretende segmentar.

O algoritmo desenvolvido permite que sejam especificados, em tempo de execução,

quais e quantos serão os canais utilizados. Assim, foram feitos testes com as combinações

de três, quatro e cinco canais dentre os quinze possíveis. Porém, para fins didáticos, vamos

exemplificar como funciona o cálculo utilizado para encontrar a melhor combinação de

dois canais (a mesma ideia pode ser estendida para uma combinação com mais canais).

Cada um dos modelos considerados no algoritmo é composto por um tripla de canais


RGB= {ch1,ch2,ch3},HSI= {ch4,ch5,ch6},HSL= {ch7,ch8,ch9},I1I2I3 = {ch10,ch11,ch12},YCbCr = {ch13,ch14,ch15}.

. (3.2)

formando o conjuntoch= {ch1,ch2,ch3, . . . ,ch14,ch15}.Para cada objetom= {1,2,3, . . . ,M}, com M sendo o número de objetos a serem

segmentados, calcula-se

• A média das intensidades em cada um dos canais:

µm = {µmch1,µ

mch2, . . . ,µ

mch15}; (3.3)

• O desvio padrão para cada uma destas médias:

σm = {σmch1,σ

mch2, . . . ,σ

mch15}. (3.4)

Desta forma, a cor de cada objetom pode ser representado como uma elipse em um

plano cartesiano(x,y), comx e y sendo um par de canais do conjuntoch. O centro desta

elipse é o ponto formado pelos valores das médias(µmx ,µ

my ), enquanto os semi-eixos são

os valores dos desvios padrõesσmx e σm

y . A distância mínima entre as cores dos objetos

usando-se os canaisx e y pode ser encontrada calculando-se a distância mínima entreas

elipses. A melhor combinação de canais será a que tiver a maior das distâncias mínimas

entre as elipses.

Dependendo da quantidade de canais que se deseja obter, estasimples elipse pode se

tornar um hiper-elipsoide, aumentando a complexidade no cálculo das distâncias. Desta

forma, como pode ser visto na Figura 3.5, a representação do objetom pode ser simplifi-

cada usando-se uma circunferência com raiorm= MAX{σmx ,σm

y } e centrocm= (µmx ,µ

my ).

Calcula-se, então, as distâncias entre todas as circunferências, obtendo-se a distância

D(x,y):

D(x,y) = MIN{d(x,y)1 ,d(x,y)

2 , . . . ,d(x,y)n } (3.5)

comn sendo a quantidade de distâncias entre osM objetos, dada por

n=M ∗ (M−1)

2. (3.6)


Este mesmo cálculo é feito para todas as combinações de canais,C15,2 = 105, sendo

escolhida a combinação(p,q) com a maior distânciaD(p,q).

Figura 3.5: Distância entre as cores de três objetos usando-se os canaisx ey


3.3 Função de Afinidade

Pela definição de SegmentaçãoFuzzyvista no Capítulo 2.4.3, cada objeto a ser seg-

mentado possui uma função de afinidade. Esta função precisa representar com o máximo

de precisão este objeto, de maneira que os valores de pertinência para osspels, ou ele-

mentos da imagem, que pertençam a este objeto sejam os maiores possíveis.

Para todo objetom que esteja usando esta função de afinidade, com 1≤m≤M, eM

sendo o número total de objetos, considere os seguintes conjuntos

• Sm = {s1,s2,s3, . . . ,sηm} – Conjunto das sementes dom-ésimo objeto, comηm

sendo o número total de sementes para este objeto;

• Asmi

– Conjunto despelspertencentes à vizinhança da sementesmi do objetom, com

1≤ i ≤ ηm;

• Am = {Asm1,Asm

2,Asm

3, . . . ,Asm

ηm} – Combinação de todos os conjuntosAsm

im, para

i = 1,2,3, . . . ,ηm.

Usando-se todos os pares despels(p,q) adjacentes e pertencentes ao conjuntoAm, são

obtidas duas gaussianas

• ρµm1 ,σ

m1, comµm

1 e σm1 sendo a média e o desvio padrão das médias (p+q

2 ), respecti-

vamente; e

• ρµm2 ,σ

m2, com µm

2 e σm2 sendo a média e o desvio padrão das diferenças absolutas

(|p−q|), respectivamente.

A função de afinidade (ψm) entre doisspelsadjacentes (c,d) em relação ao objetom é

dada por

ψm(c,d) =

0 sec ed não são adjacentes

ρµm1 ,σm

1( c+d

2 )+ρµm2 ,σm

2(|c−d|)

2 caso contrário

. (3.7)

3.4 Algoritmo Fast MOFS Revisado

Para melhorar o desempenho e facilitar a implementação do algoritmo Fast-MOFS,

neste trabalho foram feitas algumas modificações às definições de SegmentaçãoFuzzy,

tornando-as mais condizentes com as abordagens implementacionais aqui adotadas. To-

davia, estas alterações não chegam a alterar os teoremas e provas descritos em [Carvalho

et al. 2005].


Como o valor da conectividadeFuzzyfoi discretizado, não sendo mais um valor com-

preendido no intervalo real[0,1], a conectividade agora é um valor inteiro compreendido

no intervalo[0,K], ondeK é um valor que indica o grau máximo de certeza de um deter-

minado elemento pertencer a um objeto; sendo zero, o valor mínimo de pertinência.

Agora, umaM-semisegmentaçãodeV é uma funçãoλ que mapeia cadac∈V em um

parλc = 〈τc,σc〉, no qual

1. τc ∈ [0,K] – K é o valor máximo que uma pertinência pode assumir;

2. σc = (σc1,σ

c2, . . . ,σ

cM) – é um vetorM-dimensional;

3. Para todom (1≤m≤M), σcm∈ {0,1}

4. Seτc > 0, haverá pelo menos umm (1≤m≤M), tal queσcm = 1.

em que,τc é o grau de pertinência dospel cà algum objeto. Cadaspel c∈V, diferente

da definição anterior que continha um vetor(M + 1)-dimensional de valores reais, terá

um único valor inteiroτc e um vetorσc M-dimensional, onde seσcm= 1, entãoc pertence

ao objetom com pertinênciaτc, e seσcm = 0, c não pertence ao objetom. Desta forma,

considerando que cadaspel cconterá um valorλc e que todos osspelsserão carregados

na memória, a memória usada na segmentação será reduzida, uma vez que o vetorσc

poderá ser implementado como um vetor debits. Uma M-semisegmentaçãoλ é uma

M-segmentação se para todospel c∈V , τc é positivo.

Com base nas modificações feitas acima, obtivemos o Algoritmo3.1. Neste, a estru-

tura de dadosU , que antes era uma matriz de dimensõesM×K, é um vetor de listas de

dimensãoK. EmU , osspelscom afinidadek (0≤ k≤ K) são armazenados nak-ésima

lista (U [k]). A atualização da estruturaU ocorre em tempo constante, tanto a remoção

quanto a inserção despels, assim como a atualização do vetorσc.


Algoritmo 3.1:Fast-MOFS revisado.

1 f o r c∈V do

2 τc← 0

3 σc← 0 // c passa a pertencer a nenhum objeto

4 end- f o r

5 U [K]←∅


7 f o r c∈Vm do

8 τc← K

9 σcm← 1

10 end- f o r

11 U [K]←U [K]∪Vm

12 end- f o r

13 f o r k← K to 1 do

14 whi le U [k] 6=∅ do

15 remove umspel ddo conjuntoU [k]


17 i f σdm = 1 then

18 C←{c∈V | τc≤min(k,ψm(d,c))}19 whi le C 6=∅ do

20 remove umspel cdo conjuntoC

21 t←min(k,ψm(d,c))

22 i f τc < t then

23 removec do conjuntoU [k]

24 σc← 0 // c passa a pertencer a nenhum objeto

25 τcm← t // novo maior valor para sigma

26 i n s e r e c no c o n j u n t o U [t]

27 end- i f

28 σcm← 1 // c passa a pertencer ao objetom

29 end-whi le

30 end- i f

31 end- f o r

32 end-whi le

33 end- f o r

Nas Linhas 1 a 4 tem-se a inicialização deσc para todoc∈V, fazendo com que todos

pertençam a nenhum objeto (Linha 3) e tenham afinidade nula (Linha 2). Comoσc é um

vetor debits, a inicialização deste é feita com uma operação simples de atribuição (O(1)).


Nas Linhas 5 a 12 inicializa-se a estruturaU com todos osspelssementes sendo

colocados na listaU [K] (afinidade máxima).

Na Linha 13 tem-se o laço principal do algoritmo, neste todasasK listas serão per-

corridas (dek = K aték = 0). Para todos osspelspertencentes a k-ésima lista, novos

valores de afinidades serão calculados para os seus vizinhos(Linha 21). Ao calcular a

afinidade para estes vizinhos eles serão inseridos ou rearranjados na estruturaU , sendo

que nenhumspelcom afinidade igual ou superior ak será mudado de posição. Ao final

de cada iteração deste laço todos osspelscom afinidadek estarão nak-ésima lista, cada

spelestará, portanto, na lista correspondente a sua afinidade máxima.

3.4.1 Experimentos

Nos experimentos de segmentação de vídeos coloridos foi usado o vídeo sintético

Plane. A fim de verificar a robustez do algoritmo foram adicionados ao vídeo original

ruídos gaussianos aplicados de maneira independente em cada um dos canais de cores

do modeloRGB. A segmentação foi aplicada tanto no vídeo original quanto no ruidoso

usando-se o mesmo conjunto de sementes. O resultado das segmentações foi avaliado

fazendo-se uso doground truth. A configuração da máquina usada para rodar os experi-

mentos pode ser vista na Tabela 3.1.

Tabela 3.1: Configuração da máquina na qual foram realizados os experimentos.

Processador Intel Core i3-2310M 2.10 GHzMemória RAM 4 GB de DDR3 800 MHz

Sistema Operacional Ubuntu 12.04 LTS 32 bits

Nos resultados dos experimentos, a intensidade da cor de cada classe é proporcional à

certeza daquele ponto pertencer a esta. Em decorrência disto, os pontos onde foram adi-

cionadas sementes possuem uma maior intensidade, uma vez que estes são considerados

pertencer com certeza máxima à classe para a qual a semente foi adicionada.

Na seção que se segue serão descritos os experimentos realizados.

3.4.2 VídeoPlane

A partir do vídeoPlane, foram criados 3 outros vídeos adicionando-se ruídos gaus-

sianos com média 0 e desvios padrões: 2 para o primeiro vídeo,5 para o segundo e 10

para o terceiro. Na Figura 3.6-(a) tem-se umframeoriginal do vídeo, enquanto que na


Figura 3.6-(b) tem-se este mesmoframedepois de ter sido adicionado o ruído com desvio

padrão 10.

Figura 3.6:Framedo vídeo sintéticoPlane. Em (a)frameoriginal e em (b) adicionando-se um ruído gaussiano com média 0 e desvio padrão 10.

Para obter as sementes usou-se um conjunto inicial e este foiajustado, adicionando ou

removendo sementes, de acordo com o resultado da segmentação no modeloRGB. Este

ajuste às vezes torna-se necessário, a depender do vídeo de entrada, pois o resultado da

segmentação depende dos pontos sementes escolhidos pelo usuário. Estes pontos devem

representar ao máximo possível as características de cada objeto, para que com isso as

funções de afinidades sejam melhor modeladas, permitindo que estas possam valorar com

maior precisão a pertinência dospixelsaos objetos.

Na Figura 3.7 podemos ver um caso em que as sementes foram ajustadas. Acrescentaram-

se duas novas sementes na perna da mesa, pois esta não estava sendo corretamente seg-

mentada, como pode ser visto na Figura 3.7-(a). Depois do ajuste obteve-se o resultado

da Figura 3.7-(b).

Depois de obtido o conjunto final de sementes, os vídeos foramsegmentados usando-

se cada um dos 5 modelos de cores descritos na Seção 3.1 (RGB, HSI, YCbCr, I1I2I3e HSL). O algoritmo para encontrar modelos de cores híbridos, descrito na Seção 3.2,

foi usado para encontrar modelos com 3, 4 e 5 canais (aqui denominadosHib3, Hib4 e

Hib5, respectivamente). Os canais escolhidos pelo algoritmo para compor cada um destes

modelos híbridos podem ser vistos na Tabela 3.2. O tempo gasto para encontrar oHib3,

assim como oHib4, foi de 0.21 segundos, enquanto oHib5 foi de 0.23 segundos.

Os resultados da segmentação para oframe16 podem ser vistos nas Figuras 3.8 (frame

original) e 3.9 (frameruidoso com desvio 10). Na Tabela 3.3 tem-se o resultado da acu-

rácia da segmentação obtido comparando a segmentação com oground truth. Com esses


Figura 3.7: Exemplo de ajuste no conjunto de sementes. Em (a)conjunto original e em(b) adicionando-se sementes na perna da mesa a fim de melhorara segmentação.

(a) (b)

Tabela 3.2: Modelos de cores híbridos escolhidos para o vídeo Plane.

Hib3 Hib4 Hib5

G doRGB, R doRGB, R doRGB,I2 do I1I2I3, G doRGB, G doRGB,SdoHSL I2 do I1I2I3, SdoHSI,

SdoHSL CbdoYCbCr,SdoHSL

resultados podemos perceber que os modelosHib3 e Hib4 obtiveram os melhores resul-

tados, com uma baixa diminuição da acurácia nos vídeos ruidosos.

Tabela 3.3: Resultado da segmentação do vídeoPlane(Porcentagem de Acertos %).

RGB HSI YCbCr I1I2I3 HSL Hib3 Hib4 Hib5

Original 98.63 96.37 95.66 96.69 84.51 99.27 99.03 98.89Ruído 2 97.52 78.61 95.15 95.26 95.89 98.98 98.88 96.57Ruído 5 75.01 83.84 94.40 95.45 82.96 98.02 98.64 76.92Ruído 10 73.63 80.23 94.84 95.18 61.93 97.45 97.03 72.58


Figura 3.8: Resultado da segmentação para oframe16 do vídeoPlaneoriginal usando-seos modelos de coresRGB, HSI,YCbCr , I1I2I3, HSL, Hib3, Hib4 eHib5.

(a) –RGB (b) –HSI

(c) –YCbCr (d) – I1I2I3

(e) –HSL (f) – Hib3

(g) –Hib4 (h) –Hib5


Figura 3.9: Resultado da segmentação para oframe16 do vídeoPlaneruidoso usando-seos modelos de coresRGB, HSI,YCbCr , I1I2I3, HSL, Hib3, Hib4 eHib5.

(a) –RGB (b) –HSI

(c) –YCbCr (d) – I1I2I3

(e) –HSL (f) – Hib3

(g) –Hib4 (h) –Hib5

Capítulo 4

SegmentaçãoFuzzy de Texturas

Neste capítulo será abordado o problema da segmentação de imagens com proprie-

dades texturais estatísticas, ou não-estruturais. Para isto será usada a segmentaçãofuzzy

com funções de afinidade adaptativas, as quais serão descritas a seguir.

4.1 Função de Afinidade Adaptativa

Pela definição de SegmentaçãoFuzzyvista no Capítulo 2.4.3, cada objeto a ser seg-

mentado possui uma função de afinidadeψ. Esta função precisa representar com o má-

ximo de precisão este objeto, de maneira que os valores de pertinência dosspelsao objeto

em questão que pertençam a este sejam os maiores possíveis.

Pode-se dividir o processo de definição de uma função de afinidade em: modelagem

da função e cálculo da afinidade entrespelsvizinhos. Aqui será usada uma vizinhaça

variável, a depender da textura, tanto para extrair as características do objeto (através dos

pontos sementes), quanto para calcular a afinidade entre 2spelsvizinhos.

Na segmentação de vídeos, vista no Capítulo 3, foi usada a vizinhança de cada se-

mente para extrair as características do objeto e modelar a função de afinidade. Esta

vizinhança tinha um tamanho fixo para todos os objetos, porém, ao segmentar imagens

com propriedades texturais, a área necessária para capturar as propriedades das regiões

deve ter um tamanho variável (Figura 4.1), podendo ser maiorou menor a depender das

texturas de cada região. Na Figura 4.2 pode-se observar duastexturas que precisam de

áreas de tamanhos diferentes para a definição de suas funçõesde afinidades: a área neces-

sária para descrever a textura(a) precisaria ser maior que a usada para descrever a textura

(b).

Com o uso do aplicativoFuSe Tool, Apêndice A é possível ajustar o tamanho da área

de cada objeto de maneira fácil e intuitiva através de uma interface gráfica com o usuário.

Contudo, na Seção 4.3.1 é descrita uma metodologia usada paratornar o algoritmo auto-

CAPÍTULO 4. SEGMENTAÇÃOFUZZY DE TEXTURAS 39

Figura 4.1: Vizinhança usada para extrair característica apartir das sementes. Em (a),uma área 3×3 centrada na sementeS1; Em (b), uma área 5×5 centrada na sementeS2.

(a) (b)

Figura 4.2: Texturas com diferentes granularidades.

(a) (b)

adaptável às texturas, escolhendo a melhor área sem a necessidade de interferência do

usuário.

Na Figura 4.3 tem-se um exemplo em que deseja-se calcular a afinidade entre dois

spelsvizinhosc ed. O algoritmo de segmentação de texturas fará uso de toda estaregião

em torno destesspels. Como serão usados os vizinhos adjacentes de face para o cres-

cimento das regiões, ver Figura 3.2-(a), não será preciso calcular afinidades entrespels

adjacentes diagonais, semprec ed estarão na horizontal ou vertical.

Figura 4.3: Vizinhança usada para calcular a afinidade entrespelsvizinhos adjacentesna segmentação de texturas. Em (a), tem-se o caso em que osspels ce d são vizinhoshorizontais, enquanto que em (b) o caso em que eles são vizinhos verticais.

(a) (b)


Para fazer-se uso destas áreas de tamanhos variáveis na segmentação de texturas, fo-

ram utilizadas duas funções de afinidade distintas. Na primeira foram usadas funções

Gaussianas de distribuição de probabilidade, enquanto quena segunda foi utilizada a

Skew Divergence[Lee 1999], uma variação daKullback-Leibler Divergence[Kullback e

Leibler 1951] usada para calcular a divergência entre duas distribuições de probabilida-

des.

4.2 Afinidade Usando-se Função Gaussiana

Para definir a função de afinidade, nesta primeira abordagem,foram usadas duas fun-

ções gaussianas:ρµ1,σ1 e ρµ2,σ2. A seguir será descrito como estas funções foram mode-

ladas e como a afinidade entre doisspelsvizinhos é calculada a partir delas.

A função ρµ1,σ1 foi modelada usando-se a média e o desvio padrão das médias de

todos os pares despelsadjacentes pertencentes as áreas de cada uma das sementes. Já

na funçãoρµ2,σ2 usou-se a média e o desvio padrão das diferenças absolutas detodos os

pares despelsadjacentes pertencentes as áreas de cada uma das sementes. Com isso,

calcula-se, de todos os pares despelsadjacentes(c,d) pertencentes aAm, a médiaµ1 e

o desvio padrãoσ1 das médiasc+d2 , modelando a funçãoρµ1,σ1, e a médiaµ2 e o desvio

padrãoσ2 das diferenças absolutas|c−d|, modelando a funçãoρµ2,σ2.

Para calcular a afinidade entre um par despelsadjacentes(c,d), usando as funções

gaussianas definidas anteriormente, considereAc eAd as áreas dosspels ced respectiva-

mente (como visto na Seção 4.1). Então:

• Para todos os pares despelsadjacentes(c1,c2) pertencentes aAc: calcula-se a

média das médiasc1+c22 obtendo-seµ1c e a média das diferenças absolutas|c1−c2|

obtendo-seµ2c;

• Para todos os pares despelsadjacentes(d1,d2) pertencentes aAd: calcula-se a

média das médiasd1+d22 obtendo-seµ1d e a média das diferenças absolutas|d1−d2|

obtendo-seµ2d.

A afinidade total entrec ed é obtida com

ψ(c,d) =


ρµ1,σ1(µ1c+µ1d

2 )+ρµ2,σ2(µ2c−µ2d

2 )

2 caso contrário

. (4.1)


4.3 Afinidade Usando-se DivergênciaSkew

A Skew Divergence(SD) [Lee 1999], ou DivergênciaSkew, é uma variação da Di-

vergência deKullback-Leibler(KL) [Kullback e Leibler 1951], usada para medir a di-

vergência entre duas distribuições de probabilidades. A Divergência deKullback-Leibler

entre duas distribuiçõesp eq é dada por:

KL(p ‖ q) =∫

ℜdp(x) log

p(x)q(x)

dx ≥ 0. (4.2)

Que pode ser discretizada para:

KL(p ‖ q) = ∑x

p(x) logp(x)q(x)

. (4.3)

Tem-se uma indefinição deKL se existir umx tal quep(x)> 0 masq(x) = 0, uma vez

que o logaritmo de zero é indeterminado. A DivergênciaSkewcontorna esse problema

fazendo uma suavização de uma das distribuições misturando-a com a outra distribuição.

A Skewé dada por:

SD(p ‖ q) = KL(q ‖ αp+(1−α)q). (4.4)

O parâmetroα é um valor entre 0 e 1 que indica o grau de mistura das distribuições.

Nos experimentos realizados neste trabalho verificou-se que o valor deα pouco altera os

valores finais das divergências, não surtindo efeitos significativos no resultado final da

segmentação. Com isso, foi adotado o valor deα = 0,77. Note ainda que quandoα = 1

aSD(p ‖ q) será igual aKL(q ‖ r).

A distribuição de probabilidades de níveis de cinza em uma imagem é conhecida como

histograma. Desta forma, a afinidade entre osspels(c,d) pode ser obtida calculando-se

a divergência entre o histograma da área que os envolve e o histograma referente a área

Am (ver Seção??). Porém, para aplicar a DivergênciaSkewcomo função de afinidade

precisamos reverter as seguintes características desta medida:

1. A Skewé uma medida assimétrica, porém a afinidade dec parad deve ser igual a

afinidade ded parac; e

2. A Skewmede o grau de divergência entre duas distribuições, sendo ovalor 1 quando

forem totalmente divergentes e 0 totalmente similares.

Desta forma, considerandoH (Ac,d) o histograma da vizinhança que envolve osspels

c e d eH (Am) o histograma das áreas dosspelssementes (ver Seção??), pode-se con-


tornar a assimetria calculando-se a média das divergênciasSD(H (Ac,d) ‖ H (Am)) e

SD(H (Am) ‖ H (Ac,d)), enquanto que pode-se transformar a divergência em afinidade

subtraindo-se esta média de 1. Assim, a afinidadeψ é dada por

ψ(c,d) =


1− SD(H (Ac,d)‖H (Am))+SD(H (Am)‖H (Ac,d))2 caso contrário

.

(4.5)

4.3.1 Escolha Automática do Tamanho da Vizinhança

Assim como na afinidade usando-se funções gaussianas, na DivergênciaSkewé ne-

cessário determinar o tamanho da vizinhança usada para calcular a afinidade em cada uma

das regiões em que se deseja subdividir a imagem. No entanto,na afinidadeskew, foi ado-

tada uma metodologia para tornar automática a escolha destas áreas fazendo-as adaptar-se

às texturas de cada região, sem a necessidade de intervençãodo usuário. Nesta metodolo-

gia foram usados dois algoritmos:IntraSeed(Algoritmo 4.1) eInterSeed(Algoritmo 4.2).

O primeiro é usado caso o usuário selecione apenas uma semente para um determinado

objeto, enquanto que o segundo, se forem selecionadas duas ou mais sementes.

Aqui, foram usadas áreas quadradas centradas nosspelssementes. Assim, pode-se

redefinir os conjuntos vistos na Seção 3.3, como:

• Asmi(k) – Conjunto despelspertencentes a vizinhança quadrada de lado ímpark =

1,3, . . . ,kmax da sementesmi do objetom, com 1≤ i ≤ ηm;

• Am(k) = {Asm1(k), Asm

2(k), Asm

3(k), . . . , Asm

ηm(k)} – Combinação de todos os con-

juntosAsmi(k), parai = 1,2,3, . . . ,ηm.

O algoritmoIntraSeedincrementa o valor da escala (k = 1,3,5, . . . ,kmax) enquanto

houver uma diminuição significativa na divergência deAsm1(k) paraAsm

1(k+2), com rela-

ção a divergência deAsm1(k−2) paraAsm

1(k).

Algoritmo 4.1: IntraSeed.

1 k← 3

2 repea t

3 h1←H ( Asm1(k−2) ) // Comentário

4 h2←H ( Asm1(k) )

5 h3←H ( Asm1(k+2) )


6 k← k+2

7 u n t i l |SD(h1 ‖ h2)−SD(h2 ‖ h3)|< δ or k> kmax

8

9 return k

Dada a divergência média entre todos os pares de sementes do objeto m para área

quadrada de ladok centrada em cada semente

1ηm∗ηm−ηm

∗ηm

∑i=1

ηm

∑j=1

SD[H (Asmi(k)) ‖H (Asm

j(k))], para todoi 6= j (4.6)

o algoritmoInterSeedincrementa o valor da escala (k = 3,5, . . . ,kmax) enquanto houver

uma diminuição significativa desta média com relação a médiapara a área de ladok+2.

Algoritmo 4.2: InterSeed.

1 k← 1

2 s2← 1ηm∗ηm−ηm

∗∑ηmi=1 ∑ηm

j=1SD[H (Asmi(k)) ‖H (Asm

j(k))], para todoi 6= j

3 repea t

4 k← k+2

5 s1← s2

6 s2← 1ηm∗ηm−ηm

∗∑ηmi=1 ∑ηm

j=1SD[H (Asmi(k)) ‖H (Asm

j(k))], para todoi 6= j

7 u n t i l |s1−s2|< δ or k+2> kmax

8

9 return k

4.4 Experimentos

Nos experimentos de segmentação de texturas foram utilizadas 10 imagens do álbum

de Brodatz [Brodatz 1966], que possui diversas texturas naturais monocromáticas (ver

Figura 4.4). A partir destas foram criados alguns mosaicos para testes: 4 formados pela

combinação de 2 texturas diferentes cada (Figuras 4.5) e 2 formados pela combinação de

5 texturas diferentes cada (Figuras 4.6). Junto com cada mosaico foram criados também

os seus respectivosGround Truthpara obter as acurácias das segmentações – Figura 4.5

(M2-GT) e Figura 4.6 (M5-GT). Chamaremos de mosaicos do tipoM2 eM5 os mosaicos

criados pela combinação de 2 e 5 texturas diferentes respectivamente. A resolução das

texturas originais e dos mosaicos do tipoM2 é de 640×640, enquanto que a dos mosaicos

do tipoM5 é de 1024×1024. Em todos estes mosaicos foram mantidas as resoluções das

texturas originais. Além destes, o mosaicoZ2-01 (Figura 4.7) foi montado com uma


metodologia diferente: foi mantida a resolução original datextura da Figura 4.4-D105

sendo aplicado umzoom inno restante da imagem. A máquina utilizadas para realizar os

experimentos foi a mesma cujas configurações estão descritas na Tabela 3.1.

Figura 4.4: Texturas do álbum deBrodatzutilizadas nos experimentos.

(D4) (D9) (D19) (D24) (D29)

(D32) (D70) (D105) (D110) (D111)

Figura 4.5: Mosaicos do tipoM2: (M2-01), (M2-02), (M2-03) e (M2-04). Em (M2-GT)tem-se oground truthpara estes mosaicos com os rótulos de cada região:R1 eR2.

(M2-01) (M2-02) (M2-03)

(M2-04) (M2-GT)

4.4.1 Função Gaussiana

Para segmentar os mosaicos do tipoM2 foram adicionados dois pontos sementes por

região. Os resultados das segmentações destas imagens podem ser vistos na Figura 4.8


Figura 4.6: Mosaicos do tipoM5: (M5-01) e (M5-02). Em (M5-GT) tem-se ogroundtruth para estes mosaicos com os rótulos de cada região:R1, R2, R3, R4 eR5.

(M5-01) (M5-02) (M5-GT)

Figura 4.7: Mosaico obtido comzoomda texturaD105 do álbum de Brodatz. Em (a) omosaico e em (b) o seuground truth.

(a) (b)


e na Tabela 4.1. Para estas texturas o método obtive ótimos segmentações e de maneira

rápida.

Tabela 4.1: Acurácias das segmentações dos mosaicos do tipoM2. O campo “Área”refere-se ao lado da área quadrada usada em cada uma das funções de afinidades. Tem-setambém o tempo gasto durante a segmentação.

Mosaico Acurácia %Área

Tempo (Segundos)R1 R2

M2-01 99,71 3 3 0,8M2-02 99,35 7 9 1,58M2-03 99,64 7 7 1,23M2-04 98,22 5 7 1,29

Na segmentação dos mosaicos do tipoM5 o método mostrou-se pouco eficiente. Para

estas imagens foram adicionadas 2 sementes em cada região e as áreas para cada uma foi

sendo ajustada no aplicativoFuSe Toolconforme se verificava o resultado da segmenta-

ção. Notou-se uma certa dificuldade na determinação de um tamanho ideal da vizinhança

para cada objeto. Os resultados podem ser vistos na Figura 4.9 e na Tabela 4.2.

Tabela 4.2: Acurácias das segmentações dos mosaicos do tipoM5. O campo “Área”refere-se ao lado da área quadrada usada em cada uma das funções de afinidades. Tem-setambém o tempo gasto durante a segmentação.


Tempo (Segundos)R1 R2 R3 R4 R5

M5-01 90,98 9 7 5 7 17 6,01M5-02 36,31 11 9 17 13 15 12,44

Uma outra imagem na qual o método não obteve bom resultado foia do mosaicoZ2-

01, Figura 4.10. Para tentar segmentar essa imagem foram adicionadas 4 sementes em

cada uma das regiões e usou-se áreas quadradas de lados 19 e 17para as regiõesR1 e

R2 respectivamente. A acurácia foi de 87,81% com um tempo de segmentação de 7,59

segundos.

Com estes resultados obtidos nas Figuras 4.9 e 4.10, fica claroa necessidade de se

buscar outras metodologias para serem plicadas nas funçõesde afinidades. Como pode

ser visto na seção seguinte, a divergênciaskewpode ser a solução.


Figura 4.8: Resultado da segmentação dos mosaicos do tipoM2 usando funções gaussi-anas. Em (a1), (b1), (c1) e (d1) as imagens originais e em (a2), (b2), (c2) e (d2) as suasrespectivas segmentações.

(a1) (a2)

(b1) (b2)

(c1) (c2)

(d1) (d2)


Figura 4.9: Resultado da segmentação dos mosaicos do tipoM5 usando funções gaussia-nas. Em (a) e (c) têm-se as imagens originais e em (b) e (d) as suas respectivas segmenta-ções.

(a) (b)

(c) (d)

4.4.2 Divergência Skew

Os primeiros experimentos realizados com a DivergênciaSkewforam para analisar o

comportamento dos algoritmosIntraSeede InterSeed. Para isto, cada textura original do

álbumBrodatzutilizadas nesse trabalho foi dividida em uma grade 16×16, como pode

ser vista na Figura 4.11.

O centro de cada uma das células dessa grade foi considerado como uma semente de

um objeto qualquer. O algoritmoInterSeedfoi, então, aplicado como descrito na seção


Figura 4.10: Resultado da segmentação do mosaicoZ2-01 usando função gaussiana. Em(a) a imagem original e em (b) a imagem segmentada.

(a) (b)

Figura 4.11: Exemplo da textura deBrodatz D110 dividida em uma grade 16×16.


anterior enquanto que oIntraSeedfoi aplicado a cada uma das sementes e calculada a

média para cada uma das escalas. Estes passos foram repetidos em cada uma das texturas,

gerando os gráficos das Figuras 4.12 e 4.13.

Figura 4.12: Gráfico mostrando o aumento da afinidade com o aumento da área da vizi-nhança para todas as texturas do álbum deBrodatzutilizadas nesse trabalho.k é o ladoda área quadrada da vizinhança eψ(k,k+2) é a afinidade média de uma áreak para umaáreak+2 centrada em um mesmo ponto.

� � � � ��

�

��

��

��

��

�

��

�

��

��

��

��

��

��

��

��

��

��

��

Figura 4.13: Gráfico mostrando o aumento da afinidade com o aumento da área da vizi-nhança para todas as texturas do álbum deBrodatzutilizadas nesse trabalho.k é o ladoda área quadrada da vizinhança eψ(k,k) é a afinidade média de umspel cpara umspel dcom uma áreak.

� � � � ��

�

��

��

��

��

�

��

�

��

��

��

��

��

��

��

��

��

��

��

Os gráficos mostram um aumento da afinidade, ou diminuição da divergência, direta-

mente proporcional a área usada no cálculo da DivergênciaSkew. Porém, no algoritmo


InterSeedesse aumento é muito mais acentuado e menos influenciado pelas característi-

cas de cada textura, uma vez que a diminuição da divergência ocorre de maneira bastante

similar para todas as texturas. O que leva a conclusão de que oalgoritmo IntraSeedé

mais robusto e consegue capturar melhor as característicasdas texturas. Destarte, para

que seja escolhida uma área mais adequada para cada textura,faz-se necessário que o

usuário selecione duas ou mais sementes para cada objeto.

Para verificar a efetividade da afinidade usando a Divergência skewe do algoritmo

InterSeed, foram segmentados os mesmos mosaicos outrora usados na segmentação com

afinidade gaussiana e com os mesmos pontos sementes. Além disso, foi segmentado

um outro mosaico do tipoM5 com resolução de 512×512, Figura 4.14-(e), criado com

texturas que não fazem parte do álbum deBrodatz. Os resultados podem ser vistos na

Figura 4.14 e na Tabela 4.3.

Tabela 4.3: Acurácias das segmentações dos mosaicos do tipoM5 usando a divergênciaskew. O campo “Área” refere-se ao lado da área quadrada usada em cada uma das funçõesde afinidades. Tem-se também o tempo gasto durante a segmentação.


Tempo (Segundos)R1 R2 R3 R4 R5

M5-01 98.23 15 17 17 19 27 52,33M5-02 99,23 23 37 27 19 25 79,45M5-03 97,95 19 21 15 15 23 8,9

Para segmentar a imagem da Figura 4.15-(a) foram utilizadasas mesmas sementes

usadas na segmentação usando função gaussiana. As áreas escolhidas pelo algoritmoIn-

terSeedpara cada uma das regiões foram 17 e 19 para as regiõesR1 eR2 respectivamente.

A acurácia foi de 99,18% com um tempo de segmentação de 7,59 segundos.

Embora o uso da divergênciaskewtenha provocado um aumento no tempo despendido

na segmentação, até pelo fato de serem utilizadas áreas bem maiores que as usadas com

as funções gaussianas, os resultados qualitativos obtidoscom o uso desta função foram

excelentes. Comparando as acurácias deste método com o anterior, houve uma melhorara

significativa das segmentações de imagens mais complexas (caso dos mosaicos de tipo

M5 e do mosaicoZ2-01).


Figura 4.14: Resultado da segmentação dos mosaicos do tipoM5 usando a divergênciaskew. Em (a) e (c) têm-se as imagens originais e em (b) e (d) as suas respectivas segmen-tações.

(a) (b)

(c) (d)

(e) (f)


Figura 4.15: Resultado da segmentação do mosaicoZ2-01 usando a divergênciaskew.Em (a) a imagem original e em (b) a imagem segmentada.

(a) (b)

Capítulo 5

Conclusão

Neste trabalho foram estudados os algoritmos de segmentação fuzzydesenvolvidos

por Herman e Carvalho [Herman e Carvalho 2001, Carvalho et al. 2005], sendo realizada

uma extensão para segmentar vídeos coloridos e também fazendo uso de novas funções

de afinidade capazes de segmentar com maior eficiência imagens texturais. Uma revisão

do algoritmofast-MOFS permitiu uma implementação mas fácil e eficiente, através de

uma simplificação das estruturas de dados utilizadas nos algoritmos.

Com a finalidade de facilitar os experimentos foi desenvolvido o aplicativoFuSe Tool,

descrito no Apêndice A, que permitiu uma fácil interação do usuário, possibilitando que o

mesmo escolha a quantidade de objetos a serem segmentados, adicione as sementes para

cada objeto, escolha os tipos de funções de afinidade, ajusteo tamanho das vizinhanças

usadas em cada objeto, e ainda podendo salvar todas essas configurações para futuras

segmentações, diminuindo o trabalho despendido na realização dos experimentos.

A extensão do algoritmo de segmentaçãofuzzy fast-MOFS para segmentar vídeos

coloridos apresentado neste trabalho mostrou bons resultados quando aplicado ao vídeo

sintéticoPlane, mesmo o vídeo tendo sido degradado por um ruído gaussiano. Nessa ex-

tensão, o vídeo é trabalhado como um volume 3D em que o usuário pode indicar ospixels

sementes de cada objeto em qualquerframedo vídeo, e então as funções de afinidade

calcularão a probabilidade de um pixel pertencer aos objetos segmentados. Essas funções

de afinidade utilizam informações de cor para rotular ospixelsao objeto mais adequado.

As segmentações dos vídeos coloridos através de modelos híbridos obtidos através da

metodologia aqui apresentada, metodologia esta que seleciona os melhores canais dentre

os pertencentes a um conjunto de modelos de cores, obteve, nogeral, bons resultados

quando comparados aos modelos convencionais.

Na segmentação de texturas, o uso de funções de afinidade adaptativas permitiu a

segmentação de imagens que antes era impossível de segmentar através do algoritmo

fuzzy. A primeira função adotada, a Gaussiana, obteve ótimos resultados com imagens

CAPÍTULO 5. CONCLUSÃO 55

texturais simples, porém não obteve o mesmo sucesso com imagens mais complexas, o

que fomentou a busca por métodos mais robustos. A segunda função utilizada, usando

a DivergênciaSkew, mostrou-se mais eficiente até mesmo em imagens mais complexas,

muito embora tenha tido um aumento no tempo despendido para asegmentação.

Uma das dificuldades de se utilizar a função Gaussiana foi a determinação do tamanho

da vizinhança usada no cálculo da afinidade, dificuldade estaque torna-se ainda maior

com o aumento da quantidade de objetos envolvidos na segmentação. Visando contornar

este problema, foram desenvolvidos algoritmos usando a divergênciaskew, que tornou a

escolha do tamanho da vizinhança automática, de acordo com atextura de cada objeto.

Analisando-se as acurácias dos experimentos realizados, as segmentações realizadas com

as áreas obtidas automaticamente tiveram um resultado satisfatório.

Como a divergênciaskewmostrou-se ser um bom descritor para imagens texturais, a

sua aplicação em segmentação de vídeos pode obter bons resultados. Esta divergência

pode ser aplicada tanto como função de afinidade como na escolha dos melhores canais

de cores a serem usados na segmentação, podendo substituir ametodologia descrita na

Seção 3.2.

O uso da divergênciaskewcomo função de afinidade ainda precisa de estudos voltados

a busca de algoritmos e estruturas de dados que tornem o uso dafunção mais eficiente,

tendo em vista o aumento no tempo da segmentação visto na Seção 4.4.

Um trabalho a ser investigado é a segmentação de texturas coloridas, como em Chen

et al. [Chen et al. 2005], que propõe uma abordagem para segmentar imagens baseadas

em características não apenas na estrutura textural, mas também de informações de cores.

Referências

Awad, Mohamad (2008), ‘An unsupervised artificial neural network method for satellite

image segmentation’.

Azevedo, Eduardo e Aura Conci (2003),Computação Gráfica: Teoria e Prática, Elsevier.

Bao-yun, Wang, Zhang Rong, Yuan Yuan e Yin Dong (2011), An auto-adapt multi-level

threshold segmentation method of ships detection in remotesensing images with

complex sea surface background,em‘Multi-Platform/Multi-Sensor Remote Sensing

and Mapping (M2RSM), 2011 International Workshop on’, pp. 1–5.

Bo, Shukui e Yongju Jing (2010), Region-based airplane detection in remotely sensed

imagery,em‘Image and Signal Processing (CISP), 2010 3rd InternationalCongress

on’, Vol. 4, pp. 1923–1926.

Brodatz, Phil (1966),Textures: A Photographic Album for Artists and Designers, Dover

Publications, New York.

Byun, Oh-Sung, In-Kyu Park, Deck-Soo Baek e Sung-Ryong Moon (2003), Video object

segmentation using color fuzzy determination algorithm,em‘Fuzzy Systems, 2003.

FUZZ ’03. The 12th IEEE International Conference on’, Vol. 2,pp. 1305 – 1310

vol.2.

Carvalho, Bruno M., Edgar Garduño e Gabor T. Herman (2001), Multiseeded fuzzy seg-

mentation on the face centered cubic grid,em‘ICAPR’, pp. 339–348.

Carvalho, Bruno M., Gabor T. Herman e T. Yung Kong (2005), ‘Simultaneous fuzzy

segmentation of multiple objects’,Discrete Applied Mathematics151(1-3), 55–77.

Chellappa, R. (1989), ‘Two-dimensional discrete Gaussian Markov random field models

for image processing’,Journal of the Institution of Electronics and Telecommunica-

tion Engineers35, 114–120.

56

REFERÊNCIAS 57

Chen, Junqing, Bernice E. Rogowitz e et al. (2005), ‘Adaptive perceptual color-texture

image segmentation’,IEEE TRANSACTIONS ON IMAGE PROCESSING14, 1524–

1536.

Chen, Yen-Lin, Bing-Fei Wu, Hao-Yu Huang e Chung-Jui Fan (2011), ‘A real-time vision

system for nighttime vehicle detection and traffic surveillance’,Industrial Electro-

nics, IEEE Transactions on58(5), 2030–2044.

Chung, Kuo-Liang, Shih-Wei Yu, Hsueh-Ju Yeh, Yong-Huai Huang e Ta-Jen Yao (2008),

‘New fuzzy object segmentation algorithm for video sequences’, J. Inf. Sci. Eng.

pp. 521–537.

Cormen, Thomas H., Charles E. Leiserson, Ronald L. Rivest e Clifford Stein (2001),

Introduction to Algorithms, 2a edição, The MIT Press.

Davis, L.S. (1981), ‘Polarograms: A new tool for image texture analysis’,Pattern Recog-

nition 13(3), 219–223.

Dougherty, Edward R., John T. Newell e Jeff B. Pelz (1992), ‘Morphological texture-

based maximum-likelihood pixel classification based on local granulometric mo-

ments’,Pattern Recognition25(10), 1181–1198.

GIMP - GNU Image Manipulation Program(2001).

URL: http://www.gimp.org/

Gonzalez, Rafael C. e Richard E. Woods (2007),Digital Image Processing (3rd Edition),

Prentice-Hall, Inc.

Gotlieb, C.C. e H.E. Kreyszig (1990), ‘Texture descriptors based on co-occurrence matri-

ces’,Graphical Model and Image Processing51(1), 70–86.

Haralick, R. M. (1979), ‘Statistical and structural approaches to texture’,Proceedings of

the IEEE67(5), 786–804.

Herman, Gabor T. (1998), Geometry of digital spaces,em‘International Journal of Com-

puter Vision’, Springer.

Herman, Gabor T. e Bruno M. Carvalho (2001), ‘Multiseeded segmentation using fuzzy

connectedness’,IEEE Trans. Pattern Anal. Mach. Intell.23, 460–474.

Inksacape - Open Source vector graphics editor(1991).

URL: http://inkscape.org/

REFERÊNCIAS 58

Jan, Sen-Ren e Yuang-Cheh Hsueh (1998), ‘Window-size determination for granulome-

trical structural texture classification’,Pattern Recogn. Lett.19, 439–446.

Kullback, S. e R. A. Leibler (1951), ‘On information and sufficiency’, Ann. Math. Statist.

22(1), 79–86.

Larie, S.M. e S.S. Abukmeil (1998), ‘Brain abnormality in schizophrenia. a systematic

and quantitative review of volumetric magnetic resonance imaging studies.’,The

British journal of psychiatry : the journal of mental science172, 110–120.

Lee, Lillian (1999), Measures of distributional similarity, em‘37th Annual Meeting of the

Association for Computational Linguistics’, pp. 25–32.

Lehmann, Frederic (2011), ‘Turbo segmentation of texturedimages’,IEEE Trans. Pattern

Anal. Mach. Intell.33, 16–29.

Lin, Hsin-Chih, Ling-Ling Wang e Shi-Nine Yang (1997), ‘Extracting periodicity of a

regular texture based on autocorrelation functions’,Pattern Recogn. Lett.18, 433–

443.

Manjunath, B. S. e R. Chellappa (1991), ‘Unsupervised texture segmentation using mar-

kov random field models’,IEEE Trans. Pattern Anal. Mach. Intell.13, 478–482.

Manjunath, B. S. e W. Y. Ma (1996), ‘Texture features for browsing and retrieval of image

data’,IEEE Trans. Pattern Anal. Mach. Intell.18, 837–842.

Ohta, Y., T. Kanade e T. Sakai (1980), ‘Color Information for Region Segmentation’,

Computer Graphics and Image Processing13, 222–241.

Parkkinen, J., K. Selkainaho e E. Oja (1990), ‘Detecting texture periodicity from the

cooccurrence matrix’,Pattern Recognition Letters11, 43–50.

Pedrini, H. e W.R. Schwartz (2008),Análise de Imagens Digitais: Princípios, Algoritmos

e Aplicações, Thomson Pioneira.

Pham, Dzung L. e Jerry L. Prince (1998), ‘An adaptive fuzzy c-means algorithm for image

segmentation in the presence of intensity inhomogeneities’, Pattern Recognition Let-

ters20, 57–68.

Pham, Dzung L. e Jerry L. Prince (1999), ‘Adaptive fuzzy segmentation of magnetic

resonance images’,IEEE TRANS. MED. IMAG18(9), 737–752.

REFERÊNCIAS 59

Robertson, R., E. Villebrun e P. Hoeher (1995), A comparison ofoptimal and subopti-

mal map decoding algorithms operating in the log domain,em‘IEEE International

Conference on Communications’, Vol. 2, pp. 1009–1013.

Rosenfeld, Azriel (1979), ‘Fuzzy digital topology’,Information and Control40(1), 76–

87.

Rosenfeld, Azriel e Eleanor B. Troy (1970), Visual texture analysis,em‘symposium on a

feature extraction and selection in pattern recognition’,pp. 115–124.

Srinivasan, E. M., K. Ramar e A. Suruliandi (2012), ‘Color image segmentation using

fuzzy local texture patterns’,International Journal of Computer Applications

41(18), 16–23. Published by Foundation of Computer Science, New York, USA.

Tamura, Hideyuki, Shunji Mori e Takashi Yamawaki (1978), ‘Textural features corres-

ponding to visual perception’,IEEE Transaction on Systems, Man, and Cybernetics

8(6), 460–472.

Taylor, P (1995), ‘Computer aids for decision making in diagnostic radiology: A literature

review’.

Udupa, Jayaram K. e Supun Samarasekera (1996), ‘Fuzzy connectedness and object

definition: Theory, algorithms, and applications in image segmentation’,CVGIP:

Graphical Model and Image Processing58(3), 246–261.

Unser, M. e M. Eden (1989), ‘Multiresolution feature extraction and selection for texture

segmentation’,IEEE Trans. Pattern Anal. Mach. Intel.11(7), 717–728.

Valkealahti, K. e E. Oja (1998), ‘Reduced multidimensional cooccurrence histograms in

texture classification’,IEEE Transactions on Pattern Analysis an Machine Intelli-

gence20(1), 90–94.

Xia, Yong, Rongchun Zhao, Yanning Zhang, Jian Sun e Dagan Feng(2006), Texture

segmentation by fuzzy clustering of spatial patterns,em ‘Proceedings of the Third

International Conference on Fuzzy Systems and Knowledge Discovery’, FSKD’06,

Springer-Verlag, Berlin, Heidelberg, pp. 894–897.

Zhang, Qieshi, S.-i. Kamata e Jun Zhang (2009), Face detection and tracking in color

images using color centroids segmentation,em ‘Robotics and Biomimetics, 2008.

ROBIO 2008. IEEE International Conference on’, pp. 1008–1013.

REFERÊNCIAS 60

Zijdenbos, A. P. e B. M. Dawant (1994), ‘Brain segmentation andwhite matter lesion

detection in MR images’,Critical Reviews in Biomedical Engineering22(5-6), 401–

465.

Apêndice A

Ferramenta FuSe - Fuzzy Segmentation

Tool

Visando-se facilitar a realização dos experimentos de segmentação, tanto de vídeos

quanto de texturas, foi desenvolvida uma ferramenta denominadaFuSe - Fuzzy Segmen-

tation Tool. Esta foi implementada usando-se a linguagem de programação C++ junto

com a biblioteca gráficaQT-4. Na Figura A.1 tem-se a janela principal da ferramenta

FuSe. Nesta figura foram enumerados os principais itens, os quaisestão descritos na lista

abaixo:

1. Adicionaframesde um vídeo ou uma imagem a serem segmentados;

2. Abre um arquivo contendo informações de sementes (*.seed);

3. Salva as sementes em um arquivo (*.seed);

4. Conjunto de classe/objetos que devem ser segmentados;

5. Cor da classe/objeto ao final da segmentação para a classe selecionada no Item 4;

6. Cor das sementes para a classe/objeto selecionado no Item 4;

7. Adiciona uma nova classe/objeto a ser segmentado;

8. Remove a classe/objeto selecionado no Item 4;

9. Edita as configurações da classe/objeto selecionada no Item 4;

10. Conjunto de sementes para a classe/objeto selecionados no Item 4;

11. Remove a semente selecionada no Item 10;

12. Segmenta osframesou imagem abertos (listados no Item 20);

13. Recarrega osframesou imagem abertos com o novo modelo de cores híbridos es-

colhidos automaticamente usando o algoritmo descrito na Seção 3.2;

14. Aplicazoom inà imagem selecionada no Item 20 (apenas para exibição no Item21);

15. Aplicazoom outà imagem selecionada no Item 20 (apenas para exibição no Item21);

16. Quando selecionado, a imagem exibida no Item 21 será a imagem original;

17. Quando selecionado, a imagem exibida no Item 21 será a imagem segmentada;

APÊNDICE A. FERRAMENTAFUSE - FUZZY SEGMENTATION TOOL 62

18. Quando selecionado, a imagem exibida no Item 21 será a imagem resultante da

multiplicação da imagem original com a imagem segmentada;

19. Salva o resultado da segmentação como imagens;

20. Lista o nome da imagem aberta ou todos osframesde um vídeo. Quando for car-

regado mais que umframede um vídeo, o usuário pode navegar por esta lista para

selecionar umframeno qual deseja-se adicionar sementes.

21. Exibe a imagem ouframeselecionado no Item 20;

Figura A.1: Janela principal da ferramentaFuSe.

Para adicionar uma semente para alguma classe, basta selecionar a classe desejada

(Item 4), selecionar oframe desejado (Item 20) e usar o mouse movendo o cursor no

ponto desejado da imagem e clicando com o botão direito.

Pode-se selecionar uma semente tanto usando o Item 10 quantoclicando com o botão

esquerdo do mouse sobre alguma semente exibida no Item 21.

A.1 Editando as Classes

Ao selecionar o botão do Item 9 (Figura A.1), pode-se editar algumas configurações

das classes através de uma janela de edição. Observe na Figura A.2 alguns itens destaca-

dos, os quais estão especificados abaixo:


1. Altera a função de afinidade — o usuário pode escolher entrea diverrgência skew

e a função gaussiana.

2. Altera a cor que a classe terá no final da segmentação e a cor das sementes desta

classe;

3. Altera o tamanho da vizinhança. Esta pode ser tanto a vizinhança usada para extrair

as características à partir das sementes, quanto a área usada para calcular a afinidade

entre doisspels, a depender do algoritmo escolhido para segmentar. Esta área pode

ser quadrada, Figura A.2-a, ou “Circular”, Figura A.2-b;

4. Configurar a classe anterior (se existir);

5. Configurar a classe seguinte (se existir);

Figura A.2: Janela Editar Classe. Em (a), editando uma classepara segmentar uma tex-tura; Em (b), editando uma classe para segmentar um vídeo

(a) (b)

A.2 Escolhendo o Modelo de Cor

No Capítulo 3, foi descrito o algoritmo usado na segmentação de vídeos. Neste, é

possível escolher qual modelo de cor será usado no algoritmo. Pode-se editar esta opção


da segmentação através da opção “Edit Channel Options”, situada no menu “Edit”. Ao

selecionar esta opção, uma janela para edição será aberta (Figura A.3). Nesta, pode-se

escolher

• Um entre os 5 modelos descritos na Seção 2.2;

• O modelo monocromático;

• Um modelo híbrido automático (ver Seção 3.1); ou

• Escolher manualmente quais canais de cores serão usados (híbrido manual).

A.3 Super Zoom

A opçãoSuper Zoomsurgiu da necessidade de se verificar alguns detalhes da segmen-

tação, como por exemplo o valor de pertinência atribuído a umpixel durante o algoritmo

de segmentação. Na Figura A.4 podemos ver a janelaSuper Zoomaberta. Nesta janela

pode-se selecionar qualquer pixel que será exibido no topo da mesma as informações de

afinidade e intensidades em cada um dos canais deste pixel.


Figura A.3: Janela editar opções de canais. Em (a), opção híbrido automático escolhida;Em (b), opção híbrido manual escolhida

(a)

(b)


Figura A.4: OpçãoSuper Zoomda ferramentaFuSe.

segmentação fuzzy de texturas e vídeos · 2017. 11. 4. · universidade do rio grande do...

Documents