milena menezes adao~
Post on 31-Jul-2022
26 Views
Preview:
TRANSCRIPT
PONTIFICIA UNIVERSIDADE CATOLICA DE MINAS GERAIS
Programa de Pos-Graduacao em Informatica
Milena Menezes Adao
Avaliacao de aprendizado de maquina aplicado ao
realinhamento de hierarquias para segmentacao de imagens
Belo Horizonte
2019
Milena Menezes Adao
Avaliacao de aprendizado de maquina aplicado ao
realinhamento de hierarquias para segmentacao de imagens
Dissertacao apresentada ao Programa dePos-Graduacao em Informatica da PontifıciaUniversidade Catolica de Minas Gerais, comorequisito parcial para obtencao do tıtulo deMestre em Informatica.
Orientador: Prof. Dr. Zenilton KleberGoncalves do PatrocınioJunior
Belo Horizonte
2019
FICHA CATALOGRÁFICA
Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais
Adão, Milena Menezes
A221a Avaliação de aprendizado de máquina aplicado ao realinhamento de
hierarquias para segmentação de imagens / Milena Menezes Adão. Belo
Horizonte, 2019.
88 f. : il.
Orientador: Zenilton Kleber Gonçalves do Patrocínio Júnior
Dissertação (Mestrado) – Pontifícia Universidade Católica de Minas Gerais.
Programa de Pós-Graduação em Informática
1. Processamento de imagens - Técnicas digitais. 2. Estruturas de dados
(Computação). 3. Teoria dos grafos. 4. Smartphones - Tecnologia apropriada.
5. Redes neurais (Computação). I. Patrocínio Júnior, Zenilton Kleber Gonçalves
do. II. Pontifícia Universidade Católica de Minas Gerais. Programa de Pós-
Graduação em Informática. III. Título.
CDU: 681.3.093
Ficha catalográfica elaborada por Fernanda Paim Brito - CRB 6/2999
Belo Horizonte, 30 de maio de 2019.
Aos meus pais, Valeria e Joaquim, por
todo amor e por tudo que me ensinaram.
AGRADECIMENTOS
Agradeco primeiramente a Deus, que em sua infinita sabedoria colocou pessoas tao
especiais em minha vida. A fe no Senhor, sem duvidas, me ajudou a lutar ate o fim.
Meus agradecimentos aos meus pais, Joaquim e Valeria, pelo amor, dedicacao,
pelos valores que me ensinaram e por tudo que sempre fizeram por mim.
Agradeco a minha irma Ludmila, pela amizade, carinho, por todo incentivo e apoio
constantes.
A minha sobrinha, Maria Julia, que nasceu durante o desenvolvimento deste
trabalho e me proporcionou, ainda mais, entusiasmo e amor.
Ao meu marido Farney, pelo companheirismo, pelo carinho, e por ter se esforcado
tanto, quando precisei me dedicar somente aos estudos.
Agradeco ao Zenilton pelas orientacoes, pela paciencia e por ser uma inspiracao de
profissional.
Meus agradecimentos a minha tia Walquıria, por sempre me incentivar nos estudos.
As minhas primas Laila e Lorena, e a minha avo Neuza, por estarem sempre
presentes.
A todos os professores do programa de pos graduacao pelos ensinamentos, em
especial ao professor Sılvio, que sempre esteve disposto a ajudar.
A todos os colegas do programa de pos graduacao, manifesto aqui minha gratidao
eterna por todo apoio.
A todos os meus amigos e familiares que torceram por mim, meus sinceiros
agradecimentos!
”O mais importante e bonito, do mundo, e
isto: que as pessoas nao estao sempre iguais,
ainda nao foram terminadas - mas que elas
vao sempre mudando. Afinam ou desafinam,
verdade maior. E o que a vida me ensinou..”
Guimaraes Rosa
RESUMO
Devido a popularizacao dos smartfones, que permitem a captura de imagens, e a
disseminacao das redes sociais, que permitem o compartilhamento de multimıdias, uma
quantidade significativa de imagens e gerada e disponibilizada em bases de dados todos
os dias. Portanto, existe a necessidade de processar imagens em grande quantidade de
maneira eficiente e eficaz. A segmentacao de imagens e uma das tecnicas fundamentais
para o processamento e analise de conteudo visual. Atualmente, metodos de segmentacao
hierarquica de imagens vem atraindo a atencao da comunidade cientifica de processamento
digital de imagens. Estes metodos retornam um conjunto de segmentacoes de imagens
com diferentes nıveis de detalhes, de modo que os nıveis pouco detalhados podem ser
produzidos a partir da fusao entre as regioes de nıveis mais detalhados. No entanto,
os objetos podem ser localizados em diferentes nıveis hierarquicos devido as diferencas
de tamanho ou as distintas distancias da camera. Na literatura, muitos trabalhos vem
sendo desenvolvidos para melhorar os resultados finais dos metodos de segmentacao
hierarquica de imagens. Uma solucao possıvel e realinhar a hierarquia de modo que
cada regiao que contem um objeto (ou suas partes) esteja no mesmo nıvel. Neste
trabalho, exploramos o uso de floresta aleatoria e redes neurais artificiais como modelos de
regressores para prever valores de score de regioes pertencentes a uma hierarquia, os quais
sao utilizadas para realinha-la. A presenta dissertacao objetivou responder a seguinte
questao: qual e o impacto gerados nos resultados de segmentacao hierarquica apos o
processo de realinhamento de hierarquias ao treinar florestas aleatorias e redes nerais com
diferentes configuracoes e com diferentes descritores de regioes? Alem disso, foi proposto
nessa dissertacao um novo calculo de score. A partir de resultados experimentais foi
possıvel concluir que a utilizacao de diferentes abordagens de aprendizado de maquina com
diferentes arquiteturas e diferentes descritores influenciam na qualidade dos treinamentos.
Alem disso, percebeu-se que a utilizacao do realinhamento de hierarquias pode melhorar
os resultados finais da segmentacao de imagens. Analisando as duas abordagens de
aprendizado de maquinas foi possıvel perceber que as florestas aleatorias apresentam
resultados mais estaveis que as redes neurais. Porem, o melhor resultado foi alcancado
quando se utilizou rede neural artificial. Ao observar que no treinamento as regioes de
algumas imagens foram preditas com um erro absoluto relativamente maior que os demais,
uma analise detalhada foi feita nessas imagens, o que acarretou em uma proposta de
alteracao no calculo de score para a abordagem de realinhamento de hierarquias e uma
melhoria de 39,5% no MSE.
Palavras-chave: Segmentacao hierarquica de imagens. Aprendizado de maquina.
ABSTRACT
Due to the popularity of smartphones, which enable the capture of images, and
the dissemination of social networks that allow the sharing of multimedia, a significant
amount of images are generated and made available in databases every day. Given this,
there is a need to process large quantities of images efficiently and effectively. Image
segmentation is one of the fundamental techniques for processing and analyzing visual
content. Currently, hierarchical image segmentation methods have attracted the attention
of the scientific community of digital image processing. These methods return a set of
image segmentations with different levels of detail, so that poorly detailed levels can be
produced by merging between regions at more detailed levels. However, objects can be
located at different hierarchical levels due to differences in size or different distances of
the camera. In the literature, many works have been developed to improve the final
results of hierarchical image segmentation methods. One possible solution is to realign
the hierarchy so that each region containing an object (or its parts) is at the same level. In
this work, we explore the use of random forest and artificial neural networks as regressor
models to predict score values for regions belonging to a hierarchy of partitions, which are
used to realign it. The present dissertation aimed to answer the following question: what
is the impact generated in the results of hierarchical segmentation after the process of
realigning hierarchies when training random forests and nets with different configurations
and with different region descriptors? Three experiments were performed to answer this
question. In addition, a new calculation of score was proposed in this dissertation. From
the experimental results it was possible to conclude that the use of different machine
learning approaches with different configurations and different descriptors influences the
quality of training. It was also possible to observe that the use of hierarchical realignment
can improve the final results of the segmentation of images. Analyzing the two approaches
to machine learning, it was possible to perceive that the random forests present more
stable results than the neural networks, because it acted better when more trees were
used in the forests. However, the best result was achieved when using neural networks
with three layers and two neurons. When observing that in the training the regions of
some images were predicted with a relatively greater absolute error than the others, a
detailed analysis was done in these images, which entailed in a proposal of alteration in
the calculation of score of the approach of realignment of hierarchies. Based on the new
proposal, experiment 4 was carried out, which resulted in an improvement of 39.5
Keywords: Hierarchical image segmentation. Machine learning.
LISTA DE FIGURAS
FIGURA 1 – Imagem original (a) e sua segmentacao (b) . . . . . . . . . . . . . . . . . . . . . . . . 14
FIGURA 2 – Exemplo de resultado obtido de um metodo de segmentacao hierarquica
de imagem, representado por uma arvore, e suas segmentacoes em diferentes
nıveis de detalhes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
FIGURA 3 – Exemplo de resultado obtido por um metodo de segmentacao
hierarquica de imagem: (a) imagem original, (b) representacao por UCM. . 15
FIGURA 4 – Exemplos de segmentacoes de uma imagem em diferentes nıveis
hierarquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
FIGURA 5 – Exemplos de segmentacoes de uma imagem em diferentes nıveis
hierarquicos e a ilustracao das regioes que foram pouco segmentadas,
excessivamente segmentadas e devidamente segmentadas . . . . . . . . . . . . . . . . 18
FIGURA 6 – Ilustracao do problema e o realinhamento de hierarquias . . . . . . . . . . . . 19
FIGURA 7 – Imagem convertida para representacao em um modelo de coordenadas 23
FIGURA 8 – Exemplo da relacao de vizinhanca 4-vizinhos e 8-vizinhos . . . . . . . . . . . 25
FIGURA 9 – Exemplo da relacao de conectividade entre pixels de uma imagem . . . . 26
FIGURA 10 – Exemplo de Componentes Conexos em uma Imagem . . . . . . . . . . . . . . 27
FIGURA 11 – Exemplo de imagem (a) e a representacao da sua regiao (b), e da
borda da regiao (c) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
FIGURA 12 – Exemplos de grafo (a) e dıgrafo (b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
FIGURA 13 – Grafo (a) e um exemplo de subgrafo relacionado a ele(b) . . . . . . . . . . 30
FIGURA 14 – Exemplo de mascara para deteccao de ponto . . . . . . . . . . . . . . . . . . . . . 33
FIGURA 15 – Mascara para deteccao de bordas horizontais (a), Mascara para
deteccao de retas verticais (b), Mascara para deteccao de retas diagonais
(c e d) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
FIGURA 16 – Gradiente em borda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
FIGURA 17 – Grafo (a) e sua arvore geradora mınima (b) . . . . . . . . . . . . . . . . . . . . . 38
FIGURA 18 – Ilustracao da avaliacao de similaridade entre os pixels . . . . . . . . . . . . . 39
FIGURA 19 – Exemplo do resultado do processo de segmentacao com estrategia
hierarquica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
FIGURA 20 – Exemplo de uma hierarquia de zonas quasi-flat . . . . . . . . . . . . . . . . . . . 43
FIGURA 21 – Exemplo de matriz de confusao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
FIGURA 22 – Exemplo de arvore de decisao que determina se uma pessoa deve ir a
praia ou nao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
FIGURA 23 – Esquema basico de uma neuronio artificial . . . . . . . . . . . . . . . . . . . . . . . 49
FIGURA 24 – Exemplos de funcoes de ativacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
FIGURA 25 – Esquema basico de em MLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
FIGURA 26 – Metodologia da abordagem de realinhamento de hierarquias . . . . . . . . 57
FIGURA 27 – Exemplo de imagem, ground-truth de segmentacao e ground-truth de
borda da base de dados BSDS500 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
FIGURA 28 – Analise dos regressores RN E RF em relacao ao resultado esperado e
o resultado predito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
FIGURA 29 – Analise dos regressores RN E RF em relacao ao resultado esperado e
o resultado predito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
FIGURA 30 – Exemplos de resultados antes e depois do realinhamento com as
segmentacoes do valor de escala igual a 0,5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
FIGURA 31 – Exemplo de segmentacao que obteve alta taxa de erro . . . . . . . . . . . . . 77
FIGURA 32 – Diferentes ground-truths referentes a imagem 31(b) . . . . . . . . . . . . . . . 78
FIGURA 33 – Exemplos de resultados antes e depois do realinhamento com as
segmentacoes do valor de escala igual a 0,5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
LISTA DE TABELAS
TABELA 1 – Media dos resultados antes e depois da aplicacao do metodo de
realinhamento de hierarquias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
TABELA 2 – Variacoes das configuracoes dos regressores e das caracterısticas
extraıdas utilizadas nos treinamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
TABELA 3 – MSE medio dos resultados obtidos das predicoes realizadas com
florestas aleatorias e redes neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
TABELA 4 – Resultados do tempo medio de execucao dos treinamentos das florestas
aleatorias e redes neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
TABELA 5 – Resultados do tempo medio de execucao da predicao com florestas
aleatorias e redes neurais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
TABELA 6 – Variacoes das configuracoes dos regressores e das caracterısticas
extraıdas utilizadas nos treinamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
TABELA 7 – Media dos resultados antes e depois da aplicacao do metodo de
realinhamento de hierarquias com as segmentacoes do metodo HGB . . . . . . 74
TABELA 8 – Media dos resultados antes e depois da aplicacao do metodo de
realinhamento de hierarquias levando-se em consideracao os ground-truths
realizados por diferentes humanos para cada imagem . . . . . . . . . . . . . . . . . . 78
TABELA 9 – Medidas de segmentacao para diferentes estrategias de avaliacao apos
o processo de realinhamento usando Scoreki . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
LISTA DE ABREVIATURAS E SIGLAS
UCM – Ultrametric Countorn Map
RF – Random Forest
AGM – arvore geradora mınima
RGB – red, green e blue
SUMARIO
1 INTRODUCAO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5 Contribuicoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.6 Organizacao da dissertacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2 REFERENCIAL TEORICO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1 Imagem Digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.1 Relacionamentos basicos entre pixels . . . . . . . . . . . . . . . . . . . . . . 24
2.1.1.1 Vizinhanca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.1.2 Conectividade e Adjacencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.1.3 Componentes Conexos, Regioes e Bordas . . . . . . . . . . . . . . . . . . . . 26
2.2 Grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.1 Conceitos Basicos sobre Teoria dos Grafo . . . . . . . . . . . . . . . . . . 28
2.2.1.1 Tipos basicos de vertices e arestas . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.1.2 Grafo conexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.1.3 Subgrafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.1.4 Passeio, Trilha, Caminhos, Ciclo . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.2 Arvores e Arvores Geradoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2.1 Corte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2.2 Arvores Geradoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.2.3 Arborencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 Segmentacao de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4 Segmentacao de Imagens Baseada em Deteccao de Descontinuidade 32
2.4.1 Deteccao de Ponto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.2 Deteccao de Linha ou Reta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.4.3 Deteccao de Borda ou contorno . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4.3.1 Operadores de Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4.4 Metodo Pb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.5 Segmentacao de Imagens baseada em Grafos . . . . . . . . . . . . . . . . . . . 37
2.5.1 Metodo GB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6 Segmentacao Hierarquica de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.6.1 Metodo HGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.6.2 Metodo gPb-owt-ucm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.7 Aprendizado de Maquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.7.1 Representacao por arvore de decisao . . . . . . . . . . . . . . . . . . . . . . . 46
2.8 Florestas aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.9 Rede Neural Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.1 Realinhamento de Hierarquias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2 Avaliacao de Segmentacao Hierarquica de imagens . . . . . . . . . . . . . . 55
4 AVALIACAO DE APRENDIZADO DE MAQUINA APLICADO AOREALINHAMENTO DE HIERARQUIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1 Etapa de Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.1 Selecao da base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.2 Segmentacao hierarquica de imagens . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.3 Descritores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.1.3.1 Extracao de Caracterısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.1.3.2 Calculo das Rotulagens (Scores) . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.4 Treinamento do Regressor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2 Etapa de Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.2.1 Predicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3 Realinhamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5 EXPERIMENTOS E ANALISES DOS RESULTADOS . . . . . . . . . . . . . . . 63
5.1 Ambiente de teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2 Base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3 Metricas de avaliacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.3.1 Metricas de avaliacao da segmentacao . . . . . . . . . . . . . . . . . . . . . 64
5.3.2 Metrica de avaliacao dos regressores . . . . . . . . . . . . . . . . . . . . . . . 66
5.4 Organizacao dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.5 Resultados do Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.6 Resultados do Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.7 Resultados do Experimento 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.8 Resultados do Experimento 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6 CONCLUSOES E TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . 83
REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
13
1 INTRODUCAO
Segundo Pedrini e Schwartz (2007), o constante avanco das tecnologias tem
possibilitado recursos computacionais cada vez mais poderosos para a manipulacao de
imagens, consequentemente, esta circunstancia contribui para a evolucao da area de
processamento e analise de imagens. Nos ultimos anos, houve um aumento significativo
de imagens digitais armazenadas e disponibilizadas em bases de dados. Esse crescimento
pode ser observado pela popularizacao dos smartphones, uma vez que essa tecnologia
facilita a captura de imagens. O estudo Google Consumer Barometer 1 realizado no ano
de 2017, mostrou que em 2012, 14% da populacao brasileira possuıa smartphones, ja em
2017, o numero atingiu 67% da populacao. O estudo ainda comprovou que 70% desses
usuarios utilizavam os smartphones, pelo menos uma vez por semana, para se conectarem
as redes sociais. Essa disseminacao das redes sociais tambem pode ser vista como
uma contribuicao para o aumento da quantidade de imagens digitas, pois possibilitam
o compartilhamento de dados. Segundo estatısticas do Instagram2 (rede social voltada
para o compartilhamento de fotos e vıdeos), entre os anos de 2010 e 2011, 14 milhoes
de usuarios foram registrados na plataforma e compartilharam cerca de 400 milhoes de
imagens. Em fevereiro de 2015, a rede social contava com mais de 300 milhoes de contas
registradas e 70 milhoes de novas imagens eram publicadas diariamente. Em fevereiro de
2019, estimou-se que 500 milhoes de usuarios acessaram a plataforma todos os dias. Sendo
assim, processar imagens em grande quantidade, de maneira eficiente e eficaz, se tornou
um dos desafios para a comunidade cientıfica de processamento e digital de imagens.
A literatura mostra que as tecnicas de processamento digital de imagens sao
aplicadas em diversas areas do conhecimento, o que acarreta avancos para a ciencia,
para a industria e para a sociedade. Alguns dos exemplos de areas de aplicacao citados
por Pedrini e Schwartz (2007) foram a medicina, que recorre ao processamento digital de
imagens para auxiliar nos diagnosticos dos pacientes por meio de analises e interpretacoes
das imagens obtidas de exames, como: raio-X, tomografia, ultra-sonografia e ressonancia
magnetica; a area militar, que faz uso das tecnicas de processamento e analise de
imagens para, por exemplo, rastrear alvos para lancamento de mısseis; e a localizacao e
interpretacao de placas de veıculos para controle de pedagios, reconhecimento de veıculos
irregulares e medicao do fluxo de transito. Para Gonzalez e Woods (2001), as areas de
aplicacao do processamento digital de imagens sao muito variadas e quase nao ha area de
atuacao tecnica que nao seja impactada pelo mesmo.
Pedrini e Schwartz (2007) afirmaram que um sistema de processamento digital de
imagens e constituıdo por um conjunto de etapas. Para os autores, a etapa de segmentacao
1https://www.consumerbarometer.com/en/trending/2https://instagram-press.com/
14
e um requisito fundamental para que as informacoes de um sistema de analise de imagens
sejam confiaveis. Afinal, como os mesmos definiram, a segmentacao realiza a extracao e
identificacao da area de interesse existente em uma imagem. Ou ainda, como apresentaram
Gonzalez e Woods (2001), a segmentacao e responsavel pela subdivisao de uma imagem
em suas regioes ou objetos constituintes. E por fim, como esclarecem Pratti (2001), a
segmentacao de uma imagem implica na divisao ou separacao da imagem em regioes de
atributo similar, ressaltando que esta etapa apenas subdivide uma imagem, o que nao
envolve qualquer tipo de reconhecimento ou interpretacao. Para melhor abstracao deste
conceito, a Figura 1 ilustra uma imagem segmentada pelo metodo HGB de Guimaraes et
al. (2017) , de modo que, 1(b) representa o resultado de segmentacao da imagem 1(a).
Assim, e possıvel perceber que cada parte da imagem original foi devidamente dividida e
apresentada com uma cor diferente.
Figura 1 – Imagem original (a) e sua segmentacao (b)
(a) (b)
Fonte: Elaborada pela autora
O uso de metodos hierarquicos, segundo Souza et al. (2014), Belo et al. (2016),
Rodrigues et al. (2017), ajudaram a melhorar os resultados para diferentes tarefas. Por
sua vez, a segmentacao hierarquica de imagens e tambem bastante utilizada na literatura.
Guimaraes et al. (2017) definiram a segmentacao hierarquica como sendo um conjunto
de segmentacoes em diferentes nıveis de detalhe, de modo que as segmentacoes em nıveis
de detalhe mais grosseiros podem ser produzidas a partir de simples fusoes de regioes
das segmentacoes em nıveis de detalhe mais refinados. Uma maneira simples de entender
este conceito esta disposto na Figura 2, a qual faz uma analogia do resultado de uma
segmentacao hierarquica representada por uma arvore, com o mapa do Brasil, que sao
as imagens segmentadas resultantes dos cortes na horizontal realizados em cada nıvel da
hierarquia. Observa-se que o primeiro nıvel hierarquico foi composto por apenas uma
regiao, que representa o Brasil. Ja no segundo nıvel hierarquico a regiao anterior foi
apresentada com mais detalhes, entao foi possıvel visualizar as 5 macrorregioes brasileiras.
Por sua vez, no terceiro nıvel foi possıvel visualizar os detalhes de cada macrorregioes
brasileira, que sao os estados.
15
Figura 2 – Exemplo de resultado obtido de um metodo de segmentacaohierarquica de imagem, representado por uma arvore, e suas segmentacoesem diferentes nıveis de detalhes
Fonte: Elaborada pela autora
Uma das maneiras de visualizar o resultado de uma segmentacao hierarquica e
realizando cortes na hierarquia, como exemplificado na Figura 2, ou ainda, utilizando
metodos mais sofisticados, como os mapas de contorno ultrametrico (ARBELAEZ, 2006) e
os mapas de saliencia (COUSTY et al., 2018), os quais permitem uma boa visibilidade dos
resultados englobando todos os nıveis hierarquicos. Nestes ultimos tipos de representacoes,
as regioes da segmentacao sao delimitadas por bordas codificadas em escalas de cinza.
Assim, a intensidade do cinza representa em qual nıvel da hierarquia a respectiva borda
(des)aparece. A Figura 3 exemplifica um resultado representados por um mapa de
contorno ultrametrico (Ultrametric Countorn Map (UCM)).
Figura 3 – Exemplo de resultado obtido por um metodo de segmentacaohierarquica de imagem: (a) imagem original, (b) representacao por UCM.
(a) (b)
Fonte: Elaborada pela autora
16
Na literatura, muito tem sido feito com intuito de melhorar as segmentacoes
das imagens. Ao mesmo tempo, o aprendizado de maquina vem sendo empregado em
diferentes tarefas com intuito de solucionar problemas bastante complexos. O trabalho de
Chen et al. (2016b), por exemplo, deu inıcio a novas investigacoes a respeito de metodos
hierarquicos, dado que os autores propuseram a utilizacao de abordagens de aprendizado
de maquina para melhorar as hierarquias resultantes dos metodos de segmentacao.
A literatura sobre todas as etapas do processamento digital de imagens e bastante
ampla e uma revisao completa esta alem do escopo proposto nesta dissertacao. Portanto,
o conteudo deste trabalho esta focado na segmentacao hierarquica de imagens. Neste
Capıtulo serao apresentadas a motivacao para a realizacao dessa pesquisa (ver Secao 1.1),
a definicao do problema em questao (ver Secao 1.2), os objetivos 1.3) e a justificativa
do trabalho 1.4) . Por fim, serao apresentadas as suas contribuicoes na Secao 1.5 e a
organizacao da dissertacao na Secao 1.6.
1.1 Motivacao
Zhang e Yang (2008) definiriam o problema de segmentacao de imagens como o
processo de dividir um conjunto de pixels de uma imagem em grupos distintos, de modo
que cada um deles possa representar algum objeto (ou parte do objeto) presentes na
imagem. Entao, Martin et al. (2001) forneceram a um grupo de pessoas o conceito citado
anteriormente para que os mesmos pudessem realizar as anotacoes (ground-truth) em
uma base de imagens. Os autores observam que o problema de segmentacao estava bem
definido, visto que os humanos conseguiram particionar as imagens em regioes e, ainda,
conseguiram gerar regioes mais refinadas particionadas a partir de regioes iniciais. Sendo
assim, o problema de segmentacao pode ser considerado um problema multiescala.
As abordagens de segmentacao de imagens sao denominadas, simplesmente, como
segmentacao, quando produzem um unico particionamento da imagem (SHI; MALIK, 2000;
COMANICIU; MEER, 2002; FELZENSZWALB; HUTTENLOCHER, 2004). Entretanto, para
capturar a natureza multiescala das regioes e necessario que o processo de segmentacao
retorne multiplas particoes que apresentam mais detalhes de cada regiao, de modo que
as particoes se encontrem em diferentes nıveis (ou escalas). A segmentacao hierarquica,
por sua vez, produz uma unica estrutura multiescala, a qual pode ser denominada como
hierarquia de particao (SALEMBIER; GARRIDO, 2000; ARBELAEZ et al., 2011; GUIMARAES;
PATROCINIO JR, 2013; GUIMARAES et al., 2017; PONT-TUSET et al., 2017). As estruturas
hierarquicas sao aplicadas com sucesso em diferentes problemas, tais como: segmentacao
semantica (LEMPITSKY; VEDALDI; ZISSERMAN, 2011; FARABET et al., 2013), deteccao de
objetos salientes (ZOU; KOMODAKIS, 2015), geracao de propostas de objetos (PONT-TUSET
et al., 2017), segmentacao de vıdeo (XU; WHITT; CORSO, 2013; SOUZA et al., 2013, 2014,
17
2015; VARAS; ALFARO; MARQUES, 2015; SOUZA et al., 2016), sumarizacao de vıdeos (BELO
et al., 2014, 2016), cossegmentacao de vıdeos (RODRIGUES et al., 2017), entre outros.
Pesquisas recentes apontaram que o reconhecimento de escalas ajudam a melhorar
o resultado final em muitas tarefas de visao computacional (CHEN et al., 2016b; JIE et al.,
2016; HAO et al., 2017; LI et al., 2018). Sendo assim, o processo de se obter a melhor
segmentacao possıvel de uma hierarquia de particoes e de fundamental importancia.
Dessa forma, este trabalho tem como principal motivacao a necessidade de se obter uma
segmentacao hierarquica na qual uma unica limiarizacao se torna capaz de extrair (a
maioria) segmentos correspondendo aos objetos presentes na imagem.
1.2 Problema
As hierarquias sao normalmente suscetıveis a poucas segmentacoes, em nıveis
de detalhes mais grosseiros e a excessivas segmentacoes em nıveis mais refinados.
Consequentemente, objetos (ou mesmo partes do mesmo objeto) podem aparecer em
nıveis hierarquicos diferentes. Um exemplo deste problema esta exposto na Figura 4,
de modo que, a imagem que representa o Ground-Truth e a segmentacao desejada, Krepresenta o valor do nıvel hierarquico no qual houve um corte horizontal, e as demais
imagens representam as segmentacoes obtidas pelos cortes referentes a cada um dos Kvalores.
Figura 4 – Exemplos de segmentacoes de uma imagem em diferentes nıveishierarquicos
Ground-Truth
(a) K=0.1 (b) K=0.2 (c) K=0.3
Fonte: Elaborada pela autora
A Figura 5 ilustra com mais detalhes quais regioes das segmentacoes representadas
nas Figuras 4(a), 4(b) e 4(c) foram pouco segmentadas, excessivamente segmentadas e
devidamente segmentadas em relacao ao Ground-Truth ilustrado na Fgura 4.
18
Figura 5 – Exemplos de segmentacoes de uma imagem em diferentes nıveishierarquicos e a ilustracao das regioes que foram pouco segmentadas,excessivamente segmentadas e devidamente segmentadas
(a)Ground-Truth K=0.1 (c)Pouco (d)Excessivo (e)Devidamente
(a)Ground-Truth K=0.2 (c)Pouco (d)Excessivo (e)Devidamente
(a)Ground-Truth K=0.3 (c)Pouco (d)Excessivo (e)Devidamente
Fonte: Elaborada pela autora
Na tentativa de lidar com o problema dos objetos e suas partes aparecerem
em nıveis hierarquicos diferentes, Guiges, Cocquerez e Men (2006), Cousty e Najman
(2014) propuseram explorar o uso de cortes nao horizontais nas hierarquias. Uma outra
alternativa apresentada por Xu, Whitt e Corso (2013) foi nivelar a hierarquia em uma
segmentacao unica. E, finalmente, Chen et al. (2016b) propuseram modificar o resultado
final de um algoritmo hierarquico. A ultima ideia apresentada consiste em modificar
as escalas de observacao, ou seja, modificar os nıveis hierarquicos em que as regioes se
encontram, para que (quase) todos objetos (e suas partes) possam ficar no mesmo nıvel
(ou escala).
A Figura 6 exemplifica o problema citado anteriormente e ilustra uma possıvel
solucao que seria o resultado desejado apos a aplicacao do metodo de realinhamento de
hierarquias proposto por Chen et al. (2016b).
Chen et al. (2016b) propuseram o metodo de realinhamento de hierarquias que
consiste em utilizar o aprendizado de maquina para prever se cada regiao da segmentacao
e pouco segmentada, muito segmentada ou devidamente segmentada, e entao, realinhar a
hierarquia de acordo com essas rotulagens. Esses rotulos sao valores definidos no intervalo
[-1,1], sen do assim, se o rotulo for um valor negativo, significa que a regiao foi pouco
19
Figura 6 – Ilustracao do problema e o realinhamento de hierarquias
Fonte: Elaborada pela autora
segmentada, enquanto um valor positivo indica que a regiao foi muito segmentada e 0 a
regiao foi devidamente segmentada. Em seu trabalho, os autores empregaram florestas
aleatorias com 100 arvores para analisar regioes. Contudo, existe a necessidade de se
estudar e avaliar a utilizacao de diferentes metodos de aprendizagem de maquina na
melhoria dos resultados da segmentacao hierarquica de imagens, bem como, o impacto
da utilizacao de diferentes combinacoes de caracterısticas que descrevem as regioes das
segmentacoes, e ainda, analisar o comportamento dos metodos de aprendizagem de
maquina com diferentes configuracoes.
1.3 Objetivos
O objetivo deste trabalho e explorar e avaliar a utilizacao de florestas aleatorias e
redes neurais como ferramentas de regressao para prever se as regioes de uma hierarquia
de particoes foram muito, pouco ou devidamente segmentadas e, posteriormente, realinhar
as hierarquias com base nessas previsoes. Sendo assim, durante o desenvolvimento deste
trabalho pretende-se responder a seguinte questao:
Questao 1. Qual e o impacto gerado nos resultados de segmentacao hierarquica apos o
processo de realinhamento das hierarquias ao treinar florestas de aleatorias e redes neurais
com diferentes configuracoes e com diferentes descritores de regioes?
Alem disso, neste trabalho tambem foi proposto um novo calculo de score, o qual
determina se as regioes de uma hierarquia sao muito, pouco ou devidamente segmentadas.
20
Para isso foram definidos os seguintes objetivos especıficos:
Treinar florestas de aleatorias e redes neurais com diferentes configuracoes e com
diferentes descritores para as regioes;
a)
Avaliar a qualidade de cada um dos treinamentos realizados;b)
Realizar a predicao para rotular se as regioes sao muito, pouco ou devidamente
segmentados;
c)
Analisar os resultados obtidos das predicoes em relacao aos resultados esperados;d)
Realizar o realinhamento das hierarquias de particoes a partir das rotulagens
preditas;
e)
Analisar e avaliar os resultados das segmentacoes hierarquicas realinhadas e
comparar com a literatura;
f)
Treinar um regressor utilizando os resultados obtidos a partir do novo calculo de
score proposto;
g)
Avaliar a qualidade do treinamentos realizados utilizando os resultados obtidos a
partir do novo calculo de score proposto;
h)
Comparar os resultados das hierarquias realinhadas ao utilizar o calculo de score
proposto por Chen et al. (2016b) com os resultados das hierarquias realinhadas ao
utilizar o calculo de score proposto neste trabalho.
i)
1.4 Justificativa
A segmentacao de imagem e uma etapa fundamental para muitas abordagens que
utilizam as tecnicas de processamento digital. A segmentacao em sua versao hierarquica
tem sido bastante utilizada na literatura, uma vez que o problema de segmentacao
pode ser considerado um problema multiescala. Sendo assim, muitos trabalhos vem
21
sendo desenvolvidos com intuito de melhorar as hierarquias de particoes. Diante desses
trabalhos, uma interessante ideia, desenvolvido por Chen et al. (2016b) foi realinhar
resultados de segmentacoes hierarquicas utilizando florestas aleatorias com 100 arvores e
alguns descritores de regioes para predizer se as regioes sao muito, pouco ou devidamente
segmentadas e, entao, realinhar a hierarquia de acordo com estas rotulagens. Com isso,
os autores alcancaram interessantes melhorias nos resultados de segmentacao hierarquica.
Porem, o metodo foi testado em apenas um metodo de aprendizado de maquina, com
apenas uma configuracao e tambem com apenas um conjunto de descritores. Sendo assim,
surge a necessidade de se avaliar a abordagem de realinhamento em cenarios diferentes.
Por isso, alem das florestas aleatorias utilizou-se outra abordagem de aprendizado de
maquina, as redes neurais, que vem sendo cada vez mais exploradas na literatura na
tentativa de solucionar diferentes problemas, ate mesmo os mais complexos.
Na literatura, as redes neurais e as florestas aleatorias sao aplicadas com diferentes
configuracoes (quantidade de camadas e neuronios, no caso das redes neurais, e quantidade
de arvores, no caso das florestas aleatorias), portanto, nao se tem ao certo qual seria
a melhor configuracao para o problema de determinar se uma regiao e muito, pouco
ou devidamente segmentada. Entao, neste trabalho os metodos de aprendizado foram
explorados em diferentes cenarios, os quais serao mostrados adiante. Paralelamente a
isso, tambem nao se tem ao certo qual e o melhor conjunto de descritores para as regioes,
por isso, houve a necessidade de investigar o impacto ao utilizar diferentes conjuntos de
descritores de regioes no processo de aprendizado.
Resumidamente, o processo de realinhamento de hierarquias depende dos
resultados das predicoes que definem se uma regiao e muito, pouco ou devidamente
segmentada. Sendo assim, torna-se necessario avaliar a qualidade do preditor que ira
retornar esses resultados, analisar os resultados retornados pelo mesmo e, ainda, analisar
a qualidade das segmentacoes geradas apos utilizar estes mesmos resultados no processo
de realinhamento de hierarquias.
1.5 Contribuicoes
As principais contribuicoes deste trabalho sao: analise de como o processo de
realinhamento de hierarquias impacta nas segmentacao de imagens; analise da qualidade
das predicoes obtidos por redes neurais e florestas aleatorias para rotular se uma regiao e
muito, pouco, ou devidamente segmentada, bem como a analise de como elas atuam em
diferentes configuracoes e com diferentes caracterısticas; analise de como a utilizacao de
diferentes conjuntos de caracterısticas no treinamento podem influenciar nas segmentacoes
finais do processo de realinhamento de hierarquias;um novo calculo de score para definir a
rotulagem das regioes; analise de como a utilizacao de ground-truth realizado por diferentes
22
pessoas para uma mesma imagem no processo de treinamento podem influenciar nos
resultados finais do processo de realinhamento de hierarquias.
1.6 Organizacao da dissertacao
Essa dissertacao esta organizada da seguinte maneira: no Capıtulo 2 e apresentado
o referencial teorico e os trabalhos relacionados levantados por meio de uma revisao da
literatura. No Capıtulo 3 e descrita a metodologia utilizada para o desenvolvimento da
pesquisa. No Capıtulo 4 sao apresentados os experimentos e as analises dos resultados.
Por fim, no Capıtulo 6 sao apresentadas as conclusoes.
23
2 REFERENCIAL TEORICO
Este Capıtulo tem como proposito introduzir os principais conceitos e trabalhos
relacionados com a presente dissertacao.
2.1 Imagem Digital
Pedrini e Schwartz (2007) definiram uma imagem como uma funcao f(x, y), sendo
o valor fornecido pelas coordenadas espaciais (x, y) a intensidade ou o brilho da imagem
naquele determinado ponto. Neste contexto, a intensidade luminosa e o produto entre a
quantidade de luz incidente na cena (iluminancia) e a quantidade de luz refletida pelos
objetos em cena (reflectancia). Em resumo, a equacao 2.1 apresenta a definicao da funcao
f(x, y), de modo que i representa a iluminancia e r a reflectancia.
f(x, y) = i(x, y)r(x, y). (2.1)
A Figura 7 exemplifica uma imagem e sua representacao no modelo de coordenadas
espaciais, onde a coordenada (0, 0) (localizada no canto superior esquerdo da imagem)
e a origem da imagem.
Figura 7 – Imagem convertida para representacao em um modelo decoordenadas
Fonte: Elaborada pela autora
Uma imagem digital, segundo Pedrini e Schwartz (2007), pode ser obtida a partir do
processo de digitalizacao que consiste das etapas de amostragem e quantizacao. A etapa
de amostragem e responsavel por discretizar as coordenadas (x, y), do domınio da definicao
de imagem, para uma matriz de (M×N) elementos, de modo que a dimensao M da matriz
24
corresponde ao eixo x da imagem e a dimensaoN corresponde ao eixo y da mesma imagem.
Para imagens monocromaticas (em tons de cinza), a etapa de quantizacao envolve definir
um valor inteiro L de nıveis de cinza para cada elemento (x, y) (ou pixel) da imagem.
Os nıveis de cinza, comumente, podem ser convertidos em um valor do intervalo [0,255],
atribuindo a cor preta o valor 0 (nıvel mais escuro de cinza) e a cor branca o valor 255
(nıvel mais claro de cinza). Para imagens multespectrais (coloridas), a quantizacao pode
ser realizada atribuindo a cada pixel os nıveis de vermelho ou red (R), verde ou green (G)
e azul ou blue (B), tendo entao tres componentes.
Torres e Falcao (2006) definem uma imagem digital I como sendo um par (DI ,~I),
de modo que:
• DI representa um conjunto finito de pixels ;
• ~I:DI 7→Rn representa uma funcao que atribui para cada pixel p em DI um vetor~I(p) ∈ Rn (por exemplo, ~I(p) ∈ R3 quando uma cor no modelo RGB e atribuıda a
um pixel).
Sendo assim, DI representa as coordenadas (x, y) amostradas, enquanto o vetor ~I,
representa a quantizacao de cada pixel p da imagem, que no exemplo em questao assume
um valor real nos nıveis de R, G e B.
2.1.1 Relacionamentos basicos entre pixels
Os pixels de uma imagem digital se relacionam entre si de diferentes maneiras e em
diferentes situacoes. Nesta Secao, serao apresentados alguns dos tipos de relacionamentos
mais comuns.
2.1.1.1 Vizinhanca
Dentre os tipos de relacionamentos de vizinhanca entre os pixels de uma imagem,
presentes na literatura, dois deles serao abordados: 4-vizinhos e 8-vizinhos. Gonzalez
e Woods (2001) explicaram que na relacao 4-vizinhos, um pixel p nas coordenadas
(x, y) possui dois vizinhos horizontais e dois vizinhos verticais, os quais se localizam nas
coordenadas estabelecidas na Equacao 2.2; e, na relacao 8-vizinhos, existem outros quatro
vizinhos diagonais (ver Equacao 2.3), alem dos quatro definidas anteriormente.
(x+ 1, y), (x− 1, y), (x, y + 1), (x, y − 1). (2.2)
(x+ 1, y + 1), (x+ 1, y − 1), (x− 1, y + 1), (x− 1, y − 1). (2.3)
25
A Figura 8 exemplifica os dois tipos de vizinhancas mencionados de acordo com as
respectivas coordenadas (ver Equacoes 2.2 e 2.3).
Figura 8 – Exemplo da relacao de vizinhanca 4-vizinhos e 8-vizinhos
Fonte: Elaborada pela autora
Gonzalez e Woods (2001) ressaltaram que alguns dos pixels vizinhos podem nao existir se
(x, y) estiver localizado na borda da imagem.
2.1.1.2 Conectividade e Adjacencia
A conectividade entre pixels e um conceito fundamental que simplifica a definicao
de inumeros conceitos a respeito de imagem digital, tais como regioes e limites (GONZALEZ;
WOODS, 2001). De acordo com Pedrini e Schwartz (2007), para verificar se existe
conectividade entre dois pixels, e preciso determinar se eles sao vizinhos e se o valor
atribuıdo a eles satisfazem um criterio especıfico de similaridade (cor, textura, nıvel
de cinza e outros). Pedrini e Schwartz (2007) tambem determinaram que se existe
conectividade entre dois elementos, significando que eles sao adjacentes.
Logo, a sequencia de pixels adjacentes existentes entre o pixel p com coordenadas
(x, y) ate o pixel q com coordenadas (s, t), e definida por (GONZALEZ; WOODS, 2001) como
uma sequencia de pixels distintos com coordenadas: (x0, y0), (x1, y1), ..., (xn, yn) onde os
pixels (xi, yi) e (xi+1, yi+1) sao adjacentes, e n e o tamanho do caminho.
A Figura 9 ilustra os conceitos abordados nesta Secao, de maneira que, os pixels
destacados em vermelho, possuem a relacao de conectividade por obedecerem algum
criterio de similaridade e por serem vizinhos. Sendo assim, pode-se concluir que os
pixels referentes as coordenadas (x, y) e (x, y − 1), por exemplo, sao adjacentes. Pode-se
tambem estabelecer que o caminho entre o pixel com coordenada (x, y−1) ate o pixel com
26
coordenada (x+1, y+1) corresponde a seguinte sequencia: (x, y−1), (x, y), (x+1, y+1),
possui tamanho igual a 2.
Figura 9 – Exemplo da relacao de conectividade entre pixels de uma imagem
Fonte: Elaborada pela autora
2.1.1.3 Componentes Conexos, Regioes e Bordas
Conforme Pedrini e Schwartz (2007) abordaram, um subconjunto de pixels C de
uma imagem em que seus elementos possuem conectividade entre si e denominado como
componente conexo. Portanto, seja C um subconjunto de pixels em uma imagem, dois
pixels p e q sao ditos estarem conexos em C, se existe um caminho entre eles consistido
apenas por pixels de C (GONZALEZ; WOODS, 2001).
A Figura 10 exemplifica uma imagem com tres componentes conexos, se a condicao
de vizinhanca considerada for 4-vizinhos; ou dois componentes conexos, se a condicao de
vizinhanca considerada for 8-vizinhos.
Gonzalez e Woods (2001) definiram a regiao R de uma imagem como sendo um
componente conexo na mesma; e a borda (ou contorno) da regiaoR, como sendo o conjunto
de pixels na regiao que tem um ou mais vizinhos que nao estao em R. Em outras palavras,
segundo Pedrini e Schwartz (2007), a borda da regiao R corresponde ao conjunto de pixels
localizados no contorno de R. A Figura 11 mostra um exemplo da abstracao dos conceitos
de regiao e borda de uma imagem.
27
Figura 10 – Exemplo de Componentes Conexos em uma Imagem
Fonte: Elaborada pela autora
Figura 11 – Exemplo de imagem (a) e a representacao da sua regiao (b), e daborda da regiao (c)
(a)
(b) (c)
Fonte: Elaborada pela autora
2.2 Grafo
Simoes-Pereira (2014), definiu um grafo G = (V,E) como um sistema constituıdo
por:
28
• um conjunto V cujos elementos sao denominados vertices;
• um conjunto E de pares nao ordenados de vertices, denominados arestas, os quais
unem pares de vertices de V . Sendo assim, uma aresta (x, y) faz a ligacao entre os
vertices x e y.
E comum se usar a notacao V (G) ou E(G) ao se referir ao conjunto de vertices ou de
arestas de um grafo G.
Nicoletti e Hruschka (2013) ressaltam que para se ter um grafo o conjunto de
vertices nao pode ser vazio, porem pode existir grafo com conjunto de arestas vazio, o
qual e chamado de grafo nulo.
Simoes-Pereira (2014) apresentou um outro tipo de grafo, o dıgrafo D = (V,A),
que por sua vez foi definido como um sistema semelhante ao grafo, porem neste, A e um
conjunto de arcos e nao de arestas, onde o arco (x, y) faz a ligacao entre os vertices x e
y apontando a direcao da ligacao. Para melhor entendimento destes conceitos, a Figura
12 exemplifica um grafo e um dıgrafo. Vale ressaltar, que na Figura 12(a) o conjunto de
vertices V e composto pelos vertices V 1, V 2 e V 3 e o conjunto de arestas E pelos pares
[(V 1, V 2), (V 2, V 3), (V 3, V 4)]; na Figura 12(a), o conjunto de vertices V e composto pelos
vertices V 1, V 2 e V 3 e o conjunto de arcos A pelos pares [(V 1, V 2),(V 2, V 1), (V 2, V 3),
(V 3, V 4)].
Figura 12 – Exemplos de grafo (a) e dıgrafo (b)
(a) (b)
Fonte: Elaborada pela autora
2.2.1 Conceitos Basicos sobre Teoria dos Grafo
Nesta Secao serao apresentados alguns conceitos basicos sobre a teoria dos grafos.
29
2.2.1.1 Tipos basicos de vertices e arestas
Nicoletti e Hruschka (2013) apresentaram alguns conceitos basicos a respeito dos
tipos de vertices e arestas em um grafo, como:
• duas ou mais arestas de G podem ser conectadas ao mesmo par de vertice x e y,
denominando-se arestas paralelas;
• vertices de G que nao sao unidos por nenhuma aresta sao denominados vertices
isolados;
• um par de vertice de G unidos por uma aresta sao chamados de vertices adjacentes
ou vizinhos;
• arestas distintas de G podem ser chamadas de adjacentes se possuem um vertice em
comum;
• o conjunto de todos os vizinhos (vertices adjacentes) de um vertice x de G e chamado
de conjunto vizinhanca de x;
• um grafo e chamado de simples se nao possui loops e nao possui arestas paralelas;
• uma aresta e e incidente a um vertice x ou um vertice x e incidente a aresta e, se x
e conectado por e.
2.2.1.2 Grafo conexo
Um grafo G = (V,E) nao vazio e chamado grafo conexo se existir um caminho
entre qualquer par de vertices de V (SIMOES-PEREIRA, 2014).
2.2.1.3 Subgrafo
Segundo Simoes-Pereira (2014), um grafo G′ = (V ′, E ′) e um subgrafo de G =
(V,E) quando V ′ ⊆ V e E ′ ⊆ E, como exemplifica a Figura 13.
2.2.1.4 Passeio, Trilha, Caminhos, Ciclo
Muitos problemas que podem ser resolvidos por meio da teoria dos grafos partem
da possibilidade de chegar em um vertice do grafo a partir de outro vertice (NICOLETTI;
HRUSCHKA, 2013).
Segundo Simoes-Pereira (2014), um passeio entre os vertices x e y de um grafo G e
uma sequencia alternada de vertice e arestas que se inicia em x e termina em y. Quando
30
Figura 13 – Grafo (a) e um exemplo de subgrafo relacionado a ele(b)
(a) (b)
Fonte: Elaborada pela autora
se trata de um passeio, pode ocorrer repeticao de vertices e arestas na sequencia, caso
exista repeticao somente de arestas entao a sequencia e denominada como trilha e, por
fim, se nao exista repeticao de vertices nem de arestas, tem-se um caminho. Um caminho
cujo vertice de origem e igual ao do vertice destino e chamado de ciclo.
2.2.2 Arvores e Arvores Geradoras
Segundo Nicoletti e Hruschka (2013), aplicacoes computacionais utilizam com
frequencia o conceito de arvores para organizar conjuntos de dados. Os autores definiram
uma arvore como sendo um grafo G = (V,E) de modo que:
• G e acıclico, ou seja, nao contem ciclos;
• G e conexo;
Alem disso, G e considerado uma floresta se for acıclico, independente de ser conexo ou
nao.
2.2.2.1 Corte
Seja G = (V,E) um grafo conexo e um vertice v, tal que G− v ≡ H = (V − v, E−(v, w) ∈ E | w ∈ V − v) seja desconexo. Uma aresta (x, y), e um aresta de corta em G, se
G− (x, y) ≡ H = (V,E | (x, y)) for desconexo. Uma aresta unica que faz a ligacao entre
duas partes de um grafo, de modo que se ela for removida provoca um grafo com duas
partes disjuntas, e denominada como ponte (NICOLETTI; HRUSCHKA, 2013). Portanto, se
31
uma aresta nao e uma ponte, significa que ela faz parte de um ciclo e, consequentemente,
um grafo G conexo e uma arvore se e somente se, todas as suas arestas forem pontes.
2.2.2.2 Arvores Geradoras
Um subgrafo G1 = (V1, E1) e um subgrafo gerador de G = (V,E), se G1 for
subgrafo de G, tal que V1 = V . Em outras palavras, se os grafos G1 e G possuem o mesmo
conjunto de vertices, e G1 for uma arvore, entao ele e chamado de arvore geradora. Dessa
forma, existem alguns problemas que podem ser solucionados com este conceito, tal como
encontrar em um grafo G um subgrafo que tenha todos os vertices de G com o menor
peso possıvel (arvore geradora mınima) (NICOLETTI; HRUSCHKA, 2013).
2.2.2.3 Arborencia
Simoes-Pereira (2014) explicou que em uma arvore pode-se definir um vertice raiz,
de modo a obter uma arvore enraizada, o que pode ser denominada arborencia. Este
tipo de arvore pode ser aplicada em hierarquias, arvores genealogica, organogramas, entre
outros. Dessa forma, nas arvores com raiz costuma-se atribuir nıveis aos vertices, sendo
a raiz o nıvel zero e o nıvel k e composto pelos vertices que se encontram na distancia k
da raiz.
2.3 Segmentacao de Imagens
Pratti (2001) definiu a segmentacao de uma imagem como sendo o processo que
divide ou separa a imagem em regioes de atributo similar, sendo que, esse processo nao
envolve qualquer tipo de reconhecimento ou interpretacao das regioes, apenas subdivisao
da imagem. Gonzalez e Woods (2001) destacaram que interpretar dados contidos nas
imagens digitais e considerada uma atividade complexa e, por isso, a segmentacao pode ser
considerada como um processo intermediario necessario para tornar possıvel a aplicacao
da interpretacao em questao. Pedrini e Schwartz (2007) aponta que encontrar regioes que
sao homogeneas e conseguir separa-las das regioes vizinhas e uma tarefa difıcil, uma vez
que os objetos de uma imagem possuem posicoes, tamanhos e formatos diferentes e, alem
disso, a dificuldade e aumentada quando se tem ruıdos na imagem, o que leva, muitas
vezes, uma regiao homogenea a ser dividida e regioes distintas a serem reconhecidas como
uma unica regiao.
De acordo com Pedrini e Schwartz (2007), as propriedades de imagens (ou
caracterısticas), como cor, intensidade e textura podem ser utilizadas para analise das
regioes. Os metodos convencionais de segmentacao utilizam essas propriedades para
32
identificar (dis)similaridades na imagem, para entao, particiona-la. Os metodos baseados
na dissimilaridade particionam as regioes com base nas mudancas abruptas da propriedade
analisada, pois essas mudancas podem significar a presenca de borda, linhas ou pontos
isolados. Os metodos baseados em similaridade buscam agrupar os pixels da imagem de
acordo com alguma medida de similaridade existente entre eles.
Existem tres principais categorias de abordagens para segmentacao de imagens que
se baseiam nos valores de intensidade dos pixels, sao elas: deteccao de descontinuidade,
tecnica de limiarizacao e identificacao de regiao (PEDRINI; SCHWARTZ, 2007). Para
melhor compreensao deste trabalho serao abordadas: segmentacao por deteccao de
descontinuidade e segmentacao por identificacao de regioes por meio de grafos.
2.4 Segmentacao de Imagens Baseada em Deteccao de Descontinuidade
Os tipos basicos de descontinuidades em uma imagem sao pontos, retas, juncoes e
bordas. Os detectores buscam identificar essas descontinuidades, geralmente, por meio
do uso de mascaras em um processo de varredura da imagem (PEDRINI; SCHWARTZ,
2007). Gonzalez e Woods (2001) tambem afirmam que a maneira mais comum de procurar
descontinuidade se da por meio da aplicacao de mascaras sobre a imagem. Os autores
explicaram que um mascara W e uma matriz de um tamanho n × n com pesos (ou
coeficientes) associados a cada elemento. A mesma e sobreposta na imagem, de modo
que o pixel da imagem que se localiza na mesma coordenada que o elemento central dessa
sobreposicao e substituıdo pelo valor M definido pela Equacao 2.4. Deste modo, o valor
M e dependente dos valores dos pixels vizinhos e dos pesos de W . Esse processo se repete
ate que todos os pixels da imagem tenham sido tenham sido sobrepostos.
M = W1 × Z1 +W2 × Z2 + ...+n×n∑i=1
Wi × Zi. (2.4)
A Equacao 2.4, determina como computar a soma do produto dos coeficientes da mascara
pelo valor dos pixels da imagem, sendo que Wi representa o coeficiente da mascara,
enquanto que Zi e o valor referente ao pixel da imagem que esta sobreposto pela mascara
e, levando em consideracao, que ambos estao na mesma coordenada.
Nesta Secao serao apresentados tres tipos de detectores de descontinuidades, sao
eles: deteccao de ponto, deteccao de linha e deteccao de borda.
33
2.4.1 Deteccao de Ponto
Segundo Pedrini e Schwartz (2007), a deteccao de ponto consiste em encontrar
pontos isolados em uma imagem. Deste modo, um ponto pode ser detectado, por exemplo,
ao se aplicar a mascara ilustrada na Figura 14 em uma imagem.
Figura 14 – Exemplo de mascara para deteccao de ponto
Fonte: Elaborada pela autora
Um ponto e entao detectado se:
|M | > T. (2.5)
Em que T representa um valor de limiar positivo e M e dado pela Equacao 2.4. Assim,
se os pixels vizinhos, sobrepostos pela mascara, possuem o mesmo valor, o resultado da
mascara sera nulo (M = 0) e isso significa que a regiao e similar; caso contrario, quando
existe uma discrepancia no valor de M , o ponto e detectado.
2.4.2 Deteccao de Linha ou Reta
Gonzalez e Woods (2001) e Pedrini e Schwartz (2007) definiram a deteccao de retas
ou linhas, como sendo responsavel por detectar retas horizontais, verticais e diagonais.
Neste caso, o ponto central da mascara pode ser uma linha reta horizontal, vertical ou
diagonal, como mostra a Figura 15.
Este tipo de detector segue a mesma logica da Equacao 2.5 para analisar se existe ou nao
uma reta.
34
Figura 15 – Mascara para deteccao de bordas horizontais (a), Mascara paradeteccao de retas verticais (b), Mascara para deteccao de retas diagonais (c ed)
(a) (b)
(c) (d)
Fonte: Elaborada pela autora
2.4.3 Deteccao de Borda ou contorno
Pedrini e Schwartz (2007) definem uma borda como sendo o limite ou a fronteira
entre duas regioes cujos pixels possuem valor de propriedade diferentes. Grande parte
das tecnicas para deteccao de borda existentes na literatura se diferem pelos operadores
locais utilizados para identificar mudanca nos valores atribuıdos aos pixels da imagem.
Segundo Arbelaez (2006), o problema de detectar bordas e a segmentacao, embora
sejam relacionados, nao sao identicos. Uma vez que a deteccao de bordas produz contornos
fechados e, portanto, nao necessariamente fornecerao uma particao da imagem em regioes.
Porem, sempre e possıvel recuperar regioes em um detector de contorno.
A Secao 2.4.3.1 apresenta um exemplo de operador que pode ser utilizado.
2.4.3.1 Operadores de Gradiente
O vetor gradiente e um vetor que indica os locais onde existem variacoes de
caracterısticas na imagem. Ressaltando que a direcao do gradiente e sempre perpendicular
35
a direcao tangente da borda como mostra a Figura 16.
Figura 16 – Gradiente em borda
Fonte: Pedrini e Schwartz (2007)
Sendo assim, Pedrini e Schwartz (2007) definiram que o vetor gradiente5f(x, y) na
posicao (x, y) em uma imagem, pode ser calculado por meio de derivadas parciais, como
mostra a Equacao 2.6, de modo que i e j correspondem, respectivamente, aos vetores
unitarios nas direcoes x e y.
5f(x, y) =∂(x, y)
∂xi+
∂(x, y)
∂yj. (2.6)
Portanto, (x, y) e indicado com um ponto na borda se || 5 f(x, y)|| for maior que um
limiar T .
Segundo Pedrini e Schwartz (2007), o gradiente, por sua vez, e definido pela
magnitude do vetor 5f(x, y). Uma vez que, o mesmo indica a maior taxa de variacao de
f(x, y) por unidade de distancia da direcao 5f , como mostra a Equacao 2.7.
5||f || =
√(|∂f∂x
∣∣∣∣2 +
∣∣∣∣∂f∂y∣∣∣∣2. (2.7)
Um problema encontrado em empregar a formula dessa maneira, segundo Pedrini
e Schwartz (2007) e o grande tempo computacional necessario para seu calculo. Diante
disto, passou-se a aproximar o valor de magnitude por meio do valor absoluto ou valor
maximo entre os gradientes na direcao x e y, como mostra as Equacoes 2.8 e 2.9
36
5f ≈∣∣∣∣∂f∂x
∣∣∣∣+
∣∣∣∣∂f∂y∣∣∣∣ . (2.8)
5f ≈ max
(∣∣∣∣∂f∂x∣∣∣∣+
∣∣∣∣∂f∂y∣∣∣∣) . (2.9)
A mudanca de intensidade, cor, textura ou outro atributo da imagem pode ser
encontrada por meio de comparacao entre dois pixels adjacentes p e q. Sendo assim, a
presenca de uma borda vertical pode ser detectada pela diferenca horizontal entre dois
pixels e as bordas horizontais pela diferenca vertical entre p e q. Quando se percebe que
uma variacao lenta ao longo do eixo y e mais rapida ao longo do eixo x, indica a existencia
de uma borda vertical. O mesmo raciocınio se aplica para uma borda horizontal, bastando
trocar o eixo y pelo eixo x e vice-versa.
2.4.4 Metodo Pb
O metodo Pb (Probability of Boundary) desenvolvido por Martin, Fowlkes e
Malik (2004) para segmentacao de imagem objetivou analisar cada pixel da imagem
baseando-se nas descontinuidades locais em diferentes propriedades da imagem (cor, brilho
e textura), em uma serie de orientacoes. Para detectar mudancas locais de cor, textura
e brilho em um par de pixels (x, y) da imagem considera-se um cırculo de raio r e o
subdivide em orientacoes θ graus. Se houver uma borda em (x, y), espera-se que os
limites dos semicırculos sejam significativamente diferentes em relacao a cor, brilho e
textura. Portanto, para cada propriedade do semicırculo (cor, brilho e textura) cria-se
um histograma e a diferenca entre eles e calculada conforme mostra a Equacao 2.10.
χ2(g, h) =1
2
∑ (gi − hi)2
gi + hi(2.10)
Considerando que g e h representam uma propriedade do semicırculo g e a mesma
propriedade no semicırculo h, uma grande diferenca entre eles indica uma descontinuidade.
Com base nas diferencas entre os histogramas, um classificador e entao treinado
de acordo com o conjunto das respectivas imagens, cujas bordas foram definidas por seres
humanos. Deste modo, a funcao Pb(x, y, θ) e responsavel por predizer a probabilidade
aposteriori de uma borda ao longo da orientacao θ para um pixel (x, y).
37
2.5 Segmentacao de Imagens baseada em Grafos
Na literatura, de modo geral, existem diversos exemplos de metodos de analise de
imagens que se baseiam na teoria dos grafos e, em particular, metodos de segmentacao de
imagens.
Como foi mencionado na Secao 2.3, a maior dificuldade do processo de segmentacao
de imagens e encontrar regioes que sejam homogeneas e separa-las das regioes vizinhas.
Para auxiliar nesse processo, as propriedades de uma imagem (ou caracterısticas), como
cor, intensidade e textura podem ser utilizadas para analisar regioes similares.
Um conceito muito utilizado nos metodos de segmentacao de imagens baseados em
grafos e a arvore geradora mınima (ver Secao 2.2.2.2). Zahn (1971) estudou a aplicacao
desse conceito na resolucao do problema de agrupamento em grafos, de modo a produzir
grupos de vertices utilizando metricas para calculo da (dis)similaridade entre eles. Alguns
anos depois, Morris, Lee e Constantinides (1986) utilizaram a proposta de Zahn (1971)
para segmentacao de imagens, propondo uma abordagem que usou a intensidade dos pixels
como caracterıstica de analise da similaridade entre vertices para entao agrupa-los.
Segundo Zhang e Yang (2008), nos metodos de segmentacao que utilizam arvore
geradora mınima (AGM) para agrupamento, o conjunto de vertices do grafo e composto
pelos dados a serem agrupados (pixels), as arestas representam o relacionamento entre
os vertices de acordo com o relacionamento de vizinhanca escolhido (ver Secao 2.2) e o
peso associado a cada aresta representa a similaridade entre o par de vertices associados
a ela. De modo geral, quanto menor for o peso da aresta, maior sera a semelhanca entre
os vertices (pixels) em questao. Dessa maneira, o processo de segmentar uma imagem
baseando-se na teoria dos grafos se resume em particionar o grafo em subgrafos, de modo
que cada subgrafo represente uma regiao da imagem (ZHANG; YANG, 2008).
A Secao a seguir apresenta um dos metodos de segmentacao baseado em grafos
existente na literatura.
2.5.1 Metodo GB
Felzenszwalb e Huttenlocher (2004) apresentaram uma abordagem para
segmentacao de imagens coloridas por meio de grafos, denominado deravante de GB.
O intuito foi dividir o grafo em componentes, de maneira que os pixels similares ficassem
no mesmo componente do grafo e os elementos muito diferentes em outros componentes;
e, que as arestas dos pares de vertices do mesmo segmento possuıssem pesos relativamente
baixos, enquanto que as arestas entre vertices que estao em componentes distintos
possuıssem pesos relativamente altos (FELZENSZWALB; HUTTENLOCHER, 2004). Essa
38
abordagem busca agrupar pixels semelhantes em um mesmo segmento, ao mesmo tempo
que tenta separar os segmentos de outros vizinhos pelo grau de dissimilaridade entre eles.
O processo da abordagem de Felzenszwalb e Huttenlocher (2004) consistiu em,
primeiramente, gerar um grafo ponderado, nao direcionado G = (V,E) , de modo que:
• o conjunto V de vertices representa os pixels da imagem a serem segmentados;
• o conjunto E de arestas representa as conexoes entre dois pixels vizinhos,
considerando os 8 vizinhos mais proximos (ver Secao 2.3);
O peso de cada aresta e definido pela dissimilaridade entre os pixels relacionados a ela.
Para uma determinada imagem I representada por um grafo G e entao calculada
a arvore geradora mınima T (ver exemplificacao na Figura 17), na qual sao tomadas
todas as decisoes referentes ao processo de segmentacao. Uma dada segmentacao S de I,
corresponde a uma particao de V em componentes, de modo que cada um dos componentes
(ou regioes) C ∈ S correspondem a um componente conexo do grafo G′ = (V,E ′), em que
E ′ ⊆ E.
Figura 17 – Grafo (a) e sua arvore geradora mınima (b)
(a) (b)
Fonte: Elaborada pela autora
Um predicado D e definido para se analisar a dissimilaridade entre os vertices do
grafo, desse modo, e possıvel validar se os vertices pertencem a mesma regiao ou nao.
Para isso, os autores utilizaram os conceitos de deteccao de borda (ver Secao 2.4.3). Esse
predicado se baseia no calculo de dissimilaridade entre os elementos ao longo do limite
entre dois componentes. Basicamente, a comparacao consiste em analisar as diferencas
entre dois componentes com as diferencas interna dos mesmos, portanto, essa abordagem
e adaptativa em relacao as caracterısticas locais dos dados. Define-se a diferenca interna
de um componente C ⊆ V como sendo o maior peso de um arco na arvore geradora
mınima do componente, MST(C, E).
O particionamento e iniciado, de modo que cada regiao C seja composta por apenas
um vertice, e em cada aresta (x, y) de T , seguindo uma ordem nao decrescente de seus
39
pesos, localizam-se as regioes X e Y que contem os vertices x e y, respectivamente.
Portanto, para se verificar se as regioes X e Y serao unidas e necessario avaliar a
dissimilaridade entre elas. Para isso, primeiramente, e calculada a diferenca interna
Int(X) e Int(Y ). Essa medida significa que um componente C mantem-se conectado
quando arestas de pesos no mınimo Int(C) sao consideradas. Ja a diferenca Dif(X, Y )
entre os dois componentes X, Y ⊆ V e dada pelo peso mınimo de uma aresta que conecta
vertices pertencentes aos dois componentes. A Figura 18 ilustra como sao avaliados
Int(X) e Dif(X, Y ) para quaisquer X, Y ⊆ V .
Figura 18 – Ilustracao da avaliacao de similaridade entre os pixels
Fonte: Elaborada pela autora
Durante a comparacao entre quaisquer regioes C1 e C2 avalia-se se ha evidencias
de bordas entre elas, verificando se a diferenca Dif(C1, C2) entre os componentes e maior
que a menor diferenca interna dos componentes, Int(C1) e Int(C2). O predicado que
determina a fusao das regioes C1 e C2 e dado pela Equacao 2.11.
Fusao(C1, C2) =
verdadeiro, se Dif(C1, C2) ≤MInt(C1, C2);
falso, caso contrario;(2.11)
sendo a diferenca mınima interna MInt entre as regioes C1 e C2 definida pela
Equacao 2.12.
MInt(C1, C2) = minInt(C1) + τ(C1); Int(C2) + τ(C2) (2.12)
A funcao de limiar τ controla o quanto a diferenca entre duas regioes deve ser
maior do que as suas diferencas internas, para que haja evidencia de uma borda entre elas
e e definida pela Equacao 2.13.
τ(C) =k
|C|(2.13)
40
em que |C| e o tamanho da regiao C e k e um parametro constante. Uma limitacao
do metodo e que, se as regioes forem significativamente pequenas, o Int(C) nao e uma
boa medida das caracterısticas locais dos pixels. Sendo assim, onde existem pequenas
regioes ha uma evidencia mais forte para a existencia de uma fronteira. Felzenszwalb
e Huttenlocher (2004) definem k como uma “escala de observacao”, de modo que um
valor de k maior provoca uma preferencia para os componentes maiores. Regioes menores
sao permitidas quando existe uma diferenca consideravelmente grande entre as regioes
vizinhas.
Portanto, o metodo GB nao produz uma segmentacao que possa ser facilmente
inferida e/ou controlada, pois a escolha de um valor para k, de modo a produzir um
resultado de segmentacao com um determinado numero de regioes, nao e uma tarefa facil.
Isto acontece porque a abordagem nao atende aos princıpios da analise multiescala. Assim,
pode-se usar diferentes valores para k, sem que haja necessariamente uma relacao entre a
quantidade de regioes obtidas e o valor de k selecionado.
2.6 Segmentacao Hierarquica de Imagens
Metodos que utilizam estrategias hierarquicas sao um caso particular da
segmentacao de imagens. Atualmente, na literatura, cada vez mais trabalhos vem sendo
desenvolvidos na area, devido as suas particularidades. Segundo Guimaraes et al. (2012)
e Guimaraes e Patrocınio Jr (2013), a segmentacao hierarquica de imagens gera diversas
segmentacoes em diferentes nıveis de detalhes. Alem disso, uma segmentacao com nıvel
de detalhe mais baixo pode ser gerada a partir da fusao de regioes de uma segmentacao
de nıveis mais detalhados (GUIMARAES et al., 2012; GUIMARAES; PATROCINIO JR, 2013).
A Figura 19 apresenta um exemplo deste processo.
As abordagens hierarquicas devem obedecer os princıpios da analise multiescala
que sao os princıpio da causalidade, o qual estabelece que o contorno de uma regiao em
uma escala (ou nıvel de detalhe) k1 deve estar presente em qualquer outra escala k2 < k1;
e o princıpio da localidade, o qual estabelece que os contornos das regioes nao devem se
alterar ou deformar quando ha uma mudanca de escala (GUIGUES; COCQUEREZ; MEN,
2006). Sendo assim, a segmentacao hierarquica consegue manter as informacoes espaciais
e de vizinhanca entre os segmentos mesmo com mudancas de escala (??GUIMARAES;
PATROCINIO JR, 2013).
Teoricamente, uma hierarquia pode ser representada por meio de uma arvore, como
visto na Secao anterior Zahn (1971) deu o inıcio as abordagens hierarquicas com o uso
de arvore geradora mınima. Depois disso, outros trabalhos foram sendo desenvolvidos e
aprimorando o processo. Comecando por Morris, Lee e Constantinides (1986), e depois
sendo popularizado por Felzenszwalb e Huttenlocher (2004), Nock e Nielsen (2004).
41
Figura 19 – Exemplo do resultado do processo de segmentacao com estrategiahierarquica
Fonte: Elaborada pelo autora.
Contudo, seguindo os princıpios definidos por Guigues, Cocquerez e Men (2006), os
metodos baseados no agrupamento ou fusao das regioes da imagem, como o metodo GB
(FELZENSZWALB; HUTTENLOCHER, 2004), nao produzem hierarquias pois nao satisfazem
os princıpios da analise multiescala (causalidade e localidade).
Guimaraes et al. (2012) e Guimaraes e Patrocınio Jr (2013) afirmaram ser possıvel
modificar os parametros (metricas de distancia e modos de agrupamento) de um metodo
de segmentacao conhecido, como por exemplo o GB (FELZENSZWALB; HUTTENLOCHER,
2004) e o SRG (NOCK; NIELSEN, 2004), de modo que esse consiga gerar segmentacoes que
respeitem os princıpios de hierarquia.
Em Guimaraes et al. (2012, 2017), foi proposta uma transformacao do metodo
nao-hierarquico GB em uma estrategia hierarquica, de modo que a ultima respeita os
princıpios da analise multiescala. Essa modificacao foi denominada HGB e representa um
metodo eficiente para segmentacao hierarquica de imagens utilizando a mesma medida de
similaridade do metodo GB (FELZENSZWALB; HUTTENLOCHER, 2004).
2.6.1 Metodo HGB
No metodo HGB, desenvolvido por Guimaraes et al. (2012, 2017), uma imagem e
transformada em um grafo nao-direcionado G = (V,E), onde V e um conjunto finito de
vertices, que representam os pixels da imagem e as arestas E representam uma medida de
dissimilaridade entre dois pixels. Um gradiente de cor e calculado pela distancia euclidiana
no espaco de cor red, green e blue (RGB) e utilizado como caracterıstica dos pixels. O
conjunto E e um subconjunto de x, y ⊆ V | x 6= y (que representa a vizinhanca de
42
8-vizinhos de cada pixel). Sendo w uma funcao que mapeia E para R+, entao w(u) e o
peso da aresta u (representando a medida de dissimilaridade entre dois pixels) e (G,w) e
um grafo ponderado nao-direcionado.
Dado um conjunto finito V , uma particao de V e definida como um conjunto P de
subconjuntos disjuntos nao-vazios de V cuja uniao e V . Todo elemento de uma particao
P e chamado de uma regiao de P . Dadas duas particoes P e P ′ de V , e dito que P ′ e um
refinamento de P , denotado por P ′ P , se qualquer regiao de P ′ e incluıda em uma de
P . Uma hierarquia de V e uma sequencia H = (P0, . . . , Pl) de particoes de V , de modo
que Pi−1 Pi para qualquer i ∈ 1, . . . , l.
Sendo X um subgrafo de G e λ um inteiro nao-negativo, entao λ-nıvel do grafo
de X (para w) e definido como o subgrafo wVλ (X) de X, de tal modo que wVλ (X) =
(V (X), wλ(X)) com wλ(X) = u ∈ E(X) | w(u) ≤ λ, V (X) e E(X) representando os
conjuntos de vertices e arestas de X, respectivamente.
De acordo com Guimaraes et al. (2017), uma hierarquia de particoes e chamada
de hierarquia de zonas quasi-flat de X para w e e definida pela Equacao 2.14.
QFZ(X,w) = C(wVλ (X)
∣∣λ ∈ E• . (2.14)
em que E• = 0, . . . , |E| e C(wVλ (X)
)e o λ-nıvel de particao de X (para w) que
corresponde a particao de componentes conexas induzidas pelo λ-nıvel do grafo de X
(ver Figura 20).
De acordo com Cousty et al. (2018) pode-se dizer que a hierarquia QFZ(G,w)
e o mesma que QFZ(T,w), em que T e uma arvore geradora mınima de G. Entao, a
ideia principal de Guimaraes et al. (2017) foi transformar QFZ(G,w) (ou QFZ(T,w)) em
uma outra hierarquia, e isso foi feito usando-se uma medida de dissimilaridade D entre
quaisquer regioes. Para isso, uma nova funcao de peso f e gerada para se ter a nova
hierarquia QFZ(T, f).
Sendo assim, para cada u = x, y ∈ E em uma ordem nao-decrescente de w, f e
atualizado usando a Equacao 2.15,
f(u) = minλ ∈ R+|D
([C(fVλ (T )
)]x,[C(fVλ (T )
)]y
)≤ λ
(2.15)
em que[C(fVλ (T )
)]v
representa a componente conexa de λ-nıvel do grafo de T (para f)
que contem o vertice v, e uma constante positiva suficientemente pequena, e a medida
de dissimilaridade D e definida pela Equacao 2.16,
D(C1, C2) = maxSC2(C1), SC1(C2) (2.16)
43
Figura 20 – Exemplo de uma hierarquia de zonas quasi-flat
Adaptado de COUSTY et al., 2018
em que C1 e C2 sao componentes conexas (ou regioes); enquanto, para quaisquer duas
regioes C1 e C2, SC2(C1) e definido pela Equacao 2.17,
SC2(C1) = [Dif(C1, C2)− Int(C1)]× |C1| (2.17)
em que Dif(C1, C2) e Int(C1) sao definidos de forma analoga ao realizado
por Felzenszwalb e Huttenlocher (2004).
Desse modo, a diferenca interna Int(C) de uma regiao C e o maior valor de peso
entre todas as arestas ligando dois vertices de C na arvore geradora mınima; e a diferenca
Dif(C1, C2) entre duas regioes vizinhas C1 e C2 e o menor valor de peso de aresta entre
todas as arestas que ligam C1 e C2.
Apos a criacao de QFZ(T, f), a qual pode ser representada como um dendrograma,
cortes (ou segmentacoes) podem ser realizados variando o λ-nıvel para selecionar
particoes (GUIMARAES et al., 2017). Isso pode ser observado na Figura 20, em que os
vertices de mesma cor pertencem a uma mesma regiao (ou componente conexo) e, nos
itens a, b, c, d, e, ilustram-se os resultados obtidos pela variacao do λ-nıvel do grafo e,
consequente, as fusoes obtidas de regioes.
2.6.2 Metodo gPb-owt-ucm
Arbelaez et al. (2011) desenvolveram um metodo denominado doravante de
gPb-owt-ucm para segmentacao hierarquica de imagem baseado em deteccao de contornos.
Os autores consideram o trabalho de Martin, Fowlkes e Malik (2004) como um ponto de
partida para o desenvolvimento do metodo gPb-owt-ucm.
44
No trabalho de Martin, Fowlkes e Malik (2004), foi proposto uma funcao Pb(x, y, θ)
para detectar provaveis bordas dos segmentos de imagem (ver Secao 2.4.4). Ja, no trabalho
de Arbelaez et al. (2011), realiza-se a segmentacao em varias etapas.
Primeiramente, uma versao multiescala de um detector Pb(x, y, θ) (mPb) e
utilizada para identificar as provaveis bordas dos segmentos da imagem. Essa funcao
e responsavel por predizer qual a probabilidade a posteriori de uma borda na orientacao θ
para um pixel (x, y), por meio da medida de diferenca local de brilho, cor e textura.
A adaptacao do metodo desenvolvida por Arbelaez et al. (2011) para o contexto de
multiescalas, consiste em executar a funcao Pb(x, y, θ) em diferentes escalas para cada
canal de brilho, cor e textura.
Uma sucessao de filtros gaussianos aplicados a imagem resultante do mPb e, depois,
um calculo dos autovetores das informacoes de orientacao dos segmentos e responsavel
por normalizar e globalizar (gPb) a segmentacao inicial da imagem. Apos este ponto, o
algoritmo ja e capaz de determinar contornos abertos na imagem em questao, que e uma
limitacao do metodo Pb.
Depois, um processo de fechamento de contornos e realizado. Para tal, utiliza-se a
abordagem oriented watershed transform (OWT). Esta etapa consiste em produzir uma
segmentacao hierarquica da imagem em nıvel primario, o que possivelmente gera muitas
segmentacoes pertencendo a um mesmo segmento.
Por fim, um mapa de contorno ultrametrico (UCM) e utilizado para representar a
segmentacao final da imagem. Sendo assim, cada nıvel k da arvore representa uma escala
k de segmentacao, o que facilita a recuperacao da segmentacao em qualquer um dos k
nıveis da hierarquia.
2.7 Aprendizado de Maquina
O aprendizado de maquina e uma subarea da inteligencia artificial que segundo
Russell et al. (2010), surgiu para solucionar problemas difıceis, uma vez que o mesmo
permite que uma colecao de pares de entrada e saıda, aprendam uma funcao por meio da
extracao de padroes, capazes de prever a saıda para novos dados de entrada.
Segundo Kuncheva (2014), os metodos de aprendizado de maquina sao divididos
em duas grandes categorias de aprendizado: (i) nao supervisionado; e (ii) supervisionado.
Russell et al. (2010) definiu mais uma categoria alem das outras duas, denominada
aprendizagem semisupervionada(iii). No aprendizado nao supervisionado, as amostras
nao sao rotuladas, uma tarefa comum e o agrupamento. Russell et al. (2010) citou
como exemplo de aprendizado nao supervisiondo, um taxista que pode desenvolver
gradativamente o conceito de ”transito bom”e ”transito ruim”sem nunca ter sido mostrado
45
exemplos de cada um deles por um professor. No aprendizado supervisionado, por sua vez,
todas as amostras se encontram previamente rotuladas, ou seja, aprende-se uma funcao a
partir do mapeamento da entrada para saıda. Por fim, no aprendizado semisupervisionado
sao dados poucos exemplos rotulados e os demais dados nao possuem rotulos, deste modo
ao mesmo tempo que ele e supervisionado ele e nao supervisionado. Pode-se, ainda,
distinguir dois grupos de abordagens de acordo com o tipo de saıda produzida: (i) metodos
de classificacao, no qual os rotulos produzidos sao discretos; e (ii) metodos de regressao
em que os resultados gerados sao contınuos.
As entradas a serem passadas pelo processo de aprendizagem sao descritas por
uma serie de caracterısticas (ou atributos) que podem ser quantitativas ou qualitativas.
Segundo Fu (1982), o ramo do aprendizado de maquina que lida exclusivamente com
caracterısticas qualitativas e denominado reconhecimento de padroes, ja o aprendizado
estatıstico opera exclusivamente sobre dados numericos. No aprendizado estatıstico, as
caracterısticas de uma entrada sao organizadas em um vetor x = [x1, x2, . . . , xn]T ∈ Rn,
constituindo o espaco de caracterısticas em que cada eixo corresponde a uma caracterıstica
especıfica. Ja caracterısticas qualitativas, devem ser convertidas em quantitativas.
O conjunto de dados utilizados no processo de aprendizagem estao geralmente sob
a forma de um conjunto de dados rotulados Z = [z1, z2, . . . , zN ], zj ∈ Rn. O rotulo indica
a classe ou valor de zj que se e esperado, e e representado por yj ∈ Ω, j = 1, . . . , N . Um
conjunto de dados pode ser organizado como uma matriz com N linhas (entradas) por n
colunas (caracterısticas), com uma coluna (ou vetor) extra contendo os rotulos, conforme
ilustrado na Equacao 2.18.
Conjunto =
z11 z12 · · · z1n
z21 z22 · · · z2n...
.... . .
...
zN1 zN2 · · · zNn
Rotulos =
y1
y2...
yN
(2.18)
Dessa forma, pode-se definir um classificador ou regressor como qualquer funcao D capaz
de atribuir um rotulo a um dado de entrada, isto e, D : Rn 7→ Ω. Geralmente uma entrada
x ∈ Rn e rotulado com a classe ou valor de maior pontuacao. Essa escolha e chamada de
”maximum membership rule”, que pode ser descrito pela Equacao 2.19.
D(x) = ωi∗ ∈ Ω ⇐⇒ gi∗ = maxi=1,...,c
gi(x) (2.19)
As funcoes discriminantes particionam o espaco de caracterısticas Rn em c regioes
de decisao ou regioes de classificacao (nao necessariamente compactas) representadas por
46
R1, . . . ,Rc que podem ser descritas pela Equacao 2.20.
Ri =
x | x ∈n, gi = max
k=1,...,cgk(x)
, i = 1, . . . , c. (2.20)
Uma maneira de se analisar a performance de uma classificador e por meio de uma
matriz de confusao . Uma matriz de confusao exibe a distribuicao de erros e acertos de
um classificador D. A entrada aij de tal matriz indica o numero de elementos de Zts
cuja verdadeira classe e ωi mas que foram atribuıdos pelo classificador D a classe ωj. A
Figura 21 exibe um exemplo de matriz de confusao para um problema de classificacao
binario, em que pode-se observar que uma das predicoes feitas como pertencente a classe
ω1 e na verdade uma amostra da classe ω2. Tomando-se essa matriz da Figura 21 como
base, uma estimativa da acuracia do classificador pode ser calculada dividindo o traco da
matriz pela soma total das entradas conforme apresentado na Equacao 2.21.
Acuracia =7 + 7
15= 93, 33% (2.21)
Figura 21 – Exemplo de matriz de confusao
Predito
ω1 ω2
Corr
eto ω1 7 0
ω2 1 7
Fonte: Elaborada pela autora.
2.7.1 Representacao por arvore de decisao
Segundo Russell et al. (2010) a arvore de decisao (ou de classificacao) e a forma
mais simples de aprendizado de maquina. Uma arvore de decisao representada por uma
fincao, toma com entrada um vetor de atributos que podem ser discreto ou contınuos e
para cada um deles retorna uma ”decisao”, que e um valor de saıda unico. As decisoes
retornadas sao baseadas em uma sequencia de testes. Cada no da arvore corresponde a
um destes testes e as ramificacoes os valore possıveis.
O processo de construcao de uma arvore de decisao determina automaticamente
as caracterısticas importantes para a realizacao da classificacao; dessa forma, pode-se
considerar que os processos de reducao de dimensionalidade (selecao de caracterısticas) e
classificacao sao realizados de forma integrada.
Em comum com outras abordagens em que as funcoes de discriminacao sao
representadas por uma combinacao de funcoes base, um modelo de arvore de decisao
adota uma expansao em funcoes de indicadores associadas hiper-regioes (retangulos
multidimensionais). O modelo e obtido por meio de um processo de particionamento
47
recursivo, em que o espaco de caracterısticas subdividido em hiper-regioes cada vez
menores. Como exemplo, a Figura 22 exibe uma arvore de decisao que determina se
uma pessoa deve ir a praia ou nao.
Figura 22 – Exemplo de arvore de decisao que determina se uma pessoa deveir a praia ou nao
Fonte: Elaborada pela autora
As principais vantagens apresentadas pelas arvores de decisao sao:
• Elas sao capazes de lidar com variaveis irrelevantes e redundantes. Cada divisao
usa uma unica (melhor) variavel; portanto, variaveis irrelevantes podem nunca ser
selecionadas.
• Variaveis contınuas, discretas e categoricas podem ser tratadas conjuntamente; nao
ha necessidade de se converter um tipo para o outro.
• A escala (dimensao) das variaveis nao importa. Uma vez que cada caracterıstica
e manipulada separadamente para se encontrar um limiar personalizado, nao e
necessario se normalizar ou redimensionar os dados para um dado intervalo. Uma
distancia pode nao ser trivial de se calcular quando objetos sao descritos por
caracterısticas categoricas ou mistas. Arvores de decisao contornam esse problema
e podem ser vistas, segundo Duda, Hart e Stork (2001), como metodos nao-metricos
de classificacao.
• Se todos os objetos sao distinguıveis (isto e, nao ha elementos identicos em no
conjunto de dados com rotulos de classe distintos), entao se pode construir uma
arvore com erro de treinamento zero.
48
• Classificadores em arvore sao intuitivos pois o processo de decisao pode ser descrito
como uma sequencia de escolhas simples. Estruturas de arvores podem capturar uma
base de conhecimentos em um arranjo hierarquico; exemplo classicos sao encontrados
na botanica, zoologia e no diagnostico medico.
• O treinamento e razoavelmente rapido; enquanto a operacao (uso) pode ser
extremamente veloz.
Arvore de decisao sao geralmente descritas usando a terminologia de grafos. Uma
arvore de classificacao consiste de uma raiz, nos intermediarios (opcionais) e folhas. A raiz
e os nos intermediarios subdividem o processo de decisao, enquanto as folhas atribuem os
rotulos de classe.
Para classificar um dado objeto, deve-se seguir o caminho da raiz ate uma das
folhas em que um rotulo e selecionado para o objeto em questao.
Para se construir uma arvore de decisao, geralmente se inicia pela raiz e se continua
subdividindo a arvore. Uma subdivisao significa que uma porcao separada do conjunto
de dados e atribuıda a cada no filho (criado pela subdivisao do no interno). Por sua vez,
cada porcao e novamente dividida em partes menores ate que um criterio de parada se
alcancado. Um criterio de parada pode ser, por exemplo, se exigir que todos os objetos
estejam corretamente rotulados.
Uma vez construıda uma arvore ”ideal”, deve-se poda-la para evitar ”overtraining”
(tambem chamado de ”postpruning”). Alternativamente, pode-se utilizar alguma funcao
objetivo mensuravel para se decidir quando interromper a subdivisao (denominado
”prepruning”).
Resumidamente, uma arvore de decisao e um classificador que particiona os dados
recursivamente de modo a formar grupos ou classes. Ela representa um algoritmo
de aprendizado supervisionado que pode ser aplicado a dados contınuos, discretos ou
categoricos (tanto para classificacao como para regressao).
2.8 Florestas aleatorias
O conceito de florestas aleatorias (Random Forest (RF)) foi introduzida por
Breiman (2001) e representa uma modificacao de bagging, na qual constroı-se uma grande
colecao de arvores de decisao correlacionadas, no qual considera a media dos resultados.
A ideia principal por tras do uso de RF e melhorar o desempenho por meio da
reducao de variancia. Ou seja, alcancado por meio do bagging, reduzindo a correlacao
entre as arvores de decisao, sem aumentar muito o valor da variancia.
49
Para tanto, durante o processo de crescimento de cada arvore de decisao utiliza-se
a selecao aleatoria das caracterısticas. Alem disso, ha uma facilidade de paralelizacao
de todo o processo em virtude da independencia de construcao de cada arvore (HASTIE;
TIBSHIRANI; FRIEDMAN, 2001).
Quando usada para a classificacao, uma RF obtem um voto de classe de cada arvore
de decisao da colecao e, em seguida, realiza a classificacao usando o voto da maioria. Ja,
quando RF e usada para regressao, utiliza-se a media das previsoes de cada uma das
arvores.
2.9 Rede Neural Artificial
As Redes Neurais Artificias, usualmente denominadas apenas como (! ((!)RN), se
originaram da ideia de modelar matematicamente algo parecido com o cerebro humano.
Segundo Russell et al. (2010) a hipotese da atividade mental consistir de atividade
eletroquımica em redes de celulas denominadas neuronios inspirou a criacao das redes
neurais artificiais, o qual desde 1943 tem sido desenvolvidos modelos cada vez mais
realistas e detalhados. As unidades de processamento no cerebro humano sao neuronios de
diferentes especializacoes e funcionamento. Um neuronio artificial simula o funcionamento
dessas unidades.
Seja u = [u0, . . . , uq]T ∈ Rq+1 um vetor de entrada, w = [w0, . . . , wq]
T ∈ Rq+1 um
vetor de pesos. A saıda de um neuronio artificial v ∈ e dada pela Equacao 2.22.
v = φ
(q∑i=0
wiui
)(2.22)
em que φ : R 7→ e a funcao de ativacao. Um esquema basico e mostrado na Figura 23 e a
Figura 24 apresenta exemplos de funcoes de ativacao.
Figura 23 – Esquema basico de uma neuronio artificial
Fonte: Elaborada pela autora.
50
Figura 24 – Exemplos de funcoes de ativacao
Fc. Limiar (Heaviside)
φ(ξ) =
1, se ξ ≥ 00, c.c.
Fc. Sigmoide
φ(ξ) =1
1 + exp(−ξ)
Fc. Identidade
φ(ξ) = ξ
Fonte: Elaborada pela autora.
De acordo com Russell et al. (2010), as funcoes de ativacao nao lineares garantem
a propriedade importante de que toda rede de unidade pode representar uma funcao nao
linear.
Rosenblat (1962), propos a rede perceptron ou rede de camada unica, em que se
utiliza a funcao de ativacao dada pela Equacao 2.23.
φ(ξ) =
1, se ξ ≥ 0;
0, caso contrario.(2.23)
Esse classificador de um neuronio separa duas classes utilizando uma funcao discriminante
linear, de modo que os vetores de uma classe obtem uma saıda de valor +1 e os da outra
classe o valor −1.
O algoritmo inicia com pesos w aleatorios e segue modificando-os para cada dado
de entrada do conjunto Z. Se zj for classificado incorretamente, entao os pesos sao
modificados utilizando-se a Equacao 2.24.
w← w− v η zj (2.24)
em que v e a saıda para zj e η a taxa de aprendizado.
As redes perceptron de multicamadas (MLP) foram introduzidas por Rumelhart,
Hinton e Williams (1986) como uma melhoria aos perceptrons, fornecendo entao a
capacidade de classificar dados nao separaveis linearmente. A Figura 25 exibe um esquema
basico para um MLP.
Um MLP basicamente produz uma transformacao de um padrao de entrada x ∈ Rn
51
Figura 25 – Esquema basico de em MLP
Fonte: Elaborada pela autora.
para uma outro espaco n′-dimensional de acordo com a Equacao 2.25.
gj(x) =m∑i=1
wjiφi(αTi x + αi0) + wj0, j = 1, . . . , n′ (2.25)
As funcoes φi sao funcoes nao lineares fixas, geralmente identicas e usualmente
representadas pela funcao sigmoide (ou logıstica). Deste modo, a transformacao realizada
pelo MLP consiste em projetar os dados em cada uma das m direcoes descritas pelos
vetores αi = (αi1, . . . , αin); transformando, em seguida, os dados projetados (e deslocados
por um vies ’αi0’) por meio das funcoes nao lineares φi(y); para, finalmente, obter o
resultado final por meio de uma combinacao linear utilizando os pesos wji (e deslocado
pelo vies ’wj0’).
Normalmente, tem-se: (i) a funcao de ativacao da camada de entrada e a
identidade; (ii) nao ha conexao entre nos da mesma camada; (iii) camadas nao adjacentes
nao sao conectadas diretamente; e (iv) todos os nos nas camadas escondidas possuem a
mesma funcao de ativacao.
52
53
3 TRABALHOS RELACIONADOS
A exploracao das informacoes de escala provou ser util para diversas tarefas de
segmentacao, como por exemplo, na segmentacao de imagens semanticas (CHEN et al.,
2016a) e para deteccao de contornos (LI et al., 2018) e na melhorar das hierarquias
resultantes dos metodos de segmentacao (CHEN et al., 2016b).
Afim de obter o melhor resultado de segmentacao hierarquica, Xu, Whitt e Corso
(2013), propuseram nivelar a hierarquia em uma segmentacao unica. De modo a encontrar
a melhor segmentacao e achatar as demais de acordo com ela.
Comumente, para encontrar o melhor resultado de segmentacao hierarquica sao
utilizados cortes horizontais na hierarquias. Em seu trabalho, Cousty e Najman (2014),
Guiges, Cocquerez e Men (2006) propuseram explorar o uso de cortes nao horizontais nas
hierarquias. Desse modo e possıvel obter as melhores particoes independente do nıvel
hierarquico que se encontram. Utilizando esse mesmo raciocınio, finalmente, Chen et al.
(2016b) propuseram modificar o resultado final de um algoritmo hierarquico, de modo
a modificar as escalas de observacao, ou seja, modificar os nıveis hierarquicos em que
as regioes se encontram, para que (quase) todos objetos (e suas partes) possam ficar no
mesmo nıvel (ou escala). A seguir aborda-se o metodo proposto.
3.1 Realinhamento de Hierarquias
Chen et al. (2016b) propuseram o metodo de realinhamento de hierarquias, para
melhorar os resultados dos metodos de segmentacao. Para isso, a segmentacao de uma
imagem I e representada por uma arvore T cujo no vi representa o i-esimo no da arvore.
Cada no representa uma regiao (segmento) de I. Os autores sugeriram dividir as regioes
em tres categorias: L−, L e L+, as quais indicam que as regioes foram pouco, devidamente
e muito segmentadas, respectivamente.
Para cada no vi de T , utiliza um rotulo x(vi) com valores no conjunto [−1, 0, 1],
que representam as categorias L−, L e L+, respectivamente. Deste modo, a funcao f(vi)
e responsavel por medir a granularidade de cada segmento que sao denominados como
(scores) e sao definidos no intervalo entre [−1, 1].
Para prever os scores dos segmentos, utilizou-se um modelo de aprendizagem de
maquina, de modo a aprender um preditor com o melhor valor de f(vi) a partir de
uma medida de comparacao entre a regiao e seu ground-truth correspondente. A medida
computa a sobreposicao entre os segmentos e seu ground-truth como mostra a Equacao
5.9
54
Scorei =| Gi | − |Ri |
max (| Gi |, |Ri |)(3.1)
Ri e Gi, correspondem ao tamanho da regiao e ao tamanho do seu ground-truth
correspondente, respectivamente. Sabe-se que Gi e correspondente a regiao Ri, quando a
maior parte dos pixels de Ri se encontram na mesma localizacao que Gi. Os valores dos
Scores sempre se encontram no intervalo [-1,1] e quando este valor e um numero negativo,
significa que a regiao Ri foi pouco segmentada, enquanto um valor positivo indica que Ri
foi muito segmentada e 0 quando Ri foi devidamente segmentada.
O metodo de aprendizagem empregado pelos autores como preditor f(v) foi uma
floresta aleatoria com 100 arvores. As caracterısticas utilizadas foram : propriedades do
grafo, propriedades da regiao e textura.
O processo de realinhar as hierarquias se inicia depois de encontrar as regioes que
representam a segmentacao ideal da imagem, ou seja, o conjunto de nos que possuem scores
rotulados proximo de 0 (L(v)). O problema de otimizacao desse processo e altamente
estruturado e pode ser resolvido recursivamente pela Programacao Dinamica.
Para a subarvore enraizada no no v, a solucao otima L(v) e o proprio no n ou a
uniao das fatias otimas de todos os seus nos filhos, dependendo da energia de quem e
menor. O problema prossegue de baixo para o topo da arvore. Para cada subarvore com
raiz no no atual v, a energia de v ∈ L(v) e calculada e a energia das fatias otimas de todos
os seus nos filhos e solicitada para comparacao. O algoritmo se repete e toda comparacao
sera concluıda quando o algoritmo atingir o no raiz e o otimo global for obtido.
Depois de definir a fatia ideal, o mesmo e utilizado como ancora para se realinhar
a hierarquia.
As hierarquias foram representadas no modelo UCM, que e uma matriz com
tamanho (2h + 1) × (2w + 1), onde h e a altura da imagem original, e w e sua largura.
Para cada par de pixels vizinhos na imagem, o valor na matriz UCM representa sua forca
limite (entre 0 e 1). Uma particao em uma certa escala pode ser extraıda limiarizando o
UCM a um determinado valor. O Algoritmo 1 resume o processo em questao, em que a
funcao borda encontra os elementos correspondentes as bordas de uma regiao r no UCM,
e a funcao area a sua area.
55
Algoritmo 1: Realinhamento de hierarquias
Data: L(v), mapa de contorno UCM Mucm
1 for r ∈ L(v) do
2 b← BORDA(r)
3 a← AREA(r)
4 m ← min(Mucm(b))
5 Mucm(a)← Mucm(a)2m
6 end for
7 ball ← BORDA(L(v))
8 mmin ← min(Mucm(ball))
9 Mucm(ball)← 1+Mucm(ball)−2mmin
2(1−mmin)
10
Entao, para cada regiao r de L(v), ou seja, o conjunto de regioes definidas como
devidamente segmentadas e definido o valor de escala 0.5 (nıvel mediano da hierarquia).
Depois, para cada regiao que se encontra em nıveis hierarquicos abaixo de r e aplicada
uma funcao, como mostra a Equacao 3.2, que garante que os mesmos continuaram nos
nıveis hierarquicos abaixo.1 +Mucm(ball)− 2mmin
2(1−mmin)(3.2)
3.2 Avaliacao de Segmentacao Hierarquica de imagens
No trabalho de (ARBELAEZ et al., 2011) foi proposto um benchmark para avaliacao
de segemntacao de imagem e suas bordas. O benchmark e composto pelas seguintes
metricas: Segmentation Covering (SC), Probabilistic Rand Index (PRI), Variation of
Information (VI) and F -measure. Para calcular estas metricas, utiliza-se o ground-truth e
quando este e composto por segmentacoes definidas por diferentes humanos e utilizado um
processo de votacao por maioria para entao ser criado um ground-truth com segmentacao
unica.
Para avaliacao de alguns resultados da presente dissertacao foi utilizado o
benchmark proposto por (ARBELAEZ et al., 2011). Sendo assim, os detalhes sobre as
metricas estao dispostas na Secao 5.
56
57
4 AVALIACAO DE APRENDIZADO DE MAQUINA APLICADO AOREALINHAMENTO DE HIERARQUIAS
Neste Capıtulo, serao apresentadas todas as etapas desenvolvidas no presente
trabalho ressaltando-se os aspectos metodologicos realizados. A Figura 26 ilustra a
metodologia proposta.
Figura 26 – Metodologia da abordagem de realinhamento de hierarquias
Fonte: Elaborada pela autora
4.1 Etapa de Treinamento
Esta etapa objetiva treinar um regressor para que o mesmo seja capaz de aprender
se uma determinada regiao da hierarquia foi muito, pouco ou devidamente segmentada.
Para isso, usou-se dois tipos de regressores: rede neural e floresta aleatoria.
4.1.1 Selecao da base de dados
Primeiramente, um conjunto de imagens de treinamento foi selecionado (ver Figura
26(a)).
4.1.2 Segmentacao hierarquica de imagens
Cada imagem do conjunto de treinamento (ver em a Figura 26(a)) passou
pelo processo de segmentacao hierarquica (ver em a Figura 26(b)). Para isso, foram
58
selecionadas duas abordagens de segmentacao hierarquica: gPb-owt-ucm (ARBELAEZ,
2006) e HGB (GUIMARAES et al., 2017). Das segmentacoes obtidas, todas as regioes cujas
areas eram menores que 50 pixels foram descartadas, como sugeriram Chen et al. (2016b).
Depois, todos os resultados obtidos nesta etapa foram armazenados no modelo de mapa
de contorno ultrametrico (Ultrametric Contour Map (UCM)) .
Vale ressaltar que a motivacao da escolha destas abordagens para segmentacao
hierarquica se deram pelo fato de, na literatura, o gPb-owt-ucm ser amplamente utilizado,
e o HGB por ser alem de uma abordagem bastante citada na literatura, foi desenvolvido
por integrantes do presente laboratorio de pesquisa.
4.1.3 Descritores
A partir do conjunto de segmentacoes (ver Figura 26b), foram extraıdas as
caracterısticas de todas as regioes das hierarquias e calculou-se tambem o valor das
rotulagens para cada regiao em relacao ao groud-truth correspondente (ver Figura 26c).
4.1.3.1 Extracao de Caracterısticas
Cada regiao Rki da segmentacao hierarquica de uma imagem k passa pelo processo
de extracao de caracterısticas. As caracterısticas utilizadas foram:
• Propriedades do Grafo: Suponha um grafo G = (V,A) com vertices v =
(v1, v2, ..., vn) representando os pixels da segmentacao, e arestas A = ai,j as ligacoes
entre vi e vj. Cada aresta ai,j possui um peso cij associado a similaridade entre um
par de vertices. Sendo assim, as seguintes propriedades do grafo G foram utilizadas:
corte (cut) que e a afinidade ao longo da borda do segmento; corte de relacao (ratio
cut), a afinidade ao longo da borda do segmento dividido pelo numero de afinidades;
corte normalizado (normalizedcut), que sao o corte de relacao e a afinidade dentro
do primeiro plano (foreground) mais o corte de relacao e a afinidade do fundo
(background); e o corte normalizado desbalanceado (unbalanced normalized cut),
o corte dividido pela afinidade no primeiro plano.
• Propriedades da Regiao: area (area), perımetro (perimeter), tamanho da caixa
delimitadora (bounding box size), comprimentos do eixo maior e menor da elipse
equivalente (major and minor axis lengths of the equivalent ellipse), excentricidade
(eccentricity), orientacao (orientation), area convexa (convex area), numero de Euler
(Euler number);
• Textura: similaridade de textura inter- e intra-regiao (inter- and intra-region
texton similarity), distancia qui-quadrado entre as texturas computadas sobre o
59
primeiro plano e fundo, e numero de diferentes texturas presentes no primeiro
plano em quantidade maior do que uma fracao particular do area do segmento,
respectivamente; similaridade de brilho entre regioes e intra-regioes (inter- and
intra-region brightness similarity), distancia entre os histogramas de intensidade
do primeiro plano e regioes de fundo, e medida de semelhanca a texturas
homogeneidade; energia de contorno inter e intra-regiao (inter- and intra-region
contour energy), soma da energia de borda dentro de primeiro plano da regiao,
calculada usando globalPb, normalizada por perımetro, e soma da energia de
extremidade ao longo do limite, normalizado por perımetro; continuidade curvilınea
(curvilinear continuity), convexidade (convexity), soma de diferencas angulares
consecutivas do segmento de linha aproximando o contorno.
• Cor: histograma de cores ( color histogram) e media das cores ( average color). Os
recursos relacionados a cor sao calculados para cada canal (no espaco de cores RGB)
e os histogramas sao gerados com 04 bins por canal (no espaco de cores RGB).
Chen et al. (2016b) sugeriram a utilizacao das caracterısticas de propriedades do
grafo, propriedades da regiao e textura para este tipo de problema, sendo assim elas foram
utilizadas neste trabalho. Alem disso, tambem foram usadas as caracterısticas de cor, pois
embora algumas das outras caracterısticas sejam relacionadas a cor, elas nao descrevem
especificamente as cores das regioes.
4.1.3.2 Calculo das Rotulagens (Scores)
Cada regiao Rki da segmentacao hierarquica de uma imagem k passa pelo processo
de calculo de Scores, definido na Formula 4.1, para rotular se uma regiao foi muito
segmentada, pouco segmentada ou devidamente segmentada.
Scoreki =|Gk
i | − |Rki |
max(|Gk
i |, |Rki |)
(4.1)
Rki e Gk
i , correspondem ao tamanho da regiao e ao tamanho do seu ground-truth
correspondente, respectivamente. Vale ressaltar que apenas uma segmentacao do
ground-truth foi utilizada. Sabe-se que Gki e correspondente a regiao Rk
i , quando a maior
parte dos pixels de Rki se encontram na mesma localizacao que Gk
i .
Os valores dos Scores sempre se encontram no intervalo [-1,1] e quando este valor e
60
um numero negativo, significa que a regiao Rki foi pouco segmentada, enquanto um valor
positivo indica que Rki foi muito segmentada e 0 quando Rk
i foi devidamente segmentada.
4.1.4 Treinamento do Regressor
No total, a base de segmentacoes do metodo gPb-owt-ucm foi composta por
34.683.458 regioes e do metodo HGB por 482.489 regioes. Sendo assim, foram extraıdas de
cada regiao as caracterısticas e os scores, como explicado anteriormente. Depois, em cada
experimento, todas as regioes de cada base de segmentacao, separadamente, passaram pelo
processo de treinamento (ver Figura 26d). O intuito e ensinar para um regressor se uma
regiao e muito, pouco ou devidamente segmentada, de acordo com suas caracterısticas
para que o mesmo, posteriormente, seja capaz de prever estas mesmas rotulagens para
novas regioes.
Para isso, foram utilizados dois metodos de aprendizado de maquina: florestas
aleatorias e redes neurais. Como ja foi mencionado, o motivo de se utilizar estes dois
metodos e que ambos sao amplamente utilizados na literatura e, alem disso, o primeiro
foi sugerido por Chen et al. (2016b) e o segundo vem sendo cada vez mais explorado
na literatura na tentativa de explorar diferentes tipos de problemas, ate mesmo os mais
complexos.
4.2 Etapa de Teste
Nesta etapa, cada imagem a ser testada (ver Figura 26(e)) passa pelo processo de
segmentacao hierarquica (ver Figura 26(f)) e a partir das hierarquias produzidas foram
extraıdas as caracterısticas de cada regiao em conformidade com as Secoes 4.1.2 e 4.1.3.1
anteriormente descritas (ver Figura 26(g)).
As caracterısticas extraıdas e o regressor treinado foram usados para prever se
cada regiao e muito, pouco ou devidamente segmentada (ver Figura 26(h)). Entao, as
hierarquias sao realinhas de acordo com os valores previstos utilizando-se a abordagem
Chen et al. (2016b) (ver Figura 26(i)). Por fim, as hieraquias mesmas hierarquias
realinhadas foram usadas para produzirem a segmentacao final (ver Figura 26j).
4.2.1 Predicao
Cada regiao Rki da segmentacao hierarquica de uma imagem k, passa pelo processo
de predicao. Nesta etapa sao fornecidas para o regressor as caracterısticas de cada regiao,
logo, o mesmo retorna um valor entre -1 e 1 para cada uma delas, de modo que, os valores
negativos representam as regioes pouco segmentadas, os valores positivos as regioes muito
61
segmentadas e 0 as regioes devidamente segmentadas.
4.3 Realinhamento
Por fim, o mesmo metodo proposto por Chen et al. (2016b) foi utilizado para
realinhar as hierarquias de acordo com os valores resultantes da predicao (ver Secao 4.2.1).
Em seguida, a segmentacao hierarquica resultante foi obtida por meio de um corte na
horizontal com o valor de limiar igual a 0.5, que representa o nıvel da hierarquia onde se
pretende alocar os objetos e suas partes (ver Secao 3.1).
62
63
5 EXPERIMENTOS E ANALISES DOS RESULTADOS
Neste Capıtulo serao apresentados os resultados obtidos nos experimentos
realizados. O Capıtulo esta organizado da seguinte maneira: na Secao 5.1, sera
apresentada a configuracao do ambiente de teste onde foram executados todos os
experimentos. Na Secao 5.2 sera apresentada a base de dados utilizada nos experimentos.
Na Secao 5.3 sao apresentadas todas as metricas de avaliacao utilizadas. Na Secao
5.5, sao apresentados os resultados obtidos da aplicacao do metodo de realinhamento
de hierarquias conforme sugerido por Chen et al. (2016b), com intuito de avaliar como
o metodo se comporta. Na Secao 5.6, sao apresentadas as comparacoes da qualidade
dos treinamentos gerados entre florestas aleatorias e redes neurais. Na Secao 5.7 serao
avaliados os resultados obtidos do realinhamento de hierarquias utilizando-se os regressores
gerados na Secao 5.6. Na Secao 5.8 e apresentada uma possıvel melhoria para o metodo
de realinhamento de hierarquias.
5.1 Ambiente de teste
Todos os experimentos foram executados em um computador com sistema
operacional Linux (Ubuntu 14.10) com memoria RAM de 8,11 GB e 12 processadores
Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz.
5.2 Base de dados
O conjunto de imagens utilizado nos experimentos do presente trabalho foi extraıdo
da base de dados BSDS500, que e uma extensao da base de dados BSDS300 (MARTIN et
al., 2001), de modo que as 300 imagens (200 para treino e 100 para validacao) foram
aproveitadas e adicionou-se mais 200 imagens para testes. As imagens possuem cenarios
naturais e contam com a presenca de animais, paisagens, pessoas, entre outros.
Cada imagem da base BSDS500 e composta por mais de uma anotacao
(ground-truth) de segmentacao e de borda. Os ground-truths de segmentacao, nada
mais sao que, segmentacoes realizadas manualmente por humanos, e os ground-truth de
borda sao a representacao do ground-truth de segmentacao no modelo UCM. Como cada
imagem foi segmentada por pessoas diferentes, os ground-truths de uma unica imagem
tambem apresentam diferencas, sendo que alguns possuem mais detalhes e outros menos
detalhes. A Figura 27 exemplifica uma imagem da base de dados e alguns ground-truths
correspondentes a ela.
64
Figura 27 – Exemplo de imagem, ground-truth de segmentacao e ground-truthde borda da base de dados BSDS500
(a) Imagem
(b) ground-truth de segmentacao
(c) ground-truth de borda
Fonte: Adaptado de Elaborada pela autora
5.3 Metricas de avaliacao
Dois tipos de metricas para avaliacao foram utilizadas neste trabalho, as avaliacoes
das segmentacoes e as avaliacoes dos regressores, as quais serao apresentadas a seguir.
5.3.1 Metricas de avaliacao da segmentacao
Para avaliar a qualidade das segmentacoes, foram utilizadas dois tipos de metricas,
as responsaveis por avaliar a qualidade das regioes obtidas e outra para avaliar a qualidade
das bordas, como sugerido por Martin, Fowlkes e Malik (2004). Sendo assim, as metricas
utilizadas para avaliacao das regioes foram:
65
• Cobertura da Segmentacao (Segmentation Covering (SC)): A sobreposicao
(overlaping) entre duas regioes R e R′, definida pela Equacao. 5.1,
O(R,R′) =|R⋂R′|
|R⋃R′|
(5.1)
pode ser utilizada para avaliar uma segmentacao em relacao ao seu ground-truth.
Entao, Martin, Fowlkes e Malik (2004) definiram a cobertura de uma segmentacao
S em relacao a S ′ de acordo com a Equacao 5.2,
C(S ′ → S) =1
N∑R∈S
|R|.maxR′∈S′
O(R,R′) (5.2)
de modo queN representa o numero total de pixels em uma imagem. A cobertura de
uma segmentacao S em relacao a um conjunto de ground-truth Gi correspondentes
a S, e definido, inicialmente, pela cobertura de S em relacao a cada ground-truth
Gi separadamente, obtendo assim, o resultado medio da segmentacao em relacao a
diferentes anotacoes humanas da mesma.
• Indice Probabilıstico de Rand(Probabilistic Rand Index (PRI)): o ındice de Rand
entre uma segmentacao S e seu ground-truth G, e definido pela soma da quantidade
de pares de pixels com rotulagem de regioes igual em S e G e a quantidade de pares
de pixels com rotulagem de regioes diferente em S e G, dividido pela quantidade de
pares de pixels. Sendo assim, o ındice de Rand pode tambem ser aplicado com um
conjunto de ground-truth Gi (UNNIKRISHNAN; PANTOFARU; HEBERT, 2007; YANG et
al., 2008). Martin, Fowlkes e Malik (2004) definiram o Rand Indice Probabilıstico
utilizando um conjunto de ground-truth Gi conforme mostra a Equacao 5.3.
PRI(S,Gi) =1
T∑i<j
[cijpij + (1− cij)(1− pij)] (5.3)
De modo que cij ocorre quando i e j possuem mesma rotulagem e pij sua
probabilidade de i e j. T corresponde ao numero total de pares de pixels.
Utilizando-se a media amostral para estimar pij, o resultado de PRI equivale a
media do ındice de Rand com difrentes ground-truth.
• Variacao da Informacao (Variation of Information (VI)): a variacao das informacoes
mede a distancia entre duas segmentacoes em termos da media da entropia
condicional, como define a Equacao 5.4
VI(S,S ′) = H(S) +H(S ′)− 2× I(S,S ′) (5.4)
De modo que H e I representam, respectivamente, a entropia e a informacao mutua
entre a segmentacao (S) e o conjunto de ground-truth (S ′).
66
Para avaliar as bordas, foi utilizada a seguinte metrica:
• F -measure: e possıvel calcular a precisao e a revocacao de um mapa de bordas
(por exemplo, UCM e mapa de saliencia) resultante dos processos de segmentacao
hierarquica. Sendo assim, a precisao mede quantos pixels relacionados as bordas
estao errados (PE) em relacao a segmentacao gerada pelo metodo e a revocacao
mede quantos pixels das bordas estao corretos (PC) em relacao a segmentacao do
ground-truth (PG), como mostra as Equacoes 5.5 e 5.6.
Precisao =PC
PC + PE(5.5)
Revocacao =PC
PG(5.6)
Sendo assim, a metrica F -measure e responsavel por determinar a media harmonica
entre precisao e revocacao, como mostra a Equacao 5.7
F -measure = 2 ∗ Precisao.Revocacao
Precisao+Revocacao(5.7)
Neste trabalho sera utilizada a F -measure para avaliacao das bordas das
segmentacoes, portanto, esta metrica sera denominada deravante como Fb.
5.3.2 Metrica de avaliacao dos regressores
Para avaliar a qualidade dos treinamentos realizados, foi utilizada a metrica de
media do erro quadratico (MSE) difinida pela Equacao 5.8. A qual calcula a media da
diferenca entre o valor do esperado e o valor predito ao quadrado.
MSE =1
n
n∑n=1
(Pi − Ei)2 (5.8)
De modo que n e a quantidade regioes preditas, Ei e o valor de score esperado na predicao
da regiao i e Pi e o valor predito pelo regressor.
5.4 Organizacao dos Experimentos
Os experimentos da presente dissertacao estao organizados da seguinte maneira:
Experimento 1 Este experimento objetivou avaliar o comportamento do metodo de
realinhamento de hierarquias. Para isso, treinou-se florestas aleatorias com 100
67
arvores, como sugerido por Chen et al. (2016b), e avaliou-se o comportamento do
metodo para segmentacoes obtidas em diferentes abordagens: gPb-owt-ucm e HGB,
e para diferentes conjuntos de caracterısticas. Sendo assim, foi possıvel analisar e
avaliar como o metodo de realinhamento de hierarquias se comportou em diferentes
cenarios.
Experimento 2 Afim de entender melhor o impacto da utilizacao de diferentes metodos
de aprendizado de maquina para treinamento e predicao dos scores, no Experimento
2 foram treinadas florestas aleatorias e redes neurais, totalizando 660 regressores
com diferentes conjuntos de caracterısticas e diferentes configuracoes (quantidade
de arvores nas florestas aleatorias, e quantidade de neuronios e camadas nas redes
neurais). Entao, avaliou-se a qualidade de cada regressor, bem como os tempos
de treinamento. Devido a quantidade de testes, neste experimento utilizou-se
as segmentacoes do metodo HGB, pois as segmentacoes hierarquicas geradas por
este metodo possui quantidade menor de regioes comparando-se com o metodo
gPb-owt-ucm.
Experimento 3 Este experimento teve como objetivo avaliar o metodo de realinhamento
de hierarquias utilizando-se o regressor que obteve melhor resultado no Experimento
2. Por isso, foi usado o melhor regressor obtido para prever os scores das
segmentacoes da base de teste e entao essas segmentacoes foram realinhadas. Por
fim, para entender melhor os resultados obtidos do realinhamento das hierarquias,
foram feitas algumas comparacoes individuais entre as segmentacoes antes e depois
do realinhamento.
Experimento 4 Para entender melhor o motivo pelo qual algumas hierarquias
realinhadas no Experimento 3 tiveram um resultado relativamente pior que os
demais, neste experimento foi investigado a relacao destes resultados com o
ground-truth definido por diferentes humanos. Entao, foi feita uma pequena
modificacao no calculo de score para que cada ground-truth da base de treinamento
pudesse ser levado em consideracao no momento de treinar o regressor. Feito isso,
foi treinado um unico regressor com as mesmas caracterısticas e configuracoes do
melhor regressor obtido no Experimento 2, usando-se os novos scores calculados.
Depois, foi avaliada a qualidade deste novo regressor e, ainda, foi feita as predicoes
de scores para as segmentacoes da bases de teste, as quais foram posteriormente
realinhadas. Por fim, foi feita uma avaliacao das segmentacoes realinhadas que
foram geradas.
68
5.5 Resultados do Experimento 1
O primeiro experimento realizado teve como objetivo identificar o comportamento
da abordagem de realinhamento de hierarquias. Para isso, foram utilizadas
as segmentacoes hierarquicas geradas pelos metodos gPb-owt-ucm (ARBELAEZ
et al., 2011) e HGB (GUIMARAES et al., 2012, 2017) para treinamento e
predicao. As segmentacoes correspondentes ao metodo gPb-owt-ucm, foram
as mesmas produzidas por Arbelaez et al. (2011) e estao disponıveis na url:
https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html.
Ja as segmentacoes geradas por HGB, foram realizadas no presente trabalho conforme
descrito na Secao 2.6.1.
Como foi sugerido por Chen et al. (2016b), os treinamentos realizados neste
experimento consistiram de florestas aleatorias com 100 arvores, as quais foram treinadas
com as segmentacoes hierarquicas das bases de treino e validacao; no processo de
aprendizagem foi utilizado o primeiro ground-truth de cada imagem e as segmentacoes
usadas na predicao foram as que compoem a base de teste.
Para analisar a qualidade da segmentacao obtida apos a aplicacao do processo de
realinhamento das hierarquias foram aplicadas as metricas de avaliacao da segmentacao
(ver Secao 5.3.1) antes e depois do realinhamento. Os resultados medios obtidos estao
expostos na Tabela 1, de maneira que, ’c’ representa que as caracterısticas de cor foram
utilizadas, do mesmo modo para ‘f’, que representa as caracterısticas de formato, ’g’ as
de grafos e ’t’ as de textura.
Tabela 1 – Media dos resultados antes e depois da aplicacao do metodo derealinhamento de hierarquias
SC ↑ PRI ↑ VI ↓ Fb ↑ODS OIS ODS OIS ODS OIS ODS OIS
gPb-owt-ucm sem alinhamento 0,59 0,65 0,83 0,86 1,69 1,48 0,73 0,76gPb-owt-ucm realinhado (c+g+f) 0,58 0,64 0,82 0,85 1,75 1,49 0,69 0,76gPb-owt-ucm realinhado (c+f) 0,55 0,61 0,79 0,83 1,81 1,58 0,69 0,74
HGB sem alinhamento 0,43 0,62 0,74 0,80 2,34 1,88 0,49 0,50HGB alinhado (c+t+g+f) 0,38 0,53 0,75 0.81 2,45 1,89 0,50 0,50HGB alinhado (t+g+f) 0,39 0,53 0,74 0,81 2,45 1,89 0,50 0,50HGB alinhado (c+f) 0,43 0,62 0,74 0,80 2,34 1,88 0,49 0,50
Fonte: Elaborada pela autora
Em relacao ao metodo gPb-owt-ucm foi possıvel observar, no caso de teste onde
houve o realinhamento de hierarquias utilizando-se as caracterısticas de cor, grafo e
formato, que a media da fb OIS nao sofreu variacao, comparando-se com as segmentacoes
que nao passaram pelo processo de realinhamento. No metodo HGB, foi possıvel observar
que as medias da fb OIS foram mantidas, em todos os casos de testes, e nos testes que foram
69
utilizados as caracterısticas de cor, textura, grafo, formato e cor, e as caracterısticas grafo
e formato, houve uma melhora media da fb ODS e da media ındice Rand probabilıstico
(PRI). A media de variacao da informacao (VI) manteve a mesma no caso de teste com
as caracterısticas de cor e formato.
5.6 Resultados do Experimento 2
Com intuito de entender melhor os resultados do Experimento 1, supos-se que a
qualidade do regressor poderia influenciar nos resultados do realinhamento de hierarquias.
Deste modo, este experimento consistiu de 660 casos de testes, os quais objetivam avaliar a
qualidade dos treinamentos para a realizacao do processo de realinhamento de hierarquias.
Para isso, variou-se os tipos de regressares: redes neurais e florestas aleatorias e as
configuracoes de ambos, no caso das florestas de aleatorias, a quantidade de arvores e, nas
redes neurais, o numero de camadas e de neronios e, ainda, variou-se as caracterısticas
treinadas.
Todos os casos de testes realizados neste experimento estao dispostos da Tabela
2, de maneira que, ’c’ representa que as caracterıstica de cor foram utilizadas nos testes,
do mesmo modo para ‘f’ que representa as caracterısticas de formato, ’g’ as de grafos
e ’t’ as de textura. Vale ressaltar que todos os testes foram executados dez vezes, com
intuito de encontrar um resultado medio. Ressalta-se tambem que as redes neurais foram
executadas com 1000 epocas.
Tabela 2 – Variacoes das configuracoes dos regressores e das caracterısticasextraıdas utilizadas nos treinamentos
Regressores Caracterısticas1-Floresta 25 arvores g+t+f g+t+f+c g t f c2-Floresta 50 arvores g+t+f g+t+f+c g t f c3-Floresta 100 arvores g+t+f g+t+f+c g t f c4-Floresta 200 arvores g+t+f g+t+f+c g t f c5-Floresta 400 arvores g+t+f g+t+f+c g t f c6-Rede neural 2 camadas 2 neuronios g+t+f g+t+f+c g t f c7-Rede neural 2 camadas 5 neuronios g+t+f g+t+f+c g t f c8-Rede neural 2 camadas 10 neuronios g+t+f g+t+f+c g t f c9-Rede neural 3 camadas 2 neuronios g+t+f g+t+f+c g t f c10-Rede neural 3 camadas 5 neuronios g+t+f g+t+f+c g t f c11-Rede neural 3 camadas 10 neuronios g+t+f g+t+f+c g t f c
Fonte: Elaborada pela autora
Para este experimento, a base de dados de treino foi dividida da seguinte maneira:
150 imagens para os treinamentos e 50 imagens para as predicoes(testes). As segmentacoes
70
hierarquicas utilizadas foram obtidas pelo metodo HGB (GUIMARAES et al., 2017). No
total, em cada execucao, foram treinadas 361.218 regioes e preditas 121.271 regioes.
A qualidade dos regressores foram avaliadas por meio do erro quadratico medio
(Mean squared error - MSE) tanto para florestas aleatorias quanto para as redes neurais.
Sendo assim, a Tabela 3 apresenta a media das dez execucoes de todos os casos de testes
descritos anteriormente.
Tabela 3 – MSE medio dos resultados obtidos das predicoes realizadas comflorestas aleatorias e redes neurais
MSE Mediog+t+f g+t+f+c g t f c
1 0,18509209 0,18459177 0,21849234 0,18678246 0,19884561 0,203107942 0,18137186 0,18172127 0,21662086 0,18380640 0,19592916 0,199963643 0,17952611 0,18058542 0,21549135 0,18228562 0,19432792 0,198505264 0,17913795 0,17969894 0,21492789 0,18140093 0,19357084 0,197774525 0,17869200 0,17928266 0,21485142 0,18114958 0,19307683 0,19731554
6 0,19769712 0,17998844 0,24828146 0,18004387 0,22064616 0,193030417 0,18691166 0,19800373 0,19523876 0,17836639 0,26237000 0,196083098 0,26046969 0,24726973 0,35525110 0,18942491 0,24899007 0,241361979 0,17676010 0,18237783 0,19588142 0,18942491 0,20560021 0,1933061210 0,20027180 0,20950555 0,19545389 0,17903283 0,56323713 0,1965252311 0,23634249 0,27969912 0,23685408 0,21268386 0,28955141 0,21828954
Fonte: Elaborada pela autora
As florestas aleatorios obtiveram melhores resultados medios quando se utilizou florestas
com 400 arvores (maior quantidade de arvore testada) e as piores medias ocorreram
quando se utilizou florestas com 25 arvores (menor quantidade de arvore testada). Sendo
assim, foi possıvel observar que os resultados medios foram melhorando conforme foi
aumentando a quantidade de arvores nas florestas aleatorias. Por outro lado, como mostra
a Tabela 4, o tempo de execucao de treinamento aumentou de acordo com a quantidade
de arvores nas florestas e a quantidade de caracterısticas.
Ainda sobre a Tabela 3, observa-se que as redes neurais nao sao tao estaveis quanto
as florestas aleatorias, uma vez que, para cada variacao de conjunto de caracterısticas,
uma configuracao diferente de rede neural obteve melhor resultado medio. O mesmo
ocorre no tempo medio de execucao de treinamento, como mostra a Tabela 4, o aumento
da quantidade de camadas, neuronios e caracterısticas nao significaram um aumento no
tempo de execucao, pois em alguns testes o treinamento da rede terminou antes de se
completar as 1000 epocas.
A Tabela 5 apresenta o tempo de execucao medio das predicoes testadas. Analisa-se
a partir dela que o tempo de predicao das florestas aleatorias aumentaram conforme
o numero de arvores na floresta. Um exemplo deste acontecimento pode ser visto
comparando-se os testes 1 e 5, que possuem 25 e 400 arvores, respectivamente, onde
71
Tabela 4 – Resultados do tempo medio de execucao dos treinamentos dasflorestas aleatorias e redes neurais
Tempo em Segundosg+t+f g+t+f+c g t f c
1 197,91617 268,92045 42,817752 57,984813 74,468831 86,6631032 359,65015 530,78027 84,902859 117,65434 150,70055 174,993323 815,15999 1244,6174 165,30622 233,82359 299,29527 347,970334 2086,6179 2579,1569 341,16349 479,15457 606,01351 700,090285 4464,4357 5519,1748 688,55336 989,34058 1281,8172 1513,8117
6 2391,4503 3770,0392 7300,5394 3837,7543 5365,1670 5978,84407 1392,2687 2477,4314 9013,0701 2422,4670 7400,8996 7582,58668 14485,072 11630,380 14202,665 8176,5996 10650,081 11640,8969 3977,7781 3194,6452 6485,4485 2702,3763 6230,5214 6152,076910 7423,5965 10587,158 7320,3696 4701,4077 7516,7588 8719,291711 12469,879 31513,439 12215,660 8374,3859 12124,952 13600,207
Fonte: Elaborada pela autora
o tempo de execucao do teste 5 e aproximadamente 45 vezes maior que o tempo de
execucao do teste 1. Ja as nas redes neurais, a variacao do tempo de execucao, em relacao
as florestas aleatorias, e relativamente pequena.
Tabela 5 – Resultados do tempo medio de execucao da predicao com florestasaleatorias e redes neurais
Tempo em Segundosg+t+f g+t+f+c g t f c
1 2,02859 3,64567 3,00146 2,72026 3,46189 2,310832 3,9749 7,12749 5,67581 5,78461 4,64099 5,146353 10,81081 13,88213 11,56345 11,83585 9,3511 9,605924 33,56783 32,23265 25,87285 23,9097 19,76962 20,452835 91,5727774 58,2471 19,43906 22,32702 42,64888 37,76664
6 0,343723 1,170705 0,582265 0,128105 0,107010 0,1101317 0,373505 0,567926 0,709277 0,118647 0,516182 0,3655298 1,416877 2,355923 2,890167 0,441697 0,698788 0,4360959 0,473666 0,241742 0,70381 0,228223 0,218695 0,50393010 0,351334 0,698757 0,289511 0,145653 0,263456 0,27687211 2,681087 5,495473 0,785266 0,551825 0,844443 1,078973
Fonte: Elaborada pela autora
O conjunto de caracterısticas que obteve o melhor resultado medio nos testes, tanto
para florestas aleatorias quanto para redes neurais foram g+t+f (grafo, textura e formato).
E, em relacao aos dois regressores, a melhor media de MSE ocorreu ao utilizar Rede
Neural com tres camadas e dois neuronios. Analisando-se individualmente os resultados
de cada um dos 660 testes, foi possıvel identificar que o melhor MSE encontrado para
rede neural ocorreu tambem ao utilizar tres camadas e dois neuronios e as caracterısticas
g+t+f, neste caso teste, especificamente, o resultado do MSE foi igual a 0,17466987; para
floresta aleatorias ocorreu ao utilizar 400 arvores e as caracterısticas g+t+f, neste caso
72
teste, o resultado do MSE foi igual a 0,17820504. Sendo assim, as proximas analises serao
embasadas nestes dois testes especificamente.
Figura 28 – Analise dos regressores RN E RF em relacao ao resultado esperadoe o resultado predito
Fonte: Elaborada pela autora
Diante dos resultados ilustrados na Figura 28 pode-se observar que, ao comparar a floresta
aleatoria e a rede neural, os resultados estao pouco dispersos, isso significa que os valores
foram proximos. Comparando-se os resultados de cada regressor com o resultado esperado,
existe uma dispersao maior entre os resultados, o que indica que existe uma diferenca maior
entre alguns valores esperados e os preditos.
Para uma melhor entendimento dos resultados expostos anteriormente, a Figura 29
mostra os resultados esperados e os resultados preditos de maneira que possa ser observado
tambem o erro absoluto e o erro relativo.
A partir da analise da Figura 29, pode-se dizer que houve uma dificuldade de
ambos os regressores em predizerem valores positivos mais proximos de um. Observa-se,
ainda, que algumas regioes obtiveram um erro relativo significativamente maior que os
demais, o que acarreta em uma piora significativa das medias de erros. Analisando-se
detalhadamente os piores resultados, foi possıvel identificar que eles ocorreram quando os
resultados deveriam ser definidos como muito segmentados e foram preditos como pouco
segmentados e vice-versa.
5.7 Resultados do Experimento 3
Como foi avaliado na Secao anterior, a melhor media de MSE para rede neural
ocorreu ao treinar a rede com tres camadas e dois neuronios, com as caracterısticas
73
Figura 29 – Analise dos regressores RN E RF em relacao ao resultado esperadoe o resultado predito
Fonte: Elaborada pela autora
de formato, grafo e textura, juntas. Sendo assim, este experimento objetivou avaliar o
comportamento do realinhamento de hierarquias aplicados a esse regressor. Para avaliar o
impacto da utilizacao de diferentes caracterısticas para o processo de realinhamento foram,
74
ainda, analisados os resultados do realinhamento de hierarquias aplicando-se diferentes
conjunto de caracterısticas como mostra a Tabela 6. Vale ressaltar que neste experimento
foram utilizadas as segmentacoes das imagens da base de testes obtidas pelo metodo HGB.
Tabela 6 – Variacoes das configuracoes dos regressores e das caracterısticasextraıdas utilizadas nos treinamentos
Regressore Caracterısticas1-Rede neural 3 camadas 2 neuronios g+t+f2-Rede neural 3 camadas 2 neuronios g+t+f+c3-Rede neural 3 camadas 2 neuronios g4-Rede neural 3 camadas 2 neuronios t5-Rede neural 3 camadas 2 neuronios f6-Rede neural 3 camadas 2 neuronios c
Fonte: Elaborada pela autora
Para avaliar o impacto da utilizacao de diferentes caracterısticas para o processo
de realinhamento, os casos de teste dispostos na Tabela 6 foram executados com as
segmentacoes do metodo HGB. Os resultados medios estao dispostos na Tabela 7.
Tabela 7 – Media dos resultados antes e depois da aplicacao do metodo derealinhamento de hierarquias com as segmentacoes do metodo HGB
SC ↑ PRI ↑ VI ↓ Fb ↑ODS OIS ODS OIS ODS OIS ODS OIS
Sem o realinhamento 0,43 0,62 0,74 0,80 2,34 1,88 0,49 0,501 0,37 0,53 0,74 0,81 2,45 1,89 0,53 0,582 0,37 0,53 0,74 0,81 2,45 1,89 0,53 0,583 0,42 0,53 0,74 0,81 2,45 1,89 0,54 0,584 0,36 0,53 0,74 0,81 2.45 1,89 0,53 0,585 0,37 0,53 0,74 0,81 2.45 1,89 0,53 0,586 0,39 0,53 0,74 0,81 2.44 1,89 0,53 0,58
Fonte: Elaborada pela autora
Foi possıvel analisar que na metrica de avaliacao de borda houve uma melhora de 9,43 %
quando se utilizou as caraterısticas de grafos isoladamente, em relacao a media ODS, e
com as demais caracterısticas o resultado medio ODS obtiveram uma melhora de 7,53 %.
Sendo que para a media OIS, em todas as variacoes de caracterısticas o media foi 16,0 %
melhor ao aplicar o metodo de realinhamento de hierarquias. Observa-se que a media
PRI em relacao a todas as imagens realinhadas a media foi a mesma, porem ao analisar
cada imagem houve uma melhora de 1,25 % na melhor imagem segmentada. Nas demais
metricas de segmentacao nao ocorreram melhorias. Porem, um olhar mais atento em
alguns resultados finais especıficos podem ajudar a entender melhor esses resultados.
Sendo assim, a Figura 30 apresenta exemplos de resultados especıficos, com o valor de
escala igual a 0,5, pois e o nıvel hierarquico onde espera-se que os objetos e suas partes
estejam alocados apos o realinhamento.
75
Figura 30 – Exemplos de resultados antes e depois do realinhamento com assegmentacoes do valor de escala igual a 0,5
(a) Imagem (b) ground-truth (c) Segmentacao
SC : 0.16PRI : 0.39VI : 4.46Fb : 0.55
(d) SegmentacaoRealinhada
SC : 0.56PRI : 0.65VI : 1.23Fb : 0.70
(e) Imagem (f) ground-truth (g) Segmentacao
SC : 0.32PRI : 0.51VI : 3.87Fb : 0.44
(h) SegmentacaoRealinhada
SC : 0.32PRI : 0.51VI : 3.87Fb : 0.44
(i) Imagem (j) ground-truth (k) Segmentacao
SC : 0.35PRI : 0.78VI : 3.16Fb : 0.58
(l)SegmentacaoRealinhada
SC : 0.27PRI : 0.27VI : 2.21Fb : 0.0
Fonte: Elaborada pela autora
Pode-se analisar que embora em alguns resultados medios nao tenham ocorrido
melhorias, quando se analisa as imagens separadamente, e possıvel entender que em muitos
76
casos houveram melhora significativa nos resultados. Essa melhoria pode ser observada
no exemplo ilustrado na Figura 30 (d), em que todas as metricas calculadas apresentaram
resultados melhores. Apesar das ocorrencias de melhorias, algumas segmentacoes nao
sofreram modificacoes nas hierarquias, como ilustra as Figuras 30 (h). Analisando-se
a diferenca dos resultados entre as Figuras 30 (k) e 30 (l), e possıvel observar que ao
realinhar a segmentacao, os resultados de todas as metricas ficaram piores. Portanto, os
fatos apresentados fazem com que o resultado medio nao apresente melhorias significativas,
embora em muitos casos particulares a aplicacao do realinhamento de hierarquias tenha
melhorado o resultado final da segmentacao.
5.8 Resultados do Experimento 4
Uma observacao atenta aos resultados expostos na Figura 29, entende que algumas
regioes obtiveram erro relativo maior que os demais. Esse fato ocorreu quando um valor
esperado e o valor predito eram muito diferentes, como por exemplo, um valor predito
como 0,00089 quando o esperado e o valor -0,8836. Sendo assim, foram analisadas as
regioes cujos erros absolutos mostrados na Figura 29 (erro absoluto) foram maiores ou
iguais a 100. A Figura 31 mostra um exemplo da imagem a qual uma dessas regioes
pertence, juntamente com o ground-truth utilizado e seu mapa de saliencia.
Foi possıvel perceber que em grande parte das regioes esperava-se que os scores
indicassem que elas foram muito segmentadas, uma vez que o ground-truth nao apresenta
muitos detalhes da imagem. Porem, se calcular o valor esperado em relacao a um
ground-truth realizado por um humano diferente, o resultado esperado pode ser tambem
diferente, pois alguns deles apresentam mais detalhes das regioes. A Figura 32 mostra
outros ground-truths relacionados a imagem disposta na Figura 31(b).
Entao, uma rede neural com tres camadas e dois neuronios com as caracterısticas de
grafo, formato e textura foi treinado, juntamente com as mesmas segmentacoes utilizadas
nos treinamentos do Experimento 2 (ver Secao 5.6). As mesmas segmentacoes de teste do
Experimento 2 tambem foram utilizadas para realizar os testes do presente experimento.
Deste modo, foi realizada uma alteracao no calculo de scores, levando-se em consideracao
os ground-truths realizados por diferentes humanos para cada imagem, como mostra a
Equacao 5.8
Scoreki =1
Nk(Nk∑j=1
|Gkij | − |Rk
i |max(|Gk
ij |, |Rki |)
(5.9)
sendo |Gkij | o tamanho do j−th segmentacao definida por humanos do ground-truth e
a regiao da segmentacao hierarquica correspondente (Rki ) da imagem k. Nk indica a
77
Figura 31 – Exemplo de segmentacao que obteve alta taxa de erro
(a) Mapa de Saliencia
(b) Imagem (c) ground-truth
Fonte: Elaborada pela autora
quantidade de segmentacoes definidas por humanos no ground-truths referente a imagem
k.
Deste modo, analisando-se os resultados preditos, o valor de MSE foi igual a
0,1056665. Comparando o melhor valor de MSE do Experimento 2 (ver Secao 5.6 ), cujo
MSE foi de 0,17466987, e possıvel perceber que houve melhora na qualidade do regressor.
Entao, com o mesmo regressor treinado neste experimento, foram realizas as
predicoes de scores das regioes que pertencentes as segmentacoes da base de teste.
Posteriormente, essas segmentacoes foram realinhadas. A Tabela 8 mostra os resultados
obtidos no realinhamento comparando-os com os resultados do realinhamento obtidos no
Experimento 2, cujo regressor tinha as mesmas configuracoes e caracterısticas.
78
Figura 32 – Diferentes ground-truths referentes a imagem 31(b)
(a) (b)
(c) (d)
Fonte: Elaborada pela autora
Tabela 8 – Media dos resultados antes e depois da aplicacao do metodo derealinhamento de hierarquias levando-se em consideracao os ground-truthsrealizados por diferentes humanos para cada imagem
SC ↑ PRI ↑ VI ↓ Fb ↑ODS OIS ODS OIS ODS OIS ODS OIS
Realinhamento Experimento 2 0,37 0,53 0,74 0.81 2,45 1,89 0,53 0,58Realinhamento Experimento 4 0,38 0,53 0,74 0.81 2,37 1,89 0,53 0,58
Fonte: Elaborada pela autora
Diante dos resultados mostrados na Tabela 8 e possıvel analisar que a utilizacao de
ground-truths definidos por diferente humanos no processo de treinamento dos scores, para
o realinhamento de hierarquias, apresentou resultados melhores ou iguais ao se comprar
com os resultados do realinhamento de hierarquias que utilizou um unico ground-truth.
Este fato pode ser observado de maneira mais clara na Figura 33, que ilustra alguns
exemplos de resultados das segmentacoes antes do processo de realinhamento e apos o
79
realinhamento obtido neste experimento.
Figura 33 – Exemplos de resultados antes e depois do realinhamento com assegmentacoes do valor de escala igual a 0,5
(a) Imagem (b) ground-truth (c) ground-truth (d) ground-truth
(e) ground-truth (f) ground-truth (g) ground-truth
(h) Segmentacao
SC : 0.16PRI : 0.39VI : 4.46Fb : 0.55
(i) SegmentacaoRealinhada
SC : 0.56PRI : 0.65VI : 1.23Fb : 0.70
E possıvel perceber que algumas segmentacoes, como as ilustradas na Figura 33 (d), o
resultado apos o realinhamento foi melhor do que o resultado da segmentacao sem o
realinhamento, porem comparando-se com os resultados da Figura 30 (d), nao houveram
alteracoes nos resultados. Nas Figuras 33 (o) e 33 (w) houveram uma melhora significativa
em todas as metricas, comparando-se com os resultados mostrados nas Figuras 33 (n)
e 33 (v), respetivamente. Percebe-se ainda que os resultados das Figuras 33 (o) e
33 (w) obtiveram valores melhores comparando-se com o realinhamento realizado no
Experimento2, ilustrados pelas Figuras 30 (h) e 30 (l).
80
(j) Imagem (k) ground-truth (l) ground-truth (m) ground-truth
(n) ground-truth (o) ground-truth
SC : 0.32PRI : 0.51VI : 3.87Fb : 0.44
(p) Segmentacao
SC : 0.77PRI : 0.82VI : 1.16Fb : 0.54
(q) SegmentacaoRealinhada
Por fim, tambem foram avaliadas as hierarquias resultantes (apos o realinhamento
com o novo regressor treinado neste experimento) usando o tradicional beckmark de
avaliacao proposto por (ARBELAEZ et al., 2011) e uma abordagem na qual todas as
segmentacoes definidas por humanos no ground-truth sao usadas. O procedimento de
avaliacao proposto por (ARBELAEZ et al., 2011) obtem uma unica segmentacao baseada
em um procedimento de votacao majoritaria entre as diversas segmentacoes definidas por
humanos presentes no ground-truth. Novamente, isso poderia favorecer resultados muito
ou pouco-segmentados, dependendo do numero e da qualidade dessas segmentacoes.
Entao, neste trabalho tambem propusemos avaliar o resultado final da segmentacao,
que e aquele obtido por meio de um corte horizontal de um valor de escala de
0,5 (que corresponde a fatia de ancora composta pelas segmentacoes rotuladas como
81
(r) Imagem (s) ground-truth (t) ground-truth (u) ground-truth
(v) ground-truth (w) ground-truth
SC : 0.35PRI : 0.78VI : 3.16Fb : 0.58
(x) Segmentacao
SC : 0.72PRI : 0.89VI : 1.29Fb : 0.66
(y) SegmentacaoRealinhada
Fonte: Elaborada pela autora
devidamente segmentadas) usando cada uma das segmentacoes presentes no ground -truth,
separadamente. No final, foi calculada a media de cada medida de segmentacao para
cada imagem. Os resultados sao mostrados na Tabela ??, que tambem apresenta os
resultados quando o valor maximo de cada medida de segmentacao para cada imagem e
considerado (em vez da media). Como se pode ver, exceto por Fb, todas as outras medidas
apresentaram melhorias.
82
Tabela 9 – Medidas de segmentacao para diferentes estrategias de avaliacaoapos o processo de realinhamento usando Scoreki .
Estrategia de avaliacao SC ↑ PRI ↑ VI ↓ Fb ↑Avaliacao de Consenso (ARBELAEZ et al., 2011) 0.53 0.81 1.89 0.58Avaliacao usando todas as segmentacoes do GT (med.) 0.56 0.83 1.81 0.46Avaliacao usando todas as segmentacoes do GT (max.) 0.63 0.88 1.45 0.53
83
6 CONCLUSOES E TRABALHOS FUTUROS
As tecnicas de processamento digital de imagens sao amplamente aplicadas em
diversas areas do conhecimento e tem, como uma das etapas, o processo de segmentacao
de imagens. Sendo assim, a qualidade das segmentacoes influenciam em diversos tipos de
aplicacoes. Na literatura, a segmentacao de imagens em sua versao hierarquica tem sido
aplicada com sucesso. Por isso, melhorar os resultados finais dos metodos de segmentacao
de imagens, mais especificamente, de metodos de segmentacao hierarquica de imagens e
uma necessidade evidente e que tem sido abordada na literatura recentemente.
O metodo proposto por Chen et al. (2016b) e uma alterativa interessante para
melhorar os resultados finais das segmentacoes, uma vez que propoe realinhar as
hierarquias de particoes utilizando aprendizado de maquina para prever se as regioes
de uma hierarquia sao muito, pouco ou devidamente segmentadas e, posteriormente,
realinha-las de acordo com estas rotulagens. Neste estudo, os autores utilizaram apenas
um metodo de aprendizado de maquina (floresta aleatoria) com uma unica configuracao
(100 arvores) com um unico conjunto de caracterısticas (propriedade do grafo, propriedade
da regiao e textura) para realizar as predicoes. Deste modo, o presente trabalho propos
uma analise mais detalhada para entender qual e o impacto gerado nos resultados de
segmentacao hierarquica de imagens apos o processo de realinhamento de hierarquias ao
treinar diferentes regressores, com diferentes configuracoes, e com diferentes caracterısticas
para descrever as regioes.
Sendo assim, por meio dos experimentos realizados foi possıvel concluir que o
metodo de realinhamento de hierarquias se comporta de maneira diferente quando se e
utilizada diferentes caracterısticas no processo de treinamento, isso pode ser percebido nos
resultados das segmentacoes geradas pelos dois metodos utilizados (HGB e gpb-ucm-owt).
Isso ocorre porque a utilizacao de diferentes caracterısticas para descrever uma regiao
influencia na qualidade dos treinamentos. Outro fator de impacto para a qualidades
dos treinamentos e a configuracoes das redes neurais e das florestas aleatorias. Sendo
que a rede neural apresentou o melhor valor medio de MSE em relacao a todos os testes
executados, quando foram utilizados as caracterısticas de grafos, textura e formato na rede
com tres camadas e dois neuronios. Ja as florestas aleatorias, apresentaram resultados
mais estaveis que as redes neurais, uma vez que, em todos os casos de teste os melhores
valores apresentados ocorreram quando as florestas eram compostas por 400 arvores.
A utilizacao do realinhamento de hierarquias, como foram mostrados nos
experimentos, acarreta em melhores segmentacoes. Embora alguns resultados medios
obtidos para todas as metrica calculada, comparando-se com os resultados sem o
realinhamento nao apresentassem melhorias significativas, uma avaliacao atentamente
84
para cada segmentacao realinhada foi possıvel observar que muitas segmentacoes
obtiveram melhorias significativas, porem, alguns resultados que nao alcancaram tais
melhorias fizeram com que a media geral nao apresentasse resultados tao satisfatorios.
Uma analise detalhada nos resultados obtidos das predicoes dos scores e dos seus
resultados esperados, sugeriu que, como se tem ground-truths realizados por diferentes
humanos para cada imagem da base de dados utilizadas e, alguns deles apresentam mais
(ou menos) detalhes das regioes das imagens, supos-se que utilizar apenas a primeira
segmentacao da base, como foi sugerido por Chen et al. (2016b), nao era suficiente para
determinar se uma regiao da hierarquia de particao era muito, pouco, ou devidamente
segmentada. Entao, uma alteracao no calculo dessas rotulagens foi realizada, levando-se
em consideracao os diferentes ground-truths das imagens. Diante dos resultados, foi
possıvel observar que as segmentacoes realizadas apresentaram melhorias em alguns casos
e, em outros casos, nao sofreram alteracoes. Sendo assim, foi possıvel concluir que existe
a possibilidade de se melhorar a qualidade dos dados de treinamento, o que impacta
positivamente nos resultados do processo de realinhamento de hierarquias.
Portanto, como trabalhos futuros, pretende-se estudar uma tecnica que possibilite
representar ground-truths realizadas por diferentes humanos em uma unica anotacao para
avaliar e treinar, da melhor maneira possıvel, os scores de uma regiao. Alem disso,
pretende-se tambem aplicar a tecnica de realinhamento de hierarquias em segmentacao
de vıdeos.
85
REFERENCIAS
ARBELAEZ, P. Boundary extraction in natural images using ultrametric contour maps.In: IEEE. Computer Vision and Pattern Recognition Workshop, 2006.CVPRW’06. Conference on. [S.l.], 2006. p. 182–182.
ARBELAEZ, P. et al. Contour detection and hierarchical image segmentation. IEEEtransactions on pattern analysis and machine intelligence, IEEE, v. 33,n. 5, p. 898–916, 2011.
BELO, L. et al. Graph-based hierarchical video summarization using global descriptors.In: Tools with Artificial Intelligence (ICTAI), 2014 IEEE 26thInternational Conference on. [S.l.: s.n.], 2014. p. 822–829. ISSN 1082-3409.
BELO, L. et al. Summarizing video sequence using a graph-based hierarchical approach.Neurocomputing, v. 173, p. 1001–1016, 2016. ISSN 0925-2312.
BREIMAN, L. Random forests. Machine Learning, v. 45, n. 1, p. 5–32, Oct 2001.ISSN 1573-0565.
CHEN, L. C. et al. Attention to scale: Scale-aware semantic image segmentation. In:2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). [S.l.: s.n.], 2016. p. 3640–3649.
CHEN, Y. et al. Scale-aware alignment of hierarchical image segmentation. In: 2016IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.: s.n.], 2016. p. 364–372. ISSN 1063-6919.
COMANICIU, D.; MEER, P. Mean shift: a robust approach toward feature spaceanalysis. IEEE Transactions on Pattern Analysis and Machine Intelligence,v. 24, n. 5, p. 603–619, May 2002. ISSN 0162-8828.
COUSTY, J.; NAJMAN, L. Morphological floodings and optimal cuts in hierarchies. In:2014 IEEE International Conference on Image Processing (ICIP). [S.l.:s.n.], 2014. p. 4462–4466. ISSN 1522-4880.
COUSTY, J. et al. Hierarchical segmentations with graphs: Quasi-flat zones, minimumspanning trees, and saliency maps. Journal of Mathematical Imaging andVision, v. 60, n. 4, p. 479–502, May 2018.
DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. 2. ed. NewYork: Wiley, 2001. ISBN 978-0-471-05669-0.
FARABET, C. et al. Learning hierarchical features for scene labeling. IEEETransactions on Pattern Analysis and Machine Intelligence, v. 35, n. 8, p.1915–1929, Aug 2013. ISSN 0162-8828.
86
FELZENSZWALB, P. F.; HUTTENLOCHER, D. P. Efficient graph-based imagesegmentation. International Journal of Computer Vision, Kluwer AcademicPublishers, v. 59, n. 2, p. 167–181, 2004. ISSN 0920-5691.
FU, K. Syntactic pattern recognition and applications. [S.l.]: Prentice-Hall,1982. (Prentice-Hall advanced reference series: Computer science). ISBN 9780138801205.
GONZALEZ, R. C.; WOODS, R. E. Digital Image Processing. [S.l.]: Prentice-Hall,Incg, 2001. 752 p. ISBN 0-201-18075-8.
GUIGES, L.; COCQUEREZ, J.; MEN, H. L. Scale-sets image analysis. InternationalJournal of Computer Vision, Kluwer Academic Publishers, v. 68, n. 3, p. 289–317,2006.
GUIGUES, L.; COCQUEREZ, J. P.; MEN, H. L. Scale-sets image analysis.International Journal of Computer Vision, v. 68, n. 3, p. 289–317, 2006.
GUIMARAES, S. J. F. et al. A hierarchical image segmentation algorithm based on anobservation scale. In: SSPR/SPR. [S.l.]: Kluwer Academic Publishers, 2012. p. 116–125.
GUIMARAES, S. J. F. et al. Hierarchizing graph-based image segmentation algorithmsrelying on region dissimilarity: the case of the Felzenszwalb-Huttenlocher method. v. 2,n. 1, p. 55–75, 2017.
GUIMARAES, S. J. F.; PATROCINIO JR, Z. K. G. A graph-based hierarchical imagesegmentation method based on a statistical merging predicate. In: PETROSINO, A.(Ed.). International Conference on Image Analysis and Processing -ICIAP 2013. [S.l.]: Springer Berlin Heidelberg, 2013, (Lecture Notes in ComputerScience, v. 8156). p. 11–20. ISBN 978-3-642-41180-9.
HAO, Z. et al. Scale-aware face detection. In: 2017 IEEE Conference on ComputerVision and Pattern Recognition (CVPR). [S.l.: s.n.], 2017. p. 1913–1922. ISSN1063-6919.
HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of StatisticalLearning. New York, NY, USA: Springer New York Inc., 2001. (Springer Series inStatistics).
JIE, Z. et al. Scale-aware pixelwise object proposal networks. IEEE Transactions onImage Processing, v. 25, n. 10, p. 4525–4539, 2016. ISSN 1057-7149.
KUNCHEVA, L. I. Combining Pattern Classifiers: Methods and Algorithms.2nd. ed. [S.l.]: Wiley Publishing, 2014. ISBN 1118315235, 9781118315231.
LEMPITSKY, V.; VEDALDI, A.; ZISSERMAN, A. Pylon model for semanticsegmentation. In: SHAWE-TAYLOR, J. et al. (Ed.). Advances in NeuralInformation Processing Systems 24. [S.l.]: Curran Associates, Inc., 2011. p.1485–1493.
LI, J. et al. Scale-aware fast r-cnn for pedestrian detection. IEEE Transactions onMultimedia, v. 20, n. 4, p. 985–996, 2018. ISSN 1520-9210.
87
MARTIN, D. et al. A database of human segmented natural images and its applicationto evaluating segmentation algorithms and measuring ecological statistics. In:Proceedings Eighth IEEE International Conference on Computer Vision.ICCV 2001. [S.l.: s.n.], 2001. v. 2, p. 416–423.
Martin, D. R.; Fowlkes, C. C.; Malik, J. Learning to detect natural image boundariesusing local brightness, color, and texture cues. IEEE Transactions on PatternAnalysis and Machine Intelligence, v. 26, n. 5, p. 530–549, May 2004. ISSN0162-8828.
MORRIS, O.; LEE, M. J.; CONSTANTINIDES, A. Graph theory for image analysis:an approach based on the shortest spanning tree. Communications, Radar andSignal Processing, IEE Proceedings F, v. 133, n. 2, p. 146–152, April 1986. ISSN0143-7070.
NICOLETTI, M. d. C.; HRUSCHKA, E. R. J. Fundamentos da Teoria dosGrafos para Computacao. [S.l.]: Edufscar, 2013. 224 p. ISBN 978-85-7600-075-4.
NOCK, R.; NIELSEN, F. Statistical region merging. IEEE Transactions onComputers, v. 26, n. 11, p. 1452–1458, November 2004.
PEDRINI, H.; SCHWARTZ, W. R. Analise de Imagens Digitais: Princıpios,Algoritmos e Aplicacoes. [S.l.]: Editora Thomson Learning, 2007. 528 p. ISBN978-85-221-0595-3.
PONT-TUSET, J. et al. Multiscale combinatorial grouping for image segmentationand object proposal generation. IEEE Transactions on Pattern Analysis andMachine Intelligence, v. 39, n. 1, p. 128–140, Jan 2017. ISSN 0162-8828.
PRATTI, W. K. Digital Image Processing. [S.l.]: A Wiley-Interscience Publication,2001. 735 p. ISBN 0-471-37407-5.
RODRIGUES, F. et al. Graph-based hierarchical video cosegmentation. In: SPRINGER.International Conference on Image Analysis and Processing - ICIAP2017. [S.l.], 2017. p. 15–26.
RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Parallel distributedprocessing: Explorations in the microstructure of cognition, vol. 1. In: RUMELHART,D. E.; MCCLELLAND, J. L.; GROUP, C. P. R. (Ed.). Cambridge, MA, USA: MITPress, 1986. cap. Learning Internal Representations by Error Propagation, p. 318–362.ISBN 0-262-68053-X.
RUSSELL, S. et al. Artificial Intelligence. Prentice Hall,2010. (Prentice Hall series in artificial intelligence). Disponıvel em:<https://books.google.com.br/books?id=8jZBksh-bUMC>. ISBN 9780136042594.
SALEMBIER, P.; GARRIDO, L. Binary partition tree as an efficient representation forimage processing, segmentation, and information retrieval. IEEE Transactions onImage Processing, v. 9, n. 4, p. 561–576, April 2000. ISSN 1057-7149.
SHI, J.; MALIK, J. Normalized cuts and image segmentation. IEEE Transactionson Pattern Analysis and Machine Intelligence, v. 22, n. 8, p. 888–905, Aug2000. ISSN 0162-8828.
88
SIMOES-PEREIRA, J. M. S. Grafos e Redes Teoria e Algorıtmos Basicos.[S.l.]: Interciencia, 2014. 337 p. ISBN 978-85-7193-331-6.
SOUZA, K. J. F. et al. Hierarchical video segmentation using an observation scale.In: Graphics, Patterns and Images (SIBGRAPI), 2013 26th SIBGRAPI -Conference on. [S.l.: s.n.], 2013. p. 320–327. ISSN 1530-1834.
SOUZA, K. J. F. et al. Streaming graph-based hierarchical video segmentation by asimple label propagation. In: Graphics, Patterns and Images (SIBGRAPI), 201526th SIBGRAPI - Conference on. [S.l.: s.n.], 2015.
SOUZA, K. J. F. et al. Decreasing the number of features for improving human actionclassification. In: 2016 29th SIBGRAPI Conference on Graphics, Patternsand Images (SIBGRAPI). [S.l.: s.n.], 2016. p. 195–200.
SOUZA, K. J. F. et al. Graph-based hierarchical video segmentation based on a simpledissimilarity measure. Pattern Recognition Letters, v. 47, p. 85–92, 2014. ISSN0167-8655. Advances in Mathematical Morphology.
TORRES, R. S.; FALCAO, A. X. Content-based image retrieval: Theory andapplications. Revista de Informatica Teorica e Aplicada, v. 13, n. 2, p. 161 –185, 2006.
UNNIKRISHNAN, R.; PANTOFARU, C.; HEBERT, M. Toward objective evaluationof image segmentation algorithms. IEEE Trans. Pattern Anal. Mach. Intell.,IEEE Computer Society, Washington, DC, USA, v. 29, n. 6, p. 929–944, jun. 2007. ISSN0162-8828. Disponıvel em: <https://doi.org/10.1109/TPAMI.2007.1046>.
VARAS, D.; ALFARO, M.; MARQUES, F. Multiresolution hierarchy co-clusteringfor semantic segmentation in sequences with small variations. In: 2015 IEEEInternational Conference on Computer Vision (ICCV). [S.l.: s.n.], 2015. p.4579–4587. ISSN 2380-7504.
XU, C.; WHITT, S.; CORSO, J. J. Flattening supervoxel hierarchies by the uniformentropy slice. In: 2013 IEEE International Conference on Computer Vision.[S.l.: s.n.], 2013. p. 2240–2247. ISSN 1550-5499.
YANG, A. Y. et al. Unsupervised segmentation of natural images via lossy datacompression. Comput. Vis. Image Underst., Elsevier Science Inc., New York,NY, USA, v. 110, n. 2, p. 212–225, maio 2008. ISSN 1077-3142. Disponıvel em:<http://dx.doi.org/10.1016/j.cviu.2007.07.005>.
ZAHN, C. Graph-theoretical methods for detecting and describing gestalt clusters.Computers, IEEE Transactions on, C-20, n. 1, p. 68–86, Jan 1971. ISSN0018-9340.
ZHANG, X.-X.; YANG, Y.-M. Minimum spanning tree and color image segmentation. In:Networking, Sensing and Control, 2008. ICNSC 2008. IEEE InternationalConference on. [S.l.: s.n.], 2008. p. 900–904.
ZOU, W.; KOMODAKIS, N. Harf: Hierarchy-associated rich features for salient objectdetection. In: 2015 IEEE International Conference on Computer Vision(ICCV). [S.l.: s.n.], 2015. p. 406–414. ISSN 2380-7504.
top related