análise compreensiva de técnicas de processamento de ...tg/2019-1/tg_ec/tg_heitor.pdf · 4.1.2...

Universidade Federal de PernambucoCentro de Informática

Graduação em Engenharia da Computação

Análise compreensiva de técnicas deprocessamento de imagem para melhoria

de detecção de objetos em 6DoF comaprendizagem profunda

Heitor de Castro Felix

Trabalho de Graduação

Recife04 de julho de 2019

Universidade Federal de PernambucoCentro de Informática

Heitor de Castro Felix

Análise compreensiva de técnicas de processamento deimagem para melhoria de detecção de objetos em 6DoF com

aprendizagem profunda

Trabalho apresentado ao Programa de Graduação em En-genharia da Computação do Centro de Informática da Uni-versidade Federal de Pernambuco como requisito parcialpara obtenção do grau de Bacharel em Engenharia daComputação.

Orientadora: Veronica TeichriebCo-orientador: Francisco Paulo Magalhães Simões

Recife04 de julho de 2019

Resumo

A detecção de objetos com seis graus de liberdade (6DoF) possui grande relevância em visãocomputacional por viabilizar aplicações em diversas áreas como realidade aumentada e robó-tica. A detecção de objetos com pouca ou nenhuma textura ainda é um importante problema emaberto. Com o fortalecimento da área de aprendizagem profunda, a utilização de redes neuraisconvolucionais tem se mostrado uma alternativa eficiente para a solução do problema. O obje-tivo deste trabalho é buscar melhorias na detecção de objetos não texturizados em seis graus deliberdade utilizando abordagens de redes neurais convolucionais a partir de pré-processamentode dados nas imagens que são aplicadas a rede. Foi realizada uma pesquisa do estado-da-artedas técnicas que utilizam redes neurais convolucionais para detecção de objetos em seis grausde liberdade. Também foram pesquisados filtros com potenciais fatores de melhora na detec-ção. Finalmente, foi selecionada e avaliada uma técnica de detecção a partir de redes neuraisconvolucionais sob a influência de dois filtros de pré-processamento, um do tipo "lápis"e outrocom base em padrões locais binários (LBP), visando aumentar a robustez da técnica originale ao mesmo tempo reduzir sua complexidade através da redução de canais utilizados nas ima-gens. Através deste estudo foi possível avaliar o impacto da redução de canais na técnica dedetecção a partir de CNN com a utilização dos filtros e a influência dos uso dos dois filtrosavaliados no resultado de detecção. Apesar de indicar caminhos para avançar na área, as técni-cas com um canal e os filtros ainda não foram capazes de atingir os resultados da técnica comimagens de três canais (RGB) e o filtro com efeito lápis se mostrou mais robusto que o LBP.

Palavras-chave: Visão Computacional, Detecção de Objetos em Seis Graus de Liberdade,Redes Neurais Convolucionais, Padrões Locais Binários, Efeito de Lápis.

v

Abstract

Object detection in six degrees of freedom (6DoF) has great relevance in computer vision formaking applications in several areas such as augmented reality and robotics possible. Detec-tion of objects with or without texture is still an important unsolved problem. With the supportof deep learning techniques, the use of neural networks can provide an efficient solution forsolving this problem. The objective of this work was to seek improvements in the detectionof non-textured objects in six degrees of freedom using a convolutional neural network (CNN)approach through pre-processing of the images used for training the network. State-Of-The-Artresearch was carried out on techniques that use CNN to detect objects in six degrees of free-dom. We also searched for filters with enhancement factors for detection. Finally, a detectiontechnique based on a CNN was selected and adapted to use single-channel images (grayscale)as input, instead of using three channel images (RGB) as in the original proposition, aiming toincrease its robustness while reducing the complexity of the input images. The technique wasalso tested with the application of two preprocessing filters to enhance the objects’ contourson the single channel images, one being a "pencil effect", and the other based on local binarypatterns (LBP). With this study, it was possible to evaluate the impact on the CNN detectionperformance with the two filters employed. The proposed technique with one channel and thefilters still could not surpass the results of the technique with the three-channel image (RGB),although it indicated paths for improvement. The pencil filter also proved to be more robustthan the LBP filter as expected.

Keywords: Computer Vision, 6DoF Object Detection, Convolutional Neural Networks, LocalBinary Patterns, Pencil Filter.

vii

Sumário

1 Introdução 11.1 Motivação 11.2 Objetivos 2

1.2.1 Objetivos específicos 2

2 Fundamentação Teórica 32.1 Estimativa de Pose em Seis Graus de Liberdade 3

2.1.1 Parâmetros Extrínsecos 32.1.2 Parâmetros Intrínsecos 52.1.3 Matriz de Projeção 5

2.2 Detecção e Rastreamento de Objetos 52.3 Redes Neurais Convolucionais 6

2.3.1 Camada Convolucional 72.3.2 Camada de Pooling 72.3.3 Camadas Totalmente Conectadas 8

3 Trabalhos Relacionados 9

4 Pré-processamento de imagens para Detecção de Objetos com CNN 134.1 CNN para detecção de objetos em 6DoF 13

4.1.1 Dataset 144.1.2 Treinamento 14

4.2 Métricas de Avaliação 164.2.1 Reprojeção 2D 184.2.2 Pose 6D 18

5 Resultados 195.1 Resultados Preliminares 195.2 Resultados Gerais 205.3 Discussão 21

6 Contribuições e Trabalhos Futuros 256.1 Contribuições 256.2 Trabalhos Futuros 25

ix

Lista de Figuras

2.1 Projeção dos pontos 3D para o plano da imagem 2D a partir da matriz de pose.Na Figura, é mostrado um objeto 3D em ambiente virtual, o eixo das coorde-nadas de mundo e de câmera (transformação entre coordenadas feita a partirda matriz de parâmetros extrínsecos) e plano de imagem da câmera em 2D(projeção feita a partir da matriz de parâmetros intrínsecos). 4

2.2 Representação de Filtro para obtenção de camada convolucional e seus mapasde ativação. 7

2.3 Representação de Max Pooling com janela 2x2 e Stride 2. 8

3.1 Calculo de uma janela da imagem utilizando o LBP simples proposto por [OPH94]. 11

3.2 Representação de LBP com generalização e variação no tamanho da vizinhançade pixels. No primeiro caso é representada uma vizinhança com quatro pixels eraio igual a um pixel. No segundo caso é representada uma vizinhança com oitopixels e raio igual a um pixel. No terceiro caso é representada uma vizinhançacom doze pixels e raio igual a um pixel e meio. No quarto caso é representadauma vizinhança com dezesseis pixels e raio igual a dois pixels. No quinto eúltimo caso é representada uma vizinhança com vinte e quatro pixels e raioigual a três pixels. 12

4.1 Arquitetura da CNN proposta por [RDGF16]. A Figura mostra a quantidadede camadas da rede, as dimensões de cada camada, qual o tipo de conexão etamanho da janela em cada camada. 14

4.2 Adaptação da arquitetura YOLO para detecção de objetos 6DoF proposta por[TSF18]. Em (a) temos a arquitetura com a última camada adicionada e em(b), (c), (d), (e), é possível observar a aplicação da rede para um exemplo decena/conjunto de objetos. Mais especificamente: em (b) temos a imagem dosobjetos; em (c) temos os grids utilizados para gerar as estimativas da boundingbox de cada objeto; em (d) temos as estimativas para cada bounding box dosobjetos e em (e) temos os vetores de resposta da rede para cada objeto com 2coordenadas para cada um dos 9 pontos (8 do bounding box + 1 do centróide),um valor de probabilidade para cada uma das C classes e um valor de confiança. 15

4.3 Aplicação de "Efeito de Lápis"em imagens do dataset LINEMOD. 16

xi

xii LISTA DE FIGURAS

4.4 Descrição do aumento de dados durante o treinamento da rede. (a) Figura dodataset LINEMOD. (b) Imagem com o objeto "ape"segmentado utilizando amáscara da imagem disponível no LINEMOD. (c) Objeto "ape"segmentadoinserido uma uma imagem aleatória do dataset VOC2012 com aplicação derotação e translação aleatório. (d) Aplicação do filtro LBP VAR na imagem (c). 17

5.1 Comparação entre os resultados do "Efeito de Lápis"de [RDPS18] e "Efeito deLápis"com arquitetura baseada em [TSF18]. 20

5.2 Comparação entre os métodos de processamento de imagem: LBP VAR e"Efeito de Lápis". (a) Comparação utilizando a métrica Reprojeção 2D en-tre os filtros LBP VAR e "Efeito de Lápis"para os objetos do LINEMOD. (b)Comparação utilizando a métrica Pose 6D entre os filtros LBP VAR e "Efeitode Lápis"para os objetos do LINEMOD. 23

5.3 Comparação entre o melhor resultado obtido com a técnica original descritaem [TSF18]. (a) Comparação utilizando a métrica Reprojeção 2D com e semutilizar pré-processamento de imagem para os objetos do LINEMOD. (b) Com-paração utilizando a métrica Pose 6D com e sem utilizar pré-processamento deimagem para os objetos do LINEMOD. 24

Lista de Tabelas

5.1 Resultados - Teste Preliminar 19

xiii

CAPÍTULO 1

Introdução

Neste capítulo serão apresentadas as motivações para a realização do presente trabalho, osobjetivos gerais e específicos.

1.1 Motivação

O problema de localizar um objeto em cena, recuperando sua posição e orientação relativas àcâmera que está visualizando a mesma, é conhecido como estimativa de pose em seis graus deliberdade (6DoF, do inglês six Degrees-of-Freedom). Este problema possui grande relevânciaem visão computacional por viabilizar diferentes aplicações como, por exemplo, definir ondeuma informação virtual será adicionada numa cena real para auxiliar um profissional da indús-tria na execução de uma tarefa através de realidade aumentada [FLFCBNVM18] ou possibilitara interação entre um objeto real e um robô [MA16, HBK+16]. Para realizar a estimativa depose de um objeto em 6DoF é possível utilizar técnicas de detecção de objetos a partir de ima-gens, nas quais as informações do objeto de interesse são recuperadas a cada quadro capturadopela câmera e relacionadas às informações previamente conhecidas do objeto para viabilizara recuperação da pose. A depender do tipo de objeto, diferentes características visuais e/ougeométricas podem ser utilizadas como sua textura, arestas, cor, contornos, entre outras. Tradi-cionalmente em visão computacional, as técnicas de detecção de objetos em 6DoF mais comunsfocam em objetos texturizados [L+99, BTVG06, CLSF10, LCS11, YTFLF16], devido a pos-sibilidade de criação de descritores eficientes e robustos a diversas transformações e desafioscomo mudanças de escala, iluminação, rotação, entre outros. Devido a dificuldade de criar des-critores para objetos pouco texturizados, a detecção desse tipo de objeto apresenta um grandedesafio para a área.

Recentemente, com o fortalecimento da área de aprendizagem profunda, mais especifica-mente com a utilização de redes neurais convolucionais (CNN, do inglês Convolutional NeuralNetworks), diversas técnicas têm sido propostas para resolver o problema de detecção de ob-jetos pouco texturizados [RL17, KMT+17, TSF18]. Tais técnicas têm demonstrado grandepotencial devido a alta precisão e desempenho de tempo-real atingidos [TSF18, GL17]. Apesardos avanços recentes, diversos problemas continuam em aberto. A necessidade de uma grandequantidade de dados para o funcionamento dessas soluções, a dificuldade de generalização nocomportamento das técnicas em cenários desafiadores e o grande custo computacional que difi-culta a utilização dessas técnicas em dispositivos com poder computacional baixo, por exemploos dispositivos móveis, são exemplos de problemas em aberto na área.

Dentre as diversas formas de melhorar o desempenho das técnicas de aprendizagem de

1

2 CAPÍTULO 1 INTRODUÇÃO

máquina, incluindo das redes neurais artificiais, o pré-processamento de dados pode melhorarsignificativamente o acerto e robustez da inferência [HLX15]. Devido a isto, em soluções deproblemas que utilizam abordagens de aprendizagem de máquina, são feitos diversos experi-mentos e pesquisas para pré-processamento dos dados que serão utilizados no aprendizado. EmCNN’s cujos dados de entrada são imagens, podem ser utilizados métodos de processamentode imagens no pré-processamento dos dados que serão utilizados na rede neural [CMS12].

No trabalho publicado por Rambach et al. [RDPS18], foi utilizado processamento de ima-gens na etapa de pré-processamento dos dados de uma CNN projetada para detectar objetos em6DoF. Nesse trabalho, a motivação da aplicação do extrator de contornos, chamado de "efeito delápis", é a generalização da aparência dos objetos da imagem. Na etapa de pré-processamentoé feita a conversão da imagem de RGB com três canais para uma imagem em escala de cinzacom apenas um canal e em seguida é aplicado o "efeito de lápis"na imagem, que diminui arelevância da aparência do objeto durante o treinamento. Outros benefícios observados coma aplicação do filtro é a invariância dos resultados com mudanças na iluminação da cena e odestaque dos contornos dos objetos na imagem. Com a aplicação desta etapa, foram obtidasmelhorias na acurácia na estimação da pose dos objetos testados em relação a utilização dasimagens sem aplicação do pré-processamento.

Dentre as diferentes técnicas de processamento de imagem, os Padrões Binários Locais(LBP, do inglês Local Binary Patterns) [OPH94] apresentam forma robusta de classificaçãode textura. Depois de sua primeira publicação, a técnica passou por diversas melhorias, forampublicadas modificações do LBP e, atualmente, a técnica pode ser utilizada para detecção faciale segmentação não-supervisionada de textura [GXQ16, DLFZ18].

1.2 Objetivos

O objetivo deste trabalho é testar e avaliar técnicas de processamento de imagem aplicadas nopré-processamento das imagens utilizadas em técnicas de aprendizagem profunda para detec-ção em 6DoF de objetos pouco texturizados.

1.2.1 Objetivos específicos

1. Avaliar a técnica de pré-processamento proposto por [RDPS18] para detecção de objetosem imagens de um canal utilizando CNN;

2. Propor a utilização de outra técnica de processamento de imagem, para utilização nopré-processamento das imagens utilizadas na detecção de objetos em 6DoF por CNN;

3. Avaliar e comparar o processamento de imagem proposto com o processamento utilizadopor [RDPS18] em relação a precisão da detecção em 6DoF.

CAPÍTULO 2

Fundamentação Teórica

Neste capítulo são descritos os fundamentos teóricos utilizados como base para elaboração ecompreensão deste trabalho. Nas seções seguintes são abordados essencialmente três temas:estimativa de pose 6DoF, detecção de objetos em 6DoF e redes neurais convolucionais.

2.1 Estimativa de Pose em Seis Graus de Liberdade

A estimativa da pose de um objeto pode variar em graus de liberdade, que são os níveis deinformação com relação à localização de um objeto em cena. Em relação às coordenadasda imagem capturada, podemos recuperar a pose de objetos em dois, três ou seis graus deliberdade.

Na pose com dois graus de liberdade ou 2D, são recuperadas as coordenadas em relaçãoao eixo horizontal e ao eixo vertical da imagem alvo. Caso seja considerado o espaço da cena,para recuperar a posição do objeto no espaço 3D da imagem, é utilizada a pose com três grausde liberdade ou 3D, onde também é considerado o eixo de profundidade na recuperação dapose, em relação ao sistema 2D. Para recuperar a posição e orientação do objeto no espaço 3Dda imagem, é utilizada a pose 6D, normalmente chamada de pose em 6 graus de liberdade porse tratar de três graus de liberdade para a translação e três graus de liberdade para rotação emcada eixo (X, Y, Z), que combinadas resultam em 6 graus de liberdade.

Para realizar a projeção dos pontos do modelo 3D do objeto detectado com seis graus deliberdade é representada a pose 6DoF no formato de matriz de parâmetros extrínsecos e conhe-cer os parâmetros da câmera que registrou a imagem, representando-os na forma de matriz deparâmetros intrínsecos. Estas duas matrizes, combinadas, viabilizam a projeção de pontos domodelo 3D para o espaço de câmera.

Na Figura 2.1 é possível observar um objeto em coordenadas 3D virtuais, os eixos e origemda coordenada do mundo e os eixos e origem coordenadas de câmera. Na projeção de umobjeto 3D é utilizado a matriz de parâmetros extrínsecos e intrínsecos para projetar um objeto3D qualquer em um ambiente virtual e obter sua visualização 2D no plano de visualização dacâmera, viabilizando aplicações de realidade aumentada.

2.1.1 Parâmetros Extrínsecos

A matriz de parâmetros extrínsecos é formada pela matriz de rotação concatenada com o vetorde translação. A matriz de rotação pode ser definida em termos de rotações nos eixos x, y e zde acordo com as equações 2.1 e 2.2.

3

4 CAPÍTULO 2 FUNDAMENTAÇÃO TEÓRICA

Figura 2.1: Projeção dos pontos 3D para o plano da imagem 2D a partir da matriz de pose. NaFigura, é mostrado um objeto 3D em ambiente virtual, o eixo das coordenadas de mundo e decâmera (transformação entre coordenadas feita a partir da matriz de parâmetros extrínsecos) eplano de imagem da câmera em 2D (projeção feita a partir da matriz de parâmetros intrínsecos).

Fonte: [BGBM13]

R = Rx(α)Ry(β )Rz(γ) (2.1)

, onde Rx, Ry e Rz são definidos como:

Rx(θ) =

1 0 00 cosθ −sinθ

0 sinθ cosθ

;Ry(θ) =

cosθ 0 sinθ

0 1 0−sinθ 0 cosθ

;Rz(θ) =

cosθ −sinθ 0sinθ cosθ 0

0 0 1

(2.2)

O vetor de translação são as coordenadas transladadas nos eixos x, y e z, respectivamente.A concatenação resultante pode ser vista na matriz seguinte.

[R|t] =

r11 r12 r13r21 r22 r23r31 r32 r33

∣∣∣∣∣∣t1t2t3

(2.3)

2.2 DETECÇÃO E RASTREAMENTO DE OBJETOS 5

2.1.2 Parâmetros Intrínsecos

A configuração da câmera é armazenada em uma matriz chamada matriz de parâmetros intrín-secos K, constituída a partir da distância focal em milímetros dos eixos x e y da imagem, dalargura e altura do sensor em milímetros Sw e Sh, respectivamente, a altura e largura da imagemem pixels e o desvio do plano de projeção nos eixos δx e δγy. A matriz é construída da seguinteforma:

K =

fx s u0 00 fy v0 00 0 0 1

(2.4)

2.1.3 Matriz de Projeção

A partir da combinação de parâmetros extrínsecos e intrínsecos, é possível realizar a projeçãode pontos 3D de um objeto nos pontos 2D da imagem que foi capturada da cena em que esseobjeto é visto. É desta forma que as técnicas de estimativa de pose 6DoF através de detecçãoou rastreamento, que estimam parâmetros extrínsecos, são capazes de viabilizar aplicações derealidade aumentada ou robótica. A combinação das matrizes de parâmetros extrínsecos eintrínsecos para recuperação da pose 2D projetada do objeto pode ser vista na Equação 2.5.Na equação, u2D e v2D são as coordenadas do pixel na imagem 2D projetada, K é a matriz deparâmetros intrínsecos da equação 2.4, [R|t] é a matriz de parâmetros extrínsecos de 2.3, X é amatriz coluna da coordenada do ponto em coordenadas de mundo virtual.

x = K[R|t]X , X =

XmYmZm1

e x =

u2Dv2D1

(2.5)

2.2 Detecção e Rastreamento de Objetos

Detectar e rastrear objetos em imagens ou vídeos é um problema comum em realidade au-mentada, realidade virtual e robótica. O objetivo da detecção e do rastreamento é encontrar aposição de um ou mais objetos em uma imagem ou vídeo.

O rastreamento de objetos também possui como objetivo encontrar a posição dos objetosmas, diferente da detecção, busca recuperar o deslocamento do objeto em uma sequência deimagens ou vídeo. Para realizar o rastreamento é necessário conhecer a pose anterior do objetopara focar apenas no deslocamento do objeto no instante seguinte. O rastreamento utiliza ainformação da pose do objeto em um frame anterior para estimar a pose no frame atual comuma técnica geralmente menos complexa computacionalmente e mais robusta [TSS17]. Umdos problemas que ocorrem no rastreamento é o acúmulo de erro ao longo do tempo de estima-ção de pose, ocasionando em um movimento de deriva, do inglês drift, fazendo com que a poseestimada comece a se distanciar do objeto. Detectores sendo utilizados em cada frame procu-ram o objeto em toda a imagem, sem se beneficiar da informação de onde o objeto estava no


quadro anterior, sendo suscetíveis a falta de coerência espacial entre os quadros, ocasionandotremor, do inglês jitter, em torno do objeto [BCL+15].

Em sistemas de visão computacional robustos para realidade aumentada, são normalmenteutilizadas técnicas de detecção e rastreamento de forma combinada. A técnica de detecção éutilizada para obtenção da pose inicial e, em seguida, a técnica de rastreamento passa a serutilizada quadro a quadro. Quando a técnica de rastreamento acumula erros ou falha, a técnicade detecção é chamada novamente para re-inicialização do sistema.

A detecção pode ser realizada utilizando diferentes técnicas. A solução clássica para ob-jetos texturizados é feita através de descritores de características de imagem [L+99, BTVG06,LCS11]. Os descritores representam características invariantes do objeto alvo da detectção esão utilizados para viabilizar o casamento de características entre um modelo conhecido doobjeto e as informações extraídas das imagens quadro a quadro. A partir desse casamento, épossível realizar a estimativa da pose a partir de técnicas de reprojeção como PnP [FB81] eEPnP [LMNF09] por exemplo. Estes descritores são utilizados para detecção de objetos tex-turizados e, em geral, não são eficientes para detecção de objetos não texturizados ou poucotexturizados. Estes casos de objetos ainda são um desafio para a detecção. Com o avanço detécnicas de aprendizagem profunda nos últimos anos, estão surgindo diversas técnicas que ata-cam o problema de detecção de objetos não texturizados ou pouco texturizados. Muitas dessassoluções modernas utilizam aprendizagem profunda com redes neurais convolucionais (CNN,Convolutional Neural Network) [RF17].

Um desafio importante para a detecção de objetos é a abstração de sua aparência. Esseé um dos principais motivos da utilização de técnicas de aprendizagem supervisionada paradetecção de objetos [RF17]. No aprendizado supervisionado, é utilizado um conjunto de dadosde treinamento, estes dados formam pares de dados contendo sua informação e seu rótulo.No caso da detecção de objetos estes pares são um quadro da imagem e a informação a serrecuperada daquele quadro (sua pose representada a partir da matriz de parâmetros extrínsecos).

2.3 Redes Neurais Convolucionais

As redes neurais convolucionais (CNN’s) como a proposta por LeCun [LBB+98], representamalgumas das principais abordagens para aprendizagem profunda (do inglês Deep Learning).São redes inspiradas no córtex visual de animais [LBH15]. A rede de neurônios deve possuirdiversas camadas combinadas de variadas formas, em que cada camada possui altura, largura,profundidade e podem ser de três tipos diferentes: camada convolucional, camada de poolinge camada totalmente conectada. Através destas redes, a partir de uma entrada que é avaliada,camada após camada, é possível realizar a inferência de informações oriundas do conhecimentoaprendido durante o treinamento para novas entradas nunca antes processadas pela rede, atravésda capacidade de generalização do conhecimento [YCN+15]. Através deste tipo de rede, temsido possível avançar rapidamente em diversas áreas e aplicações [FHH+18, LPK+18].

2.3 REDES NEURAIS CONVOLUCIONAIS 7

2.3.1 Camada Convolucional

A camada convolucional é formada por um conjunto operações de convolução. A convoluçãoé feita percorrendo a camada de entrada com conjunto de matrizes de kernel, que possuemuma pequena quantidade de linhas e colunas. Os kernels percorrem toda a entrada, realizandooperações lineares em relação a toda profundidade do vetor de entrada, geralmente utilizandoo produto escalar entre matrizes, ou operações não-lineares.

O resultado é chamado mapa de ativação. A saída da camada convolucional é compostapor vários mapas de ativação, e sua quantidade é definida pelo número de kernels utilizado nacamada. O número de mapas de ativação compõe a profundidade da camada. A Figura 2.2mostra como é gerado o mapa de ativação em uma camada convolucional. É mostrado comofiltro mapeia um conjunto de pontos da matriz de entrada para um único nó da próxima camada.

Figura 2.2: Representação de Filtro para obtenção de camada convolucional e seus mapas deativação.

Fonte: Adaptado de Convolutional Neural Network. Brilliant.org. Acessado 19:43, Junho28, 2019, de https://brilliant.org/wiki/convolutional-neural-network/

2.3.2 Camada de Pooling

A camada de pooling é utilizada para reduzir as dimensões do mapa de ativação retornado pelacamada anterior, aplicando operações para extrair a média, valor mínimo ou valor máximo dejanelas da camada. A janela define como é dividida a região de pooling em sua aplicação narede. O intervalo entre as janelas na camada de pooling é chamado de stride.


A camada de pooling é utilizada geralmente após uma camada convolucional e a operaçãode valor máximo é a mais utilizada nas arquiteturas de redes profundas. Esse caso de poolingé chamado de max pooling e é representado pela Figura 2.3. Na representação é utilizado umajanela com duas colunas e duas linhas e stride dois.

Figura 2.3: Representação de Max Pooling com janela 2x2 e Stride 2.

Fonte: Adaptado de Convolutional Neural Network. Brilliant.org. Acessado 19:43, Junho28, 2019, de https://brilliant.org/wiki/convolutional-neural-network/

2.3.3 Camadas Totalmente Conectadas

As camadas totalmente conectadas (do inglês Fully Connected) são equivalentes a redes neuraissimples, inspiradas no comportamento de neurônios. Esta camada possui apenas uma dimen-são, que é quantidade de neurônios artificiais presentes na camada. Sua particularidade refere-se a que todos estes neurônios estão conectados a todos os neurônios da camada imediatamenteanterior de sua posição na rede.

CAPÍTULO 3

Trabalhos Relacionados

Para resolver o problema de detecção de objetos em 6DoF muitas arquiteturas foram propostas.Dentre elas podem-se citar [XSNF17] [RL17] [KMT+17] [TSF18]. A PoseCNN [XSNF17]recebe uma imagem de entrada e através de regressão, prediz os valores de rotação e translaçãodo objeto em cena em relação à câmera. A partir dos vetores de rotação e translação é feita atransformação para registro do objeto detectado em cena.

O método proposto em BB8 [RL17] é constituído por duas CNN’s. A primeira é respon-sável por encontrar os objetos na imagem e estimar a máscara de segmentação desses objetosenquanto a imagem resultante da segmentação é utilizada na segunda rede, que é responsávelpor estimar os oito pontos do bounding box do objeto para permitir a recuperação da pose.

A rede proposta em SSD-6D [KMT+17] é baseada na rede SSD [LAE+16] de detecção deobjetos em dois graus de liberdade. A rede foi adaptada para, após a detecção de objetos emdois graus de liberdade, utilizar um regressor para estimar a pose do objeto em seis graus deliberdade diretamente.

Outro trabalho proposto para detecção de objetos em 6DoF é o [TSF18], que propôs ummodelo baseado na arquitetura You Only Look Once (YOLO) v2 [RF17] adaptado para detectarobjetos em 6DoF. A rede YOLO está no estado da arte de detecção de objetos em dois graus deliberdade e é capaz de detectar múltiplos objetos em uma imagem à uma taxa de 155 quadrospor segundo.

Após a avaliação dos trabalhos de detecção, foi escolhida para ser utilizada, neste trabalho,a arquitetura de rede proposta por [TSF18] , uma vez que sua arquitetura realiza as predi-ções em tempo real e possui resultados melhores ou equivalentes em comparação com tra-balhos do estado-da-arte discutidos no artigo. Em seguida, foram selecionadas técnicas depré-processamento de imagens para auxiliar na robustez da técnica original.

Em um estudo publicado por Rambach em [RDPS18], demostrou-se a utilização de umatécnica de pré-processamento de imagem chamada de “efeito de lápis” para realizar a detecçãode objetos com abstração de textura. O "efeito de lápis"funciona como um detector de bordas,o algoritmo utiliza um filtro de dilatação com uma estrutura elíptica para calcular o máximolocal e dividir, para cada pixel, o valor da imagem original pelo valor da imagem dilatada. Oalgoritmo, pode ser visto no Algoritmo 1. A técnica também é robusta a variações de ilumi-nação, minimiza ruídos de captura e destaca as bordas dos objetos da imagem. O objetivo datécnica é melhorar os resultados da detecção através da ampliação de sua robustez. No trabalhode Rambach foi utilizada uma CNN com a arquitetura baseada em uma variação de rede Pose-Net [KGC15]. O pré-processamento de imagem transforma as imagens RGB de três canais emimagem de escala de cinza de um canal para viabilizar a aplicação do efeito de lápis. O trei-namento foi feito com a criação de dados sintéticos a partir do dataset LINEMOD [HLI+12]

9

10 CAPÍTULO 3 TRABALHOS RELACIONADOS

com aplicação de ruído na imagem gerada. No trabalho também foi testada uma nova funçãode avaliação dos resultados para ser utilizada durante o treinamento da rede. Com a nova pro-posição, a técnica desenvolvida atingiu resultados melhores que redes que utilizam imagensRGB de três canais as quais foram selecionadas para comparação na publicação. Os resultadosmotivaram a utilização da técnica em cenários reais mesmo com fundo poluído e viabilizouaplicações de assistência remota ao usuário com realidade aumentada [RPS+18].

Algoritmo 1 Efeito de Lápis1: função EFEITO DE LÁPIS(I)2: G← converter para escala de cinza(I)3: P← Dilatar(G,ELIPSE)4: para y← 0, G.linhas−1 faça5: para x← 0, G.colunas−1 faça6: se P(y,x) = 0 então7: P(y,x)← 2558: senão9: P(y,x)← int(G(y,x)∗255)/P(y,x)

10: fim se11: fim para12: fim para13: retorne P14: fim função

Outra técnica avaliada nesta pesquisa foi o LBP [OPH94], técnica que desde sua proposiçãotem sido utilizada como um poderoso recurso para classificação de texturas. A técnica tambémvem sendo bastante utilizada em detecção facial e segmentação não-supervisionada de textura[DLFZ18, GXQ16]. Em sua proposta inicial, o cálculo das características de texturas é feitopercorrendo uma imagem em escala de cinza com uma janela 3x3. Uma comparação é feitado pixel central da janela com os oito pixels vizinhos. Para cada pixel vizinho verifica-se seo valor do pixel central é maior ou igual ao valor do pixel vizinho em questão. Caso sejamaior, é atribuído o valor um naquela posição da janela e caso contrário é atribuído o valorzero. Em seguida são multiplicados os valores binários da janela pelos pesos dados aos pixelscorrespondentes. Finalmente, os valores dos oito pixels são somados para obter o númerodesta unidade de textura. Esse valor será o valor do pixel da imagem de saída com a posiçãocorrespondente à posição do pixel central da janela de imagem. A figura 3.1 ilustra o processode obtenção da unidade de textura utilizando o LBP.

Em [OPM02] o LBP foi generalizado e apresenta vizinhanças circulares, utilizando umnúmero arbitrários de pontos. Exemplos da utilização do LBP com vizinhança circular podemser vistos na Figura 3.2. Em casos onde o ponto não esteja exatamente no meio no pixel, éfeita uma interpolação bilinear para estimar o valor do ponto. Nos exemplos da Figura 3.2são utilizadas variações de tamanho e raio da vizinhança de pixels. Na realização dos testespreliminares explicados na Seção 5.1 foi utilizado o LBP generalizado descrito em [OPM02]com a utilização de oito pontos de vizinhança e raio igual a um (P=8, R=1.0), que também pode

CAPÍTULO 3 TRABALHOS RELACIONADOS 11

Figura 3.1: Calculo de uma janela da imagem utilizando o LBP simples proposto por [OPH94].

Fonte: Adaptado de [GOAFR+13]

ser visualizado na Figura 3.2.Na mesma publicação, foi proposto uma variação do LBP para calcular o contraste de tex-

tura dos pixels de uma imagem. O método também cria uma vizinhança de pontos como o LBPde vizinhança circular como é representado na Figura 3.2. Após o cálculo dos pontos é calcu-lado uma variância simples dos valores com a Equação 3.1. O valor do pixel central da janelaserá o valor resultante da equação. Dessa forma é obtido valores maiores para um contrastemaior entre a textura dos pixels vizinhos e menores para um menor contraste, resultando emuma extração de contornos de uma imagem.

VARP,R =1P

P

∑i=1

(gp−µ)2,onde µ =1P

P

∑i=1

gp (3.1)

12 CAPÍTULO 3 TRABALHOS RELACIONADOS

Figura 3.2: Representação de LBP com generalização e variação no tamanho da vizinhança depixels. No primeiro caso é representada uma vizinhança com quatro pixels e raio igual a umpixel. No segundo caso é representada uma vizinhança com oito pixels e raio igual a um pixel.No terceiro caso é representada uma vizinhança com doze pixels e raio igual a um pixel e meio.No quarto caso é representada uma vizinhança com dezesseis pixels e raio igual a dois pixels.No quinto e último caso é representada uma vizinhança com vinte e quatro pixels e raio igual atrês pixels.

Fonte: [OPM02]

CAPÍTULO 4

Pré-processamento de imagens para Detecção deObjetos com CNN

Através da avaliação dos trabalhos relacionados à área de pesquisa, foi definido como o ob-jetivo deste trabalho a detecção de objetos em imagens com apenas um canal. No trabalhorealizado por [RDPS18] foi feito o pré-processamento das imagens utilizando o “efeito delápis”. No trabalho realizado por [TSF18] não foi utilizado processamento de imagem parapossíveis melhorias de acurácia, como aplicação de filtros ou segmentação, abrindo caminhopara a avaliação realizada nessa pesquisa. Este trabalho busca, assim como o [RDPS18] ava-liar o desempenho da detecção de objetos em imagens com um canal. Para tal, foi utilizada arede proposta por [TSF18] com a aplicação do pré-processamento “efeito de lápis” propostopor [RDPS18]. Além disso, foi avaliada também a utilização de LBP [OPM02] como efeitoaplicado no pré-processamento da imagem de entrada da rede, visando aumentar a robustez datécnica composta.

4.1 CNN para detecção de objetos em 6DoF

A rede proposta por Tekin [TSF18] utiliza a mesma arquitetura da rede YOLO mostrada naFigura 4.1 adicionando profundidade na camada na saída da rede que viabiliza a estimaçãode um bounding box do objeto detectado. A saída da rede é a predição dos oito pontos, emcoordenadas 2D, e o centróide do bounding box referente a posição do objeto detectado, asprobabilidades de classificação do objeto para cada classe utilizada no treinamento e o valorde confiança de sua posição, conforme pode ser visto na Figura 4.2. Para obter a posição emfunção da rotação e translação do objeto em relação a câmera é necessário aplicar o algoritmoPnP (do inglês, Perspective-N-Points) utilizando os pontos do bounding box retornados pelarede, os parâmetros intrínsecos da câmera utilizada e os pontos 3D do modelo do objeto queestá sendo detectado. Para o treinamento, são utilizados apenas as coordenadas dos nove pontosda bounding box do objeto.

Para utilização da técnica de pré-processamento proposta em [RDPS18], cujo objetivo émelhorar os resultados da detecção através da ampliação de sua robustez, foi reaproveitadoapenas o filtro de lápis que foi integrado à arquitetura utilizada em [TSF18]. Durante o pré-processamento de imagem, a imagem é convertida de imagem RGB de três canais em imagemde escala de cinza de um canal. A imagem resultante da aplicação do "Efeito de Lápis", podeser observada na Figura 4.3

Para a utilização das variações de processamento de imagem a partir do LBP, foram utiliza-das nessa pesquisa o LBP [OPM02] e sua variação a partir do cálculo de variância (LBP VAR),

13

14 CAPÍTULO 4 PRÉ-PROCESSAMENTO DE IMAGENS PARA DETECÇÃO DE OBJETOS COM CNN

Figura 4.1: Arquitetura da CNN proposta por [RDGF16]. A Figura mostra a quantidade decamadas da rede, as dimensões de cada camada, qual o tipo de conexão e tamanho da janelaem cada camada.

Fonte: [RDGF16]

proposto na mesma publicação, recebendo o mesmo processo mencionado para utilização do"filtro de lápis"descrito anteriormente.

4.1.1 Dataset

O dataset utilizado durante o treinamento e teste do trabalho proposto é o LINEMOD [HLI+12]que também é utilizado nos trabalhos [TSF18] e [RDPS18] e tornará a comparação de resul-tados com o estado da arte fidedigna. Além disso o LINEMOD é um dos principais datasetsutilizados para detecção de objetos, possuindo diversos desafios como oclusão, fundo poluído,borramento e mudança de iluminação.

O LINEMOD é composto por treze objetos, onde cada objeto possui cerca de mil e duzentasimagens coloridas no formato JPEG com dimensão 640x480 e seu modelo 3D. Além disso, paracada imagem, são informados sua máscara binária para o objeto da imagem e os valores dosvetores de rotação e translação da localização em 6DoF do objeto.

Neste trabalho, o dataset foi dividido em três partes para cada objeto. 50% das imagensforam utilizadas para treino, 25% das imagens foram utilizadas para validação e 25% foramutilizadas para testes.

4.1.2 Treinamento

O treinamento é feito utilizando o conjunto de imagens de treino do objeto escolhido presenteno LINEMOD. Durante o treinamento, as imagens de treino passaram por um processo de

4.1 CNN PARA DETECÇÃO DE OBJETOS EM 6DOF 15

Figura 4.2: Adaptação da arquitetura YOLO para detecção de objetos 6DoF proposta por[TSF18]. Em (a) temos a arquitetura com a última camada adicionada e em (b), (c), (d), (e),é possível observar a aplicação da rede para um exemplo de cena/conjunto de objetos. Maisespecificamente: em (b) temos a imagem dos objetos; em (c) temos os grids utilizados paragerar as estimativas da bounding box de cada objeto; em (d) temos as estimativas para cadabounding box dos objetos e em (e) temos os vetores de resposta da rede para cada objeto com2 coordenadas para cada um dos 9 pontos (8 do bounding box + 1 do centróide), um valor deprobabilidade para cada uma das C classes e um valor de confiança.

Fonte: [TSF18]

aumento sintético de dados (do inglês data augmentation), conforme utilizado por [TSF18].Durante o aumento sintético de dados são criadas cem novas imagens para cada imagem doobjeto que está sendo treinado. Na imagem é feita a segmentação do objeto a partir de suamáscara binária também disponível no dataset. Ao objeto segmentado é adicionado a um fundoaleatório oriundo do dataset VOC2012 [EVGW+10] além da rotação e translação do objeto naimagem, para evitar o enviesamento dos dados (overfitting) e aumentar o número de imagensdisponíveis para treinamento. Após o objeto ser inserido na imagem é aplicado o filtro do pré-processamento de imagem selecionado e, na aplicação do filtro, também é feita a conversão daimagem de RGB de três canais para uma imagem em escala de cinza de um canal. O processodescrito está representado na Figura 4.4.

O treinamento é feito com em um total de 1.000 épocas para cada objeto e para cada técnicade processamento. Em aprendizagem de máquina são normalmente utilizadas técnicas como o


Figura 4.3: Aplicação de "Efeito de Lápis"em imagens do dataset LINEMOD.

Fonte: Adaptado de [RDPS18]

Early Stopping [Pre98]. Essa técnica pára o treinamento quando a divergência entre os resul-tados obtidos com o conjunto de teste e de validação começam a aumentar continuamente paraevitar o overfitting. Mas como os máximos encontrados durante o nosso treinamento demorammuitas épocas e variam bastante, foi mantido um número alto de épocas fixo para cada caso detreino, não se aproveitando da técnica em questão.

A cada cinco épocas é feita a validação do treinamento utilizando todas as imagens do con-junto de validação. As imagens do conjunto de validação não sofrem alteração de background.É apenas aplicado o filtro do pré-processamento de imagem para que a rede não seja enviesadapara o conjunto de treinamento, que possui um domínio randômico e artificial, ou seja, evi-tando o direcionado para acertar em um conjunto real de dados específico. Após o final de cadaetapa de validação, caso seja encontrada a melhor avaliação da rede até o momento, os pesosda rede são salvos e ao final do treinamento são os pesos que serão utilizados para testar a redee realizar a detecção a cada quadro da cena. Cada processo de treinamento leva em torno deoito horas para ser concluído, dificultando o processo de testes e validação da implementação.

4.2 Métricas de Avaliação

No presente trabalho foram utilizados duas métricas de avaliação da estimação da pose em6DoF. Estas métricas também são utilizadas nos trabalhos relacionados e avaliam a predição dapose dos objetos de diferentes formas relevantes à diversas áreas como realidade aumentada ouvisualização de informação. As métricas utilizadas serão, a Reprojeção [BMK+16] e a Pose domodelo 3D do objeto [BMK+16].

4.2 MÉTRICAS DE AVALIAÇÃO 17

(a) (b)

(c) (d)

Figura 4.4: Descrição do aumento de dados durante o treinamento da rede. (a) Figura do da-taset LINEMOD. (b) Imagem com o objeto "ape"segmentado utilizando a máscara da imagemdisponível no LINEMOD. (c) Objeto "ape"segmentado inserido uma uma imagem aleatória dodataset VOC2012 com aplicação de rotação e translação aleatório. (d) Aplicação do filtro LBPVAR na imagem (c).

Fonte: Elaborado pelo autor, 2019


4.2.1 Reprojeção 2D

A métrica de Reprojeção 2D é definida como a média de acertos de pontos do objeto reprojeta-dos corretamente na imagem 2D, dentre as imagens do conjunto de teste. É calculado a médiade acertos, com a Equação 4.1, sendo n o número de imagens de teste. E o acerto de reprojeçãocalculado utilizando a Equação 4.2, considerando o acerto quando a distância de projeção formaior que cinco pixels [BMK+16].

R2D =1n

n

∑i=1

∆2D(xigt ,xipr) (4.1)

∆2D(x1,x2) =

{1, se‖x1− x2‖ ≤ 5pixels0, se‖x1− x2‖> 5pixels

(4.2)

4.2.2 Pose 6D

A métrica Pose 6D é definida como a média de acertos de pontos do objeto projetados cor-retamente no ambiente virtual considerando sua posição e orientação, dentre as imagens doconjunto de teste. O acerto da projeção é calculado utilizando os pontos do modelo 3D doobjeto, sua matriz de parâmetros extrínsecos verdadeira, como definido na Seção 2.1.1 e suamatriz de parâmetros extrínsecos estimada. Para cada ponto do modelo 3D transformado uti-lizando as matrizes de parâmetro extrínsecos, é calculado o erro de pose a partir da distânciado ponto transformado utilizando o parâmetro correto com o ponto transformado utilizando oparâmetro estimado. É calculado o erro de pose utilizando a Equação 4.3, onde n é o númerototal de pontos no modelo 3D do objeto. O acerto da Pose 6D é considerado se m for menor ouigual que 10% do diâmetro do objeto [BMK+16].

m =1n

n

∑i=1

∥∥(rgtxi + tgt)− (rprxi + tpr)∥∥ (4.3)

CAPÍTULO 5

Resultados

Neste capítulo são apresentados os resultados obtidos a partir dos testes realizados. Todosos resultados foram obtidos utilizando um computador com o processador Intel® Xeon® E5-2609, 16.0 GB de memória RAM e a placa gráfica Nvidia Geforce RTX 2080 Ti com 12.0 GBde memória dedicada. Foi utilizado sistema operacional Windows 10 versão de 64-bit e CUDAversão 10.0. Para o desenvolvimento foi utilizado Python versão 3.7, OpenCV versão 3.4 ePyTorch versão 1.1.0.

Os resultados foram divididos em Resultados Preliminares e Resultados Gerais. Devidoao grande custo de tempo e poder computacional em aplicações de aprendizagem profunda,realizar testes preliminares viabiliza selecionar para uma análise profunda apenas as técnicasque obtiveram resultados com maior potencial nos Resultados Preliminares.

Ao final do capítulo é analisado e discutido os resultados relatados nas seções ResultadosPreliminares e Resultados Gerais.

5.1 Resultados Preliminares

Nestes testes foram avaliadas as técnicas de pré-processamento “efeito de lápis”, LBP e LBPVAR, todas aplicadas à rede CNN de detecção de objetos proposta por [TSF18]. Para avalia-ção, foram utilizadas as métricas Reprojeção 2D e Pose 6D, descritas na Seção 4.4. Os testespreliminares foram feitos na aplicação de apenas um objeto do dataset LINEMOD, descrito naSeção 4.2, e seu resultado é composto pelo treinamento com 75% dos dados disponíveis e oteste com os outros 25% Ape. Os resultados obtidos podem ser vistos na Tabela 5.1.

Métrica LBP LBP VAR Efeito de Lápis

Pose 6D 10,97 13,92 11,65Reprojeção 2D 60,52 79,29 77,02

Tabela 5.1: Resultados - Teste Preliminar

Devido a menor acurácia obtida do LBP, em relação às outras técnicas de processamentoavaliadas, o LBP não foi explorado nos Testes Gerais.

19

20 CAPÍTULO 5 RESULTADOS

5.2 Resultados Gerais

Nos testes gerais, os primeiros resultados obtidos foram a partir da execução do filtro “efeitode lápis” proposto por Brachman et al. [RDPS18] no pré-processamento da imagem aplicadaà CNN adotada como base, que foi proposta em Tekin et al. [TSF18]. Os testes foram feitos apartir da execução da CNN no conjunto de teste do dataset LINEMOD que, para cada objeto,foi particionado 25% do dataset para realização de testes e 75% para o treinamento.

A métrica adotada para essa comparação foi a Pose 6D, que é a média da diferença deprojeção de todos os pontos do modelo, transformados utilizando os valores reais de rotação etranslação, com os pontos do modelo transformados utilizando os valores de rotação e transla-ção estimados. O modelo é considerado corretamente detectado se a média for menor que 10%do valor do diâmetro do objeto, assim como mencionado na Seção 4.4.

É feita uma comparação dos resultados obtidos no teste realizado com os valores relatadosna publicação [RDPS18]. Foi comparado o resultado da detecção utilizando a mesma técnicade processamento de imagem, seguindo os mesmos passos de treinamento.

As arquiteturas das CNN’s testadas são diferentes. Enquanto nos resultados obtidos por[RDPS18], a arquitetura utilizada é baseada na Posenet [KGC15], que prediz os vetores derotação e translação diretamente, a arquitetura proposta por [TSF18] prediz os pontos do boun-ding box do objeto e estima os vetores de rotação e translação na sequência. Foi utilizada amétrica de avaliação Pose 6D, explicado na Seção 4.4. Os resultados da comparação podemser vistos na Figura 5.1.

Figura 5.1: Comparação entre os resultados do "Efeito de Lápis"de [RDPS18] e "Efeito deLápis"com arquitetura baseada em [TSF18].


5.3 DISCUSSÃO 21

Também foram feitos testes utilizando o LBP com contraste de textura através da variânciados pixels (LBP VAR) como técnica de pré-processamento de imagem. Os resultados obtidosforam comparados com o resultados do “efeito de lápis” também utilizado como técnica de pré-processamento. Nos testes de cada técnica foi utilizada a mesma CNN com as mesmas etapasde treinamento. A comparação das técnicas foi feita utilizando as métricas de Reprojeção 2D ePose 6D. O resultado obtido pode ser vistas na Figura 5.2.

Realizando uma comparação direta do resultado obtido da aplicação do "Efeito de lá-pis"com os resultados relatados por [TSF18] em sua publicação, pode-se observar os resultadosmostrados na Figura 5.3. As métricas de avaliação utilizadas foram as mesmas para os testesanteriores.

5.3 Discussão

Analisando os resultados preliminares, a aplicação de LBP não tornou eficaz a estimação depose em 6DoF de imagens de um canal a partir da utilização de CNN. O LBP foi proposto paradestacar a textura de objetos e não foi eficaz em detectar objetos pouco texturizados em umambiente com oclusão e variação de iluminação. Enquanto o LBP tem como sua característicaclassificar as texturas da imagem, as técnicas de pré-processamento do LBP VAR e “efeito delápis” possuem dentre suas características evidenciar os contornos do objeto, possibilitandoassim a obtenção de melhores resultados.

Nos resultados gerais foi possível observar uma grande diferença entre as mesmas técnicasde pré-processamento, a partir da modificação da rede utilizada. Era esperada e foi verificadauma melhoria devido ao que foi provado por [KMT+17] [RL17] e adotado por [TSF18] em suametodologia para três canais. Estimar a pose de objetos em 6DoF com CNN é feito de formamais eficiente predizendo os pontos do objeto em cena e em seguida realizar a transformaçãodos pontos para valores de coordenadas de rotação e translação em vez de predizer as coorde-nadas de rotação e translação diretamente como é feito em [XSNF17] e [KGC15]. Analisandoos resultados é possível comprovar que esta afirmação também é válida para imagens em escalade cinza com um canal. Comparando as duas redes que possuem o mesmo objetivo, utilizamas mesmas técnicas de pré-processamento e treinamento, deixa evidente que estimar a pose apartir do bounding box é mais eficiente.

Analisando a comparação das técnicas utilizadas no pré-processamento da rede, mostradosna Figura 5.2, é possível notar que as duas técnicas obtiveram resultados semelhantes. Anali-sando os resultados obtidos com a métrica Pose 6D, o resultado mostra que para os treze objetosdo dataset, o "efeito de lápis"foi melhor que o LBP VAR em sete. Porém, para nesses casos, adistância entre as taxas de acerto são maiores que nos casos onde o LBP VAR foi melhor queo "efeito de lápis". Analisando a métrica de Reprojeção 2D torna mais evidente os resultadosobtidos pelo "Efeito de lápis"foram melhores que o LBP VAR. Apesar do LBP VAR destacar oscontornos do objeto de forma mais evidente que o “efeito de lápis”, o LBP VAR possui falhasao destacar contornos em regiões que possuem texturas semelhantes. Outro problema do filtroé sua sensibilidade a variação de iluminação e reflexão, diferentemente do “efeito de lápis” quepossui como objetivo lidar com tais problemas. Com os resultados e análise, é possível concluirque o “efeito de lápis” é melhor em segmentar diferentes objetos em imagens para detecção de


objetos em 6DoF.Mesmo com a melhoria obtida com a alteração da arquitetura da CNN utilizada, é possível

concluir da comparação dos resultados mostrados na Figura 5.3 que apesar do “efeito de lápis”garantir uma melhor invariância a mudanças de iluminação, treinar a CNN para detecção deobjetos pouco texturizados e destacar as bordas de objetos que é uma característica relevantepara a detecção, não foi possível obter resultados melhores que a mesma rede utilizando ima-gens RGB de três canais no dataset utilizado. Os resultados para a rede utilizada por [TSF18]foram diferentes comparando a rede utilizada por [RDPS18] em sua avaliação. As diferentesarquiteturas de redes mostram um comportamento significativamente diferente para um mesmoobjetivo, detectar objetos em 6DoF. Ainda não foi realizado a análise do aprendizado nas ca-madas da rede utilizada por [TSF18]. Existe a possibilidade de que existam camadas que járealizam a segmentação de contornos e abstrações de mudanças de iluminação, o que tornariaos benefícios de aplicação das técnicas de pré-processamento proposta nesse trabalho míni-mos. Pesquisas que buscam analisar o aprendizado adquirido por redes profundas possuemrelevância para problemas como este.

5.3 DISCUSSÃO 23

(a)

(b)

Figura 5.2: Comparação entre os métodos de processamento de imagem: LBP VAR e "Efeitode Lápis". (a) Comparação utilizando a métrica Reprojeção 2D entre os filtros LBP VAR e"Efeito de Lápis"para os objetos do LINEMOD. (b) Comparação utilizando a métrica Pose 6Dentre os filtros LBP VAR e "Efeito de Lápis"para os objetos do LINEMOD.



(a)

(b)

Figura 5.3: Comparação entre o melhor resultado obtido com a técnica original descritaem [TSF18]. (a) Comparação utilizando a métrica Reprojeção 2D com e sem utilizar pré-processamento de imagem para os objetos do LINEMOD. (b) Comparação utilizando a métricaPose 6D com e sem utilizar pré-processamento de imagem para os objetos do LINEMOD.


CAPÍTULO 6

Contribuições e Trabalhos Futuros

Neste capítulo são relatadas as contribuições deste trabalho e são discutidos possíveis desdo-bramentos que podem ser realizados a partir do que foi apresentado.

6.1 Contribuições

Nesta pesquisa foi possível comparar variações da técnica proposta por Tekin et al. [TSF18]através da utilização de imagens com apenas um canal aplicando filtros de processamento deimagens "efeito de lápis"[RDPS18] e LBP [OPM02].

Foi possível verificar, conforme indicado por Tekin et al. [TSF18], uma maior precisão nautilização da arquitetura de rede para predizer os pontos e em seguida computar a pose em vezde computar diretamente a pose em 6DoF, mesmo para imagens de um canal. Além disso, foipossível observar melhores resultados no uso do "efeito de lápis"do que no uso do LBP.

A utilização do LBP ainda pode superar o “efeito de lápis” e melhorar a detecção de objetosem 6DoF no futuro. O LBP continua sendo uma técnica robusta, bastante utilizada e forampublicadas diversas variações após sua publicação original. Testar outras variações de LBPpode tornar o cálculo da variância mais robusto aos problemas encontrados em sua utilizaçãoneste trabalho. Combinar o LBP VAR com o LBP uniforme e invariante a rotação produziráresultados melhores como foi relatado em [OPM02]. A utilização de LBP com Decomposiçãoem Valores Singulares (SVD) que tornou o LBP robusto à variações de iluminação [GXQ16]também pode ser utilizado na busca de melhores resultados. Ainda existem outras variaçõesde LBP e possíveis combinações entre suas variações que podem produzir resultados melhorespara o problema específico de detectar objetos pouco texturizados em 6DoF ou talvez até suacombinação com o filtro "efeito de lápis".

6.2 Trabalhos Futuros

Em trabalhos futuros é válido avaliar o nível de abstração de texturas obtido pela CNN com aaplicação do processamento de imagem pesquisados neste trabalho. A utilização de um datasetque possua objetos da mesma classe mas com texturas diferentes e a utilização de uma métricaque avalie o grau de abstração viabiliza essa avaliação.

Também é válido avaliar o resultado obtido a partir da combinação dos canais de imagem.É possível mesclar a imagem obtida dos filtros (LBP VAR ou "Efeito de Lápis") com imagensRGB de três canais, criando imagens de quatro canais. Dessa forma é obtido imagens commais informações que poderão ser utilizadas na CNN para melhorar o resultado. O mesmo

25

26 CAPÍTULO 6 CONTRIBUIÇÕES E TRABALHOS FUTUROS

processo pode ser realizado para mesclar imagens de dois canais utilizando o LBP VAR e o"Efeito de Lápis"em conjunto, podendo obter resultados melhores que a utilização dos filtrosseparadamente.

Referências Bibliográficas

[BCL+15] Billinghurst, Mark, Adrian Clark, Gun Lee et al.: A survey of augmentedreality. Foundations and Trends® in Human–Computer Interaction, 8(2-3):73–272, 2015.

[BGBM13] Bianco, Gianfranco, Alessandro Gallo, Fabio Bruno e Maurizio Muz-zupappa: A comparative analysis between active and passive techni-ques for underwater 3D reconstruction of close-range objects. Sensors,13(8):11007–11031, 2013.

[BMK+16] Brachmann, Eric, Frank Michel, Alexander Krull, Michael Ying Yang, Ste-fan Gumhold et al.: Uncertainty-driven 6d pose estimation of objects andscenes from a single rgb image. Em Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, páginas 3364–3372, 2016.

[BTVG06] Bay, Herbert, Tinne Tuytelaars e Luc Van Gool: Surf: Speeded up robustfeatures. Em European conference on computer vision, páginas 404–417.Springer, 2006.

[CLSF10] Calonder, Michael, Vincent Lepetit, Christoph Strecha e Pascal Fua: Brief:Binary robust independent elementary features. Em European conferenceon computer vision, páginas 778–792. Springer, 2010.

[CMS12] Ciresan, Dan, Ueli Meier e Jürgen Schmidhuber: Multi-column deep neuralnetworks for image classification. arXiv preprint arXiv:1202.2745, 2012.

[DLFZ18] Duan, Yueqi, Jiwen Lu, Jianjiang Feng e Jie Zhou: Context-aware localbinary feature learning for face recognition. IEEE transactions on patternanalysis and machine intelligence, 40(5):1139–1153, 2018.

[EVGW+10] Everingham, M., L. Van Gool, C. K. I. Williams, J. Winn e A. Zisserman:The Pascal Visual Object Classes (VOC) Challenge. International Journalof Computer Vision, 88(2):303–338, junho 2010.

[FB81] Fischler, Martin A e Robert C Bolles: Random sample consensus: a para-digm for model fitting with applications to image analysis and automatedcartography. Communications of the ACM, 24(6):381–395, 1981.

27

28 REFERÊNCIAS BIBLIOGRÁFICAS

[FHH+18] Faust, Oliver, Yuki Hagiwara, Tan Jen Hong, Oh Shu Lih e U RajendraAcharya: Deep learning for healthcare applications based on physiologicalsignals: A review. Computer methods and programs in biomedicine, 161:1–13, 2018.

[FLFCBNVM18] Fraga-Lamas, Paula, Tiago M Fernández-Caramés, Óscar Blanco-Novoa eMiguel A Vilar-Montesinos: A review on industrial augmented reality sys-tems for the industry 4.0 shipyard. IEEE Access, 6:13358–13375, 2018.

[GL17] Garon, Mathieu e Jean François Lalonde: Deep 6-DOF tracking. IEEE tran-sactions on visualization and computer graphics, 23(11):2410–2418, 2017.

[GOAFR+13] García-Olalla, Oscar, Enrique Alegre, Laura Fernández-Robles, María Te-resa García-Ordás e Diego García-Ordás: Adaptive local binary pattern withoriented standard deviation (ALBPS) for texture classification. EURASIPJournal on Image and Video Processing, 2013(1):31, 2013.

[GXQ16] Guo, Lili, Dan Xu e Zhenping Qiang: Background subtraction using localsvd binary pattern. Em Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition Workshops, páginas 86–94, 2016.

[HBK+16] Hernandez, Carlos, Mukunda Bharatheesha, Wilson Ko, Hans Gaiser, JethroTan, Kanter van Deurzen, Maarten de Vries, Bas Van Mil, Jeff van Egmond,Ruben Burger et al.: Team delft’s robot winner of the amazon picking chal-lenge 2016. Em Robot World Cup, páginas 613–624. Springer, 2016.

[HLI+12] Hinterstoisser, Stefan, Vincent Lepetit, Slobodan Ilic, Stefan Holzer, GaryBradski, Kurt Konolige e Nassir Navab: Model based training, detectionand pose estimation of texture-less 3d objects in heavily cluttered scenes.Em Asian conference on computer vision, páginas 548–562. Springer, 2012.

[HLX15] Huang, Jianglin, Yan Fu Li e Min Xie: An empirical analysis of data prepro-cessing for machine learning-based software cost estimation. Informationand software Technology, 67:108–127, 2015.

[KGC15] Kendall, Alex, Matthew Grimes e Roberto Cipolla: Posenet: A convolutio-nal network for real-time 6-dof camera relocalization. Em Proceedings ofthe IEEE international conference on computer vision, páginas 2938–2946,2015.

[KMT+17] Kehl, Wadim, Fabian Manhardt, Federico Tombari, Slobodan Ilic e NassirNavab: SSD-6D: Making RGB-based 3D detection and 6D pose estimationgreat again. Em Proceedings of the IEEE International Conference on Com-puter Vision, páginas 1521–1529, 2017.

[L+99] Lowe, David G et al.: Object recognition from local scale-invariant features.Em iccv, volume 99, páginas 1150–1157, 1999.

REFERÊNCIAS BIBLIOGRÁFICAS 29

[LAE+16] Liu, Wei, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, ScottReed, Cheng Yang Fu e Alexander C Berg: Ssd: Single shot multibox detec-tor. Em European conference on computer vision, páginas 21–37. Springer,2016.

[LBB+98] LeCun, Yann, Léon Bottou, Yoshua Bengio, Patrick Haffner et al.:Gradient-based learning applied to document recognition. Proceedings ofthe IEEE, 86(11):2278–2324, 1998.

[LBH15] LeCun, Yann, Yoshua Bengio e Geoffrey Hinton: Deep learning. nature,521(7553):436, 2015.

[LCS11] Leutenegger, Stefan, Margarita Chli e Roland Siegwart: BRISK: Binary ro-bust invariant scalable keypoints. Em 2011 IEEE international conferenceon computer vision (ICCV), páginas 2548–2555. Ieee, 2011.

[LMNF09] Lepetit, Vincent, Francesc Moreno-Noguer e Pascal Fua: Epnp: An accurateo (n) solution to the pnp problem. International journal of computer vision,81(2):155, 2009.

[LPK+18] Levine, Sergey, Peter Pastor, Alex Krizhevsky, Julian Ibarz e Deirdre Quil-len: Learning hand-eye coordination for robotic grasping with deep lear-ning and large-scale data collection. The International Journal of RoboticsResearch, 37(4-5):421–436, 2018.

[MA16] Moreno, Ciendua e Leonardo Alberto: Robot asistente para personas conproblemas de movilidad. 2016.

[OPH94] Ojala, Timo, Matti Pietikainen e David Harwood: Performance evaluationof texture measures with classification based on Kullback discrimination ofdistributions. Em Proceedings of 12th International Conference on PatternRecognition, volume 1, páginas 582–585. IEEE, 1994.

[OPM02] Ojala, Timo, Matti Pietikäinen e Topi Mäenpää: Multiresolution gray-scaleand rotation invariant texture classification with local binary patterns. IEEETransactions on Pattern Analysis & Machine Intelligence, (7):971–987,2002.

[Pre98] Prechelt, Lutz: Automatic early stopping using cross validation: quantifyingthe criteria. Neural Networks, 11(4):761–767, 1998.

[RDGF16] Redmon, Joseph, Santosh Divvala, Ross Girshick e Ali Farhadi: You onlylook once: Unified, real-time object detection. Em Proceedings of the IEEEconference on computer vision and pattern recognition, páginas 779–788,2016.

30 REFERÊNCIAS BIBLIOGRÁFICAS

[RDPS18] Rambach, Jason, Chengbiao Deng, Alain Pagani e Didier Stricker: Lear-ning 6DoF Object Poses from Synthetic Single Channel Images. Em 2018IEEE International Symposium on Mixed and Augmented Reality Adjunct(ISMAR-Adjunct), páginas 164–169. IEEE, 2018.

[RF17] Redmon, Joseph e Ali Farhadi: YOLO9000: better, faster, stronger. EmProceedings of the IEEE conference on computer vision and pattern recog-nition, páginas 7263–7271, 2017.

[RL17] Rad, Mahdi e Vincent Lepetit: BB8: a scalable, accurate, robust to par-tial occlusion method for predicting the 3D poses of challenging objectswithout using depth. Em Proceedings of the IEEE International Conferenceon Computer Vision, páginas 3828–3836, 2017.

[RPS+18] Rambach, Jason, Alain Pagani, Michael Schneider, Oleksandr Artemenkoe Didier Stricker: 6dof object tracking based on 3d scans for augmentedreality remote live support. Computers, 7(1):6, 2018.

[TSF18] Tekin, Bugra, Sudipta N Sinha e Pascal Fua: Real-time seamless single shot6d object pose prediction. Em Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition, páginas 292–301, 2018.

[TSS17] Tjaden, Henning, Ulrich Schwanecke e Elmar Schomer: Real-time mono-cular pose estimation of 3D objects using temporally consistent local colorhistograms. Em Proceedings of the IEEE International Conference on Com-puter Vision, páginas 124–132, 2017.

[XSNF17] Xiang, Yu, Tanner Schmidt, Venkatraman Narayanan e Dieter Fox: Posecnn:A convolutional neural network for 6d object pose estimation in clutteredscenes. arXiv preprint arXiv:1711.00199, 2017.

[YCN+15] Yosinski, Jason, Jeff Clune, Anh Nguyen, Thomas Fuchs e Hod Lipson:Understanding neural networks through deep visualization. arXiv preprintarXiv:1506.06579, 2015.

[YTFLF16] Yi, Kwang Moo, Eduard Trulls Fortuny, Vincent Lepetit e Pascal Fua:LIFT: Learned Invariant Feature Transform. Computer Vision - Eccv 2016,Pt Vi, 9910:17. 467–483, 2016. http://infoscience.epfl.ch/record/221642.

análise compreensiva de técnicas de processamento de ...tg/2019-1/tg_ec/tg_heitor.pdf · 4.1.2...

Documents