universidade do estado de santa catarina udesc …tede.udesc.br/bitstream/tede/1761/1/guilherme...

Título N

ome do A

utor

Neste trabalho são comparadas as técnicas de reconhecimento utilizando palavras visuais por

meio de descritores artificiais Bag of Visual Words ou Bag of Features (BOVW), reconhecimento

utilizando redes neurais convolucionais (CNN) e reconhecimento usando descritores naturais

obtidos através de uma rede neural convolucional previamente treinada em uma base distinta. As

técnicas são aplicadas no problema de reconhecimento de produtos a partir da análise de

imagens.

Orientador: Alexandre Gonçalves Silva

Coorientador: André Tavares da Silva

Joinville, 2014

DISSERTAÇÃO DE MESTRADO

RECONHECIMENTO DE PRODUTOS POR IMAGEM UTILIZANDO PALAVRAS VISUAIS E REDES NEURAIS CONVOLUCIONAIS

ANO 2015

GUILHERM

E DEFREITAS JURASZEK |RECO

NHECIM

ENTO

DE PRODU

TOS PO

R IM

AGEM U

TILIZANDO

PALAVRAS VISUAIS E REDES N

EURAIS CO

NVO

LUCIO

NAIS

UNIVERSIDADE DO ESTADO DE SANTA CATARINA – UDESC CENTRO DE CIÊNCIAS TECNOLÓGICAS – CCT CURSO DE MESTRADO EM COMPUTAÇÃO APLICADA

GUILHERME DEFREITAS JURASZEK

JOINVILLE, 2014


RECONHECIMENTO DE PRODUTOS POR IMAGEMUTILIZANDO PALAVRAS VISUAIS E REDES

NEURAIS CONVOLUCIONAIS

Dissertação apresentada ao Pro-grama de Pós-Graduação em Com-putação Aplicada da Universidadedo Estado de Santa Catarina, comorequisito parcial para obtenção dograu de Mestre em ComputaçãoAplicada.

Orientador: Alexandre GonçalvesSilvaCoorientador: André Tavares daSilva

JOINVILLE, SC2014

J95r Juraszek, Guilherme Defreitas Reconhecimento de produtos por imagem utilizando palavras visuais e redes neurais convolucionais / Guilherme Defreitas Juraszek. – 2014. 151 p. : il. ; 21 cm Orientador: Alexandre Gonçalves Silva Coorientador: André Tavares da Silva Bibliografia: 113-117 p. Dissertação (mestrado) – Universidade do Estado de Santa Catarina, Centro de Ciências Tecnológicas, Programa de Pós-Graduação em Computação Aplicada, Joinville, 2014.

1. Aprendizado de máquina. 2. Máquina de vetor de suporte 3. Redes neurais convolucionais. 4. Visão computacional. I. Silva, Alexandre Gonçalves. II. Silva, André Tavares da. III. Universidade do Estado de Santa Catarina. Programa de Pós-Graduação em Computação Aplicada. IV. Título. CDD: 006.6 - 23. ed.

Este trabalho é dedicado a todas as pessoas de mente inquieta ecuriosa.

Agradecimentos

Ao Professor Dr. Alexandre Gonçalves Silva pela orientação etodas as contribuições ao trabalho. Ao Professor Dr. André Tavares daSilva pela coorientação e auxílios prestados durante o desenvolvimento.

À CAPES, pelo auxílio financeiro durante a realização do tra-balho.

À UDESC-PPGCA, pelas oportunidades que o programa trazao mestrando na aquisição e geração de conhecimento.

Aos professores e colegas do PPGCA-UDESC, pelos auxíliosprestados e amizade durante esses anos de convivência no campus.

RESUMOJURASZEK, Guilherme Defreitas. Reconhecimento de produtospor imagem utilizando palavras visuais e redes neurais convo-lucionais. 2014. 151 p. Dissertação (Mestrado em Computação Apli-cada - Área: Processamento Gráfico (Graphics)). Universidade do Es-tado de Santa Catarina. Programa de Pós-Graduação em ComputaçãoAplicada. Joinville, 2014.

A popularização de equipamentos como câmeras e celulares equipadoscom câmeras resultou em um grande volume de informações no for-mato de imagens e vídeos disponibilizadas na internet. O crescimentono volume de informação digital disponível nestes formatos demanda acriação de novas soluções de buscas baseadas não apenas em texto, mascapazes de extraírem informações relevantes diretamente desses forma-tos de mídia. Neste trabalho são comparadas as técnicas de reconhe-cimento utilizando palavras visuais por meio de descritores artificiaisBag of Visual Words ou Bag of Features (BOVW), reconhecimento uti-lizando redes neurais convolucionais (CNN) e reconhecimento usandodescritores naturais obtidos através de uma rede neural convolucionalpreviamente treinada em uma base distinta. As técnicas são aplica-das no problema de reconhecimento de produtos a partir da análise deimagens. Tais técnicas podem ser aplicadas em uma ampla gama desistemas como reconhecimento de produtos utilizando dispositivos mó-veis, obtenção de informações de produtos visualizados utilizando umóculos de realidade aumentada, reconhecimento de produtos em vídeos,entre outros. A técnica BOVW é demonstrada com base nos descrito-res artificiais SIFT, SURF e MSER com extração de característicasdensa e por meio de pontos de interesse. São estudados os algoritmosKMeans e Floresta de Caminhos Ótimos não Supervisionada (OPF-U) na etapa de agrupamento e Máquinas de Vetor de Suporte (SVM)e Floresta de Caminhos Ótimos Supervisionada (OPF-S) na etapa declassificação. A segunda técnica utiliza uma rede neural convolucional(CNN) de três camadas. Na terceira técnica é utilizada uma CNN, pre-viamente treinada na base de imagens ImageNet, de cinco camadasconvolucionais. A CNN previamente treinada é utilizada para a extra-ção de um vetor de características do novo conjunto de imagens a seranalisado. Este vetor atua como um descritor natural e é classificadoutilizando SVM e OPF-S. São avaliadas a acurácia, tempo de proces-samento total, tempo de processamento para agrupamento (KMeans eOPF-U), tempo de processamento para classificação das técnicas nas

bases de imagens Caltech 101 e em uma base de imagens de produtoscriada pelo autor (RecogProd). São avaliados ainda como o tamanhoda imagens, quantidade de categorias e escolha dos parâmetros influen-ciam na acurácia do resultado. Os resultados mostram que a utilizaçãode uma CNN (Overfeat), previamente treinada em uma grande basede imagens, como um descritor natural para extração de um vetor decaracterísticas e treinamento de um classificador SVM, apresentou amelhor acurácia com 0,855 na base Caltech101 e 0,905 na base criada,RecogProd, em uma escala de 0 a 1. A CNN criada e treinada pelo autorapresentou o segundo melhor resultado com 0,710 utilizando o espaçode cores RGB na RecogProd e 0,540 utilizando o espaço de cores YUVna base Caltech101. A CNN treinada com imagens utilizando os espaçode cores RGB e YUV apresentaram acurácias muito próximas em am-bas as bases de treinamento porém, o treinamento utilizando YUV foimuito mais rápido. A técnica BOVW apresentou uma acurácia inferiorà CNN como descritor natural e a CNN em ambas as bases testadas.Nos experimentos, com diversos tamanhos de categorias (5, 10, 15 e 36)da RecogProd, a CNN como descritor natural apresentou novamente amelhor acurácia. Os resultados mostram ainda que, conforme o númerode categorias é aumentado, a CNN como descritor natural apresentouuma queda menor na acurácia em relação às demais técnicas avaliadas.Foi observado ainda que em uma base com 5 categorias a CNN comodescritor natural alcançou a acurácia de 1,0, sendo capaz de classificartodos os exemplos corretamente.

Palavras-chaves: Aprendizado de máquina. Máquina de Vetor de Su-porte. Redes Neurais Convolucionais. Floresta de Caminhos Ótimos.Visão Computacional.

ABSTRACTThe popularization of electronic devices like cameras and smartphonesresulted in an increasing volume of images and videos available on theinternet. This scenario allowed researchers to explore new search andretrieval techniques to use, not only the wide available text, but alsoextract information directly from images and videos. In this work threeimage recognition techniques have been compared, the Bag of Featuresor Bag of Visual Words (BOVW) using artificial descriptors, Convolu-tional Neural Networks (CNN) and CNN as a natural descriptor wherethe descriptors are obtained from a large pre-trained CNN in a di�er-ent dataset. The techniques are applied in the image recognition prob-lem using image analysis. Those techniques can be applied in productssearch applications using smartphones, smart glasses, products recog-nition in videos and others. The BOVW technique is demonstratedusing the artificial descriptors SIFT, SURF and MSER, with denseand interest points based extraction. The algorithms KMeans and un-supervised Optimum-Path Forest (OPF-U) are used for clustering andsupervised Optimum-Path Forest (OPF-S) and Support Vector Ma-chines (SVM) are used for classification. The second technique uses aconvolutional neural network (CNN) with three convolutional layers.The third technique uses the Overfeat, a large pre-trained CNN in theImageNet dataset, for extraction of a characteristic vector of the newimage dataset. This characteristic vector act as a natural descriptorand is then classified using OPF-S and SVM. The accuracy, total timeof processing, time for clustering (KMeans and OPF-U), time for clas-sification (OPF-S and SVM) are evaluated in the Caltech 101 datasetand in a dataset created by the author with images of products (Recog-Prod). It is evaluated how image size, category size and overall param-eters a�ect the accuracy of the studied techniques. The results showedthat the CNN (Overfeat), pre-trained in a di�erent large dataset, usedfor extraction of the natural descriptor of the new dataset and trainedwith SVM achieved the best accuracy with 0.855 in the Caltech 101dataset and 0.905 in the authors dataset. The CNN created and trainedentirely by the author showed the second best result with the accuracyof 0.710, using the RGB color space in the authors dataset and 0.540using the YUV color space in the Caltech 101 dataset. Both CNN, us-ing RGB and YUV, showed similar accuracies but the CNN using YUVimages took significant less time to be trained. The BOVW techniqueresulted in a accuracy lower than the preview techniques in both testeddatasets. In the experiments using the author’s dataset with di�erent

category sizes (5, 10, 15, 36) the CNN as a natural descriptor resultedin the best accuracy among the other tested techniques. The CNN asa natural descriptor is also the most robust, since as the number of thecategories is increased, and resulted in a lower accuracy decay amongthe others. In the experiments with a dataset with 5 categories the CNNas natural descriptor was able to recognize all the images correctly.

Key-words: Machine Learning. Support Vector Machines. Convolu-tional Neural Networks. Optimum-Path Forest. Computer Vision.

Lista de ilustrações

Figura 1 – Exemplo de diferentes produtos pertencentes a umamesma categoria (cafeteiras). . . . . . . . . . . . . . 22

Figura 2 – Exemplo de simplificação utilizando a magnitude eorientação do gradiente extraído em volta do pontode interesse (LOWE, 2004). . . . . . . . . . . . . . . 28

Figura 3 – Exemplos de regiões máximas detectadas em diferen-tes escalas (retas epipolares em amarelo). (MATASet al., 2002) . . . . . . . . . . . . . . . . . . . . . . . 30

Figura 4 – Exemplos de regiões máximas detectadas em dife-rentes ângulos de captura (MATAS et al., 2002) . . 30

Figura 5 – Pirâmide de escalas com 5 iterações. . . . . . . . . . 31Figura 6 – Comparativo de separação utilizando SVM e RNA.

(a) Separação usando SVM (b) Separação usando RNA 32Figura 7 – Exemplo de rede MLP. . . . . . . . . . . . . . . . . 34Figura 8 – Organização dos campos receptivos em uma CNN. . 37Figura 9 – Compartilhamento dos parâmetros para criação de

um mapa de características. . . . . . . . . . . . . . . 37Figura 10 – Rede neural convolucional com dois estágios (LE-

CUN; KAVUKCUOGLU; FARABET, 2010). . . . . 38Figura 11 – Exemplo de convolução . . . . . . . . . . . . . . . . 39Figura 12 – Exemplo de redução utilizando filtro MAX 2◊2 e

deslocando 2◊2 (sem sobreposição). . . . . . . . . . 40Figura 13 – Exemplo de filtros aprendidos na base MNIST (a)

sem dropout (b) utilizando Dropout (HINTON etal., 2012). . . . . . . . . . . . . . . . . . . . . . . . . 42

Figura 14 – Exemplo de treinamento e classificação utilizandoOPF. (a) Grafo completo. (b) Floresta de caminhosótimos após o treinamento com dois protótipos. Aentrada (x,y) corresponde ao custo e ao rótulo atri-buído. (c) Exemplo de teste no momento da classifi-cação conectado a todos os nós. (d) Exemplo de testecom atribuição da classe após a classificação (PAPA;FALCãO; SUZUKI, 2009) . . . . . . . . . . . . . . 44

Figura 15 – Extração de descritores de forma densa e baseada empontos de interesse. (a) Descritores extraídos atravésde ponto de interesse. (b) Descritores extraídos deforma densa. . . . . . . . . . . . . . . . . . . . . . . 46

Figura 16 – Exemplo ilustrando a localização de descritores emdiferentes imagens mas que correspondem a uma mesmacaracterística. . . . . . . . . . . . . . . . . . . . . . . 47

Figura 17 – Divisão da imagem na pirâmide espacial (LAZEB-NIK; SCHMID; PONCE, 2006). . . . . . . . . . . . 52

Figura 18 – Modelo do sistema de reconhecimento utilizando KMe-ans e OPF-U para agrupamento e SVM e OPF-Spara classificação. . . . . . . . . . . . . . . . . . . . 60

Figura 19 – Modelo do algoritmo de reconhecimento CNN. . . . 63Figura 20 – Exemplo de treinamento de uma CNN em uma base

A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64Figura 21 – Reutilização da CNN pré-treinada para treinamento

de uma nova base B. . . . . . . . . . . . . . . . . . . 64Figura 22 – Exemplos de imagens de 3 classes da base Caltech 101. 67Figura 23 – Categorias e exemplos e imagens da base RecogProd. 68Figura 24 – Acurácia na base Caltech101. . . . . . . . . . . . . . 74Figura 25 – Acurácia na base RecogProd. . . . . . . . . . . . . . 78Figura 26 – Kmeans+SVM - Descritores x Tamanho da imagem

x Acurácia na base Caltech101. . . . . . . . . . . . . 79Figura 27 – Kmeans+OPF-S - Descritores x Tamanho da ima-

gem x Acurácia na base Caltech101. . . . . . . . . . 80Figura 28 – OPF-U+SVM - Descritores x Tamanho da imagem

x Acurácia na base Caltech101. . . . . . . . . . . . . 80Figura 29 – OPF-U+OPF-S - Descritores x Tamanho da imagem

x Acurácia na base Caltech101. . . . . . . . . . . . . 81Figura 30 – Kmeans+SVM - Descritores x Tamanho da imagem

x Acurácia na base RecogProd. . . . . . . . . . . . . 82Figura 31 – Kmeans+OPF-S - Descritores x Tamanho da ima-

gem x Acurácia na base RecogProd. . . . . . . . . . 82

Figura 32 – OPF-U+SVM - Descritores ◊ Tamanho da imagem◊ Acurácia na base RecogProd. . . . . . . . . . . . 83

Figura 33 – OPF-U+OPF-S - Descritores ◊ Tamanho da ima-gem ◊ Acurácia na base RecogProd. . . . . . . . . . 84

Figura 34 – Tempo de treinamento e acurácia da CNN na baseCaltech101 utilizando imagens no espaço de coresYUV. . . . . . . . . . . . . . . . . . . . . . . . . . . 86

Figura 35 – Tempo de treinamento e acurácia da rede neuralconvolucional na base Caltech101 utilizando imagensRGB. . . . . . . . . . . . . . . . . . . . . . . . . . . 86

Figura 36 – Tempo de treinamento e acurácia da rede neuralconvolucional na base RecogProd utilizando imagensYUV. . . . . . . . . . . . . . . . . . . . . . . . . . . 87

Figura 37 – Tempo de treinamento e acurácia da rede neuralconvolucional na base RecogProd utilizando imagensRGB. . . . . . . . . . . . . . . . . . . . . . . . . . . 87

Figura 38 – Filtros obtidos após o treinamento da rede neural.(a) Filtros da CNN YUV na base Caltech101. (b)Filtros da CNN RGB na base Caltech101. (c) Filtrosda CNN YUV na base RecogProd. (d) Filtros daCNN RGB na base RecogProd. . . . . . . . . . . . 88

Figura 39 – Imagem utilizada nos exemplos de resultado da con-volução na base Caltech101. . . . . . . . . . . . . . 88

Figura 40 – Resultado da convolução dos filtros na primeira ca-mada convolucional da CNN YUV (a) e RGB (b) nabase Caltech101. . . . . . . . . . . . . . . . . . . . . 89

Figura 41 – Imagem utilizada nos exemplos de resultado da con-volução na base RecogProd. . . . . . . . . . . . . . 89

Figura 42 – Resultado da convolução dos filtros na primeira ca-mada convolucional da CNN YUV (a) e RGB (b) nabase RecogProd. . . . . . . . . . . . . . . . . . . . . 90

Figura 43 – Acurácia das técnicas estudadas na base RecogProdcom 5, 10, 15 e 36 categorias. . . . . . . . . . . . . 92

Figura 44 – F1 das técnicas estudadas na base RecogProd com5, 10, 15 e 36 categorias. . . . . . . . . . . . . . . . 92

Figura 45 – Tempo total de treinamento na base Caltech101. . . 93Figura 46 – Tempo total de treinamento na base RecogProd. . . 94Figura 47 – Tempo classificação na base RecogProd com 5, 10,

15 e 36 categorias. . . . . . . . . . . . . . . . . . . . 95Figura 48 – Tempo total na base RecogProd com 5, 10, 15 e 36

categorias. . . . . . . . . . . . . . . . . . . . . . . . 96

Figura 49 – Resultado do tempo de consulta de uma nova ima-gem na base RecogProd. . . . . . . . . . . . . . . . 97

Figura 50 – Acurácia na base RecogProd com os tamanhos dedicionários avaliados. . . . . . . . . . . . . . . . . . . 99

Figura 51 – Acurácia na base Caltech101 com os tamanhos dedicionários avaliados. . . . . . . . . . . . . . . . . . . 100

Figura 52 – Tempo de treinamento do KMeans nas bases avaliadas.101Figura 53 – Tempo de treinamento do classificador na base Re-

cogProd. . . . . . . . . . . . . . . . . . . . . . . . . 101Figura 54 – Tempo de treinamento do classificador na base Cal-

tech101. . . . . . . . . . . . . . . . . . . . . . . . . . 104Figura 55 – Tempo total nas bases Caltech101 e RecogProd. . . 105

Lista de tabelas

Tabela 1 – Resultados do comparativo entre variações de redesneurais convolucionais (JARRETT; KAVUKCUO-GLU; LECUN, 2009). . . . . . . . . . . . . . . . . . 54

Tabela 2 – Agrupadores e classificadores analisados. . . . . . . 59Tabela 3 – Descritores analisados. . . . . . . . . . . . . . . . . . 59Tabela 4 – Arquitetura da rede neural convolucional proposta. . 61Tabela 5 – Arquitetura Overfeat da CNN menor (SERMANET

et al., 2013) . . . . . . . . . . . . . . . . . . . . . . . 65Tabela 6 – Arquitetura Overfeat da CNN maior (SERMANET

et al., 2013) . . . . . . . . . . . . . . . . . . . . . . . 65Tabela 7 – Tamanhos de dicionários utilizados nos experimentos. 70Tabela 8 – Resultados - BOVW KMeans+SVM na base Cal-

tech101. . . . . . . . . . . . . . . . . . . . . . . . . . 71Tabela 9 – Resultados - BOVW KMeans+OPF na base Cal-

tech101. . . . . . . . . . . . . . . . . . . . . . . . . . 71Tabela 10 – Resultados - BOVW OPF-U+OPF-S na base Cal-

tech101. . . . . . . . . . . . . . . . . . . . . . . . . . 72Tabela 11 – Resultados - BOVW OPF-U+SVM na base Caltech101. 72Tabela 12 – Resultados - CNN na base Caltech101. . . . . . . . 73Tabela 13 – Resultados - Overfeat na base Caltech101. . . . . . . 73Tabela 14 – Resultados - BOVW KMeans+SVM na base Recog-

Prod (36 categorias). . . . . . . . . . . . . . . . . . 75Tabela 15 – Resultados - BOVW KMeans+OPF-S na base Re-

cogProd (36 categorias). . . . . . . . . . . . . . . . . 76Tabela 16 – Resultados - BOVW OPF+SVM na base RecogProd

(36 categorias). . . . . . . . . . . . . . . . . . . . . . 76Tabela 17 – Resultados - BOVW OPF+OPF na base RecogProd

(36 categorias). . . . . . . . . . . . . . . . . . . . . . 77Tabela 18 – Resultados - CNN na base RecogProd (36 categorias), 77

Tabela 19 – Resultados - Overfeat na base RecogProd (36 cate-gorias), . . . . . . . . . . . . . . . . . . . . . . . . . 77

Tabela 20 – Acurácia na base RecogProd com os diversos tama-nhos de dicionário avaliados. . . . . . . . . . . . . . 99

Tabela 21 – Acurácia na base Caltech101 com os diversos tama-nhos de dicionário avaliados. . . . . . . . . . . . . . 100

Tabela 22 – Tempo de treinamento do agrupador KMeans nabase Caltech101. . . . . . . . . . . . . . . . . . . . . 102

Tabela 23 – Tempo de treinamento do agrupador KMeans nabase RecogProd. . . . . . . . . . . . . . . . . . . . . 102

Tabela 24 – Tempo de treinamento do classificador na base Re-cogProd. . . . . . . . . . . . . . . . . . . . . . . . . 103

Tabela 25 – Tempo de treinamento do classificador na base Cal-tech101. . . . . . . . . . . . . . . . . . . . . . . . . . 103

Tabela 26 – Tempo total de processamento nas bases Caltech101e na base RecogProd . . . . . . . . . . . . . . . . . . 104

Tabela 27 – Parâmetros testados para o OPF-U e OPF-S na baseCaltech 101. . . . . . . . . . . . . . . . . . . . . . . 119

Tabela 28 – Parâmetros testados para o OPF-U e SVM na baseCaltech 101, . . . . . . . . . . . . . . . . . . . . . . 122

Tabela 29 – Parâmetros testados para o OPF-U e OPF-S na basecriada. . . . . . . . . . . . . . . . . . . . . . . . . . 125

Tabela 30 – Parâmetros testados para o OPF-U e SVM na basecriada, . . . . . . . . . . . . . . . . . . . . . . . . . 128

Tabela 31 – Parâmetros testados para o OPF-U e OPF-S na basecriada com 5 categorias . . . . . . . . . . . . . . . . 130

Tabela 32 – Parâmetros testados para o OPF-U e SVM na basecriada com 5 categorias . . . . . . . . . . . . . . . . 133

Tabela 33 – Parâmetros testados para o OPF-U e OPF-S na basecriada com 10 categorias . . . . . . . . . . . . . . . 136

Tabela 34 – Parâmetros testados para o OPF-U e SVM na basecriada com 10 categorias . . . . . . . . . . . . . . . 139

Tabela 35 – Parâmetros testados para o OPF-U e OPF-S na basecriada com 15 categorias . . . . . . . . . . . . . . . 141

Tabela 36 – Parâmetros testados para o OPF-U e SVM na basecriada com 15 categorias . . . . . . . . . . . . . . . 144

Tabela 37 – Parâmetros de execução do programa recog.py . . . 151

Lista de abreviaturas e siglas

AI Inteligencia Artificial (Artificial Intelligence)

BOVW Conjunto de Palavras Visuais ou Bag of Visual Words

CBIR Sistemas de Recuperação de Imagens por Conteúdo(Content-Based Image Retrieval)

CNN Rede Neural Convolucional

ML Aprendizado de Máquina (Machine Learning)

OPF-S Floresta de Caminhos Ótimos Supervisionada

OPF-U Floresta de Caminhos Ótimos não Supervisionada

RGB Espaço de cor que utiliza, na formação de cores, ascomponentes Vermelha (Red), Verde (Green) e Azul(Blue)

SVM Máquina de Vetor de Suporte (Support Vector Ma-chines)

YUV Espaço de cor onde Y representa a luminância e U eV representam a crominância ou cor.

Lista de símbolos

ˆ Derivada parcial

‡ Desvio Padrão

e Número de Euler

” Variação

Sumário

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . 211.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . 231.1.1 Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.1.2 Específicos . . . . . . . . . . . . . . . . . . . . . . . . 231.2 Escopo . . . . . . . . . . . . . . . . . . . . . . . . . . 241.3 Resultados Esperados . . . . . . . . . . . . . . . . . . 241.4 Estrutura do Texto . . . . . . . . . . . . . . . . . . . 252 CONCEITOS . . . . . . . . . . . . . . . . . . . . . . 272.1 Scale Invariant Feature Transform (SIFT) . . . . . . 272.2 Maximally Stable Extremal Regions (MSER) . . . . . 282.3 Speed-Up Robust Features (SURF) . . . . . . . . . . . 292.4 Support Vector Machines (SVM) . . . . . . . . . . . . 322.5 Multilayer Perceptron (MLP) . . . . . . . . . . . . . 332.6 Redes Neurais Convolucionais (CNN) . . . . . . . . . 352.7 Floresta de Caminhos Ótimos (Optimum-path Forest

- OPF) . . . . . . . . . . . . . . . . . . . . . . . . . . 432.8 KMeans . . . . . . . . . . . . . . . . . . . . . . . . . 442.9 Conjunto de Palavras Visuais (Bag of Visual Words)

(BOVW) . . . . . . . . . . . . . . . . . . . . . . . . . 453 TRABALHOS RELACIONADOS . . . . . . . . . . . 493.1 Algoritmos de estágio único . . . . . . . . . . . . . . 503.2 Algoritmos de dois ou mais estágios . . . . . . . . . . 524 DESENVOLVIMENTO DA SOLUÇÃO . . . . . . . 574.1 Conjunto de Palavras Visuais . . . . . . . . . . . . . 574.2 Rede Neural Convolucional . . . . . . . . . . . . . . . 594.3 CNN como Descritor Natural . . . . . . . . . . . . . 624.4 Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . 654.5 Bases de Imagens . . . . . . . . . . . . . . . . . . . . 664.5.1 Caltech . . . . . . . . . . . . . . . . . . . . . . . . . . 664.5.2 Base criada - RecogProd . . . . . . . . . . . . . . . . 664.6 Implementação . . . . . . . . . . . . . . . . . . . . . 675 EXPERIMENTOS, RESULTADOS E DISCUSSÕES 695.1 Avaliação de melhor acurácia na base Caltech101 . . 705.2 Avaliação de melhor acurácia na RecogProd . . . . . 755.3 Melhor descritor artificial na técnica BOVW . . . . . 79

5.4 Rede Neural Convolucional (CNN) - RGB x YUV . . 855.5 Acurácia das técnicas BOVW, CNN e CNN como des-

critor natural na base RecogProd com 5, 10, 15 e 36categorias. . . . . . . . . . . . . . . . . . . . . . . . . 91

5.6 Tempo de processamento geral . . . . . . . . . . . . . 935.7 Tempo de classificação . . . . . . . . . . . . . . . . . 955.8 Tempo de consulta de uma nova imagem . . . . . . . 975.9 Tamanho do dicionário de palavras visuais . . . . . . 976 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . 1076.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . 1076.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . 110Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113APÊNDICE A Apêndice A . . . . . . . . . . . . . . . 119APÊNDICE B Apêndice B . . . . . . . . . . . . . . . 149B.1 Instalação . . . . . . . . . . . . . . . . . . . . . . . . 149B.2 BOVW e CNN como descritor natural . . . . . . . . 149B.3 CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . 150B.4 Ferramentas auxiliares . . . . . . . . . . . . . . . . . 151

21

1

INTRODUÇÃO

A popularização de equipamentos como câmeras e celularesequipados com câmeras resultou em um grande volume de informaçõesno formato de imagens e vídeos disponibilizadas na internet. O cres-cente volume de dados digitais em forma de imagens e vídeos demandaa criação de novas soluções de buscas baseadas não apenas em texto,mas capazes de extraírem informações relevantes diretamente dessesformatos de mídia.

O processo de identificação visual de objetos é trivial para osseres humanos, porém extremamente difícil para os computadores. Umobjeto tridimensional real pode ser representado através de uma grandequantidade de imagens bidimensionais conforme a sua variação de po-sição, orientação, tamanho, luz e contexto (PINTO; COX; DICARLO,2008). Condições adicionais como variações intra-classes, oclusões edeformações geram um número ainda maior de possibilidades, difi-cultando o reconhecimento. Desenvolver um programa de computadorpara tratar manualmente todas as combinações possíveis resultaria emum código com uma quantidade inviável de condições. Outra caracte-rística dos problemas envolvendo reconhecimento e aprendizagem é amudança constante das variáveis envolvidas. Um sistema desenvolvidopara identificar um determinado objeto pode sofrer uma mudança dosrequisitos, sendo necessário identificar outros objetos que não estavamprevistos no escopo inicial. Se todas as regras forem explicitamentecodificadas, no momento que for necessário reconhecer um novo ob-jeto, novas regras precisam ser escritas explicitamente. Uma das áreasresponsáveis por propor novas soluções para problemas com estas ca-racterísticas é chamada Aprendizado de Máquina (Machine Learning -ML). A área de ML é uma ramificação de uma área maior conhecidacomo inteligência artificial (Artificial Intelligence - AI) e é o campo deestudo que proporciona, aos computadores, a habilidade de aprender

22 Capítulo 1. INTRODUÇÃO

a resolver um determinado problema sem ser explicitamente progra-mado para tal tarefa (SIMON, 2013). Para que a definição anteriorfaça sentido é necessário também definir o significado de aprender. Umprograma de computador aprende através de uma experiência E a res-peito de um conjunto de tarefas T mensuráveis por uma métrica P seo seu desempenho na tarefa T, medida pela métrica P melhora coma experiência E (MITCHELL, 1997). Algoritmos de aprendizado demáquina são utilizados amplamente com destaque nas áreas de pro-cessamento natural de linguagem, visão computacional e mineração dedados. Este trabalho mostra a utilização de três técnicas de aprendizadode máquina aplicadas ao reconhecimento de imagens, mais especifica-mente, no reconhecimento de produtos por imagem. A Figura 1 mostraalguns exemplos de produtos correspondentes a uma mesma categoriaporém, com características como cor, forma e textura extremamentediferenciadas.

Figura 1 – Exemplo de diferentes produtos pertencentes a uma mesmacategoria (cafeteiras).

Fonte: produção do próprio autor.

Tais técnicas podem ser aplicadas em uma ampla gama de sis-

1.1. Objetivos 23

temas como reconhecimento de produtos utilizando dispositivos móveiscomo smartphones, obtenção de informações de produtos visualizadosutilizando um óculos de realidade aumentada, reconhecimento de pro-dutos em vídeos, entre outros. A primeira técnica de reconhecimento depalavras visuais proposta utiliza os descritores artificiais SIFT, SURF eMSER na extração de características de forma densa e através de pontosde interesse. São estudados os algoritmos KMeans e floresta de cami-nhos ótimos não supervisionada (OPF-U) na etapa de agrupamento ecriação do dicionário de palavras visuais e Máquinas de Vetor de Su-porte (SVM) e Floresta de Caminhos Ótimos supervisionada (OPF-S)na etapa de classificação. A segunda técnica utiliza uma rede neural detrês camadas convolucionais seguidas de duas camadas totalmente co-nectadas. A terceira técnica consiste no uso de uma CNN, previamentetreinada na base de imagens ImageNet, de cinco camadas convoluci-onais seguidas de três camadas totalmente conectadas. Um vetor decaracterísticas é extraído da última camada convolucional para cadaimagem da nova base de imagens a ser analisada. Este vetor atua comoum descritor natural e é classificado utilizando SVM e OPF-S.

1.1 Objetivos

Nas subseções a seguir são descritos o objetivo geral e os obje-tivos específicos deste trabalho.

1.1.1 Geral

O objetivo deste trabalho é determinar das três técnicas (BOVW,CNN e CNN como descritor natural) e suas variações analisadas é amelhor, para o reconhecimento de produtos por imagem em relação aacurácia, tempo total de processamento, tempo de classificação, varia-ções no tamanho de imagem e variações na quantidade de classes.

1.1.2 Específicos

1. Identificar qual das três técnicas (BOVW, CNN e CNN comodescritor natural) oferece melhor acurácia.

2. Identificar qual das três técnicas oferece menor tempo de proces-samento para treinamento.

3. Estimar a complexidade algorítmica das três técnicas em basesde diferentes tamanhos.

24 Capítulo 1. INTRODUÇÃO

4. Identificar qual o melhor descritor entre SIFT, SURF e MSER natécnica de BOVW.

5. Identificar como o tamanho da imagem influencia na acurácia doreconhecimento.

6. Identificar como a quantidade de imagens e a quantidade de des-critores influenciam na acurácia e no tempo de classificação natécnica BOVW.

7. Identificar como o tamanho do dicionário de palavras visuais influ-encia na acurácia e no tempo de classificação na técnica BOVW.

1.2 Escopo

O escopo do trabalho está limitado ao Processamento Grá-fico, com o objetivo de efetuar o reconhecimento de uma imagem deacordo com a sua categoria com ênfase no reconhecimento de produtos.Os experimentos realizados utilizam uma base pública (Caltech101 ) detrabalhos relacionados e uma base criada pelo autor (RecogProd) uti-lizando imagens de produtos em sites de comércio eletrônico. As basesde imagens existentes na literatura não possuem o foco em produtos oupossuem um tamanho elevado, incompatível com aos recursos disponí-veis para a realização do trabalho.

1.3 Resultados Esperados

A avaliação das técnicas resultará em uma base de conheci-mento necessária para aplicá-las em cenários onde o tamanho da base évariável em quantidade de imagens e quantidade de categorias. Informa-ções como tempo de processamento são fundamentais para determinarqual é a melhor técnica condizente com o os recursos computacionaisdisponíveis em diferentes cenários onde um produto comercial poderáser desenvolvido. A técnica BOVW deve fornecer uma acurácia supe-rior em bases com uma pequena quantidade de imagens e categorias.O treinamento de uma rede neural convolucional com poucos dadospode resultar em overfitting, onde a rede é incapaz de classificar novosexemplos com uma boa acurácia. Em bases de imagens com uma maiorquantidade de imagens a CNN deve ser capaz de classificar novas ima-gens com uma acurácia maior do que a BOVW. A utilização de umaCNN previamente treinada em uma grande base de imagens para a ex-tração de descritores naturais em uma nova base apresenta um grande

1.4. Estrutura do Texto 25

desafio. Os resultados dos experimentos poderão ser um indício de queesta técnica pode, ou não, realizar uma transferência de conhecimento,onde os filtros aprendidos em um treinamento anterior são genéricos osuficiente para serem usados na classificação de novas bases de imagens.

1.4 Estrutura do TextoO restante do trabalho está organizado da seguinte forma: o

Capítulo 2 descreve as abordagens relacionados à solução proposta; oCapítulo 3 detalha e compara os trabalhos relacionados; o Capítulo 4descreve as implementações das técnicas de BOVW, CNN e CNN comodescritor natural realizadas; o Capítulo 5 descreve os experimentos re-alizados, os resultados e discussões; e, por fim, no Capítulo 6, são apre-sentadas as conclusões, contribuições e as propostas para trabalhos fu-turos.

27

2CONCEITOS

Neste capítulo são explicados os algoritmos utilizados no de-senvolvimento do trabalho. Mais especificamente os descritores SIFT,MSER e SURF, os algoritmos de classificação supervisionados SVM,OPF supervisionado, redes neurais MLP e redes neurais convolucionaise os algoritmos de classificação não supervisionados OPF e KMeans.

2.1 Scale Invariant Feature Transform (SIFT)O algoritmo SIFT consiste em um método para extração de

características distintas e invariantes para o reconhecimento de pontosem um objeto em imagens de diferentes ângulos. Os descritores extraí-dos são invariantes à escala e rotação e possuem uma boa tolerânciaa ruídos, distorções decorrentes de diferentes perspectivas e mudançasde iluminação (LOWE, 2004). Lowe (2004), ainda descreve uma fór-mula para identificação de objetos utilizando um comparativo com umbanco de descritores extraídos de outras imagens usando um algoritmode vizinhos próximos. A implementação do descritor é dividida em duaspartes, o detector de pontos de interesse e a representação do ponto deinteresse através de um vetor, sendo este considerado o descritor pro-priamente dito. As etapas de processamento são:

Detecção de extremos: Identificação de possíveis pontos de interesseutilizando a diferença de Gaussianas aplicadas a diversas escalasda imagem. Este procedimento permite encontrar pontos de in-teresse invariantes à escala e à orientação.

Localização de pontos chave: Para cada candidato encontrado naetapa anterior são determinadas a localização e escala bem comosão calculadas métricas de estabilidade, resultando na escolha dospontos mais estáveis.

28 Capítulo 2. CONCEITOS

Atribuição de orientação: Uma ou mais orientações são atribuídasa cada ponto chave escolhido de acordo com o gradiente local daimagem.

Extração do descritor: Os gradientes locais ao redor do ponto deinteresse são mensurados e uma representação simplificada é ex-traída contendo um vetor de 128 posições. A Figura 2 mostrauma representação simplificada de um descritor de 2 ◊ 2 obtidoatravés de sub regiões de tamanho 4 ◊ 4. No algoritmo propostono artigo é utilizado um descritor de tamanho 4◊4 obtido atravésde uma região de tamanho 16 ◊ 16 com 8 orientações possíveis,resultando em 128 posições.

Figura 2 – Exemplo de simplificação utilizando a magnitude e orien-tação do gradiente extraído em volta do ponto de interesse(LOWE, 2004).

2.2 Maximally Stable Extremal Regions (MSER)

O algoritmo (MSER) proposto por Matas et al. (MATAS et al.,2002) consiste em um método robusto diante de mudanças de perspec-tiva, originalmente utilizado para detecção de características e alinha-mento de imagens estéreo. Para a realização de um bom alinhamentode uma cena vista de dois ângulos diferentes, possivelmente utilizandoduas câmeras diferentes, é necessário identificar quais pontos da ima-gem contêm as características que são semelhantes entre elas (pontoshomólogos). Dada a grande quantidade de variações possíveis, desde oângulo no qual a imagem foi obtida até distorções causadas pela lenteda câmera utilizada, funções baseadas apenas em translações e rotações

2.3. Speed-Up Robust Features (SURF) 29

de um formato fixo, como a distância Euclidiana, normalmente não re-sultam em uma boa acurácia. O algoritmo localiza pontos extremos naimagem buscando identificar regiões conexas a partir da intensidade dobrilho dos pixels. O MSER aplica limiares de diferentes valores e de-tecta regiões de bordas com grande variação de intensidade. De acordocom o autor, o conceito proposto pelo MSER pode ser explicado infor-malmente imaginando uma imagem em tons de cinza I e um conjuntode limiares t onde o conjunto corresponde a todos os limiares possíveispara a imagem I. Dada a imagem e um limiar, todos os pixels abaixodo limiar são considerados brancos e todos os pixels acima do limiarsão considerados pretos. Ao observar sequencialmente as imagens I

t

aprimeira imagem será totalmente preta, seguida de uma imagem comalguns pontos pretos que crescem para cada imagem conforme o limiaré aumentado. Por fim, a imagem será completamente branca. O con-junto de todos os componentes conectados em todos os limiares forma oconjunto de regiões máxima. A junção de dois componentes conectadosé interpretada como o término do componente menor e a inclusão dosseus pixels no componente maior. Após uma avaliação de estabilidade,apenas regiões que aparecem em uma grande quantidade de diferenteslimiares são selecionadas. O algoritmo MSER apresenta semelhançascom o algoritmo watershed (BEUCHER; LANTUéJOUL, 1979), po-rém no watershed o objetivo é encontrar os limiares onde diferentescomponentes conexos se juntam, e no MSER o objetivo é encontrar umconjunto de limiares onde um grupo de componentes conexos perma-nece estável (sem grandes mudanças). A detecção das regiões máximasocorre em diferentes escalas. O algoritmo MSER realiza apenas a de-tecção dos pontos de interesse denominados regiões máximas. Após adetecção do MSER, cada região máxima estável deve ser descrita uti-lizando um descritor robusto a variações de rotação como o SIFT. AFigura 3 mostra um exemplo de regiões máximas estáveis detectadasem duas imagens de diferentes escalas. Na Figura 4 é possível observaras regiões máximas detectadas em duas imagens obtidas de diferentesângulos.

2.3 Speed-Up Robust Features (SURF)

O algoritmo proposto por Herbert Bay et al. (BAY et al., 2008)é inspirado no SIFT, porém com o objetivo de ser rápido na extração ecomparação de características. O SURF utiliza apenas característicasde imagens de tons de cinza, ou seja, não utiliza qualquer informaçãorelacionada às cores da imagem. Assim como o SIFT, o algoritmo SURF


Figura 3 – Exemplos de regiões máximas detectadas em diferentes es-calas (retas epipolares em amarelo). (MATAS et al., 2002)

Figura 4 – Exemplos de regiões máximas detectadas em diferentes ân-gulos de captura (MATAS et al., 2002)

consiste em duas etapas, a primeira de localização dos pontos de inte-resse e a segunda de descrição destes pontos de interesse em um vetor decaracterísticas que seja invariante às propriedades anteriormente men-cionadas. O SURF extrai os pontos de interesse com base na variaçãodas tonalidades da imagem (textura) utilizando as derivadas parciaisdas mudanças de valores em um relevo nos eixos horizontal e verticalpara formar a matriz Hessiana. A determinante da matriz Hessiana re-torna um valor alto para regiões da imagem onde existe uma grandevariação de tonalidade. O SURF difere do SIFT aplicando uma apro-ximação mais simples para a obtenção da matriz Hessiana por meio defiltros caixa (box filters). Essa forma de aproximação em conjunto como uso do conceito de imagens integrais para a representação da imagem

2.3. Speed-Up Robust Features (SURF) 31

possibilitam o cálculo de forma mais eficiente. As etapas de localizaçãode pontos máximos com pirâmides de escalas e a seleção dos pontosmáximos através da análise conjunta com imagens em escalas vizinhasacontecem de forma semelhante ao SIFT. A pirâmide de escalas con-siste na redução da imagem em 50% do seu tamanho por um númeropré determinado de iterações, conforme mostrado na Figura 5. Com oobjetivo de extrair características invariantes à rotação, o algoritmo de-termina a orientação das variações de tonalidade realizando convoluçõesem uma área ao redor do ponto de interesse. O raio da área analisadaesta relacionado à escala em que o ponto de interesse foi localizado napirâmide de escalas da etapa anterior. Para extrair as informações quemelhor descrevem esta área em volta do ponto de interesse, o SURFutiliza convoluções a partir do o método Haar Wavelet. A extração dasinformações de orientação resultam em um vetor de 64 posições quedescrevem o ponto de interesse. Como as informações deste vetor fo-ram extraídas tendo como base a orientação do ponto de interesse, omesmo padrão pode ser encontrado caso a imagem seja rotacionada.

Figura 5 – Pirâmide de escalas com 5 iterações.


No decorrer deste trabalho os descritores obtidos através de fór-mulas matemáticas independentes do banco de imagens a ser analisadoserão denominados descritores artificiais. Os descritores SIFT, MSER eSURF estão nesta categoria. Descritores extraídos de funções matemá-ticas no qual um ou mais parâmetros são obtidos por influência de umabase de imagens são denominados descritores naturais. Um exemplo deinfluência a partir dos dados da base de imagem são os filtros "apren-


didos"por uma rede neural convolucional. Tais filtros não são fórmulasmatemáticas fixas e sofrem mudanças em seus valores de acordo comos dados nos quais foram treinados. Redes neurais convolucionais serãoestudadas mais à frente neste capítulo.

2.4 Support Vector Machines (SVM)

O Support Vector Machines (SVM) é um algoritmo de apren-dizado supervisionado proposto por Cortes e Vapnik (CORTES; VAP-NIK, 1995). O algoritmo infere, a partir de um conjunto de exemplosrotulados, uma função capaz de predizer os rótulos de novos exemplosdesconhecidos. O algoritmo estabelece essa função linear com o obje-tivo de maximizar a margem entre os dados no hiperplano, conforme oexemplo da Figura 6a. Um dos benefícios da SVM em relação às demaisredes neurais, como Multilayer Perceptron (MLP), está na realizaçãoda divisão do hiperplano considerando a distância entre os exemplos detreinamento. A divisão do hiperplano estabelecida por uma rede neuralartificial não considera a distância entre as margens entre a função dedecisão e os exemplos de treinamento. Na SVM a função de decisãoé calculada com o objetivo de criar uma margem mais justa entre osvetores de suporte, como mostrado na Figura 6. O posicionamento dafunção de divisão considerando a distância entre os vetores proporcionauma melhor acurácia na classificação de novos exemplos.

(a) (b)

Figura 6 – Comparativo de separação utilizando SVM e RNA. (a) Se-paração usando SVM (b) Separação usando RNA


Para determinar a reta ou o plano separador entre as classes,

2.5. Multilayer Perceptron (MLP) 33

o SVM utiliza os exemplos de treinamento que ficam localizados nafronteira entre as classes no hiperplano como referência. Estes exem-plos são chamados de vetores de suporte. Para efetuar a classificação denovos exemplos são necessários apenas os vetores de suporte, podendoos demais exemplos utilizados durante a etapa de treinamento seremdescartados. Apesar de aumentar a eficiência na classificação de dadoslinearmente separáveis no uso prático, sua utilização fica comprometidapois dificilmente os dados são separados de forma linear. Para tornarpossível a separação dos dados não lineares de forma linear a SVMutiliza os kernels para efetuar manipulações nos dados tornando-os li-nearmente separáveis. A utilização correta dos kernels exige um conhe-cimento da distribuição dos dados. Existem diversos tipos de kernelsdisponíveis, entre eles estão o linear, polinomial, gaussiano ou radial esigmoid.

2.5 Multilayer Perceptron (MLP)

As redes Multilayer Perceptron MLP são formadas por con-juntos de neurônios artificiais organizados em uma ou mais camadasintermediárias como mostrado na Figura 7. Redes com dois ou maisneurônios artificiais na camada intermediária podem ser utilizadas paraa classificação de problemas não lineares (BRAGA; CARVALHO; LU-DEMIR, 2000).

Os principais componentes são a camada de entrada, camadaoculta ou intermediária e camada de saída. A camada de entrada éresponsável por receber os dados, não acontecendo nenhum processa-mento, sendo os dados apenas repassados para a camada intermediária.A camada intermediária é composta por uma ou mais camadas com umou mais nós (neurônios artificiais). Nesta camada é aplicada uma fun-ção de ativação não linear, a qual determina se o neurônio irá propagara informação ou não com base nos estímulos recebidos da camada ante-rior multiplicado pelos pesos obtidos durante a etapa de treinamento.Duas funções comuns utilizadas são a tangente hiperbólica, demons-trada na Equação 2.1 com resultado variando entre -1 e 1 e a funçãologística, demonstrada na Equação 2.2 com resultado variando entre 0e 1.

„(vi

) = tanh(vi

) (2.1)

Â(vi

) = (1 + e

≠vi)≠1 (2.2)


x1

x2

x3

x4

y1

y2

Camada deentrada

CamadaIntermediária

Camada deSaída

Figura 7 – Exemplo de rede MLP.


Os pesos representam o conhecimento da rede. A última camada, cha-mada de camada de saída, recebe as informações das camadas interme-diárias e produz a resposta. O formato da resposta da rede pode variarde acordo com o problema sendo comum a utilização da saída de cadaneurônio como 0 ou 1. Em um problema de classificação cada neurôniode saída corresponde a uma categoria. Em uma rede com 5 neurôniosde saída podemos considerar o vetor [1,0,0,0,0] como sendo categoria1, [0,1,0,0,0] como sendo categoria 2, [0,0,1,0,0] como categoria 3 e as-sim por diante. Na seção de redes neurais convolucionais estudada naseção 2.6 é descrita uma rede onde a saída consiste em um vetor coma probabilidade de uma imagem pertencer às possíveis categorias.

A etapa de treinamento é responsável por ajustar os pesos dosnós com base na avaliação da taxa de erro após o processamento de cadaum dos dados de treinamento previamente classificados manualmente.

2.6. Redes Neurais Convolucionais (CNN) 35

Nas redes MLP é utilizado o algoritmo backpropagation (ALPAYDIN,2010) para efetuar os ajustes destes pesos. Após o treinamento, a redepode ser utilizada para a classificação de novos exemplos. Caso sejaincluída uma nova categoria nos dados de treinamento é necessárioefetuar todo o treinamento da rede novamente (BRAGA; CARVALHO;LUDEMIR, 2000).

Apesar de serem úteis em diversos problemas de classificação,as redes MLP não funcionam de forma eficiente em problemas de clas-sificação de imagens quando a própria esta é utilizada como entrada darede 1. A imagem utilizada para entrada na rede neural normalmentepossui uma grande dimensionalidade, uma imagem de 230◊230 pixelsresulta em uma entrada da rede com 52.900 dimensões. A quantidadede dimensões na entrada da rede MLP totalmente conectada resultaem um crescimento exponencial de pesos na rede, dificultando o treina-mento e aumentando a quantidade de processamento necessária. Outroproblema encontrado ocorre em função de que em uma rede MLP cadaneurônio artificial está conectado através de um peso independente en-tre as camadas. Esta característica presente na arquitetura da MLPdificulta o reconhecimento de objetos em diferentes locais da imagem.Se a rede MLP foi treinada para reconhecer um objeto que aparece nocanto esquerdo das imagens, ela dificilmente será capaz de identificaro mesmo objeto quando ele estiver presente no canto direito de umaoutra imagem.

2.6 Redes Neurais Convolucionais (CNN)

Redes neurais convolucionais (CNN) são arquiteturas biologi-camente inspiradas capazes de serem treinadas e aprenderem represen-tações invariantes a escala, translação, rotação e transformações afins(LECUN; KAVUKCUOGLU; FARABET, 2010). Uma das questõeschave no reconhecimento de padrões em imagens consiste em saberqual é a melhor forma de representar as características dos dados aserem reconhecidos de forma robusta e invariante à iluminação, orien-tação, pose, oclusão entre outros. Apesar de diversos descritores teremsido desenvolvidos para extrair estas características de forma artificial édesejável que um sistema de reconhecimento seja capaz de extrair estarepresentação de forma automática através dos dados brutos, no casode reconhecimento de imagens, as próprias imagens.

1 <http://white.stanford.edu/teach/index.php/An_Introduction_to_Convolutional_Neural_Networks>

http://white.stanford.edu/teach/index.php/An_Introduction_to_Convolutional_Neural_Networks

http://white.stanford.edu/teach/index.php/An_Introduction_to_Convolutional_Neural_Networks


No trabalho de Hubel e Wiesel (1968), experimentos realiza-dos com gatos e macacos mostraram que o córtex visual é organizadoem um conjunto hierárquico de células sensíveis a pequenas sub re-giões chamadas campos receptivos. Hubel categoriza as células comosimples, complexas e super complexas de acordo com o padrão de es-tímulo a qual são ativadas. Células simples são ativadas quando sãoapresentados padrões simples para o animal, como linhas. As célulascomplexas e super complexas são ativadas quando padrões mais elabo-rados, compostos de combinações de padrões simples, são apresentadosao animal. A partir do estudo de Hubel surge a hipótese de que umaboa representação interna deve ser hierárquica, onde os pixels formamarestas, as arestas formam padrões, os padrões combinados dão origema partes, as partes combinadas formam os objetos e os objetos formamcenas (LECUN; KAVUKCUOGLU; FARABET, 2010). Esta estruturasugere que o mecanismo de reconhecimento necessita de diversos es-tágios de treinamento empilhados uns nos outros, um para cada nívelde hierarquia. As CNN surgiram para representar este tipo de arquite-tura. As CNN compõem um dos tipos de algoritmos da área conhecidacomo deep learning e são projetadas para uso com dados em duas di-mensões tornando-as uma boa candidata para a solução de problemasenvolvendo reconhecimento de imagens (AREL; ROSE; KARNOWSKI,2010).

As CNN são arquiteturas multiestágios capazes de serem trei-nadas. Os campos receptivos são altamente correlacionados à localidadedo estímulo na imagem capturada. As CNN utilizam este conceito for-çando um padrão de conectividade entre as camadas de neurônios arti-ficiais. A Figura 8 mostra esta organização onde uma camada i está co-nectada a uma uma pequena sub região da camada i≠1. Neste exemploa camada m ≠ 1 corresponde a imagem de entrada. A camada superiorm possui um campo receptivo de tamanho 3, onde cada neurônio recebeo estímulo de 3 neurônios da camada anterior. A camada m+1 é seme-lhante à camada anterior, possuindo um campo receptivo de tamanho3 com relação à camada anterior porém, com um campo receptivo detamanho 5 com relação à imagem de entrada.

Considerando esta analogia, cada campo receptivo é conside-rado um filtro não linear onde seus pesos devem ser aprendidos paraque o neurônio seja ativado apenas quando um determinado estímuloestiver presente na área onde o filtro foi aplicado.

Cada filtro é aplicado à toda a imagem de entrada (ou camadaanterior) de forma convolucional, o resultado da aplicação deste filtroé chamado de mapa de características (feature map). Cada mapa de


Camada m-1

Camada m

Camada m+1

Figura 8 – Organização dos campos receptivos em uma CNN.


características compartilha os mesmos parâmetros. A Figura 9 mostrao compartilhamento dos parâmetros. Esta estratégia garante que umadeterminada característica será detectada pelo mapa de característicasindependentemente da sua posição da imagem (ou mapa) de entrada.

Camada m-1

Camada m

mapa de características

Figura 9 – Compartilhamento dos parâmetros para criação de ummapa de características.


As entradas de dados de cada estágio são um conjunto de mapasde características (features maps). Quanto aplicada utilizando imagenscoloridas, a entrada do primeiro estágio consiste nos três canais de co-res da imagem. Cada vetor de duas dimensões passa a funcionar comoum mapa de características. Na saída de cada estágio, cada mapa cor-responde a convolução do mapa de entrada por um filtro. A aplicaçãodo filtro no mapa destaca algumas características. Cada filtro é respon-sável por destacar uma característica diferente. No primeiro estágio osfiltros destacam linhas e gradientes em diferentes orientações.

Um mapa de característica é obtido efetuando a convoluçãode uma imagem de entrada por um filtro linear seguido da adição deum termo de bias e da aplicação de uma função não linear. Sendo a


camada k, os filtros determinados por um conjunto de pesos W

k e umtermo de bias b

k

e o operador de convolução ú, a Equação 2.3 (LECUN;KAVUKCUOGLU; FARABET, 2010) mostra a obtenção do mapa decaracterística h

k para uma função não linear f .

h

k

ij

= f((W k ú x)ij

+ b

k

) (2.3)

Cada estágio é composto por três etapas, filtragem (filter bank layer),etapa não linear (non-linearity layer) e etapa de redução (feature po-oling layer) que representa o campo receptivo. Uma CNN pode sercomposta de um ou mais estágios onde cada um contém as três etapas.A Figura 10 mostra uma CNN com um único mapa de característi-cas de entrada (ex: uma imagem em tons de cinza) com dois estágiosconvolucionais C1+S1 e C2+S2.

Figura 10 – Rede neural convolucional com dois estágios (LECUN; KA-VUKCUOGLU; FARABET, 2010).

A etapa de filtragem realiza a convolução dos filtros W

k

i

, corres-pondente ao i-ésimo filtro da camada k de tamanho l1 ◊ l2 na imagem.Cada filtro detecta uma característica particular em todas as localiza-ções na imagem de entrada. Na primeira camada a imagem de entradaI

mn

, sendo m a altura e n o comprimento, é representada através deum um conjunto de mapas de características, um para cada canal decor.

Na Figura 11 é realizado um exemplo de convolução no qual amáscara é transladada em posições em que se encontra integralmenteno domínio dos pixels (e, portanto, reduzindo a imagem resultante).É possível observar que o filtro aplicado realça áreas onde existe umagrande diferença nos valores de forma vertical, como em um canto deum objeto por exemplo.

A etapa não linear é responsável por aplicar uma função nãolinear em cada um dos elementos dos mapas de características. Hin-ton (HINTON et al., 2012) e Zeiler (ZEILER; FERGUS, 2013) utili-


* =1 -1 -1

-1-1-1

-1 5

5 9 24 5

1 1 2

2

2

1

111

1 1

c1 = 1.(-1)+1.(-1)+1.5+1.(-1)+1.(-1)+1.5+1.(-1)+1.(-1)+1.5 = 9 c2 = 1.(-1)+1.(-1)+2.5+1.(-1)+1.(-1)+2.5+1.(-1)+1.(-1)+2.5 = 24

Figura 11 – Exemplo de convolução


zam a função de unidade linear retificada (rectified linear unit) (ReLU)descrita na Equação 2.5. Outro exemplo utilizado com frequência é afunção tangente hiperbólica descrita na Equação 2.6 e função sigmoiddescrita na Equação 2.7 sendo z representado na Equação 2.4.

z = (W T ú x) + b (2.4)

relu(z) = max(0, z) (2.5)

tanh(z) = e

z ≠ e

≠z

e

z + e

≠z

(2.6)

sigm(z) = 11 + e

≠z

(2.7)

A etapa redução (também chamada subsampling) calcula a média oumáximo de uma vizinhança pré-determinada em cada um dos mapas decaracterísticas. O resultado é um outro mapa com resolução menor queproporciona invariação a pequenas translações. Zeiler e Fergus (ZEI-LER; FERGUS, 2013) demonstram um novo método para redução combase da distribuição das ativações em cada região. A Figura 12 mostraa aplicação da redução utilizando uma função MAX que seleciona omaior número em uma vizinhança 2◊2 sem sobreposição.

Ao término das etapas convolucionais, os mapas de caracterís-ticos são transformados de 2 dimensões para 1 dimensão e utilizados


) =(9

36 6

61

24 1 5

666

1

11

11

11

36 10f

Figura 12 – Exemplo de redução utilizando filtro MAX 2◊2 e deslo-cando 2◊2 (sem sobreposição).


no treinamento de um classificador totalmente conectado, com tama-nho de saída correspondente à quantidade de categorias ou classes. Oresultado do classificador passa então pela função softmax descrita naEquação 2.8 que garante que a soma de todas as probabilidades de saídada MLP resulta em 1, onde Y corresponde ao vetor de saída da MLP.A resposta final de qual categoria pode ser obtida através da seleçãodo item com maior probabilidade descrita na Equação 2.10.

softmax(yi

) = e

zi

qj‘Y

e

zj(2.8)

logsoftmax(yi

) = log(softmax(yi

)) (2.9)

y

n = argmaxP (Y = i|xn

, W, b) (2.10)Uma das formas de efetuar o treinamento da rede é utilizando o algo-ritmo de gradiente descendente estocástico (stochastic gradient descent- SGD) para minimizar a diferença entre a saída da CNN e a saídadesejada. O algoritmo SGD procura encontrar o valor mínimo de umafunção utilizando um processo iterativo com base no gradiente. O gra-diente de uma função é definido por um vetor de derivadas parciais.Como o gradiente sempre aponta para o valor máximo, e o objetivo éencontrar o valor mínimo da função, atualizam-se os valores com baseno valor negativo do gradiente. Esta estratégia eventualmente levaráao valor mínimo global de uma função convexa. O algoritmo abaixodemonstra as etapas do SGD.

1. Inicialização: Escolha um ponto x0 como tentativa inicial.


2. Gradiente: Calcule o gradiente da estimativa v

i

= Òf(xi

) ondeÒf(x

i

) corresponde às derivadas parciais.

3. Atualização: Atualize os valores utilizando x

i+1 = x

i

≠ –v

i

. Onde– é um parâmetro de taxa de aprendizado (ou learning rate) de-finido manualmente para acelerar a atualização dos novos valoresa cada iteração.

4. Iteração: Repetir as etapas 2 e 3 até a função chegar próxima azero.

A diferença (ou erro) entre a saída da CNN e a saída desejada éobtida através da fórmula Negative Log Likelihood (NLL) demonstradana Equação 2.11. Utilizando o erro fornecido pela NLL são calculados osos gradientes e aplicados a cada camada utilizando o algoritmo de back-propagation. Todos os parâmetros são atualizados durante a etapa detreinamento para cada imagem da base de treinamento. LeCun (1998)detalha o procedimento de treinamento. A arquitetura da CNN é defi-nida através da quantidade blocos contendo as três etapas demonstra-das (convolução pelos filtros, aplicação da função não linear e redução).A literatura não especifica uma arquitetura padrão, a quantidade decamadas necessárias está diretamente relacionado com do número dehierarquias de características necessário para representar e reconhecera base de imagens a ser trabalhada. Uma base de imagens com cate-gorias altamente distintas precisam de uma representação interna maissimples, enquanto bases onde diferentes categorias são muito pareci-das necessitam de uma nível de representações internas maior para sercapaz de distinguir uma categoria da outra.

l(xn

, T

n) = ≠log(P (Y = t

n|xn

, W, b)) (2.11)

Devido à grande quantidade de parâmetros de uma CNN é possível aocorrência do problema de overfitting. O overfitting ocorre quando arede neural é capaz de classificar as imagens de treinamento com exati-dão, mas falha ao tentar classificar novas imagens. Para tentar minimi-zar este problema é comum a utilização de técnicas de regularização. Aregularização tem o objetivo de reduzir a quantidade de neurônios ati-vos quando uma determinada característica está presente na imagem.Imagine se todos neurônios do cérebro humano fossem ativados quandouma imagem fosse vista, um rosto por exemplo. Seria extremamenteexaustivo mentalmente. De forma semelhante ao córtex visual dos ma-míferos, o objetivo é que apenas pequenas porções de neurônios sejamativadas de acordo com as características observadas na imagem. A


técnica proposta por (HINTON et al., 2012) chamada Dropout procuradesativar aleatoriamente um conjunto de neurônios a cada iteração detreinamento. Com menos ativações é reduzido o problema de overfittingforcando cada camada da rede a se especializar em uma determinadacaracterística de forma mais distinta. A Figura 13 mostra um exemplodos filtros aprendidos com e sem a utilização do Dropout. É possível ob-servar que, utilizando esta técnica, as características aprendidas pelosfiltros serão muito mais distintas.

Figura 13 – Exemplo de filtros aprendidos na base MNIST (a) sem dro-pout (b) utilizando Dropout (HINTON et al., 2012).

De acordo com o autor, o Dropout pode ser utilizado nas ca-madas totalmente conectadas de uma CNN e/ou em conjunto com ascamadas convolucionais após a convolução dos filtros.

As redes neurais convolucionais proporcionam melhorias emrelação as redes totalmente conectadas, como a MLP, proporcionandouma redução nos parâmetros necessários através da utilização de pe-sos compartilhados e um certo grau de invariância a translação obtidoatravés da etapa de redução (subsampling). Apesar de resolver estesproblemas, novas questões emergem da nova arquitetura proposta pelasredes convolucionais. Tais como, quantos filtros são necessários em cadacamada convolucional? Qual é o melhor tamanho de redução? Quan-tas camadas convolucionais (contendo convolução, ativação não linear eredução) são necessárias? Quantos neurônios nas camadas totalmenteconectadas? No atual estágio deste trabalho não foram identificadassoluções concretas para estas perguntas, sendo a definição destes parâ-metros realizados com base em procedimento empírico.

2.7. Floresta de Caminhos Ótimos (Optimum-path Forest - OPF) 43

2.7 Floresta de Caminhos Ótimos (Optimum-path Forest -OPF)

O OPF é um framework baseado em grafos com o objetivode realizar a segmentação do espaço de características no contexto dereconhecimento de padrões. A motivação principal para criação desteframework é oferecer algoritmos que possuam um melhor desempenhona etapa de treinamento se comparado a outros classificadores comomáquinas de vetor de suporte e redes neurais perceptron multicamadas.

No classificador supervisionado desenvolvido por Papa et. al.(2009) o vetor de características do problema de reconhecimento de pa-drões é representado como um nó em um grafo. O objetivo principal éparticionar este grafo agrupando cada amostra na partição correspon-dente à classe a qual ela pertence. Todas as amostras de uma mesmaclasse devem ser agrupadas em uma mesma partição. O primeiro passopara utilizar o classificador baseado em OPF é escolher a relação de ad-jacência entres os nós. As principais são grafos completos e grafos KNN.Na relação baseada em grafos completos todos os nós estão interconec-tados, sendo esta, a versão mais utilizada. Na relação com grafos KNNé utilizado um algoritmo baseado nos k-vizinhos mais próximos paradeterminar a ligação entre os nós. A segunda etapa consiste na escolhados nós iniciais, chamados nós protótipos, que iniciarão o processo decompetição, conquistando os nós vizinhos, para determinar o partici-onamento do grafo. A conquista dos nós vizinhos consiste em atribuira classe do protótipo ao nó conquistado. A escolha dos nós protóti-pos pode acontecer de forma aleatória ou baseada em alguma outraheurística como por exemplos os nós mais próximos do centro de zo-nas de maior densidade no grafo. É necessário escolher pelo menos umprotótipo por classe, visto que é o protótipo que será responsável porrepresentar aquela classe no momento do particionamento do grafo. Oprocesso de conquista ocorre através da comparação de resultado en-tre o protótipo e o nó a ser analisado de acordo com o uma funçãoe distância ou custo. Após o treinamento classificador é uma florestade caminhos ótimos composta por diversas árvores de caminhos ótimosonde cada uma corresponde a uma classe. Cada exemplo de treinamentopertence a uma árvore de caminho ótimo onde a raiz é o protótipo maisfortemente conectado. A Figura 14 mostra a atribuição dos custos, otreinamento e classificação utilizando o OPF.

Ainda no estudo proposto por Papa et. al. (2009), são realiza-dos comparativos entre o OPF, SVM, redes neurais MLP e k-vizinhosmais próximos onde o OPF obteve o melhor resultado em 9 dos 16


Figura 14 – Exemplo de treinamento e classificação utilizando OPF.(a) Grafo completo. (b) Floresta de caminhos ótimos apóso treinamento com dois protótipos. A entrada (x,y) cor-responde ao custo e ao rótulo atribuído. (c) Exemplo deteste no momento da classificação conectado a todos osnós. (d) Exemplo de teste com atribuição da classe após aclassificação (PAPA; FALCãO; SUZUKI, 2009)

testes.

2.8 KMeans

O algoritmo de agrupamento KMeans foi primeiramente em-pregado por MacQueen (1967) onde o objetivo principal foi particionarum grupo de n observações em um conjunto de grupos de tamanhok onde cada observação pertença grupo mais próximo da média. Dadoum conjunto de observações (x1, x2, .., x

n

) onde cada observação corres-ponde a um vetor de dimensão d o objetivo é particionar as observaçõesem k grupos S = S1, S2, ..., S

k

onde k <= n minimizando a soma dos

2.9. Conjunto de Palavras Visuais (Bag of Visual Words) (BOVW) 45

quadrados de cada grupo confome a Equação 2.12.

a

S

rgmin

kÿ

i=1

kÿ

xj‘Si

Îx

j

≠ µ

i

Î2 (2.12)

onde µ

i

é a média das observações do grupo S

i

.A implementação mais comum acontece de forma iterativa e

realiza duas etapas, atribuição e atualização. Dado um grupo inicialde tamanho k de médias m1, m2, ..., m

k

o algoritmo executa as duasetapas até a convergência (quando as atribuições não mudam mais apósa atualização das médias ou a quantidade de mudanças estiver abaixode um limiar pré-definido). Na etapa de atribuição cada observação éatribuída a um grupo conforme a Equação 2.13.

S

(t)i

= {x

p

:...x

p

≠ m

(t)i

...26

...x

p

≠ m

(t)j

...2

’ j, 1 6 j 6 k} (2.13)

onde x

p

é atribuído a um grupo S

(t).Na etapa de atualização são calculadas as novas médias como

sendo os centroides das observações do grupo conforme a Equação 2.14.

m

(t+1)i

= 1---S(t)i

---

ÿ

xj‘S

(t)i

x

j

(2.14)

No KMeans, assim como nos demais métodos similares, não existe ga-rantia da convergência para um mínimo global. Para minimizar esteproblema é possível efetuar um número n de execuções (normalmente10) inicializando o algoritmo aleatoriamente e selecionando a iniciali-zação dos grupos que resulta na melhor classificação. Outro problemaenfrentado é o fato de o algoritmo ter uma complexidade exponencialno pior caso, resultando em um tempo de convergência muito elevadoem determinadas bases de dados. Para reduzir este problema o númerode iterações é limitado a um valor máximo.

2.9 Conjunto de Palavras Visuais (Bag of Visual Words) (BOVW)No algoritmo de conjunto de palavras visuais (bag of visual

words ou bag of features) (BOVW) cada imagem é representadas pormeio de um vetor de características. Este vetor pode ser extraído atra-vés de forma densa, onde o descritor é extraído da imagem completadividida em uma grade, ou através de pontos de interesse conformedemonstrado na Figura 15.


Figura 15 – Extração de descritores de forma densa e baseada em pon-tos de interesse. (a) Descritores extraídos através de pontode interesse. (b) Descritores extraídos de forma densa.


Após a extração dos descritores é realizada uma etapa de quan-tização, normalmente utilizando o algoritmo de agrupamento de dadosKMeans onde descritores que representam uma mesma área devem seragrupados em um mesmo conjunto. A Figura 16 mostra um exemplode diversos descritores de imagens diferentes que corresponde a umacaracterística semelhante.

Após a obtenção das palavras através da quantização dos ve-tores, cada vetor de cada uma das imagens é rotulado com a palavramais próxima. O histograma com a contagem de quantas palavras cadaimagem possui é gerado e normalizado. Ao término desta etapa cadaimagem passa a ser representada por um vetor contendo a quantidadede cada uma das palavras que a imagem possui. A etapa final consisteno treinamento de um classificador, normalmente uma SVM, para queesta aprenda a distinguir as diversas classes de imagens com base novetor de palavras. Em classificadores lineares, como é o caso da SVM,o treinamento pode ser feito criando uma SVM para cada categoriae treinando-a com exemplos da categoria desejada e exemplos aleató-rios não pertencentes a categoria desejada. Esta abordagem é chamadaum contra todos. O processo é repetido para todas as categorias e aotérmino, o número de máquinas de vetor de suporte correspondentes

2.9. Conjunto de Palavras Visuais (Bag of Visual Words) (BOVW) 47

Figura 16 – Exemplo ilustrando a localização de descritores em dife-rentes imagens mas que correspondem a uma mesma ca-racterística.


ao número de classes, cada uma responsável por determinar se o vetorpesquisado pertence ou não a uma classe específica. Outra abordagemmenos utilizada treina cada máquina de vetor de suporte entre duasclasses de imagens e ao término do treinamento, cada máquina de ve-tor de suporte poderá identificar entre duas classes.

Além da abordagem tradicional onde cada imagem gera umvetor contendo o histograma de palavras para a imagem toda, Lazeb-nik et. al. (2006) descrevem uma abordagem alternativa dividindo aimagem em setores e extraindo um histograma para cada setor. Destaforma, quanto maior forem as divisões dos setores, maior será a infor-mação correspondente à localização das características.

49

3TRABALHOS RELACIONADOS

Os trabalhos encontrados na literatura podem ser classificadosentre dois grupos de acordo com seus objetivos principais: (i) a recupe-ração de imagens semelhantes através da extração de características eda comparação de descritores utilizando uma função de distância; (ii)o reconhecimento ou classificação de objetos em uma imagem. Os tra-balhos relacionados ao primeiro grupo são conhecidos como Sistemasde Recuperação de Imagens por Conteúdo (Content-Based Image Re-trieval - CBIR). Torres e Falcão (2006) mostram algumas abordagenscomuns em sistemas CBIR onde um vetor é extraído das imagens deacordo com características como forma, textura, distribuição das cores.Em uma nova consulta, um vetor com as mesmas características é ex-traído da imagem consultada e comparado com os demais vetores decaracterísticas existentes na base através de uma função de distância.Os autores destacam ainda diversas aplicações nas áreas da medicina,sistemas de consultas de biodiversidade e livrarias digitais. Na pesquisade Datta et al. (2008) foram estudados 300 trabalhos de contribuiçõesem sistemas CBIR onde o autor destaca um crescimento da utilizaçãode técnicas de aprendizado de máquina combinados com descritoresartificiais para a obtenção de melhores resultados em sistemas CBIRaplicados em diversas áreas. Os descritores SIFT (LOWE, 2004), HOG(DALAL; TRIGGS, 2005a), FAST (ROSTEN; DRUMMOND, 2006),ORB (RUBLEE et al., 2011), MSER (MATAS et al., 2002) e SURF(BAY et al., 2008) são alguns exemplos de descritores artificiais locaisutilizados em algoritmos pertencentes tanto a sistemas CBIR quantode reconhecimento. Um bom descritor deve fornecer informações sobrea imagem e ser capaz de identificar pontos semelhantes, mesmo quandoduas imagens diferentes do mesmo objeto são comparadas. Um des-critor pode extrair características que sejam invariantes à iluminação,rotação, escala, translação e deformações através de diferentes ângu-los de visão. Mikolajczyk at al. (2005) realizam um comparativo entre

50 Capítulo 3. TRABALHOS RELACIONADOS

diversas técnicas para detecção de regiões de interesse em imagens dediferentes perspectivas e mostram um bom desempenho do algoritmoMSER. Liu et al (LIU; ROSENBERG; ROWLEY, 2007) descrevemem seu artigo um algoritmo para a criação de agrupamentos (clus-ters) contendo milhares de imagens semelhantes utilizando k-vizinhosmais próximos (KNN). Além da utilização de informações retiradas daprópria imagem, os mecanismos de busca utilizam informações sobre acredibilidade da página na qual a imagem está inserida, adquirida atra-vés do conteúdo textual, atualizações, links de referências, entre outrosfatores, como indicativos de agrupamento de imagens e retorno de bus-cas (JING; BALUJA, 2008). Além de auxiliar na busca por imagensem uma pesquisa, algumas técnicas de agrupamento e identificação depadrões são usadas com o objetivo de identificar e remover conteúdoadulto dos resultados das buscas. Esta análise leva em consideraçãoquestões como a coloração da pele e detecção de rostos. A classifica-ção ocorre por uma SVM treinada com os dados extraídos das imagens(ROWLEY; JING; BALUJA, 2006). Diferentes requisitos e caracterís-ticas das imagens do domínio trabalhado podem resultar na utilizaçãode técnicas diferentes para extração das características e classificação.

Os trabalhos para reconhecimento e classificação de objetos emuma imagem utilizam descritores ou filtros para a extração de carac-terísticas, seguida de uma etapa de quantização e agrupamento pararedução da dimensionalidade e, por último, uma etapa de classificação.Estes algoritmos podem, por sua vez, serem subdivididos em duas ca-tegorias: algoritmos de estágio de extração de características único ealgoritmos de dois ou mais estágios (JARRETT; KAVUKCUOGLU;LECUN, 2009).

3.1 Algoritmos de estágio único

A utilização dos valores de intensidade dos pixels não ofere-cem um bom resultado quando combinados com um classificador linear(WALLRAVEN; CAPUTO; GRAF, 2003) para o reconhecimento deimagens. Wallraven, Caputo e Graf (2003) demonstram ainda que des-critores baseados em características locais superam descritores globaisbaseados em cores quando combinados com um classificador linear.

Algoritmos com descritores locais possuem um tamanho variá-vel, de acordo com a quantidade de pontos chaves considerados estáveisencontrados na imagem. Esta característica impede a sua utilização emclassificadores que possuem a necessidade de um vetor de caracterís-ticas com tamanho fixo como SVM e redes neurais. Outro problema

3.1. Algoritmos de estágio único 51

encontrado é que a quantidade de pontos chaves pode ser muito grandeem imagens com uma resolução alta. Uma forma de obter um vetorde características fixo é realizar a quantização e criação de um histo-grama com base em características dos pontos chaves. Esta abordagemé descrita na seção 4.2. Apesar de ser uma técnica simples, durante oprocesso de quantização e criação do histograma com base nos descri-tores, informações como localização e correlação são perdidas.

A técnica de BOVW, derivada da técnica amplamente utilizadana extração de informações de documento de texto (conhecida comobag of words), consiste em extrair características de regiões da imagem,agrupando-as de acordo com as suas semelhanças. Características seme-lhantes devem ser marcadas como pertencentes a um mesmo grupo, quesão denominados palavras. O conjunto de palavras encontrado formaum dicionário, no qual todos os descritores da imagem são rotulados.Após a rotulação é extraído um histograma que consiste na contagemde palavras de cada tipo na imagem. O histograma forma um vetorde características onde a distância entre imagens de uma mesma classedeve ser menor do que a distância entre imagens de diferentes classes.A última etapa é responsável pelo treinamento de um classificador paraque este aprenda a distinguir entre as diferentes classes com base nohistograma. O processo de encontrar o dicionário de palavras pode uti-lizar o algoritmo KMeans (HARTIGAN; WONG, 1979) onde o númerode palavras precisa ser informado. Um estudo utilizando a versão nãosupervisionada do algoritmo de Floresta de Caminhos Ótimos (OPF),como substituto do KMeans, mostrou bons resultados comparando aetapa de classificação entre um classificador bayesiano e a versão su-pervisionada do OPF (AFONSO et al., 2012). O estudo mostra aindaa obtenção do tamanho do dicionário de forma automática pelo OPFnão supervisionado.

Na abordagem BOVW, as informações relacionadas à localiza-ção são perdidas. Para explorar esta informação (LAZEBNIK; SCH-MID; PONCE, 2006) divide a imagem em sub regiões e extrai o histo-grama de palavras de cada região na técnica conhecida como PyramidMatch Kernel SVM (PMK-SVM). Quanto maior for o número de subdi-visões, maior é a informação correspondente à localização das palavrasencontradas na imagem. A Figura 17 mostra a divisão da imagem emtrês níveis. As cruzes, losangos e círculos representam as palavras naimagem e, para cada região subdividida, é gerado o histograma corres-pondente à quantidade de palavras naquela região. Como cada regiãoé representada por um histograma, a informação de localização das ca-racterísticas é mantida, ainda que de forma simplificada. Quanto maior


o número de regiões subdivididas, maior a resolução da localização dascaracterísticas na imagem. Quanto maior a resolução da localização,maior também o tamanho do vetor de características.

As características foram extraídas de forma densa, onde a ima-gem é dividida em grade e o descritor SIFT é extraído de todas asáreas da imagem e não somente dos pontos de interesse. A extração decaracterísticas de forma densa é mais eficiente na classificação de cenas(LI; PERONA, 2005).

Figura 17 – Divisão da imagem na pirâmide espacial (LAZEBNIK;SCHMID; PONCE, 2006).

3.2 Algoritmos de dois ou mais estágiosA possibilidade de treinar redes neurais com múltiplas camadas

intermediárias despertou o surgimento de diversos algoritmos agrupa-dos em uma área conhecida como deep learning.

O objetivo principal dos algoritmos que utilizam dois ou maisestágios é aprender não apenas a distinguir as classes com base em des-critores artificiais, mas aprender os próprios descritores com base nosdados brutos, no caso de imagens, os próprios valores dos pixels. Estu-dos realizados por Jarret et. al (2009) mostram que algoritmos de doisestágios obtiveram um desempenho similar ao PMK-SVM, mesmo embases com poucos exemplos como a Caltech 101. Os autores ainda co-locam que algoritmos desta categoria podem melhorar seu desempenhoutilizando redes com múltiplas camadas. Outra vantagem importante

3.2. Algoritmos de dois ou mais estágios 53

que deve ser destacada é a capacidade de aprender representações emníveis hierárquicos semânticos mais elevados. Os experimentos reali-zados por Jarret et. al. (2009) mostram que a utilização de norma-lização e de uma função de ativação retificada, neste caso a função"abs(tanh(x))", melhoram significativamente o desempenho na classi-ficação. São efetuados ainda comparativos inicializando os filtros darede convolucional de forma aleatória e não supervisionada. A Tabela1 mostra o resultado do comparativo de desempenho de uma rede deuma (Single Stage System) e duas (Two Stage System) camadas con-volucionais. A utilização de uma função retificada é identificada porR

abs

. A utilização de normalização de contraste local é identificada porN . Na etapa de redução são comparados o max pooling P

M

, que reduza dimensionalidade com base no valor máxima de uma vizinhança e oaverage pooling P

A

que efetua a redução com base na média dos va-lores. São comparados os filtros da rede neural inicializados de formaaleatória R ou de forma não supervisionada U . Jarret et. al. (2009)ainda efetuam um comparativo referente ao ajuste fino da rede convo-lucional representado por +. Na rede com o ajuste fino a rede inteira étreinada em uma base supervisionada, mesmo quanto utilizando filtrosnão supervisionados. Na rede sem o ajuste fino os filtros não sofrem al-terações, sendo efetuado o treinamento apenas das camadas totalmenteconectadas do final da rede.

É possível observar que a rede neural convolucional com a fun-ção de retificação resultou em um aumento significativo no desempe-nho passando de 18, 5% (N e P

A

) para 54, 2% (N , P

A

e P

abs

) na redede uma camada convolucional utilizando filtros não supervisionados eajuste fino (U+). Um ganho expressivo também é observado em umaarquitetura com duas camadas convolucionais.

Redes neurais convolucionais vêm sendo utilizadas a vários anosno reconhecimento de imagens, tento obtido grande sucesso no reco-nhecimento de caracteres (CUN et al., 1990). Estudos mais recentesutilizando redes neurais convolucionais conhecidas como Deep Convo-lutional Neural Networks (CNN) obtiveram o novo estado da arte noreconhecimento de objetos em bases CIFAR-10 e NORB (CIRESAN;MEIER; SCHMIDHUBER, 2012).

De forma geral as CNN são treinadas de forma supervisionada,mas trabalhos sugerem que o pré-treinamento da CNN com filtros ob-tidos de forma não supervisionada apresentam um melhor resultado(KAVUKCUOGLU et al., 2012).

A criação de camadas intermediárias em redes neurais resultano crescimento no números de parâmetros a serem treinados. Se uma


Tabela 1 – Resultados do comparativo entre variações de redes neuraisconvolucionais (JARRETT; KAVUKCUOGLU; LECUN,2009).

rede neural possuir muitos parâmetros e poucos exemplos para trei-namento pode sofrer de um problema conhecido como overfitting. Ooverfitting ocorre quando a rede neural aprende o suficiente para clas-sificar os exemplos de treinamento de forma muito precisa, mas falha aoclassificar novos exemplos. Para reduzir a chance disto ocorrer, são utili-zadas abordagens como aumento dos exemplos de treinamentos atravésda inclusão de imagens existentes levemente modificadas artificialmentecom rotações e escalas. Esta técnica é conhecida como aumento de da-dos. Abordagens mais sofisticadas, utilizando uma técnica denominadaDropout, obtiveram uma taxa de erro de 16,6% na base CIFAR-10, com-parado ao estado da arte anterior de 18,5% utilizando apenas o aumentode dados (HINTON et al., 2012). Zeiler e Fergus (2013) mostram que aseleção de ativações de forma estocástica na etapa de pooling em umatécnica denominada Stochastic Pooling pode melhorar ainda mais osresultados atingindo 15,12% de erro na base CIFAR-10. De acordo comZeiler e Fergus (2013), as estratégias de Stochastic Pooling e Dropoutpodem ser combinadas para a obtenção de resultados ainda melhores.Tang (TANG, 2013) aborda ainda a substituição da função softmaxnormalmente utilizada em redes neurais convolucionais por uma SVMe reporta a taxa de erro de 11,9%. Goodfellow et. al. (2013) propõeum novo método chamado Maxout combinado com o Dropout obtendo

3.2. Algoritmos de dois ou mais estágios 55

o erro de 11,68% sem utilizar o aumento de dados e 9,35% utilizandocom translações e espelhamento horizontal das imagens.

No trabalho realizado por Sermanet et al. (2013) é apresentoum framework utilizando CNN para efetuar o reconhecimento, localiza-ção e detecção de imagens sendo o vencedor do campeonato ImageNetLarge Scale Visual Recognition Challenge 2013 (ILSVRC2013). A baseILSVRC2013 consiste em 1,2 milhão de imagens divididas em 1000 ca-tegorias.

Uma característica importante da CNN é a capacidade de se-rem reutilizadas e refinadas para diferentes bases. No trabalho realizadopor Razavian et. al. (2014) a CNN Overfeat (SERMANET et al., 2013)é utilizada para extração de um descritor de diferentes bases de imagensna qual a CNN não foi originalmente treinada. Os descritores são entãoclassificados utilizando um classificador linear SVM. Os resultados de-monstram um desempenho compatível com o estado da arte, mesmo secomparado com algoritmos que utilizam imagens segmentadas manu-almente, procedimento que não é necessário quando utilizada a CNN,e treinados especificamente na base analisada.

57

4DESENVOLVIMENTO DA SOLUÇÃO

Nesta seção são detalhados os algoritmos implementados como objetivo de efetuar a identificação de produtos a partir de uma ima-gem. São detalhadas as abordagens utilizando a estratégia de conjuntode palavras visuais, redes neurais convolucionais e redes neurais convo-lucionais como descritores naturais.

4.1 Conjunto de Palavras Visuais

O algoritmo utilizando a estratégia de conjuntos de palavrasvisuais (BOVW) possui cinco etapas, sendo elas: pré-processamento,extração de características, agrupamento, criação do histograma (ouvetor de características) e classificação. Na etapa de pré-processamentoas imagens são redimensionadas para um tamanho máximo mantendoas proporções. Desta forma a imagem é redimensionada até que o nu-mero de linhas ou colunas possuam o tamanho máximo sendo o outro,menor, ajustado proporcionalmente ao tamanho da imagem original. Ostamanhos avaliados foram de 64, 128, 256 e 512 pixels. Nesta etapa asimagens são convertidas do formato de cores RGB para escala em tonsde cinza variando de 0 a 255. Na segunda etapa é realizada a extraçãodas características utilizando a identificação de pontos de interesse ealgoritmos descritores. O extrator denso corresponde à divisão da ima-gem em uma grade de 16 ◊ 16 pixels e a extração de um vetor descritorde cada quadrante da grade. Nos demais são extraídos os descritoresapenas dos pontos de interesse identificados pelos algoritmos MSER,SIFT ou SURF.

Os descritores extraídos são então agrupados de acordo comuma função de distância entre eles. Os algoritmos agrupadores avalia-dos foram o KMeans e o OPF não supervisionado (OPF-U) utilizandoem ambos a distância Euclidiana exibida na Equação 4.1, onde A e

58 Capítulo 4. DESENVOLVIMENTO DA SOLUÇÃO

B correspondem aos dois descritores (vetores) a serem comparados, n

corresponde ao tamanho do vetor, i ao índice no vetor, a

i

ao elementodo vetor A na posição i e b

i

ao elemento do vetor B na posição i.

dist(A, B) =n≠1ÿ

i=0

Ò(a

i

≠ b

i

)2 (4.1)

Esta etapa de agrupamento é responsável pela criação do dici-onário de palavras onde descritores semelhantes são agrupados em umaúnica representação lógica chamada de palavra visual. Diante da grandequantidade de descritores extraídos e do tamanho das bases (algumascom mais de 10 mil imagens), o agrupamento de todos os descritores nainfraestrutura disponível para experimento tornaria a execução inviável.Para a realização dos experimentos foram selecionadas aleatoriamente500 imagens de cada base para a extração dos descritores. Dentre to-dos os descritores extraídos, foram selecionados aleatoriamente 5000. Oalgoritmo KMeans exige a especificação de um parâmetro informandoo tamanho do dicionário a ser criado, ou seja, qual a quantidade depalavras visuais o dicionário possui. O algoritmo OPF-U estabelece onúmero de palavras visuais automaticamente, porém, necessita de ou-tros parâmetros adicionais detalhados na seção 5. Os parâmetros doalgoritmo OPF-U que resultam no melhor tamanho de dicionário sãoobtidos através de experimentações. O melhor tamanho de dicionárioobtido no OPF-U é utilizado também no KMeans. Desta forma am-bos os algoritmos são executados com o mesmo tamanho de dicionário.São ainda realizados experimentos avaliando o impacto na acurácia noKMeans com os tamanhos de dicionário 50, 100, 200, 400, 600, 800,1000, 1200 e 1400. O objetivo é identificar a existência de um possí-vel valor de tamanho de dicionário no qual a acurácia do KMeans ésignificativamente superior ao OPF-U.

Com o dicionário de palavras visuais criado, são extraídos todosos descritores de todas as imagens da base de treinamento, identificadoa qual palavra visual o descritor pertence e criado um histograma con-tendo a quantidade de cada palavra visual na imagem analisada. Estehistograma é um vetor onde cada posição corresponde a uma palavravisual e seu valor corresponde a quantidade de palavras visuais daqueletipo na imagem. O processamento é realizados em todas as imagens detreinamento e o resultado é um histograma para cada imagem.

A última etapa consiste no treinamento de um classificadorlinear para que através do histograma de palavras visuais possa serdeterminada a categoria a qual a imagem pertence. São avaliados osclassificadores lineares SVM e OPF supervisionado (OPF-S).

4.2. Rede Neural Convolucional 59

Dada sua natureza aleatória, na seleção das imagens e dos des-critores, todos os experimentos são executados três vezes, sendo seusdesvios padrões também analisados. A Tabela 2 mostra a combinaçãode algoritmos de agrupação e classificadores analisados.

A Figura 18 mostra as etapas do algoritmo completo.

Tabela 2 – Agrupadores e classificadores analisados.

Agrupador ClassificadorKMeans SVMKMeans OPF-SOPF-U SVMOPF-U OPF-S

Cada um dos experimentos da Tabela 2 é executado com oconjunto de descritores mostrado na Tabela 3.

Tabela 3 – Descritores analisados.

Extrator de pontos de interesse DescritorSIFT SIFTMSER SIFTDenso SIFTSURF SURFDenso SURF

4.2 Rede Neural ConvolucionalO segundo algoritmo implementado consiste em uma rede neu-

ral com três camadas convolucionais, cada uma contendo a convolução,ativação não linear utilizando a função ReLU, conforme a Equação 4.3e a redução através do Maxpooling. As duas últimas camadas são com-postas por neurônios totalmente conectados.

Cada camada convolucional é composta pela convolução porum filtro conforme a Equação 4.2. Na equação é mostrada a convolu-ção de uma imagem ou mapa de características de tamanho N ◊N por


Figura 18 – Modelo do sistema de reconhecimento utilizando KMeanse OPF-U para agrupamento e SVM e OPF-S para classifi-cação.

Aquisição Base de teste

Seleção aleatória de imagens

Pré-processamento(Ajuste de tamanho máximo)

Identificação de pontos de interesse(Denso, SIFT, SURF, MSER)

Extração e descrição das características(SIFT, SURF)

Seleção aleatória de descritores

Agrupamento e criação do dicionário(KMeans, OPF-U)

Extração do histograma de palavrasde todas as imagens da base de treinamento

Classificação(SVM, OPF-S)

CategoriaA

CategoriaB

Categoria...


4.2. Rede Neural Convolucional 61

Tabela 4 – Arquitetura da rede neural convolucional proposta.

Camada 1 2 3 4 5Tipo de estágio Conv Conv Conv Total TotalTam. de entrada 3 52 256 512 256Num. de canais 52 256 512 256 no categoriasTam. do filtro 5◊5 5◊5 3◊3 - -Tam. de redução 2◊2 2◊2 2◊2 - -

um filtro “ de tamanho m ◊ m. A saída terá tamanho (N ≠ m + 1) ◊(N ≠ m + 1). O l corresponde a localização do mapa e do filtro na rede.A aplicação da função não linear ReLU é exibida na Equação 4.3. Naúltima parte da camada convolucional é realizada a redução. Na redu-ção é utilizada uma região de tamanho k ◊ k onde a saída correspondeao valor máximo nesta região. Como cada bloco de tamanho k ◊ k éreduzido a um único valor, desta forma a saída da etapa de redução deuma imagem de tamanho N ◊ N será de tamanho N

k

◊ N

k

.

x

l

ij

=m≠1ÿ

a=0

m≠1ÿ

b=0Ê

ab

“

l≠1(i+a)(j+b) (4.2)

ReLU(x) = max(0, x) (4.3)

A arquitetura proposta foi obtida através de experimentaçõesvisando uma CNN funcional com as bases a serem analisadas e compa-tível com a capacidade computacional disponível para a realização dosexperimentos.

Para o treinamento da CNN foi utilizada a função Softmax e oalgoritmo backpropagation.

A Figura 19 mostra o fluxo de execução do algoritmo. A ca-mada convolucional 1 tem como entrada os 3 canais de cores da imagem(RGB ou YUV). É realizada a convolução por 52 filtros, a associaçãoentre o canal de cor e o filtro a ser realizada a convolução é atribuídaaleatoriamente de forma que cada canal de cor seja processado por pelomenos um filtro. Após a convolução é aplicada a função ReLU seguidada redução através do valor máximo de vizinhança 2 ◊ 2. O processo serepete na camada convolucional 2 com 256 filtros e na camada convolu-cional 3 com 512 filtros. Após o processamento da camada convolucional3 são obtidos 512 mapas de tamanho 1 ◊ 1. Esses mapas são reorga-


nizados em um vetor para treinamento de uma rede neural totalmenteconectada com 256 neurônios de saída onde é aplicado o Dropout em50% das conexões. A última etapa consiste em uma rede neural to-talmente conectada entre as 256 ativações e o número de neurônioscorrespondente a quantidade de classes na base a ser processada (36 naRecogProd e 101 na base Caltech101).

Inspirado pelo trabalho de Dundar 1 os experimentos são re-alizados utilizando os espaços de cores RGB e YUV. No experimentoutilizando o espaço de cores YUV, é efetuada a normalização local docanal Y utilizando um filtro de tamanho 7. Os canais U e V são nor-malizados realizando a subtração pela média e a divisão pelo desviopadrão. Os experimentos utilizando o espaço de cores RGB realizam anormalização dos canais R, G e B subtraindo a média e dividindo pelodesvio padrão.

4.3 CNN como Descritor Natural

A CNN dispõe de uma propriedade ainda pouco explorada co-nhecida como transferência de conhecimento. Esta propriedade remeteao fato de uma CNN poder ser treinada em uma base de imagens A

(sendo assim, seus pesos são ajustados para classificação da base A)sendo os pesos do aprendizado (e filtros nas CNN) considerados ge-néricos o suficiente para serem usados no treinamento de uma novabase B. Inspirado no trabalho de Razavian et al. (2014) é realizado umexperimento reutilizando a CNN Overfeat (SERMANET et al., 2013),previamente treinada na grande base de imagens ImageNet, para ex-trair um descritor para cada imagem da nova base. Após a extração,os descritores são classificados usando os classificadores lineares SVM eOPF-S conforme o algoritmo. A Figura 20 monstra o procedimento detreinamento de uma CNN em uma base A. A Figura 21 mostra a utili-zação da parte convolucional da rede pré-treinada para o treinamentode uma nova base B.

Treinar uma nova CNN de mesmo tamanho seria inviável comos recursos computacionais disponíveis para a execução deste trabalhosendo assim, visto que os códigos e arquivos de pesos da rede pré-treinada CNN Overfeat (SERMANET et al., 2013) foram disponibi-lizados pelos autores para utilização acadêmica, estes serão utilizadospara a extração do vetor de características para o treinamento do clas-sificador linear. A CNN Overfeat é disponibilizada em duas versões,1 Mais informações em <https://www.youtube.com/watch?v=

n6hpQwq7Inw&index=8&list=PL64qaUsR2LROSOeaNnkUSqiqv4pseLcSZ>

https://www.youtube.com/watch?v=n6hpQwq7Inw&index=8&list=PL64qaUsR2LROSOeaNnkUSqiqv4pseLcSZ

https://www.youtube.com/watch?v=n6hpQwq7Inw&index=8&list=PL64qaUsR2LROSOeaNnkUSqiqv4pseLcSZ

4.3. CNN como Descritor Natural 63Fi

gura

19–

Mod

elo

doal

gorit

mo

dere

conh

ecim

ento

CN

N.

ReL

u

Imag

em 3

2 x

32

(RG

B ou

YU

V)

Con

volu

ção

por

52 fi

ltros

re

sulta

ndo

em

52 m

apas

de

cara

cter

ístic

as

Con

volu

ção

por

256

filtro

s re

sulta

ndo

em

256

map

as d

e ca

ract

erís

ticas R

eorg

aniz

ação

(reshape)

de ta

man

ho51

2

Red

e ne

ural

tota

lmen

te

cone

ctad

aco

m fu

nção

de

ativ

ação

ReL

u

Red

e ne

ural

tota

lmen

te

cone

ctad

aco

m fu

nção

de

ativ

ação

ReL

u

Saíd

a da

re

de n

eura

l ap

lican

do a

fu

nção

SoftM

ax

Tam

anho

256

52 m

apas

de

cara

cter

ísic

a(fe

atur

e m

ap)

ReL

u

ReL

u

Cam

ada

Con

volu

cion

al 1

Red

ução

2x2

(sub

sam

plin

g)52

map

as

de ta

man

ho14

x 1

4

Ativ

ação

nã

o lin

ear

com

funç

ão

ReL

u

256

map

as d

e ca

ract

erís

ica

(feat

ure

map

)

Cam

ada

Con

volu

cion

al 2

Red

ução

2x2

(sub

sam

plin

g)

256

map

as

de ta

man

ho5

x 5

Ativ

ação

nã

o lin

ear

com

funç

ão

ReL

u

ReL

u

ReL

u

512

map

as d

e ca

ract

erís

ica

(feat

ure

map

)

Cam

ada

Con

volu

cion

al 3

Red

ução

2x2

(sub

sam

plin

g)51

2 m

apas

de

tam

anho

1 x

1

Ativ

ação

nã

o lin

ear

com

funç

ão

ReL

u

ReL

u

ReL

u

Dro

pout

em 5

0% d

as25

6 at

ivaç

ões

Saíd

a(n

úmer

ode

cat

egor

ias)

Font

e:pr

oduç

ãodo

próp

rioau

tor.


Figura 20 – Exemplo de treinamento de uma CNN em uma base A.

Base A

Camadas convolucionais

Convoluções Redução(subsampling)

Vetor de

características

ClassificadorLinear

Saída(número

de categoriasda Base A)

Figura 21 – Reutilização da CNN pré-treinada para treinamento deuma nova base B.

Base B

Rede Convolucional anterior pré treinada

Convoluções Redução(subsampling)

Vetor de

características

Novo ClassificadorLinear

(SVM, OPF-S)

Saída(número

de categoriasda Base B)

uma menor, com execução mais rápida e uma maior com uma acuráciasuperior. A CNN menor possui 5 camadas convolucionais e 3 camadasconectadas com arquitetura descrita na Tabela 5. A CNN maior pos-sui 6 camadas convolucionais e 3 camadas totalmente conectadas e édetalhada na Tabela 6.

Para a realização dos experimentos é utilizada a versão menorda CNN Overfeat. Esta versão foi utilizada por ser a única capaz de serexecutada nas máquinas disponíveis para o trabalho em função da limi-tação de 4Gb de memória. As imagens da nova base a ser classificada,em formato RGB, são processadas pela rede e a saída da sexta camadaé capturada. Este vetor com 4096 posições é considerado o descritornatural. Ao término da extração dos descritores naturais de todas asimagens é treinado um classificador SVM e OPF-S.

4.4. Avaliação 65

Tabela 5 – Arquitetura Overfeat da CNN menor (SERMANET et al.,2013)

Camada 1 2 3 4 5 6 7 8Tipo de estágio Conv+Max Conv+Max Conv Conv Conv+Max Total Total TotalTam. de entrada 231x231 24x24 12x12 12x12 12x12 6x6 1x1 1x1Num. de canais 96 256 512 1024 1024 3072 4096 1000Tam. do filtro 11x11 5x5 3x3 3x3 3x3 - - -Tam. de redução 2x2 2x2 - - 2x2 - - -

Tabela 6 – Arquitetura Overfeat da CNN maior (SERMANET et al.,2013)

Camada 1 2 3 4 5 6 7 8 9Tipo de estágio Conv+Max Conv+Max Conv Conv Conv Conv+Max Total Total TotalTam. de entrada 231x231 36x36 15x15 15x15 15x15 15x15 5x5 1x1 1x1Num. de canais 96 256 512 512 1024 1024 4096 4096 1000Tam. do filtro 7x7 7x7 3x3 3x3 3x3 3x3 - - -Tam. de redução 3x3 2x2 - - - 3x3 - - -

4.4 Avaliação

A avaliação dos resultados dos experimentos é realizada combase nos seguintes dados:

• Acurácia

• F1

• Tempo total por base de imagem

• Tempo de classificação

• Tempo de agrupamento

• Tempo de classificação em relação à quantidade de imagens nabase

• Tempo de grupamento em relação à quantidade de descritores

A Equação 4.4 mostra como é realizado o cálculo da acurácia.

acurácia = TP + TN

TP + FP + FN + TN

(4.4)


onde TP , TN , FP , FN correspondem aos verdadeiros positivos, ver-dadeiros negativos, falsos positivos, falsos negativos respectivamente.

A acurácia não considera categorias com diferentes tamanhos,para efetuar uma análise mais detalhada de bases onde as categoriaspossuem uma grande diferença na quantidade de imagens (como a Cal-tech) é utilizada a fórmula F1 conforme descrita na 4.5.

F1 = 2 P.R

P + R

(4.5)

onde P corresponde à precisão conforme mostrado na Equa-ção 4.6 e R à revogação exibido na Equação 4.7:

P = TP

TP + FP

(4.6)

R = TP

TP + FN

(4.7)

4.5 Bases de Imagens

Com o objetivo de efetuar comparações entre as soluções pro-postas e as soluções existentes na literatura, são utilizadas bases pú-blicas Caltech 101 e uma base criada pelo autor (RecogProd) a partirde imagens de produtos. As bases escolhidas são consideradas basesnaturais e refletem objetos em diferentes condições como ângulos devisualização, iluminação, escala, rotação e contendo objetos de umamesma classe com características distintas.

4.5.1 Caltech

Base composta por 101 classes contendo entre 40 e 827 imagenspor classe (média de 50 imagens por classe). A Figura 22 mostra algunsexemplos.

4.5.2 Base criada - RecogProd

A base de treinamento RecogProd criada pelo autor é com-posta por 36 categorias contendo aproximadamente 350 imagens cada.Para teste, foi criada uma base contendo 10 imagens por categoria nãopertencentes à base de treinamento. Foram selecionadas imagens deprodutos a partir de sites de vendas de produtos na internet a partirda seleção de algumas categorias. Imagens não relacionadas à categoria

4.6. Implementação 67

Figura 22 – Exemplos de imagens de 3 classes da base Caltech 101.

foram manualmente removidas. A Figura 23 mostra um exemplo de trêscategorias. É possível observar que a base possui exemplos de produtoscom uma grande variação de características, mesmo pertencendo a umamesma categoria.

4.6 Implementação

Com o objetivo de viabilizar a implementação do trabalho pro-posto foram utilizadas as seguintes bibliotecas de software livre:

• OpenCV2

• Torch73

• Overfeat 4

2 A biblioteca OpenCV versão 2.4.9 está disponível em http://opencv.org

3 A biblioteca Torch7 está disponível em http://torch.ch/

4 A biblioteca Overfeat está disponível em http://cilvr.nyu.edu/doku.php?id=code:start


ar_condicionado_split

arranjo_flores

bolsa_feminina

cadeira_escritorio

brinquedo_boneca

cafeteira

calca_jeans

cama

camera

camisa_masculina

camiseta_masculina

chinelo

cortador_grama

fogao

fone_de_ouvido

geladeira

guarda_roupa

guitarra

hometheater

impressora

lavadora_roupa

microondas

mochila

notebook

oculos_grau

oculos_sol

piscina_plastica

relogio_pulso

sapatilha

sapato_feminino

sapato_masculino

smartphone

sofas

tenis

tv

vestido

Figura 23 – Categorias e exemplos e imagens da base RecogProd.

• Scykit Learn 5

Os experimentos foram realizados no laboratório da UDESCutilizando 5 computadores idênticos em configuração e hardware e soft-ware. Os experimentos foram realizados em computadores com proces-sador AMD Phenom II X4 B93 2.8GHz, 2MB L2 cache, com 4GB dememória DDR3 1333 MHz.

5 A biblioteca Scykit Learn está disponível em http://scikit-learn.org/stable/

69

5

EXPERIMENTOS, RESULTADOS EDISCUSSÕES

Este capítulo discute os resultados dos experimentos realizados,bem como busca identificar as respostas para os objetivos específicosdescritos na Seção 1.1.2. Um dos parâmetros mais importantes na ava-liação da acurácia é o tamanho do dicionário utilizado nos algoritmosde conjunto de palavras visuais (BOVW). O algoritmo de floresta decaminhos ótimos não supervisionado (OPF-U) determina o melhor ta-manho de dicionário durante o seu processamento, porém depende deparâmetros tais como a função de distância e parâmetros do algoritmok-vizinhos mais próximos (KNN) utilizado pelo OPF-U para a obtençãodos agrupamentos (clusters) (ROCHA; CAPPABIANCO; FALCÃO,2009). Uma série de experimentos foram executados com o algoritmoOPF-U com o objetivo de encontrar empiricamente o conjunto de parâ-metros para a melhor acurácia. As tabelas com os parâmetros testadospode ser encontrada no Apêndice A, onde cada combinação de descritorfoi avaliada. Com a obtenção da melhor acurácia no processamento doOPF-U, o algoritmo estabelece também qual é o melhor tamanho dodicionário. Este tamanho de dicionário foi então, utilizado no processa-mento do algoritmo KMeans a fim de estabelecer uma comparação como mesmo tamanho de dicionários entre as duas formas de agrupamento.A Tabela 7 mostra os tamanhos de dicionários utilizados em cada ex-perimento. As tabelas e gráficos neste capítulo apresentam a média daacurácia e média do F1 onde 0 corresponde a acurácia ou F1 mínimo,e 1 a acurácia e F1 máximo. Cada experimento envolvendo as técnicasBOVW foi executado três vezes dada a natureza aleatória da seleçãodas imagens e descritores.

70 Capítulo 5. EXPERIMENTOS, RESULTADOS E DISCUSSÕES

Tabela 7 – Tamanhos de dicionários utilizados nos experimentos.

Base Descritor Localizador Tamanho do DicionárioKMeans + SVM KMeans + OPF-S

Caltech101SIFT

Denso 241 261MSER 638 1137SIFT 225 164

SURF Denso 346 274SURF 584 544

RecogProd(36 categorias)

SIFTDenso 332 271MSER 900 426SIFT 507 288












5.1 Avaliação de melhor acurácia na base Caltech101

Nesta seção são apresentados os resultados obtidos no proces-samento da base Caltech101. As Tabelas 8, 9, 10 e 11 mostram osresultados dos algoritmos BOVW. Na Tabela 8 é possível observar quea técnica utilizando KMeans para agrupamento e SVM para classifi-cação alcançou a acurácia máxima de 0,468 quando utilizados os des-critores MSER para a localização dos pontos de interesse e o descritorSIFT em imagens de tamanho de tamanho máximo 256 ◊ 256. A Ta-bela 9 mostra o resultado utilizando o agrupador KMeans em conjuntocom o classificador OPF-S (supervisionado). Os resultados utilizando oOPF-S mostram uma queda para 0,346 na média da acurácia quandoutilizando o classificador SVM. Outra observação importante é que omelhor resultado passa a ser a utilização da extração de forma densaem imagens de tamanho 512 ◊ 512 em vez do localizador MSER com

5.1. Avaliação de melhor acurácia na base Caltech101 71

imagens de tamanho 256 ◊ 256, resultando em 0,358.

Tabela 8 – Resultados - BOVW KMeans+SVM na base Caltech101.

Classificador Descritor Localizador Tamanho Acurácia Desvio Acurácia F1 Desvio F1

Kmeans+SVM

SIFT

Denso

64x64 0,315242 0,006928 0,280174 0,004886128x128 0,341032 0,006566 0,289139 0,006508256x256 0,309084 0,001764 0,246525 0,001436512x512 0,318707 0,005774 0,256059 0,003136

MSER

64x64 0,333718 0,018584 0,327440 0,020075128x128 0,410701 0,009956 0,386673 0,004610256x256 0,467667 0,020034 0,432281 0,022620512x512 0,436490 0,011015 0,405074 0,014116

SIFT

64x64 0,234682 0,011028 0,224259 0,009177128x128 0,268593 0,004377 0,239834 0,008449256x256 0,288247 0,009967 0,263495 0,013117512x512 0,282081 0,016185 0,258121 0,014210

SURF

Denso

64x64 0,255196 0,001155 0,216589 0,001771128x128 0,272517 0,003464 0,211914 0,004679256x256 0,258661 0,004000 0,210352 0,004405512x512 0,245958 0,002000 0,203421 0,002045

SURF

64x64 0,132510 0,007442 0,138172 0,006228128x128 0,301001 0,004808 0,277081 0,004389256x256 0,336413 0,012347 0,301869 0,012746512x512 0,344496 0,007334 0,295531 0,008709


Tabela 9 – Resultados - BOVW KMeans+OPF na base Caltech101.


Kmeans+OPF-S

SIFT

Denso

64x64 0,262510 0,008667 0,258621 0,008998128x128 0,308314 0,003464 0,301909 0,005764256x256 0,333718 0,006928 0,329186 0,011686512x512 0,358353 0,010089 0,344588 0,007546

MSER

64x64 0,280216 0,014111 0,274063 0,011848128x128 0,335643 0,004808 0,325337 0,003492256x256 0,346035 0,007056 0,337401 0,008541512x512 0,326405 0,015377 0,314493 0,017195

SIFT

64x64 0,160694 0,015029 0,168551 0,015892128x128 0,148748 0,008980 0,162933 0,009470256x256 0,167630 0,013028 0,183139 0,014642512x512 0,174566 0,013028 0,183796 0,015157

SURF

Denso

64x64 0,131255 0,008111 0,146147 0,006698128x128 0,168206 0,007689 0,190366 0,005909256x256 0,209777 0,008819 0,231838 0,009291512x512 0,256736 0,009334 0,246911 0,009961

SURF

64x64 0,111111 0,008642 0,115082 0,014819128x128 0,173210 0,004000 0,188602 0,006370256x256 0,250962 0,001333 0,265267 0,005975512x512 0,217860 0,009821 0,238308 0,007334


Os resultados utilizando o agrupador OPF-U na base Cal-tech101 são apresentados nas Tabelas 10 e 11. A Tabela 10 mostraos resultados dos experimentos utilizando o agrupador OPF-U com oOPF-S para classificação. O resultado com a melhor acurácia foi de0,251, obtido utilizando a extração de características de forma densa


com o descritor SIFT em imagens de tamanho 512◊512. Os resultadosutilizando o SVM para classificação apresentados na Tabela 11 mostramuma acurácia ligeiramente superior de 0,269 obtida utilizando imagensde tamanho 512 ◊ 512 com as características extraídas de forma densaem conjunto com o descritor SIFT.

Tabela 10 – Resultados - BOVW OPF-U+OPF-S na base Caltech101.


OPF-U+OPF-S

SIFT

Denso

64x64 0,154734 0,007211 0,168461 0,007770128x128 0,183603 0,009866 0,188935 0,014017256x256 0,243649 0,030288 0,244684 0,029531512x512 0,251732 0,062174 0,248288 0,056864

MSER

64x64 0,098922 0,017976 0,101812 0,024419128x128 0,177829 0,017926 0,182492 0,010955256x256 0,204773 0,030208 0,214812 0,022885512x512 0,223249 0,014622 0,220663 0,010867

SIFT

64x64 0,087476 0,008522 0,091505 0,008119128x128 0,083237 0,005298 0,087512 0,005227256x256 0,098266 0,013630 0,103562 0,015620512x512 0,110597 0,010742 0,113803 0,007736

SURF

Denso

64x64 0,118553 0,007860 0,130530 0,007817128x128 0,170516 0,004808 0,184140 0,002806256x256 0,224403 0,012772 0,237542 0,005156512x512 0,250577 0,006928 0,241735 0,005380

SURF

64x64 0,052263 0,003107 0,049463 0,004754128x128 0,133179 0,022192 0,142648 0,021377256x256 0,178599 0,002404 0,182042 0,002356512x512 0,178599 0,008744 0,173957 0,007334


Tabela 11 – Resultados - BOVW OPF-U+SVM na base Caltech101.


OPF-U+SVM

SIFT

Denso

64x64 0,073903 0,004619 0,086300 0,006728128x128 0,156659 0,005333 0,135545 0,005752256x256 0,220169 0,030668 0,184723 0,031151512x512 0,269438 0,005812 0,219100 0,003346

MSER

64x64 0,060046 0,004000 0,071209 0,007833128x128 0,136644 0,024775 0,136721 0,020518256x256 0,187452 0,043733 0,188269 0,039813512x512 0,193995 0,060213 0,192346 0,052076

SIFT

64x64 0,051638 0,009344 0,058052 0,006896128x128 0,044701 0,031392 0,041333 0,029087256x256 0,080154 0,046103 0,072481 0,045026512x512 0,108671 0,023035 0,105317 0,032306

SURF

Denso

64x64 0,117398 0,007860 0,125184 0,007392128x128 0,229792 0,015535 0,188934 0,009340256x256 0,258276 0,006960 0,206461 0,001461512x512 0,252887 0,012490 0,207398 0,007964

SURF

64x64 0,013992 0,001886 0,010586 0,001977128x128 0,063125 0,012667 0,066157 0,017957256x256 0,162048 0,012455 0,151194 0,008260512x512 0,183988 0,004667 0,174546 0,004339


Os resultados apresentados na base Caltech101 nos algoritmos

5.1. Avaliação de melhor acurácia na base Caltech101 73

BOVW mostram um desempenho muito superior do algoritmo de agru-pamento KMeans em relação ao algoritmo OPF-U. Em ambos os resul-tados é possível observar também uma acurácia ligeiramente superiordo algoritmo de classificação SVM em relação ao OPF-S.

As Tabelas 12 e 13 mostram os resultados obtidos com a CNNcriada e com a CNN como um descritor natural na extração de carac-terísticas, respectivamente. Os experimentos utilizando CNN e CNNcomo um descritor natural foram executados apenas uma vez cada de-vido a uma limitação de tempo e recursos computacionais para suaexecução.

A Tabela 12 mostra os resultados da CNN com imagens de ta-manho 32◊32 utilizando os espaços de cores YUV e RGB. Os resultadosdemonstram uma acurácia de 0,540 quando utilizado o espaço de coresYUV. A diferença na acurácia entre os espaços de cores YUV e RGBserá abordada mais a diante. Na Tabela 13 são apresentados os resul-tados dos algoritmos utilizando uma CNN como um descritor natural(utilizando a CNN Overfeat previamente treinada na base ImageNet)em imagens de tamanho 231 ◊ 231 e classificadas utilizando SVM eOPF-S. O melhor resultado foi obtido na utilização do SVM na clas-sificação com 0,855 de acurácia, sendo este o melhor resultado obtidoem todas as técnicas comparadas.

Tabela 12 – Resultados - CNN na base Caltech101.

Classificador Espaço de Cores Acurácia F1CNN YUV 0,540000 0,520248CNN RGB 0,480000 0,456500


Tabela 13 – Resultados - Overfeat na base Caltech101.

Classificador Características Acurácia F1SVM Overfeat 0,855658 0,850268OPF Overfeat 0,695150 0,690064


A Figura 24 mostra um gráfico com o comparativos dos melho-res resultados entre as técnicas BOVW, CNN e CNN como um descri-tor natural, onde fica evidente a superioridade, na acurácia, da CNN


Overfeat, utilizada como um descritor natural, em conjunto com o clas-sificador SVM.

Figura 24 – Acurácia na base Caltech101.


5.2. Avaliação de melhor acurácia na RecogProd 75

5.2 Avaliação de melhor acurácia na RecogProd

Nesta seção são apresentados os resultados obtidos no proces-samento da base RecogProd com 36 categorias. As Tabelas 14, 15,16 e 17 mostram os resultados dos experimentos para os algoritmosBOVW. A Tabela 14 mostra os resultados utilizando o algoritmo deagrupamento KMeans e o classificador SVM. A melhor acurácia foiobtida utilizando imagens de tamanho máximo 512 ◊ 512 com a locali-zação de pontos de interesse através do MSER e a descrição utilizandoSIFT, alcançando 0,587 de acurácia. Na Tabela 15 é exibido o resultadoutilizando o classificador OPF-S, onde a acurácia obtida foi de 0,499utilizando o descritor SIFT extraído de forma densa em imagens detamanho máximo 128 ◊ 128. O resultado ainda mostra uma acuráciasignificativamente menor do OPF-S comparado ao SVM.

Tabela 14 – Resultados - BOVW KMeans+SVM na base RecogProd(36 categorias).

Classificador Descritor Feature Tamanho Acurácia Desvio Acurácia F1 Desvio F1

Kmeans+SVM

SIFT

Denso

64x64 0,462963 0,016744 0,428392 0,019306128x128 0,459259 0,001604 0,424707 0,005002256x256 0,429630 0,004243 0,391260 0,005841512x512 0,439815 0,012526 0,400696 0,014195

MSER

64x64 0,511111 0,012108 0,502589 0,016387128x128 0,571296 0,005782 0,556441 0,008144256x256 0,576852 0,028373 0,565526 0,033532512x512 0,587963 0,020849 0,575198 0,024689

SIFT

64x64 0,286778 0,016837 0,265366 0,020617128x128 0,380556 0,020031 0,352178 0,024684256x256 0,399074 0,005782 0,370071 0,002573512x512 0,401852 0,013981 0,370227 0,011747

SURF

Denso

64x64 0,263889 0,016897 0,219511 0,017112128x128 0,323148 0,003208 0,257733 0,006861256x256 0,335185 0,005782 0,270660 0,006718512x512 0,337963 0,011226 0,269285 0,014718

SURF

64x64 0,335196 0,013981 0,308175 0,000785128x128 0,435185 0,013981 0,409474 0,011476256x256 0,443519 0,016276 0,413774 0,023098512x512 0,430556 0,012108 0,397902 0,008709


A Tabela 16 mostra os resultados utilizando o agrupador OPF-U e o classificador SVM onde a melhor acurácia, de 0,328, foi obtidautilizando o descritor SURF extraído de forma densa em imagens detamanho máximo 512◊512. Ao utilizar o classificador OPF-S, demons-trado na Tabela 17, a melhor acurácia obtida foi de 0,329, tambémutilizando o descritor SURF extraído de forma densa.

A Tabela 18 mostra os resultados obtidos utilizando uma CNNnos espaços de cores YUV e RGB. A acurácia obtida em ambos os


Tabela 15 – Resultados - BOVW KMeans+OPF-S na base RecogProd(36 categorias).


Kmeans+OPF-S

SIFT

Denso

64x64 0,470370 0,006991 0,463572 0,008985128x128 0,499074 0,011226 0,499210 0,009105256x256 0,475926 0,018073 0,474502 0,017876512x512 0,486111 0,008333 0,484210 0,014648

MSER

64x64 0,387037 0,026401 0,383059 0,024734128x128 0,453704 0,004243 0,445761 0,008856256x256 0,460185 0,021576 0,446068 0,026021512x512 0,462037 0,029441 0,446532 0,036036

SIFT

64x64 0,186220 0,012902 0,184424 0,014075128x128 0,220370 0,001604 0,213521 0,004836256x256 0,313889 0,007349 0,325132 0,007612512x512 0,315741 0,028912 0,316542 0,026337

SURF

Denso

64x64 0,248148 0,004243 0,244513 0,004804128x128 0,341667 0,020972 0,333829 0,012590256x256 0,355556 0,010015 0,353193 0,009811512x512 0,357407 0,003208 0,354666 0,005256

SURF

64x64 0,252328 0,015883 0,236847 0,021070128x128 0,333333 0,027358 0,321723 0,016939256x256 0,363889 0,010015 0,364928 0,017638512x512 0,387037 0,021576 0,382560 0,017492


Tabela 16 – Resultados - BOVW OPF+SVM na base RecogProd (36categorias).


OPF+SVM

SIFT

Denso

64x64 0,193519 0,015795 0,158337 0,014375128x128 0,269444 0,017347 0,223017 0,015071256x256 0,296296 0,051620 0,236732 0,061213512x512 0,309259 0,053166 0,251280 0,061702

MSER

64x64 0,110185 0,016744 0,096808 0,015971128x128 0,167593 0,026692 0,152141 0,027763256x256 0,195370 0,025205 0,178551 0,029422512x512 0,222222 0,041107 0,199523 0,041737

SIFT

64x64 0,080074 0,013201 0,067147 0,014500128x128 0,136111 0,010015 0,112411 0,010895256x256 0,193519 0,011226 0,168895 0,010807512x512 0,174074 0,029178 0,147520 0,024331

SURF

Denso

64x64 0,193519 0,025660 0,145837 0,021315128x128 0,285185 0,024269 0,222912 0,028625256x256 0,327778 0,015466 0,275664 0,012002512x512 0,328704 0,016973 0,272602 0,021670

SURF

64x64 0,083799 0,009676 0,071279 0,009766128x128 0,124074 0,071488 0,098204 0,071375256x256 0,229630 0,016276 0,199824 0,014892512x512 0,155556 0,105884 0,124875 0,007001


5.2. Avaliação de melhor acurácia na RecogProd 77

Tabela 17 – Resultados - BOVW OPF+OPF na base RecogProd (36categorias).


OPF-U+OPF-S

SIFT

Denso

64x64 0,285185 0,016744 0,286961 0,020434128x128 0,328704 0,004243 0,329682 0,005165256x256 0,308333 0,067586 0,309027 0,064947512x512 0,325926 0,059404 0,329150 0,061689

MSER

64x64 0,156481 0,097513 0,158858 0,092618128x128 0,255556 0,029397 0,254553 0,023575256x256 0,221296 0,054880 0,215301 0,052045512x512 0,222222 0,025459 0,213717 0,028101

SIFT

64x64 0,096834 0,022750 0,095747 0,018864128x128 0,125926 0,022624 0,124534 0,017802256x256 0,184259 0,008929 0,183543 0,005427512x512 0,176852 0,016973 0,173213 0,018662

SURF

Denso

64x64 0,164815 0,006991 0,162164 0,004432128x128 0,274074 0,028373 0,270279 0,023840256x256 0,329630 0,018908 0,331491 0,027441512x512 0,318519 0,029178 0,318166 0,031678

SURF

64x64 0,143389 0,015384 0,138834 0,009082128x128 0,190741 0,028509 0,187269 0,024946256x256 0,243519 0,003208 0,242957 0,004584512x512 0,213889 0,010015 0,217203 0,022626


espaços de cores foi próxima, onde o RGB alcançou a acurácia de 0,710.A Tabela 19 apresenta os resultados utilizando uma CNN (Overfeat)previamente treinada para a extração das características e classificadautilizando SVM e OPF-S onde a melhor acurácia foi obtida utilizandoSVM com 0,905.

Tabela 18 – Resultados - CNN na base RecogProd (36 categorias),

Classificador Espaço de Cores Acurácia F1CNN YUV 0,690000 0,673000CNN RGB 0,710000 0,690064


Tabela 19 – Resultados - Overfeat na base RecogProd (36 categorias),

Classificador Características Acurácia F1SVM Overfeat 0,905556 0,905132OPF-S Overfeat 0,850000 0,690064



A Figura 25 mostra, em um gráfico, as melhores acurácias obti-das nos experimentos utilizando as técnicas BOVW, CNN e CNN comodescritor natural na base RecogProd.

Figura 25 – Acurácia na base RecogProd.


5.3. Melhor descritor artificial na técnica BOVW 79

5.3 Melhor descritor artificial na técnica BOVW

Nesta seção são apresentados os gráficos comparativos da acu-rácia dos descritores e tamanhos de imagens utilizados na técnica BOVWnas bases Caltech101 e RecogProd. A Figura 26 mostra o resultadodo agrupador KMeans e do classificador SVM na base Caltech101. Épossível observar que o localizador MSER junto com o descritor SIFTapresentaram as melhores acurácias.

Figura 26 – Kmeans+SVM - Descritores x Tamanho da imagem x Acu-rácia na base Caltech101.


Na Figura 27 é mostrada a acurácia obtida utilizando o classi-ficador OPF-S em conjunto com o agrupador KMeans, também na baseCaltech101. Ao utilizar o classificar OPF-S os experimentos apresenta-ram uma acurácia do descritor SIFT extraído de forma densa compa-rada com o localizador MSER porém, a acurácia de uma forma geralfoi inferior à utilização do classificador SVM.

As acurácias dos experimentos utilizando o agrupador OPF-Ue o classificador SVM são mostradas na Figura 28. É possível observarnovamente que os descritores extraídos de forma densa obtiveram umamelhor acurácia.

A Figura 29 mostra a acurácia utilizando o classificador OPF-Sem conjunto com o agrupador OPF-U. É possível observar novamente


Figura 27 – Kmeans+OPF-S - Descritores x Tamanho da imagem xAcurácia na base Caltech101.


Figura 28 – OPF-U+SVM - Descritores x Tamanho da imagem x Acu-rácia na base Caltech101.



que os descritores extraídos de forma densa resultaram em uma melhoracurácia.

Figura 29 – OPF-U+OPF-S - Descritores x Tamanho da imagem xAcurácia na base Caltech101.


Os resultados na base Caltech101 mostram que a utilização doagrupador KMeans em conjunto com o classificador SVM ofereceram amelhor acurácia quando a localização dos pontos de interesse foi reali-zada utilizando o MSER e a descrição utilizando o SIFT. DescritoresSIFT extraídos de forma densa obtiveram uma melhor acurácia quandoutilizados em conjunto com o classificador OPF-S.

A acurácia dos experimentos realizados na base RecogProd,com 36 categorias de imagens utilizando o agrupamento com KMeanse a classificação com SVM, é mostrada na Figura 30. Neste resultado,assim como na base Caltech101, é possível observar que as melhoresacurácias foram obtidas com as características localizadas com o MSERe descritas utilizando SIFT.

A Figura 31 mostra a acurácia da base RecogProd utilizando oOPF-S como classificador. O comportamento apresentado é semelhanteao da base Caltech101, onde a acurácia utilizando descritores SIFTextraídos de forma densa foi superior.

O gráfico apresentado na Figura 32 mostra a acurácia dos expe-rimentos utilizando o agrupador OPF-U juntamente com o classificador


Figura 30 – Kmeans+SVM - Descritores x Tamanho da imagem x Acu-rácia na base RecogProd.


Figura 31 – Kmeans+OPF-S - Descritores x Tamanho da imagem xAcurácia na base RecogProd.



SVM. É possível observar uma queda considerável na acurácia em rela-ção ao agrupador KMeans. Outro fato observado é, assim como na baseCaltech101, a superioridade dos descritores extraídos de forma densa.

Figura 32 – OPF-U+SVM - Descritores ◊ Tamanho da imagem ◊ Acu-rácia na base RecogProd.


A Figura 33 mostra a acurácia no experimentos utilizando oOPF-U para agrupamento e o OPF-S para classificação na base Recog-Prod. É possível observar novamente uma acurácia superior nos descri-tores extraídos de forma densa.

O resultado dos experimentos em ambas as bases mostraramcomportamentos semelhantes onde a combinação do KMeans, SVM,MSER e SIFT resultou em melhores acurácias na técnica BOVW. Osexperimentos realizados com a extração de descritores de forma densaapresentaram, de forma geral, uma melhor acurácia quando classifica-dos utilizando o OPF-S.

Um outro fato observado nos resultados foi a importância dotamanho das imagens. É possível observar uma relação direta entre aacurácia e o tamanho da imagem utilizado para extração das caracte-rísticas onde as imagens de tamanho 64 ◊ 64 apresentaram a menoracurácia, seguido das imagens de tamanho 128 ◊ 128. Os melhores re-sultados foram obtidos com imagens de tamanho 256◊256 e 512◊512.A diferença entre os resultados das imagens de 256 ◊ 256 e 512 ◊ 512


Figura 33 – OPF-U+OPF-S - Descritores ◊ Tamanho da imagem ◊Acurácia na base RecogProd.


é menos perceptível, um dos fatores que influenciam este resultado é ofato de ambas as bases possuírem diversas imagens com resolução entre256 ◊ 256 e 512 ◊ 512.

5.4. Rede Neural Convolucional (CNN) - RGB x YUV 85

5.4 Rede Neural Convolucional (CNN) - RGB x YUV

Uma das dificuldades na utilização da CNN é a definição doespaço de cor a ser utilizado nas imagens de entrada da rede e comoesta escolha impacta na acurácia e no tempo de treinamento. Este tra-balho realizou um comparativo efetuando o treinamento nos espaçosde cores RGB e YUV nas bases Caltech101 e na base RecogProd. Nasredes convolucionais foram utilizadas imagens de tamanho fixo 32 ◊ 32redimensionadas a partir da base original. A Figura 34 mostra o tempode treinamento e a acurácia obtidos na base Caltech101 utilizando o es-paço de cores YUV na base de treinamento e na base de teste. É possívelobservar que após aproximadamente 15 horas de treinamento a CNN seaproxima de 100% de acurácia na base de treinamento (utilizada comobase para o cálculo dos ajustes dos pesos da rede) e aproximadamente50% de acurácia na base de teste. A Figura 35 mostra a acurácia e otempo de treinamento utilizando o espaço de cores RGB, ainda na baseCaltech101. É possível observar que uma porcentagem de acurácia se-melhante ao treinamento utilizando YUV, em torno de 50% só é obtidaapós 50 horas de treinamento. O treinamento realizado utilizando RGBfoi interrompido após 170 horas de treinamento (uma semana) antes dealcançar os 100% de acurácia na base de treinamento, ou seja, é possívelque a acurácia na base de testes fosse melhorada caso o processamentofosse mantido até os 100% de acurácia da base de treinamento. Apesardesta possibilidade o comportamento apresentado no gráfico sugere queo ganho seria pequeno.

Resultado semelhante ao apresentado na base Caltech101 tam-bém foi observado na base RecogProd. Na Figura 36 é observado queo treinamento da CNN utilizando YUV alcança 100% de acurácia nabase de treinamento após aproximadamente 12 horas. A acurácia dabase de teste se mantém relativamente estável em torno dos 70% após10 horas de treinamento. Na Figura 37, referente ao treinamento daCNN utilizando RGB, é possível observar que apesar da base de testeobter uma acurácia semelhante à utilização do YUV, em torno e 70%,esta acurácia é obtida apenas após aproximadamente 70 horas de trei-namento.

O comportamento apresentado nos experimentos nas duas ba-ses estudadas mostra que ambos os espaços de cores, YUV e RGB,apresentaram acurácias semelhantes na base de teste. Porém, a CNNutilizando RGB necessitou de um tempo de treinamento muito supe-rior.

O conjunto de filtros aprendidos pela CNN durante o treina-


Figura 34 – Tempo de treinamento e acurácia da CNN na base Cal-tech101 utilizando imagens no espaço de cores YUV.


Figura 35 – Tempo de treinamento e acurácia da rede neural convolu-cional na base Caltech101 utilizando imagens RGB.



Figura 36 – Tempo de treinamento e acurácia da rede neural convolu-cional na base RecogProd utilizando imagens YUV.


Figura 37 – Tempo de treinamento e acurácia da rede neural convolu-cional na base RecogProd utilizando imagens RGB.



mento é responsável pela detecção das características na nova imagemno momento de uma consulta. No primeiro nível de filtros é possívelobservar algumas linhas e orientações utilizadas para essa detecção. AFigura 38 mostra os filtros de tamanho 5 ◊ 5 aprendidos na primeiracamada convolucional nas bases Caltech101 e na base RecogProd utili-zando os espaços de cores YUV e RGB. É possível observar que algunsfiltros detectam claramente características horizontais, alguns detectamcaracterísticas verticais e alguns detectam saliências no ângulo de 45 e135 graus.

Figura 38 – Filtros obtidos após o treinamento da rede neural. (a) Fil-tros da CNN YUV na base Caltech101. (b) Filtros da CNNRGB na base Caltech101. (c) Filtros da CNN YUV na baseRecogProd. (d) Filtros da CNN RGB na base RecogProd.


A Figura 40 mostra o resultado da convolução da primeiracamada da CNN YUV e RGB na imagem mostrada na Figura 39 pelosfiltros apresentados na Figura 38 (a). É possível observar como as áreascom saliências horizontais, verticais e diagonais são destacadas após aconvolução pelo respectivo filtro.

Figura 39 – Imagem utilizada nos exemplos de resultado da convoluçãona base Caltech101.



Figura 40 – Resultado da convolução dos filtros na primeira camadaconvolucional da CNN YUV (a) e RGB (b) na base Cal-tech101.

(a) (b)


Resultado semelhante também foi obtido na base RecogProd,conforme mostrado na Figura 42, para a CNN YUV e RGB quandoutilizada a imagem mostrada na Figura 41.

Figura 41 – Imagem utilizada nos exemplos de resultado da convoluçãona base RecogProd.



Figura 42 – Resultado da convolução dos filtros na primeira camadaconvolucional da CNN YUV (a) e RGB (b) na base Recog-Prod.

(a) (b)


5.5. Acurácia das técnicas BOVW, CNN e CNN como descritor natural na baseRecogProd com 5, 10, 15 e 36 categorias. 91

5.5 Acurácia das técnicas BOVW, CNN e CNN como descritornatural na base RecogProd com 5, 10, 15 e 36 categorias.

Um bom classificador deve ser capaz de identificar uma ima-gem com acurácia após o seu treinamento com uma determinada basede dados. Porém, além desta característica, deve ser avaliado tambémqual é o comportamento do classificador quando esta base de dadoscresce, tanto em número de imagens, quando em números de catego-rias. Com o objetivo de avaliar a acurácia dos classificadores estudadosa base RecogProd foi dividida em 5, 10, 15 e 36 (base completa) catego-rias. O experimento foi realizado com as técnicas BOVW, CNN YUV eCNN (Overfeat) como um descritor natural. A técnica CNN RGB nãofoi incluída neste experimento pois, além de seu tempo de processa-mento elevado, não resultou em uma acurácia superior comparada coma CNN YUV conforme exibido no experimento anterior entre as basesCaltech101 e a base RecogProd. A Figura 43 mostra a acurácia como treinamento das bases com os números de categorias estudados. Épossível observar que a queda na acurácia entre os diferentes tamanhosde bases é menor quando utilizada a CNN como um descritor natural(Overfeat) em conjunto com o classificador SVM. Apesar do classifica-dor SVM resultar em uma melhor acurácia, a queda da acurácia a cadacategoria foi muito próxima à do classificador OPF-S. O gráfico aindamostra que os experimentos envolvendo o classificador OPF-S na téc-nica BOVW apresentaram uma queda superior na acurácia conforme aquantidade de categorias da base foi aumentando.

A Figura 44 mostra o F1 dos resultados dos mesmos experi-mentos. A acurácia e F1 dos experimentos foram semelhantes, porém,no F1, é possível observar uma diferença maior em relação aos expe-rimentos BOVW OPF-U com o classificador OPF-S e OPF-U com oclassificador SVM.


Figura 43 – Acurácia das técnicas estudadas na base RecogProd com5, 10, 15 e 36 categorias.


Figura 44 – F1 das técnicas estudadas na base RecogProd com 5, 10,15 e 36 categorias.


5.6. Tempo de processamento geral 93

5.6 Tempo de processamento geralNesta seção são apresentados os resultados de tempo de pro-

cessamento total, que corresponde ao treinamento do classificador comas informações da base de treinamento e consulta ao classificador coma base de teste. O tempo da CNN avaliado corresponde ao tempo paraencontrar a melhor acurácia dentro da janela de tempo em que o classifi-cador foi treinado. A Figura 45 mostra o resultado dos experimentos nabase Caltech101 em escala logarítmica. É possível observar que apesardas técnicas CNN e CNN como um descritor natural apresentarem umaacurácia superior às técnicas BOVW conforme demonstrado anterior-mente, elas resultam em um tempo muito superior de processamento. AFigura 46 mostra um resultado semelhante nos experimentos realizadosna base RecogProd (completa, com 36 categorias).

Figura 45 – Tempo total de treinamento na base Caltech101.


Dentre as técnicas BOVW estudadas, as técnicas com o agru-pador KMeans ofereceram uma melhor acurácia e um tempo de proces-samento inferior à utilização do agrupador OPF-U. Os classificadoresCNN necessitaram de um tempo de treinamento muito superior à téc-nica que utiliza uma CNN (Overfeat) como descritor natural, apesarde resultarem em uma acurácia inferior conforme demostrado anterior-mente.


Figura 46 – Tempo total de treinamento na base RecogProd.


5.7. Tempo de classificação 95

5.7 Tempo de classificaçãoNa Figura 47 é possível observar o comportamento exponencial

dos classificadores OPF-S e SVM em relação a quantidade de catego-rias. O tempo foi normalizado dividindo o tempo de cada experimentopelo maior tempo de todos os experimentos. Na Figura 48 é observadoo tempo total de processamento (extração de características, agrupa-mento e classificação do treinamento e das imagens de teste). É ob-servado um comportamento mais próximo do exponencial nas técnicasBOVW que utilizam o OPF-S e OPF-U. A técnica CNN como descri-tor natural (Overfeat) mostra um comportamento predominantementelinear. Este comportamento é explicado pelo fato de, apesar do clas-sificador ter um comportamento exponencial, a extração das caracte-rísticas tem um tempo constante para cada imagem. No caso da CNNcomo descritor natural o tempo de extração das características é muitomaior do que a classificação.

Figura 47 – Tempo classificação na base RecogProd com 5, 10, 15 e 36categorias.



Figura 48 – Tempo total na base RecogProd com 5, 10, 15 e 36 cate-gorias.


5.8. Tempo de consulta de uma nova imagem 97

5.8 Tempo de consulta de uma nova imagemA Figura 49 mostra o tempo de consulta de uma nova imagem

utilizando as técnicas estudadas ao utilizar os parâmetros que obtive-ram a melhor acurácia. Os resultados mostram uma velocidade muitomaior da CNN treinada com imagens de tamanho 32 ◊ 32, sendo estacapaz de classificar uma nova imagem em 20 milissegundos. O resul-tado mostra também que, apesar de apresentar a melhor acurácia, aCNN como um descritor natural (Overfeat) é muito mais lenta do queas outras técnicas estudadas, classificando uma nova imagem em 4,2segundos.

Figura 49 – Resultado do tempo de consulta de uma nova imagem nabase RecogProd.


5.9 Tamanho do dicionário de palavras visuaisOs resultados avaliados anteriormente na técnica BOVW uti-

lizaram um tamanho de dicionário obtido através da descoberta auto-mática obtida pelo OPF-U. Este tamanho de dicionário foi aplicadotambém no agrupador KMeans. Com o objetivo de identificar possíveisacurácias superiores foram realizados experimentos com os tamanhos dedicionários 50, 100, 200, 400, 600, 800, 1000, 1200 e 1400 com KMeans e


SVM e KMeans e OPF-S. Os experimentos foram realizados utilizandoa localização de características com MSER e descrição com SIFT emimagens de tamanho máximo 256◊256. São selecionadas aleatoriamente1000 imagens para extração dos descritores. Dos descritores extraídos,são selecionados 5000 para treinamento do algoritmo de agrupamentoKMeans. Dada a aleatoriedade na seleção das imagens e descritores, oexperimento foi repetido três vezes para cada combinação. A Tabela 21mostra a acurácia na base Caltech101.

A Tabela 20 mostra a média da acurácia obtida na base Recog-Prod. Os dados também são mostrados em forma de gráfico na Figura50 onde é possível observar que a acurácia é aprimorada quando otamanho do dicionário é aumentado. É observada uma melhora signi-ficativa do tamanho de dicionário 50 até o tamanho 1000 na utilizaçãodo KMeans em conjunto com o classificador SVM. Após este tamanhoa acurácia permanece estabilizada nos experimentos realizados. Os ex-perimentos realizados utilizando o classificador OPF-S obtiveram umcomportamento semelhante, onde a acurácia é aprimorada até o tama-nho de dicionário 600 porém, inferior à acurácia do classificador SVM.O mesmo comportamento é a apresentado na base Caltech101 conformea Tabela 21 e a Figura 51. O maior ganho em acurácia é obtido no au-mento do tamanho do dicionário de 50 até 400. Após este tamanhoo aumento na acurácia observado é pequeno. Novamente, o classifica-dor OPF-S apresentou uma acurácia inferior do que os resultados doclassificador SVM.

A Tabela 23 e a Figura 52 mostram o comportamento lineardo tempo de treinamento do algoritmo KMeans conforme o aumentono tamanho do dicionário de palavras visuais. Este comportamentoé decorrente da natureza do próprio algoritmo KMeans que limita onúmero de iterações ao efetuar o processamento.

Na Figura 52 é possível observar o comportamento semelhanteno tempo necessário para treinamento do KMeans em ambas as basesavaliadas.

A Tabela 24 mostra o tempo isolado de treinamento dos clas-sificadores SVM e OPF-S na base RecogProd. Na Figura 53 é possívelobservar que, apesar de ambos os classificadores apresentarem um com-portamento próximo ao linear do crescimento do tempo de treinamentoem relação ao aumento no tamanho de dicionário de palavras visuais, oclassificador OPF-S apresenta tempos de treinamento muito superioresao SVM.

A Tabela 25 e a Figura 54 mostram as mesmas informaçõespara a base Caltech101. É possível observar um comportamento seme-

5.9. Tamanho do dicionário de palavras visuais 99

Tabela 20 – Acurácia na base RecogProd com os diversos tamanhos dedicionário avaliados.

Agrupador + Classificador Tamanho do dicionário Acurácia Desvio

KMeans + SVM

50 0,394444 0,038889100 0,470370 0,027405200 0,523148 0,023625400 0,550926 0,004243600 0,560185 0,021216800 0,563889 0,0220481000 0,597222 0,0381881200 0,588889 0,0346941400 0,600926 0,014254

KMeans + OPF-S

50 0,405556 0,033793100 0,430556 0,010015200 0,453704 0,029441400 0,475000 0,027358600 0,493519 0,019510800 0,475926 0,0016041000 0,463889 0,0300461200 0,479630 0,0131271400 0,478704 0,014254


Figura 50 – Acurácia na base RecogProd com os tamanhos de dicioná-rios avaliados.



Tabela 21 – Acurácia na base Caltech101 com os diversos tamanhos dedicionário avaliados.

Agrupador + Classificador Tamanho do dicionário Acurácia Desvio

KMeans + SVM

50 0,367590 0,010350100 0,395689 0,015026200 0,434950 0,015763400 0,450346 0,008718600 0,450346 0,013115800 0,454580 0,0066671000 0,456120 0,0138571200 0,480754 0,0074241400 0,461509 0,014254

KMeans + OPF-S

50 0,334103 0,002404100 0,355658 0,006110200 0,372594 0,004667400 0,367590 0,010414600 0,369515 0,009238800 0,369130 0,0214591000 0,349115 0,0048081200 0,357198 0,0103501400 0,367206 0,007211


Figura 51 – Acurácia na base Caltech101 com os tamanhos de dicioná-rios avaliados.



Figura 52 – Tempo de treinamento do KMeans nas bases avaliadas.


Figura 53 – Tempo de treinamento do classificador na base RecogProd.



Tabela 22 – Tempo de treinamento do agrupador KMeans na base Cal-tech101.

Agrupador Tamanho do dicionário Tempo de treinamento Desvio

KMeans

50 14,566073 0,336657100 21,730389 0,165224200 35,460297 1,565215400 56,354211 1,034737600 81,770537 3,040125800 103,190484 3,3663091000 124,501769 2,8379561200 144,714140 2,5921321400 169,599114 0,014254


Tabela 23 – Tempo de treinamento do agrupador KMeans na base Re-cogProd.

Agrupador Tamanho do dicionário Tempo de treinamento Desvio

KMeans

50 13,792901 0,967969100 22,318488 1,042698200 34,954946 0,740586400 57,703131 4,317244600 80,274368 1,005293800 102,978308 2,4338091000 120,925050 1,8126761200 154,003349 4,9038191400 174,624274 3,021977


lhante, em que o algoritmo OPF-S tem um tempo de processamentomuito mais elevado do que o algoritmo SVM, apesar de ambos apre-sentarem um comportamento próximo ao linear nos experimentos rea-lizados.

Na Tabela 26 e na Figura 55 são mostrados os tempos de pro-cessamento totais que consistem na extração das características, agru-pamento pelo KMeans e classificação na base RecogProd e na base Cal-tech101. Os resultados mostram um comportamento próximo ao linearem ambas as bases porém é possível observar novamente um aumentosignificativamente maior no tempo de processamento nos algoritmosutilizando o classificador OPF-S.


Tabela 24 – Tempo de treinamento do classificador na base RecogProd.

Agrupador + Classificador Tamanho do dicionário Tempo de treinamento Desvio

KMeans + SVM

50 1,614668 0,043919100 1,649338 0,011801200 1,776783 0,037428400 2,085014 0,021877600 2,414104 0,009997800 2,720824 0,0191681000 2,940867 0,0365711200 3,263202 0,0123501400 3,506558 0,050543

KMeans + OPF-S

50 8,837159 0,135571100 16,376920 0,115965200 32,920072 0,281420400 64,875020 0,184342600 94,094220 0,508982800 124,130328 1,0299171000 152,170091 0,7170101200 183,595885 1,1122531400 210,884048 0,820606


Tabela 25 – Tempo de treinamento do classificador na base Caltech101.

Agrupador + Classificador Tamanho do dicionário Tempo de treinamento Desvio

KMeans + SVM

50 3,576211 0,043849100 3,663198 0,061527200 3,971779 0,010520400 4,429579 0,060425600 4,912357 0,067943800 5,193199 0,0800421000 5,563007 0,0914931200 5,921405 0,0471321400 6,224179 0,050543

KMeans + OPF-S

50 4,926422 0,063214100 8,772612 0,059259200 17,947978 0,015532400 35,406691 0,229620600 51,999701 0,164314800 67,923419 0,2554631000 83,649899 0,3215031200 100,332589 0,5246551400 116,148495 0,014254



Figura 54 – Tempo de treinamento do classificador na base Caltech101.


Tabela 26 – Tempo total de processamento nas bases Caltech101 e nabase RecogProd

Agrupador + Classificador Dicionário Tempo Total (Caltech101) Tempo Total (base RecogProd)

KMeans + SVM

50 25,625388 23,059964100 35,138667 34,253570200 53,537741 52,220209400 84,222293 86,186368600 119,478440 119,072199800 150,431798 151,9878811000 181,140349 179,9940801200 210,624743 223,8676041400 244,757093 254,328509

KMeans + OPF-S

50 27,451320 30,454298100 46,260469 47,698624200 67,881357 84,955467400 119,769362 150,412426600 167,863522 209,672944800 217,949817 273,7845051000 260,831726 334,5778311200 315,562416 405,3890571400 356,658560 462,762053



Figura 55 – Tempo total nas bases Caltech101 e RecogProd.


107

6

CONSIDERAÇÕES FINAIS

Neste capítulo, são apresentadas as conclusões, contribuições epropostas para trabalhos futuros.

6.1 Conclusões

Os experimentos realizados neste trabalho compararam as téc-nicas de Conjunto de Palavras Visuais (BOVW), Rede Neural Convo-lucional (CNN) e CNN como um descritor natural. No BOVW foramavaliados os agrupadores KMeans e OPF-U (não supervisionado), osclassificadores SVM e OPF-S (supervisionado) os descritores SIFT eSURF com a localização de pontos de interesse com MSER e de formadensa. Na técnica CNN como um descritor natural, uma rede neuralconvolucional pré treinada (Overfeat) foi utilizada para extração de umdescritor posteriormente classificado utilizando SVM e OPF-S. Na téc-nica CNN foi criada uma rede convolucional completa utilizando, comoentrada, imagens nos formatos de cores RGB e YUV. Todos os experi-mentos foram realizados na base Caltech101 e em uma base de imagensde produtos criada pelo autor (RecogProd).

A utilização de uma CNN, previamente treinada em uma grandebase de imagens (Overfeat), como um descritor natural para extraçãode um vetor de características e treinamento de um classificador SVM,apresentou a melhor acurácia com 0,855 na base Caltech101 e 0,905na base RecogProd. A CNN criada e treinada pelo autor apresentou osegundo melhor resultado com 0,710 utilizando o espaço de cores RGBna base RecogProd e 0,540 utilizando o espaço de cores YUV na baseCaltech101. A CNN treinada com imagens utilizando os espaço de co-res RGB e YUV apresentaram acurácias muito próximas em ambas asbases de treinamento porém, o treinamento utilizando YUV foi muito

108 Capítulo 6. CONSIDERAÇÕES FINAIS

mais rápido. A técnica BOVW apresentou uma acurácia inferior à CNNcomo descritor natural e a CNN em ambas as bases testadas.

Apesar das técnicas CNN como descritor natural e CNN apre-sentarem uma acurácia superior, ambas apresentam um tempo de trei-namento muito maior do que a técnica BOVW. A CNN como descritornatural (Overfeat) leva aproximadamente 4 segundos para extrair odescritor de cada uma das imagens da base a ser classificada. A téc-nica CNN processa cada imagem em aproximadamente 20 ms, porém,necessita passar muitas vezes por toda a base para ajustar os pesos darede, procedimento este que demorou em torno de 10 horas ao utilizaro espaço de cores YUV. Após treinada a consulta de novas imagens éde aproximadamente 20 ms na técnica CNN e 4 segundos na técnicautilizando CNN como um descritor natural. A técnica BOVW leva en-tre 340 a 520 ms para classificar uma nova imagem, dependendo doagrupador, descritor e classificador utilizados. Esta diferença pode serum fator decisivo na escolha da técnica a ser utilizada, onde é possívelabrir mão de uma melhor acurácia em função de um tempo de consultamais rápido. Aplicações embarcadas em dispositivos com baixo poderde processamento ou aplicações que necessitam de uma resposta extre-mamente rápida podem se beneficiar de uma CNN enquanto aplicaçõesexecutadas em máquinas com uma maior capacidade de processamentopodem optar por utilizar a técnica CNN como descritor natural e obteruma melhor acurácia ao custo de um maior processamento.

Nos experimentos utilizando a técnica BOVW foi observadauma melhor acurácia quando utilizado o agrupador KMeans em con-junto com o classificador SVM. Em ambas as bases, a utilização doKMeans em conjunto com o classificador OPF-S resultou em uma acu-rácia inferior em relação ao classificador SVM. Da mesma forma, autilização do OPF-U (não supervisionado) na etapa de agrupamentoresultou em uma acurácia inferior à utilização do KMeans. Ao utili-zar o OPF-U ainda é possível observar que novamente a combinaçãoOPF-U com SVM resultou em uma acurácia superior à utilização doOPF-S na classificação. É possível observar nos experimentos realiza-dos que a técnica BOVW obteve as piores acurácias quando utilizandoo algoritmo OPF, não supervisionado ou supervisionado. A acuráciados experimentos realizados foi influenciada pelo descritor selecionado.Quanto utilizado o KMeans com SVM o localizador de pontos de inte-resse MSER e o descritor SIFT obtiveram a melhor acurácia, enquantona utilização dos algoritmos OPF (supervisionado e não supervisio-nado) os descritores extraídos de forma densa obtiveram uma melhoracurácia. Um outro fator observado foi a relação do tamanho da ima-

6.1. Conclusões 109

gem utilizada e a acurácia na técnica BOVW. Imagens menores, detamanho máximo 64 ◊ 64 e 128 ◊ 128, obtiveram uma acurácia inferioràs imagens maiores, de 256 ◊ 256 e 512 ◊ 512. Este comportamentoé explicado pelo fato de uma imagem menor possuir menos pontos deinteresse do que imagem maior, resultando em uma quantidade menorde informação do histograma de palavras visuais para distinguir umacategoria da outra. Os experimentos realizados com diversos tamanhosde dicionário de palavras visuais, na técnica BOVW com KMeans, mos-traram que um número pequeno de palavras visuais no dicionário reduzsignificativamente a acurácia. Porém, após este aumento gradativo, háum ponto onde a acurácia não é mais beneficiada pelo aumento nonúmero de palavras. O número de palavras que determina a maior acu-rácia apresentou valores diferentes para as duas bases avaliadas. Estecomportamento sinaliza que o valor ideal do tamanho de dicionário éuma característica específica para cada base.

Nos experimentos, com diversos tamanhos de categorias (5, 10,15 e 36) da base RecogProd, a CNN como descritor natural apresen-tou novamente a melhor acurácia. Os resultados mostram ainda que,conforme o número de categorias é aumentado, a CNN como descritornatural apresentou uma queda menor na acurácia em relação as demaistécnicas avaliadas. Foi observado ainda que em uma base com 5 catego-rias a CNN como descritor natural alcançou a acurácia de 1,000, sendocapaz de classificar todos os exemplos corretamente. A técnica que apre-sentou a pior acurácia e a maior queda na acurácia conforme o aumentono número de categorias foi a BOVW utilizando OPF-U para agrupa-mento. O tempo necessário para treinamento dos classificadores com osdiferentes tamanhos da base RecogProd mostrou um comportamentoexponencial tanto no classificador SVM, quanto no classificador OPF.No entanto, ao observar o tempo necessário para o processo completo(extração de características, agrupamento e classificação dos exemplosde treinamento e teste) foi possível observar que o tempo de classifica-ção corresponde a uma parcela pequena do procedimento total, como éo caso no experimento com a CNN como descritor natural (Overfeat).Neste experimento o tempo de extração das características é linear (emtorno de 4 segundos por imagem) e o tempo de classificação, apesarde ser exponencial, é rápido (alguns milissegundos). Desta forma o im-pacto do tempo do classificador no processo completo é menor.

A previsão inicial quando este estudo foi proposto era verificarqual a técnica, entre as três técnicas estudadas, seria a melhor a ser apli-cada em bases de imagens de diferentes tamanhos. Era estimado que atécnica BOVW se sobressairia em relação à técnica CNN em bases com

110 Capítulo 6. CONSIDERAÇÕES FINAIS

uma pequena quantidade de imagens. Esta estimativa se provou falsavisto que uma CNN treinada utilizando o algoritmo backpropagation,em conjunto com o algoritmo dropout, mostrou uma acurácia superiorà técnica BOVW, mesmo em bases com poucas imagens. A outra hi-pótese abordada era a verificação da capacidade de transferência deconhecimento de uma CNN previamente treinada em uma grande basede imagens para a classificação de uma nova base. Esta transferênciade conhecimento foi implementada através da extração de um vetor decaracterística extraído utilizando a CNN Overfeat e o treinamento deum classificador linear. Esta técnica mostrou a melhor acurácia entreas demais estudadas, corroborando positivamente para a ideia de que épossível transferir o conhecimento de uma CNN para sua aplicação emum contexto diferente do qual foi inicialmente treinada.

6.2 Trabalhos Futuros

Com a realização do trabalho atual surgiram algumas dúvidase questionamentos que podem guiar e dar origem a novos estudos. Notrabalho atual foi utilizada uma CNN (Overfeat) pré-treinada em umagrande base de imagens para extração de um vetor e treinamento deum classificador em uma nova base. A acurácia obtida se mostrou supe-rior às demais técnicas avaliadas. Em um trabalho futuro seria possívelextrair os pesos dos filtros aplicados na etapa de convolução de umaCNN pré treinada, adicioná-los em uma CNN semelhante e treiná-lapara classificação de uma nova base de dados. Este procedimento uti-liza o conhecimento prévio (os pesos dos filtros) porém força um ajustedos pesos com características da nova base a ser classificada. Este pro-cedimento pode ser realizado em diferentes bases com o objetivo deverificar se o ajustes dos pesos a cada base resulta em uma melhoracurácia.

Outro experimento interessante a ser realizado é a utilizaçãode uma CNN treinada em uma base abrangente (como a Overfeat ou aCNN treinada pelo autor na base Caltech101 ou base RecogProd) paraa extração de um vetor de características e treinamento de um classi-ficador com o objetivo de resolver um problema de classificação maisespecífico. O problema a ser resolvido pode envolver classificação biná-ria de imagens ou problemas de classificação em um nicho de aplicaçõesonde as características das imagens da nova base divergem significati-vamente das imagens na qual a CNN foi treinada. Um exemplo práticoseria a extração de um vetor de características de uma CNN treinada nabase ILSVRC2012 (como a Overfeat), que é uma base contendo ima-

6.2. Trabalhos Futuros 111

gens de produtos, animais, veículos entre outros, para a classificaçãode imagens de placas de trânsito, imagens médicas ou classificação deplantas por imagens microscópicas. Caso este procedimento apresenteuma boa acurácia, pode ser uma alternativa para classificação de ima-gens em nichos de aplicações onde a quantidade de exemplos rotuladosé escassa.

Uma das limitações dos métodos abortados neste trabalho deve-se à necessidade de uma grande quantidade imagens de exemplo rotu-ladas para treinamento dos classificadores. Particularmente no caso daCNN, é necessário uma grande quantidade de imagens. Em trabalhosfuturos é possível explorar técnicas de aprendizado não supervisiona-das para a obtenção dos pesos dos filtros da rede convolucional. Comos filtros obtidos de forma não supervisionada é possível incorporá-losem uma rede convolucional e treinar apenas as últimas camadas pararesolução de novos problemas de classificação.

Os experimentos realizados utilizando a técnica BOVW podemser aprimorados com a utilização do descritor HOG (DALAL; TRIGGS,2005b). A técnica BOVW avaliada neste trabalho não explorou a rela-ção espacial entre os pontos de interesse ou palavras visuais encontra-das na imagem. É possível aplicar essas correlações com o objetivo deextrair mais informações para treinamento do classificador com basenessas relações espaciais. Uma abordagem complementar pode aindaexplorar a geração de um vetor de características com base na com-binação de dois ou mais descritores. A mesma abordagem pode serutilizada na classificação, combinando dois ou mais classificadores noreconhecimento da categoria da imagem. Com a incorporação destasmétricas, é possível que a técnica BOVW apresente uma acurácia su-perior à CNN, resultando em uma boa alternativa, considerando queos experimentos mostraram um tempo de treinamento da CNN muitomaior em relação ao da BOVW nos cenários estudados.

113

Referências

AFONSO, L. C. S.; PAPA, J. P.; PAPA, L. P.; MARANA,A. N.; ROCHA, A. Automatic visual dictionary generationthrough optimum-path forest clustering. In: ICIP. IEEE, 2012.p. 1897–1900. ISBN 978-1-4673-2534-9. Disponível em: <http://dblp.uni-trier.de/db/conf/icip/icip2012.html#AfonsoPPMR12>.

ALPAYDIN, E. Introduction to Machine Learning. 2. ed. [S.l.]: MITPress, 2010. 249-256 p.

AREL, I.; ROSE, D.; KARNOWSKI, T. Deep machine learning -a new frontier in artificial intelligence research [research frontier].Computational Intelligence Magazine, IEEE, v. 5, n. 4, p. 13–18, 2010.ISSN 1556-603X.

BAY, H.; ESS, A.; TUYTELAARS, T.; GOOL, L. V. Speeded-up robust features (surf). Comput. Vis. Image Underst.,Elsevier Science Inc., New York, NY, USA, v. 110, n. 3,p. 346–359, jun. 2008. ISSN 1077-3142. Disponível em:<http://dx.doi.org/10.1016/j.cviu.2007.09.014>.

BEUCHER, S.; LANTUéJOUL, C. Use of Watersheds inContour Detection. 1979. Workshop published. Disponível em:<http://cmm.ensmp.fr/~beucher/publi/watershed.pdf>.

BRAGA, A. P.; CARVALHO, A. P. d. L. F.; LUDEMIR, T. B. RedesNeurais Artificiais: Teoria e aplicacoes. 1. ed. [S.l.]: LTC, 2000.

CIRESAN, D.; MEIER, U.; SCHMIDHUBER, J. Multi-column deepneural networks for image classification. In: IN PROCEEDINGSOF THE 25TH IEEE CONFERENCE ON COMPUTER VISIONAND PATTERN RECOGNITION (CVPR 2012. [S.l.: s.n.], 2012. p.3642–3649.

http://dblp.uni-trier.de/db/conf/icip/icip2012.html#AfonsoPPMR12

http://dblp.uni-trier.de/db/conf/icip/icip2012.html#AfonsoPPMR12

http://dx.doi.org/10.1016/j.cviu.2007.09.014

http://cmm.ensmp.fr/~beucher/publi/watershed.pdf

114 Referências

CORTES, C.; VAPNIK, V. Support-vector networks. Mach.Learn., Kluwer Academic Publishers, Hingham, MA, USA, v. 20,n. 3, p. 273–297, set. 1995. ISSN 0885-6125. Disponível em:<http://dx.doi.org/10.1023/A:1022627411411>.

CUN, L.; BOSER, B.; DENKER, J. S.; HENDERSON, D.; HOWARD,R. E.; HUBBARD, W.; JACKEL, L. D. Handwritten digit recognitionwith a back-propagation network. In: Advances in Neural InformationProcessing Systems. [S.l.]: Morgan Kaufmann, 1990. p. 396–404.

DALAL, N.; TRIGGS, B. Histograms of oriented gradients forhuman detection. In: SCHMID, C.; SOATTO, S.; TOMASI, C.(Ed.). International Conference on Computer Vision & PatternRecognition. INRIA Rhône-Alpes, ZIRST-655, av. de l’Europe,Montbonnot-38334: [s.n.], 2005. v. 2, p. 886–893. Disponível em:<http://lear.inrialpes.fr/pubs/2005/DT05>.

DALAL, N.; TRIGGS, B. Histograms of oriented gradients for humandetection. In: Computer Vision and Pattern Recognition, 2005. CVPR2005. IEEE Computer Society Conference on. [S.l.: s.n.], 2005. v. 1, p.886–893 vol. 1. ISSN 1063-6919.

DATTA, R.; JOSHI, D.; LI, J.; WANG, J. Z. Image retrieval: ideas,influences, and trends of the new age. ACM COMPUTING SURVEYS,2008.

GOODFELLOW, I. J.; WARDE-FARLEY, D.; MIRZA, M.;COURVILLE, A. C.; BENGIO, Y. Maxout networks. CoRR,abs/1302.4389, 2013. Disponível em: <http://dblp.uni-trier.de/db/journals/corr/corr1302.html#abs-1302-4389>.

HARTIGAN, J. A.; WONG, M. A. Algorithm AS 136: A k-meansclustering algorithm. Applied Statistics, Blackwell Publishing for theRoyal Statistical Society, v. 28, n. 1, p. 100–108, 1979. ISSN 00359254.Disponível em: <http://dx.doi.org/10.2307/2346830>.

HINTON, G. E.; SRIVASTAVA, N.; KRIZHEVSKY, A.;SUTSKEVER, I.; SALAKHUTDINOV, R. Improving neuralnetworks by preventing co-adaptation of feature detectors. CoRR,abs/1207.0580, 2012.

HUBEL, D. H.; WIESEL, T. N. Receptive fields and functionalarchitecture of monkey striate cortex. The Journal of Physiology,v. 195, n. 1, p. 215–243, 1968. Disponível em: <http://jp.physoc.org/content/195/1/215.abstract>.

http://dx.doi.org/10.1023/A:1022627411411

http://lear.inrialpes.fr/pubs/2005/DT05

http://dblp.uni-trier.de/db/journals/corr/corr1302.html#abs-1302-4389


http://dx.doi.org/10.2307/2346830

http://jp.physoc.org/content/195/1/215.abstract

http://jp.physoc.org/content/195/1/215.abstract

Referências 115

JARRETT, K.; KAVUKCUOGLU, K.; LECUN, Y. What is thebest multi-stage architecture for object recognition? IEEE 12thInternational Conference on Computer Vision, 2009.

JING, Y.; BALUJA, S. Pagerank for product image search.In: Proceedings of the 17th International Conference onWorld Wide Web. New York, NY, USA: ACM, 2008. (WWW’08), p. 307–316. ISBN 978-1-60558-085-2. Disponível em:<http://doi.acm.org/10.1145/1367497.1367540>.

KAVUKCUOGLU, K.; SERMANET, P.; BOUREAU, Y. lan;GREGOR, K.; MATHIEU, M.; LECUN, Y. Learning ConvolutionalFeature Hierarchies for Visual Recognition. 2012.

LAZEBNIK, S.; SCHMID, C.; PONCE, J. Beyond bags offeatures: Spatial pyramid matching for recognizing natural scenecategories. In: Proceedings of the 2006 IEEE Computer SocietyConference on Computer Vision and Pattern Recognition -Volume 2. Washington, DC, USA: IEEE Computer Society, 2006.(CVPR ’06), p. 2169–2178. ISBN 0-7695-2597-0. Disponível em:<http://dx.doi.org/10.1109/CVPR.2006.68>.

LECUN, Y.; BOTTOU, L.; ORR, G.; MüLLER, K.-R. E�cientbackprop. In: ORR, G.; MüLLER, K.-R. (Ed.). Neural Networks:Tricks of the Trade. Springer Berlin Heidelberg, 1998, (Lecture Notesin Computer Science, v. 1524). p. 9–50. ISBN 978-3-540-65311-0.Disponível em: <http://dx.doi.org/10.1007/3-540-49430-8_2>.

LECUN, Y.; KAVUKCUOGLU, K.; FARABET, C. Convolutionalnetworks and applications in vision. In: Circuits and Systems (ISCAS),Proceedings of 2010 IEEE International Symposium on. [S.l.: s.n.],2010. p. 253–256.

LI, F.-F.; PERONA, P. A bayesian hierarchical model for learningnatural scene categories. In: Proceedings of the 2005 IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition(CVPR’05) - Volume 2 - Volume 02. Washington, DC, USA: IEEEComputer Society, 2005. (CVPR ’05), p. 524–531. ISBN 0-7695-2372-2.Disponível em: <http://dx.doi.org/10.1109/CVPR.2005.16>.

LIU, T.; ROSENBERG, C.; ROWLEY, H. A. Clustering billionsof images with large scale nearest neighbor search. In: Proceedingsof the Eighth IEEE Workshop on Applications of ComputerVision. Washington, DC, USA: IEEE Computer Society, 2007.

http://doi.acm.org/10.1145/1367497.1367540

http://dx.doi.org/10.1109/CVPR.2006.68

http://dx.doi.org/10.1007/3-540-49430-8_2

http://dx.doi.org/10.1109/CVPR.2005.16

116 Referências

(WACV ’07), p. 28–. ISBN 0-7695-2794-9. Disponível em:<http://dx.doi.org/10.1109/WACV.2007.18>.

LOWE, D. G. Distinctive image features from scale-invariant keypoints.Int. J. Comput. Vision, Kluwer Academic Publishers, Hingham, MA,USA, v. 60, n. 2, p. 91–110, nov. 2004. ISSN 0920-5691. Disponívelem: <http://dx.doi.org/10.1023/B:VISI.0000029664.99615.94>.

MACQUEEN, J. Some methods for classification and analysis ofmultivariate observations. In: Proceedings of the Fifth BerkeleySymposium on Mathematical Statistics and Probability, Volume 1:Statistics. Berkeley, Calif.: University of California Press, 1967. p.281–297. Disponível em: <http://projecteuclid.org/euclid.bsmsp/1200512992>.

MATAS, J.; CHUM, O.; URBAN, M.; PAJDLA, T. Robust widebaseline stereo from maximally stable extremal regions. In: Proceedingsof the British Machine Vision Conference. [S.l.]: BMVA Press, 2002.p. 36.1–36.10. ISBN 1-901725-19-7. Doi:10.5244/C.16.36.

MIKOLAJCZYK, K.; TUYTELAARS, T.; SCHMID, C.;ZISSERMAN, A.; MATAS, J.; SCHAFFALITZKY, F.; KADIR,T.; GOOL, L. V. A comparison of a�ne region detectors. Int. J.Comput. Vision, Kluwer Academic Publishers, Hingham, MA, USA,v. 65, n. 1-2, p. 43–72, nov. 2005. ISSN 0920-5691. Disponível em:<http://dx.doi.org/10.1007/s11263-005-3848-x>.

MITCHELL, T. M. Machine Learning. [S.l.]: McGraw-Hill Inc., 1997.ISBN 0070428077, 9780070428072.

PAPA, J. P.; FALCãO, A. X.; SUZUKI, C. T. N. Supervisedpattern classification based on optimum-path forest. Int. J. ImagingSyst. Technol., John Wiley & Sons, Inc., New York, NY, USA,v. 19, n. 2, p. 120–131, jun. 2009. ISSN 0899-9457. Disponível em:<http://dx.doi.org/10.1002/ima.v19:2>.

PINTO, N.; COX, D. D.; DICARLO, J. J. Why is real-world visualobject recognition hard. PLoS Computational Biology, 2008.

RAZAVIAN, A. S.; AZIZPOUR, H.; SULLIVAN, J.; CARLSSON,S. Cnn features o�-the-shelf: an astounding baseline for recognition.CoRR, abs/1403.6382, 2014.

ROCHA, L.; CAPPABIANCO, F.; FALCÃO, A. Data clustering asan optimum-path forest problem with applications in image analysis.

http://dx.doi.org/10.1109/WACV.2007.18

http://dx.doi.org/10.1023/B:VISI.0000029664.99615.94

http://projecteuclid.org/euclid.bsmsp/1200512992

http://projecteuclid.org/euclid.bsmsp/1200512992

http://dx.doi.org/10.1007/s11263-005-3848-x

http://dx.doi.org/10.1002/ima.v19:2

Referências 117

International Journal of Imaging Systems and Technology, WileyPeriodicals, v. 19, n. 2, p. 50–68, 2009.

ROSTEN, E.; DRUMMOND, T. Machine learning for high-speedcorner detection. In: In European Conference on Computer Vision.[S.l.: s.n.], 2006. p. 430–443.

ROWLEY, H. A.; JING, Y.; BALUJA, S. Large scale image-basedadult-content filtering. Conf. on Computer Vision Theory andApplications, 2006.

RUBLEE, E.; RABAUD, V.; KONOLIGE, K.; BRADSKI, G.Orb: An e�cient alternative to sift or surf. In: Proceedingsof the 2011 International Conference on Computer Vision.Washington, DC, USA: IEEE Computer Society, 2011. (ICCV’11), p. 2564–2571. ISBN 978-1-4577-1101-5. Disponível em:<http://dx.doi.org/10.1109/ICCV.2011.6126544>.

SERMANET, P.; EIGEN, D.; ZHANG, X.; MATHIEU, M.; FERGUS,R.; LECUN, Y. Overfeat: Integrated recognition, localization anddetection using convolutional networks. CoRR, abs/1312.6229, 2013.

SIMON, P. Too Big to Ignore: The Business Case for BigData. Wiley, 2013. (Wiley and SAS Business Series). ISBN9781118641866. Disponível em: <http://books.google.com.br/books?id=1ekYIAoEBrEC>.

TANG, Y. Deep learning using support vector machines. CoRR,abs/1306.0239, 2013.

TORRES, R. D. S.; FALCãO, A. X. Content-based image retrieval:Theory and applications. Revista de Informática Teórica e Aplicada,v. 13, p. 161–185, 2006.

WALLRAVEN, C.; CAPUTO, B.; GRAF, A. Recognitionwith local features: the kernel recipe. In: Proceedings of theNinth IEEE International Conference on Computer Vision -Volume 2. Washington, DC, USA: IEEE Computer Society,2003. (ICCV ’03), p. 257–. ISBN 0-7695-1950-4. Disponível em:<http://dl.acm.org/citation.cfm?id=946247.946663>.

ZEILER, M. D.; FERGUS, R. Stochastic pooling for regularizationof deep convolutional neural networks. CoRR, abs/1301.3557, 2013.Disponível em: <http://dblp.uni-trier.de/db/journals/corr/corr1301.html#abs-1301-3557>.

http://dx.doi.org/10.1109/ICCV.2011.6126544

http://books.google.com.br/books?id=1ekYIAoEBrEC

http://books.google.com.br/books?id=1ekYIAoEBrEC

http://dl.acm.org/citation.cfm?id=946247.946663



119

AApêndice A

Para a obtenção do melhor tamanho de dicionário de palavrasvisuais (K) na técnica BOVW utilizando OPF-U (não supervisionado)foram efetuados testes de execução informando os parâmetros de dis-tância variando de 0,001 até 0,95 para cada um dos conjuntos de descri-tores avaliados. A Tabela 27 mostra o resultado da acurácia, tempo deprocessamento e o tamanho do dicionário obtido utilizando o OPF-Upara agrupamento e o OPF-S para classificação na base Caltech 101.Na Tabela 28 são mostrados os resultados para o classificador SVM namesma base. As Tabelas 29 e 30 mostram os resultados na base criada(com 36 categorias de imagens) para os classificadores OPF-S e SVM,respectivamente. As Tabelas 31 e 32 mostram os resultados na basecriada utilizando apenas 5 categorias. Nas Tabelas 33 e 34 são mostra-dos os resultados para a base contendo 10 categorias de imagens. Porfim, são mostradas nas Tabelas 35 e 34 os resultados para a base criadacontendo 15 categorias.

Tabela 27 – Parâmetros testados para o OPF-U e OPF-S na base Cal-tech 101.

Localizador Descritor Distância K Acurácia Tempo (s)

MSER SIFT 0,001 1320 0,204 484,02MSER SIFT 0,002 1200 0,224 498,53MSER SIFT 0,003 1246 0,189 520,25MSER SIFT 0,004 1163 0,173 501,46MSER SIFT 0,005 1141 0,209 515,67MSER SIFT 0,006 1137 0,251 517,28MSER SIFT 0,007 1049 0,227 518,00MSER SIFT 0,008 991 0,217 532,75MSER SIFT 0,009 975 0,219 524,26MSER SIFT 0,01 1032 0,202 523,51MSER SIFT 0,02 814 0,218 507,11MSER SIFT 0,03 834 0,232 514,18MSER SIFT 0,04 633 0,215 483,46MSER SIFT 0,05 688 0,225 500,27MSER SIFT 0,06 717 0,199 496,87MSER SIFT 0,07 625 0,214 485,80MSER SIFT 0,08 650 0,189 492,07MSER SIFT 0,09 593 0,225 475,30

120 APÊNDICE A. Apêndice A

Tabela 27

continuação


MSER SIFT 0,1 661 0,210 490,36MSER SIFT 0,12 620 0,199 488,64MSER SIFT 0,14 610 0,176 485,85MSER SIFT 0,16 570 0,214 482,73MSER SIFT 0,18 589 0,196 485,28MSER SIFT 0,20 574 0,196 480,65MSER SIFT 0,25 607 0,221 489,04MSER SIFT 0,30 562 0,217 484,30MSER SIFT 0,35 540 0,148 472,34MSER SIFT 0,40 586 0,196 473,70MSER SIFT 0,45 565 0,187 476,17MSER SIFT 0,50 602 0,173 483,41MSER SIFT 0,55 651 0,201 489,19MSER SIFT 0,60 542 0,128 471,74MSER SIFT 0,65 546 0,121 477,07MSER SIFT 0,70 567 0,128 472,84MSER SIFT 0,75 573 0,161 478,17MSER SIFT 0,80 649 0,068 478,23MSER SIFT 0,85 549 0,142 470,52MSER SIFT 0,90 596 0,066 479,07MSER SIFT 0,95 614 0,069 480,08SIFT SIFT 0,001 339 0,119 916,97SIFT SIFT 0,002 283 0,081 931,60SIFT SIFT 0,003 267 0,104 930,17SIFT SIFT 0,004 243 0,091 945,24SIFT SIFT 0,005 190 0,103 901,44SIFT SIFT 0,006 200 0,082 952,53SIFT SIFT 0,007 152 0,103 933,47SIFT SIFT 0,008 322 0,104 948,19SIFT SIFT 0,009 164 0,119 923,66SIFT SIFT 0,01 298 0,109 944,27SIFT SIFT 0,02 105 0,095 932,02SIFT SIFT 0,03 101 0,079 952,27SIFT SIFT 0,04 79 0,059 941,72SIFT SIFT 0,05 92 0,055 929,81SIFT SIFT 0,06 96 0,065 944,20SIFT SIFT 0,07 76 0,059 945,66SIFT SIFT 0,08 76 0,046 924,17SIFT SIFT 0,09 79 0,051 936,44SIFT SIFT 0,1 105 0,054 932,93SIFT SIFT 0,12 93 0,053 937,76SIFT SIFT 0,14 73 0,047 933,00SIFT SIFT 0,16 78 0,055 947,15SIFT SIFT 0,18 90 0,052 932,23SIFT SIFT 0,20 88 0,039 928,67SIFT SIFT 0,25 79 0,090 943,77SIFT SIFT 0,30 75 0,042 962,32SIFT SIFT 0,35 90 0,058 926,10SIFT SIFT 0,40 78 0,057 957,32SIFT SIFT 0,45 65 0,043 942,51SIFT SIFT 0,50 78 0,052 933,34SIFT SIFT 0,55 90 0,055 941,36SIFT SIFT 0,60 64 0,061 933,80SIFT SIFT 0,65 80 0,045 882,00SIFT SIFT 0,70 79 0,036 961,51SIFT SIFT 0,75 88 0,053 947,23SIFT SIFT 0,80 62 0,034 919,27SIFT SIFT 0,85 76 0,034 936,35SIFT SIFT 0,90 86 0,065 951,67SIFT SIFT 0,95 61 0,027 933,13Dense SIFT 0,001 261 0,268 3628,52Dense SIFT 0,002 160 0,201 3555,71Dense SIFT 0,003 151 0,239 3654,26Dense SIFT 0,004 120 0,114 3681,51Dense SIFT 0,005 101 0,215 3703,50Dense SIFT 0,006 91 0,109 3520,46Dense SIFT 0,007 72 0,092 3626,57Dense SIFT 0,008 110 0,195 3750,87Dense SIFT 0,009 80 0,192 3669,52Dense SIFT 0,01 86 0,186 3639,98Dense SIFT 0,02 100 0,182 3778,57Dense SIFT 0,03 81 0,162 3640,17Dense SIFT 0,04 68 0,150 3775,89Dense SIFT 0,05 77 0,136 3642,25

121

Tabela 27

continuação


Dense SIFT 0,06 66 0,094 3628,01Dense SIFT 0,07 81 0,109 3653,79Dense SIFT 0,08 61 0,103 3681,50Dense SIFT 0,09 76 0,103 3599,12Dense SIFT 0,1 62 0,140 3626,78Dense SIFT 0,12 68 0,104 3669,67Dense SIFT 0,14 61 0,122 3693,82Dense SIFT 0,16 74 0,085 3606,28Dense SIFT 0,18 71 0,117 3591,00Dense SIFT 0,20 67 0,122 2950,32Dense SIFT 0,25 85 0,113 3325,84Dense SIFT 0,30 67 0,084 3597,41Dense SIFT 0,35 70 0,084 2670,74Dense SIFT 0,40 65 0,102 3445,25Dense SIFT 0,45 55 0,104 3083,63Dense SIFT 0,50 60 0,100 3330,86Dense SIFT 0,55 66 0,106 3563,46Dense SIFT 0,60 69 0,115 3512,03Dense SIFT 0,65 62 0,110 3337,39Dense SIFT 0,70 72 0,102 3130,52Dense SIFT 0,75 67 0,092 3511,26Dense SIFT 0,80 68 0,140 3495,56Dense SIFT 0,85 62 0,102 2659,39Dense SIFT 0,90 59 0,111 3230,34Dense SIFT 0,95 80 0,099 3687,32Dense SURF 0,001 349 0,204 2443,98Dense SURF 0,002 354 0,199 2442,67Dense SURF 0,003 345 0,210 2350,29Dense SURF 0,004 324 0,209 2349,21Dense SURF 0,005 324 0,208 2345,41Dense SURF 0,006 331 0,229 2318,00Dense SURF 0,007 349 0,215 2367,05Dense SURF 0,008 345 0,217 2350,81Dense SURF 0,009 349 0,230 2326,93Dense SURF 0,01 341 0,212 2334,60Dense SURF 0,02 303 0,227 2355,89Dense SURF 0,03 274 0,226 2372,89Dense SURF 0,04 295 0,230 2353,26Dense SURF 0,05 274 0,241 2392,03Dense SURF 0,06 269 0,212 2369,66Dense SURF 0,07 254 0,203 2350,20Dense SURF 0,08 259 0,222 2368,27Dense SURF 0,09 230 0,230 2313,28Dense SURF 0,1 249 0,219 2328,78Dense SURF 0,12 243 0,199 2364,68Dense SURF 0,14 212 0,135 2405,11Dense SURF 0,16 213 0,135 2302,89Dense SURF 0,18 209 0,122 2348,69Dense SURF 0,20 227 0,134 2314,25Dense SURF 0,25 202 0,142 2373,68Dense SURF 0,30 234 0,139 2386,64Dense SURF 0,35 217 0,134 2331,05Dense SURF 0,40 199 0,145 2359,24Dense SURF 0,45 217 0,126 2303,44Dense SURF 0,50 199 0,126 2340,62Dense SURF 0,55 205 0,136 2322,28Dense SURF 0,60 205 0,114 2347,46Dense SURF 0,65 187 0,134 2338,04Dense SURF 0,70 196 0,140 2370,43Dense SURF 0,75 198 0,129 2370,23Dense SURF 0,80 199 0,141 2348,31Dense SURF 0,85 181 0,129 2340,84Dense SURF 0,90 198 0,128 2358,23Dense SURF 0,95 177 0,118 2346,41SURF SURF 0,001 594 0,187 926,81SURF SURF 0,002 586 0,178 904,72SURF SURF 0,003 568 0,176 924,44SURF SURF 0,004 562 0,185 925,22SURF SURF 0,005 558 0,189 921,22SURF SURF 0,006 581 0,191 911,33SURF SURF 0,007 558 0,174 891,89SURF SURF 0,008 489 0,184 889,28SURF SURF 0,009 529 0,194 883,01SURF SURF 0,01 544 0,186 890,55


Tabela 27

continuação


SURF SURF 0,02 487 0,177 891,79SURF SURF 0,03 433 0,185 886,45SURF SURF 0,04 383 0,178 880,69SURF SURF 0,05 321 0,141 880,78SURF SURF 0,06 342 0,147 878,21SURF SURF 0,07 315 0,098 883,79SURF SURF 0,08 313 0,132 888,88SURF SURF 0,09 330 0,066 877,31SURF SURF 0,1 268 0,087 870,93SURF SURF 0,12 295 0,069 886,79SURF SURF 0,14 267 0,076 876,82SURF SURF 0,16 286 0,053 878,56SURF SURF 0,18 264 0,043 878,73SURF SURF 0,20 247 0,046 882,77SURF SURF 0,25 202 0,053 875,25SURF SURF 0,30 259 0,051 865,16SURF SURF 0,35 223 0,051 868,12SURF SURF 0,40 262 0,042 884,72SURF SURF 0,45 205 0,044 879,80SURF SURF 0,50 243 0,046 869,77SURF SURF 0,55 243 0,037 875,06SURF SURF 0,60 205 0,060 878,70SURF SURF 0,65 203 0,052 850,54SURF SURF 0,70 210 0,013 868,27SURF SURF 0,75 224 0,048 867,99SURF SURF 0,80 205 0,058 864,37SURF SURF 0,85 243 0,051 868,80SURF SURF 0,90 228 0,050 863,02SURF SURF 0,95 210 0,053 870,05

Tabela 28 – Parâmetros testados para o OPF-U e SVM na base Caltech101,


MSER SIFT 0,001 1329 0,194 421,72MSER SIFT 0,002 1278 0,188 454,53MSER SIFT 0,003 1156 0,208 456,46MSER SIFT 0,004 1166 0,194 470,43MSER SIFT 0,005 1155 0,239 502,15MSER SIFT 0,006 1037 0,145 494,53MSER SIFT 0,007 1072 0,207 481,65MSER SIFT 0,008 933 0,224 502,09MSER SIFT 0,009 936 0,167 484,21MSER SIFT 0,01 1003 0,196 488,43MSER SIFT 0,02 869 0,259 496,64MSER SIFT 0,03 717 0,218 478,63MSER SIFT 0,04 638 0,258 489,58MSER SIFT 0,05 657 0,234 501,61MSER SIFT 0,06 598 0,193 509,62MSER SIFT 0,07 727 0,169 504,93MSER SIFT 0,08 615 0,209 502,93MSER SIFT 0,09 643 0,237 494,24MSER SIFT 0,1 601 0,179 516,93MSER SIFT 0,12 632 0,150 514,20MSER SIFT 0,14 667 0,193 502,27MSER SIFT 0,16 570 0,189 515,01MSER SIFT 0,18 584 0,097 514,25MSER SIFT 0,2 609 0,134 512,25MSER SIFT 0,25 576 0,082 547,36MSER SIFT 0,3 529 0,095 541,29MSER SIFT 0,35 678 0,069 532,25MSER SIFT 0,4 570 0,237 491,57MSER SIFT 0,45 593 0,112 540,35MSER SIFT 0,5 607 0,079 553,76MSER SIFT 0,55 605 0,083 534,80MSER SIFT 0,6 604 0,091 535,49MSER SIFT 0,65 603 0,088 546,41MSER SIFT 0,7 551 0,091 511,92

123

Tabela 28

continuação


MSER SIFT 0,75 648 0,069 520,03MSER SIFT 0,8 560 0,021 527,79MSER SIFT 0,85 547 0,035 534,45MSER SIFT 0,9 585 0,051 505,90MSER SIFT 0,95 535 0,008 523,18SIFT SIFT 0,001 365 0,117 963,04SIFT SIFT 0,002 303 0,079 975,72SIFT SIFT 0,003 244 0,082 987,23SIFT SIFT 0,004 225 0,141 978,73SIFT SIFT 0,005 210 0,106 995,49SIFT SIFT 0,006 212 0,121 981,20SIFT SIFT 0,007 180 0,096 993,78SIFT SIFT 0,008 183 0,058 1018,00SIFT SIFT 0,009 147 0,053 1010,10SIFT SIFT 0,01 136 0,106 996,01SIFT SIFT 0,02 106 0,055 1026,59SIFT SIFT 0,03 85 0,060 987,60SIFT SIFT 0,04 117 0,098 980,43SIFT SIFT 0,05 88 0,035 1012,10SIFT SIFT 0,06 79 0,034 1009,77SIFT SIFT 0,07 87 0,032 1000,72SIFT SIFT 0,08 61 0,034 1097,23SIFT SIFT 0,09 68 0,061 1023,08SIFT SIFT 0,1 71 0,016 1095,99SIFT SIFT 0,12 79 0,024 1108,86SIFT SIFT 0,14 92 0,045 1082,23SIFT SIFT 0,16 86 0,015 1083,48SIFT SIFT 0,18 68 0,017 1034,43SIFT SIFT 0,2 75 0,037 1068,06SIFT SIFT 0,25 85 0,006 1097,94SIFT SIFT 0,3 88 0,030 1028,41SIFT SIFT 0,35 99 0,045 1026,53SIFT SIFT 0,4 70 0,035 1005,35SIFT SIFT 0,45 74 0,030 1065,85SIFT SIFT 0,5 79 0,023 1083,97SIFT SIFT 0,55 90 0,029 1019,44SIFT SIFT 0,6 92 0,017 1030,41SIFT SIFT 0,65 79 0,083 1057,28SIFT SIFT 0,7 82 0,017 1119,29SIFT SIFT 0,75 76 0,053 1074,59SIFT SIFT 0,8 74 0,028 1069,56SIFT SIFT 0,85 82 0,039 1007,80SIFT SIFT 0,9 66 0,012 1081,97SIFT SIFT 0,95 95 0,018 1058,59Dense SIFT 0,001 241 0,236 3572,64Dense SIFT 0,002 175 0,176 3502,37Dense SIFT 0,003 128 0,164 3577,24Dense SIFT 0,004 119 0,181 3585,18Dense SIFT 0,005 98 0,136 3709,58Dense SIFT 0,006 91 0,119 3637,58Dense SIFT 0,007 94 0,133 3712,76Dense SIFT 0,008 91 0,130 3712,89Dense SIFT 0,009 79 0,166 3616,24Dense SIFT 0,01 85 0,151 3673,06Dense SIFT 0,02 88 0,113 3723,74Dense SIFT 0,03 86 0,155 3595,27Dense SIFT 0,04 80 0,119 3585,89Dense SIFT 0,05 89 0,085 3749,50Dense SIFT 0,06 64 0,076 3681,65Dense SIFT 0,07 66 0,099 3679,99Dense SIFT 0,08 85 0,073 3702,70Dense SIFT 0,09 76 0,066 3724,01Dense SIFT 0,1 78 0,067 3708,71Dense SIFT 0,12 72 0,070 3786,55Dense SIFT 0,14 75 0,088 3766,88Dense SIFT 0,16 74 0,087 3680,91Dense SIFT 0,18 64 0,033 3348,65Dense SIFT 0,2 53 0,040 3778,55Dense SIFT 0,25 80 0,106 3258,73Dense SIFT 0,3 53 0,065 3724,16Dense SIFT 0,35 67 0,038 3790,17Dense SIFT 0,4 59 0,023 3381,71Dense SIFT 0,45 59 0,079 3648,98Dense SIFT 0,5 66 0,042 3610,85


Tabela 28

continuação


Dense SIFT 0,55 72 0,031 3051,12Dense SIFT 0,6 73 0,072 3780,77Dense SIFT 0,65 65 0,033 3042,46Dense SIFT 0,7 58 0,102 2997,90Dense SIFT 0,75 63 0,053 3490,44Dense SIFT 0,8 54 0,059 3798,00Dense SIFT 0,85 78 0,042 3398,31Dense SIFT 0,9 65 0,051 2571,11Dense SIFT 0,95 71 0,050 3265,15Dense SURF 0,001 361 0,254 2459,27Dense SURF 0,002 377 0,251 2382,56Dense SURF 0,003 345 0,249 2418,03Dense SURF 0,004 335 0,258 2442,00Dense SURF 0,005 348 0,254 2416,31Dense SURF 0,006 346 0,262 2410,71Dense SURF 0,007 361 0,258 2421,06Dense SURF 0,008 342 0,252 2443,87Dense SURF 0,009 334 0,231 2455,45Dense SURF 0,01 328 0,253 2441,43Dense SURF 0,02 315 0,254 2438,76Dense SURF 0,03 286 0,236 2448,95Dense SURF 0,04 271 0,254 2466,01Dense SURF 0,05 287 0,232 2399,43Dense SURF 0,06 256 0,244 2404,07Dense SURF 0,07 256 0,233 2421,56Dense SURF 0,08 237 0,246 2469,04Dense SURF 0,09 227 0,234 2426,47Dense SURF 0,1 227 0,238 2420,08Dense SURF 0,12 227 0,171 2472,78Dense SURF 0,14 224 0,172 2411,23Dense SURF 0,16 214 0,180 2460,15Dense SURF 0,18 240 0,189 2437,04Dense SURF 0,2 203 0,181 2441,46Dense SURF 0,25 223 0,164 2448,39Dense SURF 0,3 208 0,154 2440,27Dense SURF 0,35 236 0,170 2471,22Dense SURF 0,4 208 0,181 2478,23Dense SURF 0,45 191 0,169 2481,09Dense SURF 0,5 208 0,159 2446,89Dense SURF 0,55 211 0,157 2439,05Dense SURF 0,6 207 0,162 2464,58Dense SURF 0,65 207 0,176 2455,27Dense SURF 0,7 201 0,156 2472,24Dense SURF 0,75 185 0,171 2497,00Dense SURF 0,8 191 0,170 2446,77Dense SURF 0,85 173 0,161 2480,38Dense SURF 0,9 186 0,161 2497,86Dense SURF 0,95 182 0,156 2448,67SURF SURF 0,001 593 0,191 1023,76SURF SURF 0,002 572 0,179 1011,26SURF SURF 0,003 586 0,185 1019,18SURF SURF 0,004 548 0,174 1013,75SURF SURF 0,005 584 0,207 1025,29SURF SURF 0,006 534 0,047 1116,58SURF SURF 0,007 523 0,166 1016,64SURF SURF 0,008 505 0,161 1026,63SURF SURF 0,009 493 0,156 1016,51SURF SURF 0,01 521 0,184 1031,26SURF SURF 0,02 500 0,176 1032,60SURF SURF 0,03 411 0,125 1016,77SURF SURF 0,04 367 0,124 1035,12SURF SURF 0,05 338 0,018 1092,55SURF SURF 0,06 364 0,113 1035,02SURF SURF 0,07 342 0,040 1094,37SURF SURF 0,08 288 0,064 1118,78SURF SURF 0,09 269 0,033 1087,50SURF SURF 0,1 286 0,046 1074,21SURF SURF 0,12 309 0,057 1106,20SURF SURF 0,14 259 0,045 1110,78SURF SURF 0,16 270 0,051 1094,64SURF SURF 0,18 214 0,016 1104,74SURF SURF 0,2 276 0,016 1107,61SURF SURF 0,25 246 0,016 1104,95SURF SURF 0,3 235 0,024 1107,09

125

Tabela 28

continuação


SURF SURF 0,35 211 0,017 1105,99SURF SURF 0,4 231 0,009 1080,58SURF SURF 0,45 225 0,055 1133,43SURF SURF 0,5 217 0,055 1113,63SURF SURF 0,55 221 0,020 1123,11SURF SURF 0,6 215 0,046 1123,60SURF SURF 0,65 207 0,024 1135,38SURF SURF 0,7 211 0,020 1137,52SURF SURF 0,75 220 0,081 1075,86SURF SURF 0,8 250 0,055 1129,40SURF SURF 0,85 210 0,046 1124,90SURF SURF 0,9 207 0,054 1144,22SURF SURF 0,95 200 0,066 1132,40

Tabela 29 – Parâmetros testados para o OPF-U e OPF-S na base cri-ada.


MSER SIFT 0,001 856 0,222 495,02MSER SIFT 0,002 905 0,231 524,69MSER SIFT 0,003 825 0,222 540,66MSER SIFT 0,004 787 0,178 561,47MSER SIFT 0,005 915 0,206 587,80MSER SIFT 0,006 892 0,217 584,21MSER SIFT 0,007 816 0,219 573,71MSER SIFT 0,008 702 0,194 550,95MSER SIFT 0,009 614 0,203 543,95MSER SIFT 0,01 686 0,186 557,91MSER SIFT 0,02 552 0,236 531,51MSER SIFT 0,03 507 0,208 530,56MSER SIFT 0,04 395 0,203 506,88MSER SIFT 0,05 421 0,208 513,77MSER SIFT 0,06 450 0,206 518,66MSER SIFT 0,07 414 0,208 519,23MSER SIFT 0,08 416 0,261 516,80MSER SIFT 0,09 414 0,222 516,46MSER SIFT 0,1 429 0,214 516,53MSER SIFT 0,12 404 0,256 511,95MSER SIFT 0,14 391 0,214 512,57MSER SIFT 0,16 381 0,236 515,23MSER SIFT 0,18 426 0,253 511,74MSER SIFT 0,20 433 0,164 515,82MSER SIFT 0,25 450 0,231 523,77MSER SIFT 0,30 389 0,203 510,57MSER SIFT 0,35 371 0,225 499,98MSER SIFT 0,40 380 0,117 506,78MSER SIFT 0,45 381 0,178 505,94MSER SIFT 0,50 402 0,081 506,19MSER SIFT 0,55 374 0,089 498,13MSER SIFT 0,60 350 0,150 494,70MSER SIFT 0,65 384 0,142 500,66MSER SIFT 0,70 357 0,106 496,02MSER SIFT 0,75 365 0,136 499,85MSER SIFT 0,80 333 0,106 501,37MSER SIFT 0,85 411 0,100 508,88MSER SIFT 0,90 361 0,067 507,58MSER SIFT 0,95 345 0,056 495,98SIFT SIFT 0,001 465 0,156 869,34SIFT SIFT 0,002 390 0,161 838,55SIFT SIFT 0,003 362 0,172 849,82SIFT SIFT 0,004 366 0,172 856,69SIFT SIFT 0,005 298 0,175 853,66SIFT SIFT 0,006 288 0,206 857,00SIFT SIFT 0,007 243 0,153 854,33SIFT SIFT 0,008 286 0,192 870,49SIFT SIFT 0,009 206 0,167 845,68SIFT SIFT 0,01 219 0,150 842,16SIFT SIFT 0,02 148 0,172 836,96


Tabela 29

continuação


SIFT SIFT 0,03 118 0,133 842,88SIFT SIFT 0,04 97 0,108 833,66SIFT SIFT 0,05 91 0,125 842,63SIFT SIFT 0,06 114 0,108 840,53SIFT SIFT 0,07 80 0,131 829,52SIFT SIFT 0,08 88 0,122 827,01SIFT SIFT 0,09 121 0,086 828,19SIFT SIFT 0,1 77 0,078 830,00SIFT SIFT 0,12 83 0,078 809,26SIFT SIFT 0,14 84 0,053 828,71SIFT SIFT 0,16 85 0,092 823,19SIFT SIFT 0,18 87 0,100 821,05SIFT SIFT 0,20 90 0,072 836,69SIFT SIFT 0,25 92 0,128 817,42SIFT SIFT 0,30 80 0,075 827,79SIFT SIFT 0,35 84 0,036 858,64SIFT SIFT 0,40 105 0,108 830,76SIFT SIFT 0,45 91 0,078 846,94SIFT SIFT 0,50 78 0,058 820,91SIFT SIFT 0,55 91 0,094 827,71SIFT SIFT 0,60 79 0,108 818,67SIFT SIFT 0,65 88 0,108 826,41SIFT SIFT 0,70 97 0,075 842,26SIFT SIFT 0,75 87 0,044 838,97SIFT SIFT 0,80 77 0,064 826,20SIFT SIFT 0,85 88 0,078 827,45SIFT SIFT 0,90 75 0,042 827,53SIFT SIFT 0,95 65 0,061 817,48Dense SIFT 0,001 337 0,344 3898,94Dense SIFT 0,002 271 0,350 3888,58Dense SIFT 0,003 189 0,342 4032,97Dense SIFT 0,004 172 0,289 4017,42Dense SIFT 0,005 145 0,322 4046,23Dense SIFT 0,006 118 0,239 4027,54Dense SIFT 0,007 140 0,294 4180,91Dense SIFT 0,008 102 0,342 4088,69Dense SIFT 0,009 104 0,219 4103,32Dense SIFT 0,01 101 0,256 4088,71Dense SIFT 0,02 85 0,272 4158,44Dense SIFT 0,03 83 0,169 4115,93Dense SIFT 0,04 96 0,131 4072,12Dense SIFT 0,05 78 0,278 4018,39Dense SIFT 0,06 76 0,278 4042,05Dense SIFT 0,07 88 0,222 4184,59Dense SIFT 0,08 94 0,244 4114,07Dense SIFT 0,09 67 0,219 4007,17Dense SIFT 0,1 73 0,267 4119,14Dense SIFT 0,12 71 0,125 4091,06Dense SIFT 0,14 81 0,106 4076,21Dense SIFT 0,16 84 0,217 4040,11Dense SIFT 0,18 85 0,128 4048,48Dense SIFT 0,20 69 0,167 4019,37Dense SIFT 0,25 74 0,075 3788,08Dense SIFT 0,30 75 0,125 3748,92Dense SIFT 0,35 75 0,106 3944,01Dense SIFT 0,40 73 0,136 3643,53Dense SIFT 0,45 70 0,089 3958,38Dense SIFT 0,50 77 0,125 4000,68Dense SIFT 0,55 77 0,150 4200,92Dense SIFT 0,60 92 0,072 4026,47Dense SIFT 0,65 53 0,128 4000,72Dense SIFT 0,70 78 0,128 4121,60Dense SIFT 0,75 87 0,108 3774,01Dense SIFT 0,80 75 0,083 4079,04Dense SIFT 0,85 66 0,106 3741,90Dense SIFT 0,90 61 0,117 3502,14Dense SIFT 0,95 68 0,158 4055,09Dense SURF 0,001 219 0,336 2426,42Dense SURF 0,002 232 0,333 2422,83Dense SURF 0,003 244 0,314 2385,52Dense SURF 0,004 224 0,322 2424,71Dense SURF 0,005 211 0,333 2413,68Dense SURF 0,006 230 0,317 2382,12Dense SURF 0,007 208 0,322 2421,43

127

Tabela 29

continuação


Dense SURF 0,008 206 0,347 2396,27Dense SURF 0,009 218 0,331 2409,82Dense SURF 0,01 226 0,283 2404,84Dense SURF 0,02 189 0,278 2373,84Dense SURF 0,03 184 0,281 2390,24Dense SURF 0,04 171 0,303 2391,71Dense SURF 0,05 159 0,272 2396,13Dense SURF 0,06 172 0,278 2358,44Dense SURF 0,07 192 0,267 2403,63Dense SURF 0,08 176 0,261 2402,25Dense SURF 0,09 143 0,258 2357,20Dense SURF 0,1 158 0,239 2312,19Dense SURF 0,12 152 0,283 2361,32Dense SURF 0,14 140 0,258 2392,58Dense SURF 0,16 151 0,250 2356,32Dense SURF 0,18 153 0,233 2335,41Dense SURF 0,20 122 0,236 2333,48Dense SURF 0,25 131 0,211 2331,83Dense SURF 0,30 142 0,206 2346,06Dense SURF 0,35 119 0,222 2400,30Dense SURF 0,40 143 0,203 2376,05Dense SURF 0,45 133 0,250 2398,03Dense SURF 0,50 119 0,192 2392,62Dense SURF 0,55 105 0,181 2385,54Dense SURF 0,60 128 0,194 2383,55Dense SURF 0,65 122 0,206 2393,37Dense SURF 0,70 136 0,217 2376,84Dense SURF 0,75 135 0,231 2402,96Dense SURF 0,80 116 0,217 2408,78Dense SURF 0,85 124 0,206 2390,86Dense SURF 0,90 114 0,236 2418,88Dense SURF 0,95 115 0,194 2387,86SURF SURF 0,001 688 0,256 1199,98SURF SURF 0,002 678 0,217 1195,34SURF SURF 0,003 672 0,228 1194,53SURF SURF 0,004 610 0,225 1179,68SURF SURF 0,005 648 0,231 1207,05SURF SURF 0,006 637 0,219 1189,12SURF SURF 0,007 595 0,250 1176,83SURF SURF 0,008 595 0,242 1187,48SURF SURF 0,009 634 0,178 1205,40SURF SURF 0,01 611 0,211 1201,66SURF SURF 0,02 549 0,208 1194,35SURF SURF 0,03 424 0,181 1161,50SURF SURF 0,04 382 0,081 1164,92SURF SURF 0,05 385 0,158 1147,84SURF SURF 0,06 360 0,125 1144,58SURF SURF 0,07 325 0,142 1137,58SURF SURF 0,08 298 0,150 1155,75SURF SURF 0,09 286 0,031 1164,09SURF SURF 0,1 268 0,147 1149,14SURF SURF 0,12 273 0,075 1150,50SURF SURF 0,14 228 0,086 1157,53SURF SURF 0,16 206 0,075 1143,64SURF SURF 0,18 194 0,094 1153,85SURF SURF 0,20 204 0,103 1162,08SURF SURF 0,25 210 0,089 1155,50SURF SURF 0,30 164 0,089 1164,82SURF SURF 0,35 189 0,072 1144,23SURF SURF 0,40 193 0,086 1147,53SURF SURF 0,45 167 0,072 1150,03SURF SURF 0,50 178 0,064 1143,24SURF SURF 0,55 178 0,081 1155,75SURF SURF 0,60 205 0,094 1145,00SURF SURF 0,65 196 0,081 1151,66SURF SURF 0,70 167 0,092 1147,45SURF SURF 0,75 151 0,081 1135,31SURF SURF 0,80 148 0,069 1147,88SURF SURF 0,85 166 0,097 1153,73SURF SURF 0,90 163 0,081 1143,67SURF SURF 0,95 154 0,067 1136,09


Tabela 30 – Parâmetros testados para o OPF-U e SVM na base criada,


MSER SIFT 0,001 900 0,239 419,12MSER SIFT 0,002 840 0,222 451,55MSER SIFT 0,003 798 0,203 475,32MSER SIFT 0,004 809 0,222 475,01MSER SIFT 0,005 754 0,225 471,64MSER SIFT 0,006 741 0,164 497,45MSER SIFT 0,007 728 0,233 504,16MSER SIFT 0,008 798 0,222 505,02MSER SIFT 0,009 767 0,219 507,22MSER SIFT 0,01 671 0,233 503,21MSER SIFT 0,02 555 0,222 498,81MSER SIFT 0,03 493 0,211 499,48MSER SIFT 0,04 451 0,153 502,19MSER SIFT 0,05 460 0,225 497,34MSER SIFT 0,06 442 0,194 499,91MSER SIFT 0,07 411 0,208 498,66MSER SIFT 0,08 438 0,197 509,96MSER SIFT 0,09 442 0,194 509,15MSER SIFT 0,1 415 0,211 501,44MSER SIFT 0,12 408 0,144 504,14MSER SIFT 0,14 429 0,150 503,12MSER SIFT 0,16 383 0,200 497,96MSER SIFT 0,18 377 0,203 518,40MSER SIFT 0,2 368 0,192 508,43MSER SIFT 0,25 361 0,192 503,73MSER SIFT 0,3 386 0,186 513,72MSER SIFT 0,35 377 0,186 510,96MSER SIFT 0,4 366 0,075 501,37MSER SIFT 0,45 361 0,222 502,83MSER SIFT 0,5 465 0,122 504,32MSER SIFT 0,55 410 0,236 501,88MSER SIFT 0,6 345 0,197 513,91MSER SIFT 0,65 310 0,150 498,61MSER SIFT 0,7 321 0,069 510,75MSER SIFT 0,75 387 0,039 500,94MSER SIFT 0,8 343 0,047 511,11MSER SIFT 0,85 344 0,058 506,02MSER SIFT 0,9 330 0,056 507,57MSER SIFT 0,95 404 0,061 484,31SIFT SIFT 0,001 507 0,214 843,13SIFT SIFT 0,002 395 0,153 849,02SIFT SIFT 0,003 331 0,167 811,14SIFT SIFT 0,004 371 0,161 860,62SIFT SIFT 0,005 336 0,150 853,57SIFT SIFT 0,006 294 0,150 862,07SIFT SIFT 0,007 233 0,156 841,09SIFT SIFT 0,008 230 0,172 832,41SIFT SIFT 0,009 213 0,208 835,18SIFT SIFT 0,01 208 0,172 842,51SIFT SIFT 0,02 132 0,183 813,86SIFT SIFT 0,03 108 0,125 820,44SIFT SIFT 0,04 102 0,114 821,34SIFT SIFT 0,05 97 0,103 831,28SIFT SIFT 0,06 90 0,092 832,60SIFT SIFT 0,07 76 0,069 798,45SIFT SIFT 0,08 87 0,089 850,84SIFT SIFT 0,09 91 0,100 807,55SIFT SIFT 0,1 90 0,103 804,33SIFT SIFT 0,12 93 0,058 842,64SIFT SIFT 0,14 95 0,083 847,73SIFT SIFT 0,16 91 0,094 852,05SIFT SIFT 0,18 75 0,047 832,48SIFT SIFT 0,2 89 0,078 849,51SIFT SIFT 0,25 90 0,092 833,22SIFT SIFT 0,3 81 0,089 813,09SIFT SIFT 0,35 86 0,058 835,95SIFT SIFT 0,4 95 0,050 856,33SIFT SIFT 0,45 83 0,067 855,66SIFT SIFT 0,5 68 0,083 797,09SIFT SIFT 0,55 113 0,078 840,44SIFT SIFT 0,6 96 0,122 847,80SIFT SIFT 0,65 99 0,042 841,46SIFT SIFT 0,7 104 0,075 835,33

129

Tabela 30

continuação


SIFT SIFT 0,75 73 0,064 839,80SIFT SIFT 0,8 68 0,072 832,02SIFT SIFT 0,85 90 0,075 853,04SIFT SIFT 0,9 78 0,097 853,61SIFT SIFT 0,95 75 0,056 829,18Dense SIFT 0,001 332 0,342 3963,03Dense SIFT 0,002 252 0,233 4070,63Dense SIFT 0,003 205 0,281 4047,43Dense SIFT 0,004 164 0,286 4017,04Dense SIFT 0,005 139 0,253 4038,16Dense SIFT 0,006 131 0,147 4063,54Dense SIFT 0,007 118 0,239 4125,94Dense SIFT 0,008 118 0,236 4078,47Dense SIFT 0,009 121 0,253 4151,09Dense SIFT 0,01 127 0,222 4149,56Dense SIFT 0,02 87 0,203 4175,74Dense SIFT 0,03 106 0,203 4225,26Dense SIFT 0,04 84 0,200 4138,21Dense SIFT 0,05 79 0,178 4166,97Dense SIFT 0,06 88 0,058 4158,08Dense SIFT 0,07 76 0,194 4106,22Dense SIFT 0,08 88 0,178 4120,90Dense SIFT 0,09 88 0,164 4076,98Dense SIFT 0,1 68 0,119 4289,04Dense SIFT 0,12 78 0,169 4270,29Dense SIFT 0,14 68 0,086 4131,73Dense SIFT 0,16 65 0,103 4105,43Dense SIFT 0,18 85 0,117 4150,49Dense SIFT 0,2 73 0,047 4076,78Dense SIFT 0,25 76 0,039 3822,78Dense SIFT 0,3 76 0,094 4317,76Dense SIFT 0,35 81 0,081 4265,34Dense SIFT 0,4 60 0,056 3872,93Dense SIFT 0,45 62 0,083 4155,67Dense SIFT 0,5 64 0,069 3986,15Dense SIFT 0,55 72 0,092 3887,12Dense SIFT 0,6 77 0,075 4233,49Dense SIFT 0,65 74 0,061 4063,71Dense SIFT 0,7 60 0,081 3736,62Dense SIFT 0,75 70 0,053 3309,92Dense SIFT 0,8 70 0,075 4171,75Dense SIFT 0,85 62 0,067 4121,48Dense SIFT 0,9 82 0,083 4094,63Dense SIFT 0,95 61 0,069 3916,34Dense SURF 0,001 243 0,339 2448,63Dense SURF 0,002 226 0,331 2453,72Dense SURF 0,003 230 0,314 2425,14Dense SURF 0,004 228 0,303 2454,30Dense SURF 0,005 226 0,344 2462,65Dense SURF 0,006 225 0,308 2448,55Dense SURF 0,007 212 0,308 2448,99Dense SURF 0,008 226 0,331 2422,80Dense SURF 0,009 236 0,319 2445,24Dense SURF 0,01 210 0,339 2447,27Dense SURF 0,02 203 0,297 2408,69Dense SURF 0,03 182 0,314 2459,39Dense SURF 0,04 182 0,269 2392,65Dense SURF 0,05 190 0,300 2432,43Dense SURF 0,06 164 0,292 2435,97Dense SURF 0,07 164 0,283 2432,06Dense SURF 0,08 172 0,261 2412,46Dense SURF 0,09 145 0,283 2442,29Dense SURF 0,1 150 0,269 2438,54Dense SURF 0,12 150 0,269 2437,67Dense SURF 0,14 148 0,258 2450,02Dense SURF 0,16 150 0,244 2443,93Dense SURF 0,18 146 0,261 2443,58Dense SURF 0,2 143 0,211 2416,69Dense SURF 0,25 138 0,194 2422,76Dense SURF 0,3 126 0,206 2437,97Dense SURF 0,35 136 0,203 2422,20Dense SURF 0,4 119 0,217 2467,05Dense SURF 0,45 134 0,231 2466,37Dense SURF 0,5 120 0,194 2458,59


Tabela 30

continuação


Dense SURF 0,55 122 0,189 2450,09Dense SURF 0,6 129 0,186 2434,00Dense SURF 0,65 130 0,189 2454,79Dense SURF 0,7 128 0,214 2445,90Dense SURF 0,75 134 0,203 2432,98Dense SURF 0,8 115 0,200 2459,99Dense SURF 0,85 112 0,217 2460,26Dense SURF 0,9 121 0,206 2452,46Dense SURF 0,95 118 0,219 2444,02SURF SURF 0,001 665 0,067 1101,53SURF SURF 0,002 680 0,244 1083,88SURF SURF 0,003 660 0,250 1109,43SURF SURF 0,004 645 0,258 1023,74SURF SURF 0,005 596 0,261 1017,71SURF SURF 0,006 675 0,075 1067,55SURF SURF 0,007 632 0,236 1031,90SURF SURF 0,008 643 0,194 1041,36SURF SURF 0,009 601 0,206 1038,74SURF SURF 0,01 596 0,044 1053,91SURF SURF 0,02 504 0,217 1053,07SURF SURF 0,03 468 0,169 1035,59SURF SURF 0,04 400 0,175 1048,77SURF SURF 0,05 383 0,161 1032,99SURF SURF 0,06 379 0,169 1048,18SURF SURF 0,07 312 0,125 1047,08SURF SURF 0,08 278 0,117 1056,51SURF SURF 0,09 291 0,081 1069,96SURF SURF 0,1 298 0,119 1059,13SURF SURF 0,12 261 0,039 1067,81SURF SURF 0,14 217 0,031 1049,84SURF SURF 0,16 216 0,050 1062,07SURF SURF 0,18 205 0,044 1070,97SURF SURF 0,2 212 0,047 1074,75SURF SURF 0,25 177 0,058 1066,90SURF SURF 0,3 171 0,047 1065,03SURF SURF 0,35 186 0,058 1058,97SURF SURF 0,4 172 0,069 1066,09SURF SURF 0,45 156 0,069 1062,40SURF SURF 0,5 166 0,056 1066,24SURF SURF 0,55 190 0,042 1060,60SURF SURF 0,6 154 0,039 1070,45SURF SURF 0,65 162 0,053 1044,77SURF SURF 0,7 173 0,050 1060,73SURF SURF 0,75 179 0,042 1075,63SURF SURF 0,8 185 0,050 1072,98SURF SURF 0,85 148 0,042 1054,41SURF SURF 0,9 186 0,061 1068,04SURF SURF 0,95 170 0,056 1061,01

Tabela 31 – Parâmetros testados para o OPF-U e OPF-S na base criadacom 5 categorias


MSER SIFT 0,001 749 0,982 155,49MSER SIFT 0,002 718 0,976 157,76MSER SIFT 0,003 752 0,987 161,15MSER SIFT 0,004 672 1,000 159,72MSER SIFT 0,005 672 0,977 161,79MSER SIFT 0,006 686 0,983 163,44MSER SIFT 0,007 578 0,981 161,25MSER SIFT 0,008 625 0,999 160,89MSER SIFT 0,009 590 0,999 161,81MSER SIFT 0,01 547 0,978 161,02MSER SIFT 0,02 483 0,999 159,44MSER SIFT 0,03 442 0,977 159,38MSER SIFT 0,04 424 1,000 160,72MSER SIFT 0,05 421 0,990 161,89MSER SIFT 0,06 436 0,973 159,92

131

Tabela 31

continuação


MSER SIFT 0,07 376 0,984 161,20MSER SIFT 0,08 413 0,982 161,65MSER SIFT 0,09 364 0,976 160,98MSER SIFT 0,1 428 0,990 161,54MSER SIFT 0,12 436 0,999 160,58MSER SIFT 0,14 400 0,973 161,17MSER SIFT 0,16 400 0,999 160,52MSER SIFT 0,18 385 0,988 161,32MSER SIFT 0,2 394 0,975 160,21MSER SIFT 0,25 385 0,998 158,83MSER SIFT 0,3 407 0,972 161,41MSER SIFT 0,35 413 0,985 158,77MSER SIFT 0,4 347 0,970 160,11MSER SIFT 0,45 283 0,942 161,02MSER SIFT 0,5 261 0,857 160,34MSER SIFT 0,55 261 0,892 161,35MSER SIFT 0,6 308 0,948 163,80MSER SIFT 0,65 270 0,936 162,87MSER SIFT 0,7 247 0,772 160,91MSER SIFT 0,75 239 0,562 160,50MSER SIFT 0,8 293 0,920 162,28MSER SIFT 0,85 279 0,853 160,17MSER SIFT 0,9 253 0,592 159,67MSER SIFT 0,95 272 0,678 159,92SIFT SIFT 0,001 443 1,000 263,40SIFT SIFT 0,002 385 1,000 265,20SIFT SIFT 0,003 384 1,000 270,09SIFT SIFT 0,004 339 1,000 271,79SIFT SIFT 0,005 314 1,000 266,60SIFT SIFT 0,006 332 1,000 262,53SIFT SIFT 0,007 220 1,000 268,07SIFT SIFT 0,008 302 1,000 264,82SIFT SIFT 0,009 198 1,000 270,91SIFT SIFT 0,01 264 1,000 269,81SIFT SIFT 0,02 137 1,000 262,25SIFT SIFT 0,03 163 1,000 271,00SIFT SIFT 0,04 155 1,000 280,08SIFT SIFT 0,05 122 1,000 269,28SIFT SIFT 0,06 157 1,000 267,82SIFT SIFT 0,07 121 1,000 272,26SIFT SIFT 0,08 113 1,000 269,86SIFT SIFT 0,09 137 1,000 269,02SIFT SIFT 0,1 129 1,000 268,54SIFT SIFT 0,12 116 1,000 268,38SIFT SIFT 0,14 125 1,000 270,94SIFT SIFT 0,16 123 1,000 269,81SIFT SIFT 0,18 118 1,000 274,34SIFT SIFT 0,2 132 1,000 271,43SIFT SIFT 0,25 100 1,000 269,17SIFT SIFT 0,3 143 1,000 274,00SIFT SIFT 0,35 112 1,000 274,61SIFT SIFT 0,4 131 1,000 270,94SIFT SIFT 0,45 126 1,000 273,25SIFT SIFT 0,5 145 1,000 275,62SIFT SIFT 0,55 142 1,000 269,89SIFT SIFT 0,6 143 1,000 267,56SIFT SIFT 0,65 86 0,493 257,16SIFT SIFT 0,7 89 0,653 261,28SIFT SIFT 0,75 145 1,000 266,62SIFT SIFT 0,8 142 1,000 276,04SIFT SIFT 0,85 84 0,470 275,32SIFT SIFT 0,9 98 0,781 270,72SIFT SIFT 0,95 84 0,433 272,72Dense SIFT 0,001 316 1,000 1246,41Dense SIFT 0,002 243 1,000 1260,35Dense SIFT 0,003 211 1,000 1269,15Dense SIFT 0,004 170 1,000 1261,08Dense SIFT 0,005 164 1,000 1267,21Dense SIFT 0,006 133 1,000 1298,48Dense SIFT 0,007 128 1,000 1306,25Dense SIFT 0,008 133 1,000 1306,93Dense SIFT 0,009 121 1,000 1321,62Dense SIFT 0,01 109 1,000 1319,76Dense SIFT 0,02 95 1,000 1304,19


Tabela 31

continuação


Dense SIFT 0,03 82 1,000 1292,58Dense SIFT 0,04 90 1,000 1303,04Dense SIFT 0,05 93 1,000 1289,00Dense SIFT 0,06 89 1,000 1308,06Dense SIFT 0,07 86 1,000 1317,99Dense SIFT 0,08 93 1,000 1312,20Dense SIFT 0,09 96 0,994 1330,87Dense SIFT 0,1 85 1,000 1280,39Dense SIFT 0,12 76 1,000 1278,29Dense SIFT 0,14 70 1,000 1295,60Dense SIFT 0,16 65 1,000 1284,67Dense SIFT 0,18 89 1,000 1319,62Dense SIFT 0,2 67 1,000 1302,03Dense SIFT 0,25 69 0,557 1309,22Dense SIFT 0,3 74 1,000 1276,19Dense SIFT 0,35 66 1,000 1282,60Dense SIFT 0,4 71 0,862 1273,81Dense SIFT 0,45 78 1,000 1277,82Dense SIFT 0,5 74 1,000 1258,32Dense SIFT 0,55 88 1,000 1048,21Dense SIFT 0,6 60 1,000 1241,48Dense SIFT 0,65 69 0,364 1084,61Dense SIFT 0,7 63 0,943 1123,32Dense SIFT 0,75 66 0,623 1142,28Dense SIFT 0,8 85 1,000 1233,85Dense SIFT 0,85 76 0,999 1103,63Dense SIFT 0,9 76 1,000 1285,33Dense SIFT 0,95 69 1,000 1243,97Dense SURF 0,001 235 1,000 723,58Dense SURF 0,002 245 1,000 707,95Dense SURF 0,003 239 1,000 700,11Dense SURF 0,004 229 1,000 706,50Dense SURF 0,005 224 1,000 705,82Dense SURF 0,006 213 1,000 697,97Dense SURF 0,007 213 1,000 704,70Dense SURF 0,008 215 1,000 708,77Dense SURF 0,009 218 1,000 718,18Dense SURF 0,01 200 1,000 713,81Dense SURF 0,02 203 1,000 713,97Dense SURF 0,03 193 1,000 714,90Dense SURF 0,04 185 1,000 710,99Dense SURF 0,05 159 1,000 698,44Dense SURF 0,06 166 1,000 702,51Dense SURF 0,07 177 1,000 709,85Dense SURF 0,08 158 1,000 706,55Dense SURF 0,09 161 1,000 711,51Dense SURF 0,1 150 1,000 705,31Dense SURF 0,12 150 1,000 697,86Dense SURF 0,14 143 1,000 700,43Dense SURF 0,16 160 1,000 705,60Dense SURF 0,18 123 1,000 701,47Dense SURF 0,2 131 1,000 704,33Dense SURF 0,25 126 1,000 708,86Dense SURF 0,3 140 1,000 689,05Dense SURF 0,35 115 1,000 705,75Dense SURF 0,4 133 1,000 703,03Dense SURF 0,45 130 1,000 705,21Dense SURF 0,5 119 1,000 705,77Dense SURF 0,55 125 1,000 690,72Dense SURF 0,6 115 1,000 698,58Dense SURF 0,65 124 1,000 710,30Dense SURF 0,7 133 1,000 705,47Dense SURF 0,75 124 1,000 716,13Dense SURF 0,8 122 1,000 713,74Dense SURF 0,85 105 1,000 719,92Dense SURF 0,9 122 1,000 708,88Dense SURF 0,95 122 1,000 711,31SURF SURF 0,001 672 1,000 317,06SURF SURF 0,002 686 1,000 316,09SURF SURF 0,003 619 1,000 317,71SURF SURF 0,004 621 0,999 308,82SURF SURF 0,005 597 1,000 303,21SURF SURF 0,006 622 1,000 317,47SURF SURF 0,007 587 1,000 315,88

133

Tabela 31

continuação


SURF SURF 0,008 549 1,000 316,40SURF SURF 0,009 625 1,000 318,48SURF SURF 0,01 590 1,000 305,04SURF SURF 0,02 526 1,000 300,58SURF SURF 0,03 472 1,000 316,51SURF SURF 0,04 396 1,000 315,40SURF SURF 0,05 356 1,000 313,82SURF SURF 0,06 299 1,000 318,08SURF SURF 0,07 333 1,000 303,99SURF SURF 0,08 339 1,000 305,33SURF SURF 0,09 267 1,000 312,53SURF SURF 0,1 265 1,000 310,77SURF SURF 0,12 242 1,000 314,70SURF SURF 0,14 228 1,000 312,85SURF SURF 0,16 209 1,000 314,33SURF SURF 0,18 203 1,000 312,35SURF SURF 0,2 180 1,000 313,64SURF SURF 0,25 149 1,000 314,73SURF SURF 0,3 139 0,997 313,63SURF SURF 0,35 142 0,934 313,33SURF SURF 0,4 162 0,961 313,40SURF SURF 0,45 131 0,892 311,55SURF SURF 0,5 155 0,956 310,50SURF SURF 0,55 151 0,935 311,88SURF SURF 0,6 159 0,941 312,49SURF SURF 0,65 149 0,406 309,77SURF SURF 0,7 155 0,912 311,89SURF SURF 0,75 162 0,933 314,05SURF SURF 0,8 162 0,949 312,27SURF SURF 0,85 156 0,964 309,59SURF SURF 0,9 149 0,912 312,30SURF SURF 0,95 148 0,914 311,69

Tabela 32 – Parâmetros testados para o OPF-U e SVM na base criadacom 5 categorias


MSER SIFT 0,001 803 0,560 83,26MSER SIFT 0,002 664 0,600 83,86MSER SIFT 0,003 739 0,660 84,69MSER SIFT 0,004 661 0,520 84,91MSER SIFT 0,005 640 0,620 85,11MSER SIFT 0,006 633 0,560 85,63MSER SIFT 0,007 641 0,560 85,27MSER SIFT 0,008 549 0,560 84,58MSER SIFT 0,009 554 0,500 85,59MSER SIFT 0,01 636 0,580 85,52MSER SIFT 0,02 485 0,620 86,34MSER SIFT 0,03 444 0,640 85,74MSER SIFT 0,04 422 0,700 85,81MSER SIFT 0,05 422 0,620 85,12MSER SIFT 0,06 451 0,600 87,26MSER SIFT 0,07 415 0,640 85,98MSER SIFT 0,08 435 0,540 86,46MSER SIFT 0,09 399 0,620 85,85MSER SIFT 0,1 378 0,660 86,45MSER SIFT 0,12 413 0,540 87,06MSER SIFT 0,14 378 0,520 87,39MSER SIFT 0,16 388 0,680 86,79MSER SIFT 0,18 351 0,660 85,80MSER SIFT 0,2 380 0,440 87,06MSER SIFT 0,25 415 0,500 87,67MSER SIFT 0,3 373 0,540 86,95MSER SIFT 0,35 369 0,580 86,51MSER SIFT 0,4 354 0,700 86,91MSER SIFT 0,45 337 0,680 87,45MSER SIFT 0,5 376 0,700 87,73MSER SIFT 0,55 250 0,360 88,48


Tabela 32

continuação


MSER SIFT 0,6 245 0,320 87,65MSER SIFT 0,65 261 0,360 86,51MSER SIFT 0,7 262 0,280 88,22MSER SIFT 0,75 272 0,140 87,67MSER SIFT 0,8 250 0,560 87,56MSER SIFT 0,85 245 0,300 86,78MSER SIFT 0,9 263 0,200 86,68MSER SIFT 0,95 292 0,240 87,22SIFT SIFT 0,001 435 0,600 137,56SIFT SIFT 0,002 473 0,500 142,20SIFT SIFT 0,003 378 0,620 138,30SIFT SIFT 0,004 354 0,540 141,43SIFT SIFT 0,005 255 0,480 141,15SIFT SIFT 0,006 294 0,620 138,05SIFT SIFT 0,007 294 0,500 139,56SIFT SIFT 0,008 321 0,400 144,59SIFT SIFT 0,009 266 0,600 138,50SIFT SIFT 0,01 225 0,480 138,36SIFT SIFT 0,02 186 0,500 140,55SIFT SIFT 0,03 170 0,520 139,94SIFT SIFT 0,04 129 0,580 141,13SIFT SIFT 0,05 150 0,460 141,08SIFT SIFT 0,06 123 0,560 139,48SIFT SIFT 0,07 128 0,460 141,82SIFT SIFT 0,08 123 0,540 141,80SIFT SIFT 0,09 139 0,700 142,78SIFT SIFT 0,1 156 0,660 140,28SIFT SIFT 0,12 95 0,500 140,34SIFT SIFT 0,14 128 0,620 141,20SIFT SIFT 0,16 138 0,360 144,59SIFT SIFT 0,18 132 0,460 142,78SIFT SIFT 0,2 130 0,540 139,98SIFT SIFT 0,25 147 0,520 139,90SIFT SIFT 0,3 126 0,440 140,39SIFT SIFT 0,35 114 0,580 140,89SIFT SIFT 0,4 123 0,520 142,99SIFT SIFT 0,45 167 0,580 140,18SIFT SIFT 0,5 142 0,600 141,74SIFT SIFT 0,55 95 0,580 141,97SIFT SIFT 0,6 90 0,560 142,87SIFT SIFT 0,65 125 0,520 139,91SIFT SIFT 0,7 71 0,180 137,21SIFT SIFT 0,75 67 0,260 144,64SIFT SIFT 0,8 138 0,540 144,38SIFT SIFT 0,85 82 0,240 146,27SIFT SIFT 0,9 82 0,240 145,53SIFT SIFT 0,95 81 0,180 145,16Dense SIFT 0,001 313 0,620 638,52Dense SIFT 0,002 256 0,580 632,14Dense SIFT 0,003 228 0,620 642,06Dense SIFT 0,004 185 0,560 661,10Dense SIFT 0,005 161 0,520 641,26Dense SIFT 0,006 148 0,480 635,52Dense SIFT 0,007 131 0,480 634,63Dense SIFT 0,008 120 0,580 669,89Dense SIFT 0,009 119 0,560 675,14Dense SIFT 0,01 103 0,360 702,67Dense SIFT 0,02 106 0,500 679,57Dense SIFT 0,03 85 0,640 691,37Dense SIFT 0,04 87 0,560 678,52Dense SIFT 0,05 76 0,620 695,33Dense SIFT 0,06 95 0,480 681,52Dense SIFT 0,07 84 0,520 688,51Dense SIFT 0,08 98 0,440 676,18Dense SIFT 0,09 108 0,460 687,39Dense SIFT 0,1 77 0,360 688,45Dense SIFT 0,12 63 0,460 696,73Dense SIFT 0,14 77 0,380 622,65Dense SIFT 0,16 85 0,440 633,62Dense SIFT 0,18 90 0,400 637,52Dense SIFT 0,2 77 0,360 603,54Dense SIFT 0,25 73 0,320 647,02Dense SIFT 0,3 83 0,280 624,57Dense SIFT 0,35 78 0,440 629,05

135

Tabela 32

continuação


Dense SIFT 0,4 77 0,360 573,33Dense SIFT 0,45 65 0,320 595,25Dense SIFT 0,5 80 0,320 610,78Dense SIFT 0,55 71 0,340 646,35Dense SIFT 0,6 66 0,260 656,52Dense SIFT 0,65 74 0,240 653,46Dense SIFT 0,7 68 0,280 553,44Dense SIFT 0,75 87 0,360 636,39Dense SIFT 0,8 64 0,400 645,93Dense SIFT 0,85 73 0,460 657,29Dense SIFT 0,9 62 0,260 530,17Dense SIFT 0,95 55 0,300 665,97Dense SURF 0,001 242 0,600 376,50Dense SURF 0,002 237 0,620 375,12Dense SURF 0,003 213 0,600 375,94Dense SURF 0,004 217 0,660 375,36Dense SURF 0,005 231 0,540 369,13Dense SURF 0,006 217 0,600 373,71Dense SURF 0,007 212 0,540 375,30Dense SURF 0,008 209 0,640 374,38Dense SURF 0,009 208 0,660 379,18Dense SURF 0,01 210 0,600 370,96Dense SURF 0,02 200 0,660 373,85Dense SURF 0,03 183 0,660 374,40Dense SURF 0,04 186 0,680 372,25Dense SURF 0,05 180 0,600 372,99Dense SURF 0,06 178 0,600 378,27Dense SURF 0,07 174 0,580 373,98Dense SURF 0,08 153 0,560 373,03Dense SURF 0,09 150 0,620 375,28Dense SURF 0,1 156 0,640 375,20Dense SURF 0,12 159 0,520 374,76Dense SURF 0,14 132 0,640 376,30Dense SURF 0,16 144 0,560 373,32Dense SURF 0,18 132 0,560 371,69Dense SURF 0,2 141 0,460 374,68Dense SURF 0,25 137 0,420 373,49Dense SURF 0,3 138 0,480 374,19Dense SURF 0,35 121 0,460 376,93Dense SURF 0,4 125 0,420 371,03Dense SURF 0,45 136 0,460 376,12Dense SURF 0,5 135 0,560 369,87Dense SURF 0,55 107 0,480 373,07Dense SURF 0,6 125 0,480 375,92Dense SURF 0,65 109 0,520 375,84Dense SURF 0,7 127 0,480 375,90Dense SURF 0,75 124 0,540 371,95Dense SURF 0,8 107 0,540 374,29Dense SURF 0,85 124 0,500 369,74Dense SURF 0,9 110 0,460 374,93Dense SURF 0,95 116 0,480 376,26SURF SURF 0,001 664 0,680 168,92SURF SURF 0,002 674 0,620 169,27SURF SURF 0,003 648 0,580 166,24SURF SURF 0,004 611 0,460 167,53SURF SURF 0,005 607 0,620 167,70SURF SURF 0,006 600 0,600 168,26SURF SURF 0,007 609 0,540 168,13SURF SURF 0,008 574 0,680 168,27SURF SURF 0,009 611 0,700 169,29SURF SURF 0,01 535 0,660 167,93SURF SURF 0,02 488 0,560 167,03SURF SURF 0,03 462 0,540 167,07SURF SURF 0,04 405 0,600 168,10SURF SURF 0,05 392 0,460 162,37SURF SURF 0,06 314 0,520 156,26SURF SURF 0,07 309 0,480 156,03SURF SURF 0,08 296 0,460 155,30SURF SURF 0,09 293 0,500 156,25SURF SURF 0,1 306 0,400 156,42SURF SURF 0,12 253 0,540 157,63SURF SURF 0,14 209 0,280 155,93SURF SURF 0,16 186 0,320 155,65SURF SURF 0,18 212 0,220 156,45


Tabela 32

continuação


SURF SURF 0,2 198 0,320 160,06SURF SURF 0,25 178 0,280 159,16SURF SURF 0,3 163 0,260 157,85SURF SURF 0,35 174 0,220 158,77SURF SURF 0,4 163 0,280 159,11SURF SURF 0,45 138 0,200 156,83SURF SURF 0,5 173 0,220 159,19SURF SURF 0,55 144 0,300 159,39SURF SURF 0,6 192 0,280 158,48SURF SURF 0,65 170 0,240 158,39SURF SURF 0,7 170 0,240 158,48SURF SURF 0,75 159 0,240 158,58SURF SURF 0,8 153 0,240 158,02SURF SURF 0,85 146 0,320 157,92SURF SURF 0,9 140 0,260 157,26SURF SURF 0,95 138 0,360 157,04



MSER SIFT 0,001 749 0,982 155,49MSER SIFT 0,001 1028 0,340 179,51MSER SIFT 0,002 839 0,380 182,75MSER SIFT 0,003 844 0,480 188,05MSER SIFT 0,004 977 0,350 188,80MSER SIFT 0,005 796 0,580 188,63MSER SIFT 0,006 769 0,470 187,50MSER SIFT 0,007 786 0,330 187,60MSER SIFT 0,008 685 0,470 186,19MSER SIFT 0,009 788 0,390 189,63MSER SIFT 0,01 645 0,540 187,48MSER SIFT 0,02 608 0,330 184,34MSER SIFT 0,03 608 0,490 187,64MSER SIFT 0,04 551 0,540 183,95MSER SIFT 0,05 495 0,490 183,40MSER SIFT 0,06 496 0,450 183,82MSER SIFT 0,07 508 0,530 182,62MSER SIFT 0,08 458 0,440 183,57MSER SIFT 0,09 452 0,540 183,25MSER SIFT 0,1 431 0,510 181,95MSER SIFT 0,12 473 0,460 183,81MSER SIFT 0,14 457 0,500 183,19MSER SIFT 0,16 427 0,620 179,92MSER SIFT 0,18 476 0,400 182,88MSER SIFT 0,20 455 0,390 182,55MSER SIFT 0,25 438 0,490 181,18MSER SIFT 0,30 480 0,470 185,94MSER SIFT 0,35 420 0,550 180,81MSER SIFT 0,40 454 0,480 182,45MSER SIFT 0,45 446 0,500 183,33MSER SIFT 0,50 398 0,420 183,34MSER SIFT 0,55 445 0,560 181,98MSER SIFT 0,60 361 0,310 183,19MSER SIFT 0,65 465 0,340 183,17MSER SIFT 0,70 373 0,180 180,89MSER SIFT 0,75 420 0,170 183,24MSER SIFT 0,80 399 0,260 183,66MSER SIFT 0,85 386 0,310 183,29MSER SIFT 0,90 423 0,320 183,23MSER SIFT 0,95 385 0,190 181,91SIFT SIFT 0,001 420 0,390 282,37SIFT SIFT 0,002 324 0,380 281,27SIFT SIFT 0,003 227 0,430 288,72SIFT SIFT 0,004 265 0,410 283,66SIFT SIFT 0,005 270 0,340 284,29SIFT SIFT 0,006 226 0,340 289,33SIFT SIFT 0,007 184 0,400 284,56

137

Tabela 33

continuação


SIFT SIFT 0,008 199 0,410 282,18SIFT SIFT 0,009 201 0,390 290,21SIFT SIFT 0,01 188 0,400 296,24SIFT SIFT 0,02 145 0,300 292,14SIFT SIFT 0,03 112 0,400 281,92SIFT SIFT 0,04 104 0,340 285,80SIFT SIFT 0,05 105 0,300 289,10SIFT SIFT 0,06 84 0,330 289,64SIFT SIFT 0,07 113 0,360 290,28SIFT SIFT 0,08 104 0,340 287,59SIFT SIFT 0,09 104 0,250 282,71SIFT SIFT 0,1 97 0,360 286,55SIFT SIFT 0,12 91 0,320 284,04SIFT SIFT 0,14 106 0,250 290,56SIFT SIFT 0,16 100 0,300 290,34SIFT SIFT 0,18 94 0,310 289,13SIFT SIFT 0,20 96 0,270 290,96SIFT SIFT 0,25 100 0,360 286,10SIFT SIFT 0,30 96 0,300 290,29SIFT SIFT 0,35 95 0,280 290,70SIFT SIFT 0,40 106 0,300 288,68SIFT SIFT 0,45 73 0,260 294,95SIFT SIFT 0,50 94 0,350 288,62SIFT SIFT 0,55 96 0,330 291,36SIFT SIFT 0,60 109 0,260 284,73SIFT SIFT 0,65 97 0,350 287,01SIFT SIFT 0,70 98 0,290 286,62SIFT SIFT 0,75 96 0,360 283,65SIFT SIFT 0,80 96 0,310 284,79SIFT SIFT 0,85 63 0,180 291,24SIFT SIFT 0,90 87 0,090 290,41SIFT SIFT 0,95 67 0,090 286,27Dense SIFT 0,001 311 0,560 1262,11Dense SIFT 0,002 209 0,470 1279,98Dense SIFT 0,003 167 0,540 1249,05Dense SIFT 0,004 165 0,560 1331,66Dense SIFT 0,005 144 0,450 1327,43Dense SIFT 0,006 123 0,510 1291,37Dense SIFT 0,007 114 0,420 1304,10Dense SIFT 0,008 133 0,560 1324,72Dense SIFT 0,009 115 0,560 1290,00Dense SIFT 0,01 110 0,530 1288,06Dense SIFT 0,02 89 0,550 1287,21Dense SIFT 0,03 82 0,350 1333,36Dense SIFT 0,04 79 0,250 1309,64Dense SIFT 0,05 71 0,610 1305,82Dense SIFT 0,06 85 0,480 1285,93Dense SIFT 0,07 83 0,460 1329,49Dense SIFT 0,08 74 0,250 1302,96Dense SIFT 0,09 81 0,500 1313,86Dense SIFT 0,1 70 0,460 1272,79Dense SIFT 0,12 84 0,200 1289,06Dense SIFT 0,14 67 0,330 1305,65Dense SIFT 0,16 83 0,480 1291,99Dense SIFT 0,18 69 0,290 1038,11Dense SIFT 0,20 76 0,260 1317,65Dense SIFT 0,25 78 0,320 1252,57Dense SIFT 0,30 72 0,320 1312,22Dense SIFT 0,35 66 0,340 1318,21Dense SIFT 0,40 71 0,340 1070,32Dense SIFT 0,45 77 0,290 1269,34Dense SIFT 0,50 69 0,340 1104,65Dense SIFT 0,55 70 0,260 1124,81Dense SIFT 0,60 72 0,260 1265,07Dense SIFT 0,65 72 0,310 1220,70Dense SIFT 0,70 71 0,200 1314,23Dense SIFT 0,75 63 0,230 1320,56Dense SIFT 0,80 69 0,290 1175,63Dense SIFT 0,85 73 0,220 1116,78Dense SIFT 0,90 77 0,240 1137,45Dense SIFT 0,95 75 0,300 1293,11Dense SURF 0,001 233 0,550 752,98Dense SURF 0,002 243 0,570 753,13Dense SURF 0,003 233 0,640 756,18


Tabela 33

continuação


Dense SURF 0,004 246 0,570 763,66Dense SURF 0,005 234 0,570 769,31Dense SURF 0,006 242 0,530 776,34Dense SURF 0,007 217 0,520 769,63Dense SURF 0,008 200 0,570 774,59Dense SURF 0,009 226 0,580 763,07Dense SURF 0,01 210 0,500 763,59Dense SURF 0,02 221 0,530 735,89Dense SURF 0,03 184 0,560 736,17Dense SURF 0,04 183 0,600 745,43Dense SURF 0,05 177 0,530 733,81Dense SURF 0,06 169 0,540 754,81Dense SURF 0,07 167 0,560 745,12Dense SURF 0,08 164 0,540 729,92Dense SURF 0,09 167 0,510 733,35Dense SURF 0,1 162 0,590 750,57Dense SURF 0,12 171 0,530 754,32Dense SURF 0,14 161 0,520 736,38Dense SURF 0,16 153 0,530 736,19Dense SURF 0,18 136 0,560 750,36Dense SURF 0,20 141 0,470 736,80Dense SURF 0,25 132 0,420 738,45Dense SURF 0,30 152 0,360 752,52Dense SURF 0,35 137 0,410 760,05Dense SURF 0,40 130 0,450 755,89Dense SURF 0,45 140 0,420 746,18Dense SURF 0,50 123 0,420 750,08Dense SURF 0,55 137 0,460 738,85Dense SURF 0,60 120 0,410 745,36Dense SURF 0,65 119 0,420 739,27Dense SURF 0,70 128 0,400 755,57Dense SURF 0,75 128 0,420 742,98Dense SURF 0,80 100 0,480 757,94Dense SURF 0,85 143 0,380 722,39Dense SURF 0,90 114 0,320 728,15Dense SURF 0,95 120 0,360 738,81SURF SURF 0,001 707 0,480 310,56SURF SURF 0,002 662 0,520 310,09SURF SURF 0,003 659 0,400 309,11SURF SURF 0,004 646 0,400 313,19SURF SURF 0,005 607 0,420 308,37SURF SURF 0,006 656 0,420 311,55SURF SURF 0,007 582 0,450 304,58SURF SURF 0,008 644 0,440 309,67SURF SURF 0,009 562 0,500 306,91SURF SURF 0,01 622 0,290 312,28SURF SURF 0,02 500 0,530 309,35SURF SURF 0,03 460 0,400 309,07SURF SURF 0,04 452 0,370 308,52SURF SURF 0,05 371 0,380 305,14SURF SURF 0,06 343 0,420 304,76SURF SURF 0,07 344 0,320 308,85SURF SURF 0,08 315 0,370 306,32SURF SURF 0,09 289 0,220 301,93SURF SURF 0,1 282 0,290 306,54SURF SURF 0,12 218 0,310 305,97SURF SURF 0,14 244 0,220 304,43SURF SURF 0,16 234 0,210 307,17SURF SURF 0,18 209 0,300 307,56SURF SURF 0,20 188 0,160 298,41SURF SURF 0,25 178 0,200 305,31SURF SURF 0,30 217 0,140 300,24SURF SURF 0,35 184 0,110 300,50SURF SURF 0,40 175 0,080 298,54SURF SURF 0,45 177 0,190 300,90SURF SURF 0,50 161 0,150 302,64SURF SURF 0,55 171 0,190 303,87SURF SURF 0,60 193 0,170 303,35SURF SURF 0,65 174 0,170 300,09SURF SURF 0,70 172 0,240 303,54SURF SURF 0,75 201 0,250 300,24SURF SURF 0,80 180 0,120 302,07SURF SURF 0,85 177 0,170 306,36SURF SURF 0,90 148 0,190 304,26

139

Tabela 33

continuação


SURF SURF 0,95 190 0,190 300,91



MSER SIFT 0,001 1017 0,530 149,34MSER SIFT 0,002 955 0,510 151,76MSER SIFT 0,003 927 0,520 155,25MSER SIFT 0,004 826 0,440 154,17MSER SIFT 0,005 746 0,540 152,98MSER SIFT 0,006 853 0,490 156,29MSER SIFT 0,007 653 0,570 158,17MSER SIFT 0,008 711 0,580 155,39MSER SIFT 0,009 693 0,410 158,81MSER SIFT 0,01 820 0,430 158,77MSER SIFT 0,02 547 0,590 156,81MSER SIFT 0,03 476 0,530 157,89MSER SIFT 0,04 519 0,560 156,31MSER SIFT 0,05 503 0,600 154,47MSER SIFT 0,06 541 0,610 155,68MSER SIFT 0,07 496 0,540 156,97MSER SIFT 0,08 527 0,410 157,73MSER SIFT 0,09 442 0,430 156,29MSER SIFT 0,1 463 0,350 156,63MSER SIFT 0,12 391 0,390 154,96MSER SIFT 0,14 450 0,400 155,26MSER SIFT 0,16 433 0,350 155,61MSER SIFT 0,18 490 0,500 156,72MSER SIFT 0,2 484 0,420 157,82MSER SIFT 0,25 492 0,510 158,20MSER SIFT 0,3 412 0,500 155,11MSER SIFT 0,35 449 0,310 156,02MSER SIFT 0,4 440 0,380 157,88MSER SIFT 0,45 410 0,540 154,86MSER SIFT 0,5 492 0,450 157,91MSER SIFT 0,55 436 0,420 158,64MSER SIFT 0,6 350 0,180 154,93MSER SIFT 0,65 396 0,380 156,41MSER SIFT 0,7 367 0,150 155,96MSER SIFT 0,75 394 0,240 156,17MSER SIFT 0,8 377 0,200 157,48MSER SIFT 0,85 398 0,240 158,46MSER SIFT 0,9 372 0,190 159,69MSER SIFT 0,95 363 0,170 155,15SIFT SIFT 0,001 352 0,410 260,98SIFT SIFT 0,002 377 0,320 260,74SIFT SIFT 0,003 269 0,420 262,80SIFT SIFT 0,004 291 0,490 268,29SIFT SIFT 0,005 263 0,410 264,68SIFT SIFT 0,006 238 0,460 264,22SIFT SIFT 0,007 212 0,430 270,52SIFT SIFT 0,008 190 0,370 268,70SIFT SIFT 0,009 209 0,380 266,48SIFT SIFT 0,01 182 0,370 270,73SIFT SIFT 0,02 123 0,340 274,48SIFT SIFT 0,03 118 0,320 274,69SIFT SIFT 0,04 110 0,310 269,32SIFT SIFT 0,05 79 0,390 271,97SIFT SIFT 0,06 78 0,320 268,84SIFT SIFT 0,07 115 0,360 275,58SIFT SIFT 0,08 96 0,310 274,32SIFT SIFT 0,09 95 0,370 275,77SIFT SIFT 0,1 82 0,300 270,75SIFT SIFT 0,12 98 0,420 270,08SIFT SIFT 0,14 101 0,270 276,77SIFT SIFT 0,16 90 0,270 271,96SIFT SIFT 0,18 82 0,370 274,31


Tabela 34

continuação


SIFT SIFT 0,2 97 0,310 269,21SIFT SIFT 0,25 85 0,340 275,73SIFT SIFT 0,3 98 0,230 276,47SIFT SIFT 0,35 106 0,410 275,88SIFT SIFT 0,4 78 0,260 278,86SIFT SIFT 0,45 104 0,310 280,22SIFT SIFT 0,5 97 0,300 275,02SIFT SIFT 0,55 99 0,330 271,80SIFT SIFT 0,6 79 0,300 273,65SIFT SIFT 0,65 103 0,290 273,02SIFT SIFT 0,7 98 0,220 274,64SIFT SIFT 0,75 98 0,280 269,60SIFT SIFT 0,8 104 0,310 276,44SIFT SIFT 0,85 95 0,280 272,07SIFT SIFT 0,9 71 0,240 272,43SIFT SIFT 0,95 62 0,080 274,73Dense SIFT 0,001 293 0,550 1198,65Dense SIFT 0,002 201 0,500 1183,42Dense SIFT 0,003 181 0,540 1241,98Dense SIFT 0,004 160 0,490 1229,51Dense SIFT 0,005 140 0,340 1247,57Dense SIFT 0,006 116 0,450 1178,72Dense SIFT 0,007 118 0,410 1218,30Dense SIFT 0,008 129 0,470 1271,33Dense SIFT 0,009 98 0,510 1238,19Dense SIFT 0,01 98 0,380 1209,05Dense SIFT 0,02 79 0,420 1242,31Dense SIFT 0,03 80 0,350 1274,48Dense SIFT 0,04 92 0,460 1197,75Dense SIFT 0,05 100 0,340 1247,45Dense SIFT 0,06 115 0,360 1213,34Dense SIFT 0,07 87 0,320 1240,07Dense SIFT 0,08 87 0,310 1262,50Dense SIFT 0,09 72 0,340 1243,23Dense SIFT 0,1 69 0,440 1272,74Dense SIFT 0,12 71 0,100 1267,83Dense SIFT 0,14 77 0,180 1253,23Dense SIFT 0,16 67 0,380 1301,02Dense SIFT 0,18 57 0,300 1295,83Dense SIFT 0,2 67 0,290 1088,01Dense SIFT 0,25 65 0,230 1265,50Dense SIFT 0,3 89 0,250 1252,20Dense SIFT 0,35 63 0,230 1209,51Dense SIFT 0,4 62 0,250 1246,13Dense SIFT 0,45 76 0,280 1209,81Dense SIFT 0,5 63 0,240 1276,83Dense SIFT 0,55 65 0,200 1196,01Dense SIFT 0,6 57 0,230 1268,88Dense SIFT 0,65 68 0,240 1202,61Dense SIFT 0,7 70 0,220 1239,39Dense SIFT 0,75 81 0,260 1219,12Dense SIFT 0,8 48 0,210 1142,43Dense SIFT 0,85 72 0,160 1023,16Dense SIFT 0,9 74 0,120 1221,50Dense SIFT 0,95 66 0,230 1088,02Dense SURF 0,001 234 0,550 703,78Dense SURF 0,002 240 0,540 712,27Dense SURF 0,003 219 0,570 725,72Dense SURF 0,004 238 0,530 709,33Dense SURF 0,005 249 0,560 715,72Dense SURF 0,006 241 0,480 702,44Dense SURF 0,007 241 0,560 696,64Dense SURF 0,008 203 0,540 715,53Dense SURF 0,009 223 0,570 711,80Dense SURF 0,01 215 0,550 716,11Dense SURF 0,02 213 0,550 704,60Dense SURF 0,03 207 0,570 698,98Dense SURF 0,04 181 0,500 734,08Dense SURF 0,05 179 0,530 717,97Dense SURF 0,06 179 0,540 707,81Dense SURF 0,07 168 0,500 702,36Dense SURF 0,08 160 0,480 708,26Dense SURF 0,09 168 0,470 722,60Dense SURF 0,1 143 0,500 714,64

141

Tabela 34

continuação


Dense SURF 0,12 168 0,480 714,80Dense SURF 0,14 150 0,490 706,61Dense SURF 0,16 157 0,440 701,89Dense SURF 0,18 159 0,470 719,75Dense SURF 0,2 151 0,440 709,74Dense SURF 0,25 127 0,420 715,48Dense SURF 0,3 156 0,420 721,49Dense SURF 0,35 129 0,430 708,71Dense SURF 0,4 125 0,400 703,67Dense SURF 0,45 134 0,440 700,50Dense SURF 0,5 132 0,410 707,35Dense SURF 0,55 137 0,420 699,07Dense SURF 0,6 124 0,450 715,27Dense SURF 0,65 131 0,440 710,92Dense SURF 0,7 136 0,430 713,98Dense SURF 0,75 129 0,430 712,72Dense SURF 0,8 120 0,360 735,11Dense SURF 0,85 117 0,370 724,21Dense SURF 0,9 118 0,400 716,75Dense SURF 0,95 132 0,410 727,58SURF SURF 0,001 660 0,500 299,97SURF SURF 0,002 700 0,530 293,47SURF SURF 0,003 652 0,530 293,01SURF SURF 0,004 647 0,430 296,37SURF SURF 0,005 647 0,570 291,45SURF SURF 0,006 560 0,460 291,58SURF SURF 0,007 609 0,230 297,16SURF SURF 0,008 558 0,500 291,35SURF SURF 0,009 590 0,450 290,68SURF SURF 0,01 570 0,420 291,87SURF SURF 0,02 521 0,390 294,92SURF SURF 0,03 402 0,450 293,57SURF SURF 0,04 419 0,450 294,96SURF SURF 0,05 359 0,300 292,61SURF SURF 0,06 333 0,360 290,78SURF SURF 0,07 301 0,320 291,34SURF SURF 0,08 301 0,270 295,59SURF SURF 0,09 278 0,350 295,12SURF SURF 0,1 310 0,230 296,81SURF SURF 0,12 244 0,180 296,97SURF SURF 0,14 240 0,190 296,60SURF SURF 0,16 229 0,230 298,13SURF SURF 0,18 221 0,150 296,06SURF SURF 0,2 233 0,200 295,71SURF SURF 0,25 208 0,140 295,73SURF SURF 0,3 175 0,130 295,03SURF SURF 0,35 184 0,150 295,64SURF SURF 0,4 201 0,160 293,42SURF SURF 0,45 171 0,120 292,24SURF SURF 0,5 160 0,130 295,42SURF SURF 0,55 176 0,200 294,92SURF SURF 0,6 190 0,150 293,12SURF SURF 0,65 170 0,100 292,64SURF SURF 0,7 178 0,140 293,30SURF SURF 0,75 152 0,180 296,42SURF SURF 0,8 165 0,140 294,32SURF SURF 0,85 146 0,130 295,40SURF SURF 0,9 173 0,100 295,80SURF SURF 0,95 167 0,140 294,76



MSER SIFT 0,001 966 0,327 242,14MSER SIFT 0,002 989 0,227 244,76MSER SIFT 0,003 968 0,387 254,79MSER SIFT 0,004 884 0,267 252,03


Tabela 35

continuação


MSER SIFT 0,005 803 0,327 255,77MSER SIFT 0,006 831 0,360 260,03MSER SIFT 0,007 819 0,327 256,39MSER SIFT 0,008 749 0,300 258,56MSER SIFT 0,009 755 0,367 256,97MSER SIFT 0,01 743 0,247 260,23MSER SIFT 0,02 690 0,300 259,25MSER SIFT 0,03 555 0,327 254,23MSER SIFT 0,04 582 0,280 253,55MSER SIFT 0,05 490 0,320 250,87MSER SIFT 0,06 493 0,347 253,19MSER SIFT 0,07 512 0,320 254,23MSER SIFT 0,08 455 0,373 251,28MSER SIFT 0,09 471 0,327 251,72MSER SIFT 0,1 448 0,340 252,19MSER SIFT 0,12 461 0,353 248,77MSER SIFT 0,14 428 0,280 249,21MSER SIFT 0,16 409 0,387 248,40MSER SIFT 0,18 447 0,340 247,04MSER SIFT 0,20 428 0,280 246,79MSER SIFT 0,25 425 0,307 249,11MSER SIFT 0,30 489 0,313 250,40MSER SIFT 0,35 431 0,327 248,17MSER SIFT 0,40 434 0,287 249,15MSER SIFT 0,45 428 0,307 249,46MSER SIFT 0,50 459 0,387 251,33MSER SIFT 0,55 444 0,260 251,96MSER SIFT 0,60 477 0,267 252,56MSER SIFT 0,65 414 0,320 250,82MSER SIFT 0,70 442 0,333 248,83MSER SIFT 0,75 381 0,127 240,21MSER SIFT 0,80 432 0,240 252,91MSER SIFT 0,85 333 0,153 241,04MSER SIFT 0,90 437 0,140 246,46MSER SIFT 0,95 357 0,133 243,76SIFT SIFT 0,001 423 0,253 439,38SIFT SIFT 0,002 414 0,293 452,26SIFT SIFT 0,003 346 0,287 441,13SIFT SIFT 0,004 284 0,200 439,76SIFT SIFT 0,005 289 0,300 440,62SIFT SIFT 0,006 284 0,213 453,68SIFT SIFT 0,007 236 0,273 452,24SIFT SIFT 0,008 221 0,247 456,43SIFT SIFT 0,009 167 0,247 448,02SIFT SIFT 0,01 184 0,267 449,43SIFT SIFT 0,02 129 0,187 451,51SIFT SIFT 0,03 79 0,220 445,36SIFT SIFT 0,04 122 0,193 451,45SIFT SIFT 0,05 126 0,280 450,03SIFT SIFT 0,06 87 0,173 455,23SIFT SIFT 0,07 95 0,167 455,29SIFT SIFT 0,08 101 0,220 455,73SIFT SIFT 0,09 105 0,173 444,26SIFT SIFT 0,1 94 0,173 444,62SIFT SIFT 0,12 112 0,173 449,28SIFT SIFT 0,14 90 0,147 448,30SIFT SIFT 0,16 94 0,213 454,18SIFT SIFT 0,18 79 0,240 449,52SIFT SIFT 0,20 90 0,187 454,41SIFT SIFT 0,25 76 0,147 448,46SIFT SIFT 0,30 96 0,213 440,42SIFT SIFT 0,35 88 0,193 449,46SIFT SIFT 0,40 100 0,140 448,82SIFT SIFT 0,45 101 0,173 445,99SIFT SIFT 0,50 107 0,153 461,79SIFT SIFT 0,55 77 0,173 443,50SIFT SIFT 0,60 76 0,133 452,51SIFT SIFT 0,65 98 0,180 456,78SIFT SIFT 0,70 94 0,140 453,48SIFT SIFT 0,75 82 0,147 439,95SIFT SIFT 0,80 100 0,127 455,37SIFT SIFT 0,85 92 0,187 457,28SIFT SIFT 0,90 75 0,047 454,64SIFT SIFT 0,95 77 0,053 442,82

143

Tabela 35

continuação


Dense SIFT 0,001 276 0,460 1955,72Dense SIFT 0,002 227 0,467 1956,85Dense SIFT 0,003 191 0,467 2007,14Dense SIFT 0,004 154 0,367 1967,34Dense SIFT 0,005 139 0,247 2054,39Dense SIFT 0,006 126 0,340 2012,80Dense SIFT 0,007 140 0,253 2030,68Dense SIFT 0,008 117 0,367 2026,69Dense SIFT 0,009 100 0,373 2076,35Dense SIFT 0,01 96 0,340 2036,10Dense SIFT 0,02 101 0,347 2004,99Dense SIFT 0,03 85 0,153 2034,69Dense SIFT 0,04 74 0,340 1977,49Dense SIFT 0,05 79 0,173 2010,93Dense SIFT 0,06 85 0,127 2007,75Dense SIFT 0,07 81 0,340 1970,23Dense SIFT 0,08 83 0,260 2031,47Dense SIFT 0,09 82 0,180 1990,59Dense SIFT 0,1 82 0,307 1967,83Dense SIFT 0,12 69 0,327 2060,08Dense SIFT 0,14 69 0,167 1984,42Dense SIFT 0,16 73 0,200 1982,36Dense SIFT 0,18 72 0,273 2017,50Dense SIFT 0,20 82 0,187 2035,83Dense SIFT 0,25 68 0,233 2022,19Dense SIFT 0,30 75 0,140 1935,46Dense SIFT 0,35 68 0,167 1976,78Dense SIFT 0,40 66 0,173 2076,80Dense SIFT 0,45 73 0,113 2013,87Dense SIFT 0,50 63 0,213 2001,97Dense SIFT 0,55 79 0,180 1808,79Dense SIFT 0,60 83 0,173 1814,72Dense SIFT 0,65 71 0,193 1670,76Dense SIFT 0,70 91 0,187 1947,36Dense SIFT 0,75 60 0,167 1640,48Dense SIFT 0,80 81 0,187 1923,11Dense SIFT 0,85 75 0,173 1905,76Dense SIFT 0,90 80 0,200 1681,71Dense SIFT 0,95 75 0,160 1957,97Dense SURF 0,001 228 0,367 1163,88Dense SURF 0,002 250 0,373 1158,26Dense SURF 0,003 257 0,340 1161,61Dense SURF 0,004 232 0,427 1170,62Dense SURF 0,005 230 0,360 1173,92Dense SURF 0,006 234 0,440 1189,43Dense SURF 0,007 238 0,393 1156,35Dense SURF 0,008 203 0,380 1176,00Dense SURF 0,009 240 0,400 1150,91Dense SURF 0,01 211 0,420 1162,55Dense SURF 0,02 232 0,373 1182,02Dense SURF 0,03 192 0,313 1165,18Dense SURF 0,04 199 0,373 1153,68Dense SURF 0,05 180 0,433 1158,61Dense SURF 0,06 172 0,347 1156,76Dense SURF 0,07 149 0,340 1158,95Dense SURF 0,08 176 0,353 1165,44Dense SURF 0,09 174 0,340 1162,84Dense SURF 0,1 175 0,347 1150,78Dense SURF 0,12 179 0,320 1161,56Dense SURF 0,14 155 0,267 1161,68Dense SURF 0,16 164 0,367 1162,94Dense SURF 0,18 143 0,273 1158,21Dense SURF 0,20 144 0,240 1161,86Dense SURF 0,25 147 0,260 1147,54Dense SURF 0,30 124 0,247 1161,72Dense SURF 0,35 144 0,227 1160,62Dense SURF 0,40 131 0,207 1163,48Dense SURF 0,45 127 0,260 1156,38Dense SURF 0,50 130 0,253 1166,38Dense SURF 0,55 147 0,260 1177,97Dense SURF 0,60 142 0,233 1169,12Dense SURF 0,65 126 0,260 1187,41Dense SURF 0,70 120 0,240 1186,72Dense SURF 0,75 124 0,240 1166,56


Tabela 35

continuação


Dense SURF 0,80 136 0,260 1165,45Dense SURF 0,85 122 0,260 1164,12Dense SURF 0,90 129 0,220 1170,40Dense SURF 0,95 118 0,253 1166,93SURF SURF 0,001 633 0,373 501,86SURF SURF 0,002 632 0,233 490,66SURF SURF 0,003 665 0,293 494,52SURF SURF 0,004 592 0,327 488,42SURF SURF 0,005 570 0,293 487,25SURF SURF 0,006 643 0,340 497,35SURF SURF 0,007 549 0,087 498,73SURF SURF 0,008 567 0,347 502,16SURF SURF 0,009 590 0,293 503,21SURF SURF 0,01 575 0,347 507,95SURF SURF 0,02 529 0,327 496,87SURF SURF 0,03 454 0,287 498,07SURF SURF 0,04 423 0,233 499,64SURF SURF 0,05 416 0,247 499,45SURF SURF 0,06 346 0,273 494,15SURF SURF 0,07 342 0,273 498,38SURF SURF 0,08 302 0,247 492,25SURF SURF 0,09 295 0,187 492,45SURF SURF 0,1 264 0,193 490,60SURF SURF 0,12 245 0,133 487,07SURF SURF 0,14 219 0,180 493,62SURF SURF 0,16 211 0,133 495,58SURF SURF 0,18 207 0,113 494,08SURF SURF 0,20 180 0,113 494,95SURF SURF 0,25 166 0,147 488,21SURF SURF 0,30 183 0,160 492,40SURF SURF 0,35 187 0,093 495,17SURF SURF 0,40 183 0,147 487,80SURF SURF 0,45 167 0,160 490,87SURF SURF 0,50 176 0,180 493,23SURF SURF 0,55 153 0,120 495,30SURF SURF 0,60 178 0,120 489,61SURF SURF 0,65 212 0,133 490,29SURF SURF 0,70 187 0,160 495,00SURF SURF 0,75 215 0,120 494,48SURF SURF 0,80 174 0,113 490,44SURF SURF 0,85 182 0,073 494,73SURF SURF 0,90 198 0,100 492,33SURF SURF 0,95 162 0,153 488,56



MSER SIFT 0,001 948 0,360 236,78MSER SIFT 0,002 989 0,333 243,33MSER SIFT 0,003 909 0,373 243,45MSER SIFT 0,004 758 0,353 247,54MSER SIFT 0,005 942 0,287 256,66MSER SIFT 0,006 867 0,393 254,37MSER SIFT 0,007 682 0,340 250,99MSER SIFT 0,008 849 0,333 261,39MSER SIFT 0,009 730 0,267 252,78MSER SIFT 0,01 749 0,227 262,41MSER SIFT 0,02 585 0,407 256,86MSER SIFT 0,03 535 0,433 259,33MSER SIFT 0,04 521 0,280 259,64MSER SIFT 0,05 461 0,353 259,17MSER SIFT 0,06 507 0,420 255,69MSER SIFT 0,07 462 0,400 257,38MSER SIFT 0,08 463 0,387 258,51MSER SIFT 0,09 452 0,413 256,27MSER SIFT 0,1 500 0,353 258,69MSER SIFT 0,12 440 0,347 259,40

145

Tabela 36

continuação


MSER SIFT 0,14 421 0,260 259,45MSER SIFT 0,16 460 0,467 256,67MSER SIFT 0,18 429 0,413 255,99MSER SIFT 0,2 443 0,280 259,09MSER SIFT 0,25 394 0,347 255,54MSER SIFT 0,3 484 0,253 259,15MSER SIFT 0,35 431 0,360 253,50MSER SIFT 0,4 467 0,280 256,99MSER SIFT 0,45 446 0,253 257,63MSER SIFT 0,5 474 0,313 258,28MSER SIFT 0,55 407 0,247 256,36MSER SIFT 0,6 418 0,113 255,55MSER SIFT 0,65 419 0,113 255,38MSER SIFT 0,7 381 0,253 259,43MSER SIFT 0,75 381 0,140 257,08MSER SIFT 0,8 380 0,120 254,24MSER SIFT 0,85 384 0,140 255,19MSER SIFT 0,9 425 0,140 255,92MSER SIFT 0,95 375 0,120 256,53SIFT SIFT 0,001 428 0,267 419,63SIFT SIFT 0,002 332 0,353 419,08SIFT SIFT 0,003 356 0,240 429,29SIFT SIFT 0,004 322 0,260 430,67SIFT SIFT 0,005 243 0,213 432,87SIFT SIFT 0,006 250 0,300 429,76SIFT SIFT 0,007 216 0,240 438,89SIFT SIFT 0,008 220 0,313 426,27SIFT SIFT 0,009 248 0,267 438,21SIFT SIFT 0,01 204 0,287 423,66SIFT SIFT 0,02 138 0,260 425,73SIFT SIFT 0,03 88 0,240 425,51SIFT SIFT 0,04 82 0,240 432,72SIFT SIFT 0,05 88 0,247 412,47SIFT SIFT 0,06 88 0,207 426,97SIFT SIFT 0,07 96 0,280 419,88SIFT SIFT 0,08 88 0,173 431,70SIFT SIFT 0,09 92 0,153 432,72SIFT SIFT 0,1 96 0,213 419,99SIFT SIFT 0,12 85 0,147 432,54SIFT SIFT 0,14 88 0,187 435,73SIFT SIFT 0,16 103 0,227 424,05SIFT SIFT 0,18 77 0,127 428,06SIFT SIFT 0,2 97 0,267 433,43SIFT SIFT 0,25 72 0,227 434,28SIFT SIFT 0,3 64 0,200 440,66SIFT SIFT 0,35 84 0,220 427,93SIFT SIFT 0,4 100 0,167 441,49SIFT SIFT 0,45 82 0,200 436,16SIFT SIFT 0,5 110 0,200 431,79SIFT SIFT 0,55 93 0,233 438,95SIFT SIFT 0,6 91 0,187 432,84SIFT SIFT 0,65 100 0,227 435,68SIFT SIFT 0,7 84 0,127 444,30SIFT SIFT 0,75 103 0,187 437,47SIFT SIFT 0,8 90 0,173 434,99SIFT SIFT 0,85 80 0,213 445,40SIFT SIFT 0,9 63 0,067 444,49SIFT SIFT 0,95 72 0,107 436,77Dense SIFT 0,001 284 0,440 1947,53Dense SIFT 0,002 230 0,413 1989,90Dense SIFT 0,003 185 0,420 2017,05Dense SIFT 0,004 192 0,307 2052,90Dense SIFT 0,005 146 0,333 1978,99Dense SIFT 0,006 124 0,267 1971,85Dense SIFT 0,007 147 0,367 2081,61Dense SIFT 0,008 108 0,313 2025,39Dense SIFT 0,009 116 0,240 2024,18Dense SIFT 0,01 110 0,360 2019,31Dense SIFT 0,02 91 0,260 2043,29Dense SIFT 0,03 84 0,333 2083,10Dense SIFT 0,04 80 0,140 2039,90Dense SIFT 0,05 72 0,273 2010,31Dense SIFT 0,06 91 0,220 2066,44Dense SIFT 0,07 70 0,173 1951,67


Tabela 36

continuação


Dense SIFT 0,08 73 0,127 1957,05Dense SIFT 0,09 64 0,207 1953,53Dense SIFT 0,1 81 0,240 1978,90Dense SIFT 0,12 68 0,220 1951,63Dense SIFT 0,14 83 0,200 2016,13Dense SIFT 0,16 71 0,200 2012,41Dense SIFT 0,18 75 0,293 2023,65Dense SIFT 0,2 69 0,220 2061,21Dense SIFT 0,25 66 0,173 2003,49Dense SIFT 0,3 50 0,153 2030,29Dense SIFT 0,35 69 0,160 1618,62Dense SIFT 0,4 62 0,140 1972,41Dense SIFT 0,45 80 0,153 1969,36Dense SIFT 0,5 71 0,167 2020,69Dense SIFT 0,55 65 0,093 1868,31Dense SIFT 0,6 63 0,080 1985,39Dense SIFT 0,65 72 0,047 1592,37Dense SIFT 0,7 85 0,047 1654,49Dense SIFT 0,75 79 0,180 1919,62Dense SIFT 0,8 70 0,160 1851,19Dense SIFT 0,85 74 0,147 2004,01Dense SIFT 0,9 98 0,167 1841,64Dense SIFT 0,95 76 0,180 1969,44Dense SURF 0,001 270 0,393 1134,39Dense SURF 0,002 248 0,367 1172,19Dense SURF 0,003 244 0,367 1155,71Dense SURF 0,004 256 0,380 1135,94Dense SURF 0,005 237 0,433 1146,35Dense SURF 0,006 237 0,380 1178,68Dense SURF 0,007 260 0,413 1139,82Dense SURF 0,008 213 0,393 1151,93Dense SURF 0,009 235 0,373 1145,63Dense SURF 0,01 218 0,387 1146,21Dense SURF 0,02 222 0,387 1152,42Dense SURF 0,03 223 0,367 1139,43Dense SURF 0,04 193 0,400 1145,13Dense SURF 0,05 182 0,400 1145,85Dense SURF 0,06 190 0,373 1133,56Dense SURF 0,07 163 0,367 1141,05Dense SURF 0,08 162 0,327 1146,12Dense SURF 0,09 170 0,353 1153,08Dense SURF 0,1 177 0,320 1144,72Dense SURF 0,12 147 0,347 1138,37Dense SURF 0,14 139 0,313 1147,35Dense SURF 0,16 170 0,327 1154,94Dense SURF 0,18 149 0,307 1134,25Dense SURF 0,2 140 0,313 1154,05Dense SURF 0,25 140 0,320 1176,62Dense SURF 0,3 139 0,307 1142,22Dense SURF 0,35 137 0,280 1137,76Dense SURF 0,4 151 0,307 1127,45Dense SURF 0,45 148 0,300 1161,74Dense SURF 0,5 134 0,287 1160,47Dense SURF 0,55 156 0,287 1153,53Dense SURF 0,6 140 0,280 1163,29Dense SURF 0,65 135 0,287 1160,93Dense SURF 0,7 134 0,287 1137,51Dense SURF 0,75 131 0,287 1147,22Dense SURF 0,8 130 0,247 1156,02Dense SURF 0,85 144 0,273 1152,80Dense SURF 0,9 129 0,267 1152,44Dense SURF 0,95 127 0,300 1151,02SURF SURF 0,001 656 0,413 508,15SURF SURF 0,002 672 0,327 506,58SURF SURF 0,003 584 0,387 503,96SURF SURF 0,004 610 0,340 505,00SURF SURF 0,005 640 0,340 504,64SURF SURF 0,006 604 0,400 507,11SURF SURF 0,007 616 0,393 512,78SURF SURF 0,008 607 0,413 502,53SURF SURF 0,009 628 0,380 512,90SURF SURF 0,01 568 0,293 509,94SURF SURF 0,02 482 0,333 505,68SURF SURF 0,03 427 0,313 507,19

147

Tabela 36

continuação


SURF SURF 0,04 376 0,273 509,05SURF SURF 0,05 393 0,300 509,41SURF SURF 0,06 322 0,207 517,99SURF SURF 0,07 311 0,220 507,41SURF SURF 0,08 281 0,133 517,61SURF SURF 0,09 271 0,240 509,84SURF SURF 0,1 269 0,200 518,17SURF SURF 0,12 218 0,173 514,32SURF SURF 0,14 227 0,200 518,32SURF SURF 0,16 245 0,093 512,89SURF SURF 0,18 190 0,107 513,61SURF SURF 0,2 209 0,087 516,38SURF SURF 0,25 198 0,113 519,42SURF SURF 0,3 196 0,093 515,43SURF SURF 0,35 184 0,093 517,16SURF SURF 0,4 205 0,100 518,79SURF SURF 0,45 159 0,127 513,01SURF SURF 0,5 185 0,107 516,92SURF SURF 0,55 177 0,073 506,96SURF SURF 0,6 153 0,100 511,01SURF SURF 0,65 172 0,087 508,59SURF SURF 0,7 161 0,080 518,15SURF SURF 0,75 176 0,133 510,13SURF SURF 0,8 167 0,067 508,61SURF SURF 0,85 171 0,080 511,00SURF SURF 0,9 167 0,113 515,11SURF SURF 0,95 161 0,087 518,19

149

BApêndice B

Neste apêndice são descritos os programas desenvolvidos paraa execução dos experimentos.1

B.1 Instalação

Os programas desenvolvidos necessitam de um computadorcom sistema operacional Linux Ubuntu 12.04 e algumas bibliotecaspara sua execução.

Para configurar o ambiente para execução dos experimentos énecessário instalar todas as bibliotecas executando o arquivo install/

install.sh.Após a instalação é necessário compilar manualmente as bi-

bliotecas LibOPF, LibOPF2, overfeat /OpenBLAS e overfeat /API/python. Executar o arquivo overfeat/download_weights.py para efe-tuar o download dos arquivos com os pesos da CNN Overfeat pré-treinada.

B.2 BOVW e CNN como descritor natural

Nesta seção são descritas as principais classes e programas uti-lizados para a execução dos experimentos com as técnicas BOVW eCNN (Overfeat) como descritor natural.

• featureextractor.py: Classe responsável por extrair os descritoresSURF, SIFT de forma densa ou localizando os pontos de interessecom o MSER.

1 Códigos disponíveis em <https://github.com/guidefreitas/dissertacao_udesc>

https://github.com/guidefreitas/dissertacao_udesc

150 APÊNDICE B. Apêndice B

• bow_opf_p.py: Classe responsável pelo algoritmo de execução datécnica BOVW utilizando o agrupador KMeans e o classificadorOPF-S.

• bow_p.py: Classe responsável pelo algoritmo de execução da téc-nica BOVW com o agrupador KMeans e o classificador SVM.

• bow_opf_unsup_p.py: Responsável pelo algoritmo de execuçãoda técnica BOVW utilizando o agrupador OPF-U e o classificadorOPF-S.

• bow_opf_svm

u

nsup_p.py: Classe responsável pelo algoritmo deexecução da técnica BOVW utilizando o agrupador OPF-U e oclassificador SVM.

• bow_overfeat_svm.py: Classe responsável pelo algoritmo de ex-tração do descritor natural utilizando a CNN Overfeat e classifi-cação utilizando SVM.

• bow_overfeat_opf.py: Classe responsável pelo algoritmo de ex-tração do descritor natural utilizando a CNN Overfeat e classifi-cação utilizando OPF-S.

O programa responsável por gerenciar a execução dos expe-rimentos é implementado no arquivo recog.py. Todos os experimentossão especificados em um arquivo texto (ver exemplos na pasta expe-rimentos). O arquivo texto descrevendo os experimentos deve possuirum experimento por linha, onde cada linha deve conter os parâmetrosdescritos na Tabela 37 separados por vírgula.

Os arquivos contendo os parâmetros de execução dos experi-mentos demonstrados nesse trabalho podem ser encontrados na pastabag_of_features/experimentos.

B.3 CNN

Nesta seção são descritos os principais arquivos usados na cri-ação e execução da CNN criada.

O arquivo cnn.lua arquivo descreve a estrutura da CNN uti-lizada para os experimentos. Os experimentos com a CNN criada uti-lizaram o modelo 5 especificado no arquivo. Um exemplo contendo osparâmetros de execução pode ser visto em exemplo_execucao.sh.

O programa visualize.lua permite visualizar os filtros treinadospor uma CNN e o resultado do processamento da primeira camada

B.4. Ferramentas auxiliares 151

Tabela 37 – Parâmetros de execução do programa recog.py

Parâmetro Descrição Exemplo

TipoTipo do experimento a ser executado.No caso do tipo OVERFEAT,todos os outros parâmetros são ignorados

KMeans+OPFKMeans+SVMOPF+OPFOPF+SVMOVERFEAT+SVMOVERFEAT+OPF

K Tamanho dicionário de palavras visuais(ignorado no agrupador OPF-U) 100

Num. de imagenspara extração dos descritores

Número de imagens selecionadas aleatoriamentepara extração dos descritores e agrupamento paracriação das palavras visuais.

500

Num. de descritores Número de descritores selecionados aleatoriamentepara criação do dicionário de palavras visuais. 5000

Tamanho da imagemTamanho máximo da imagem a ser processada,imagens maiores serão redimensionadas para estetamanho respeitando as proporções.

512

Localizador Tipo de localização dos pontos de interesse

SIFTSURFMSERDense

Descritor Descritor utilizado para representação dos pontos de interesse SIFTSURF

convolucional em uma imagem. Tem como entrada o caminho para oarquivo salvo com os pesos da CNN previamente treinada com o cnn.luae uma imagem de exemplo utilizada para consulta na rede.

B.4 Ferramentas auxiliaresNesta seção são descritos os arquivos e programas utilizados

para geração das visualizações e gráficos a partir dos resultados doprocessamento dos experimentos.

O arquivo square_images.py é responsável por rotinas de re-dimensionamento de imagens. Através dele é possível redimensionardiversas imagens automaticamente informando o diretório das basessem a necessidade de converter cada imagem individualmente.

O programa plot.py gera todos os gráficos mostrados neste tra-balho. Ele utiliza os arquivos resultantes do processamento do programarecog.py para conversão e geração dos dados.

O programa cnn_visualizer.py cria um gráfico mostrando aacurácia em função do tempo de treinamento da CNN criada combi-nando as informações de processamento da base de treinamento e dabase de testes.

Título N

ome do A

utor

Neste trabalho são comparadas as técnicas de reconhecimento utilizando palavras visuais por

meio de descritores artificiais Bag of Visual Words ou Bag of Features (BOVW), reconhecimento

utilizando redes neurais convolucionais (CNN) e reconhecimento usando descritores naturais

obtidos através de uma rede neural convolucional previamente treinada em uma base distinta. As

técnicas são aplicadas no problema de reconhecimento de produtos a partir da análise de

imagens.

Orientador: Alexandre Gonçalves Silva

Coorientador: André Tavares da Silva

Joinville, 2014

DISSERTAÇÃO DE MESTRADO

RECONHECIMENTO DE PRODUTOS POR IMAGEM UTILIZANDO PALAVRAS VISUAIS E REDES NEURAIS CONVOLUCIONAIS

ANO 2015

GUILHERM

E DEFREITAS JURASZEK |RECO

NHECIM

ENTO

DE PRODU

TOS PO

R IM

AGEM U

TILIZANDO

PALAVRAS VISUAIS E REDES N

EURAIS CO

NVO

LUCIO

NAIS

UNIVERSIDADE DO ESTADO DE SANTA CATARINA – UDESC CENTRO DE CIÊNCIAS TECNOLÓGICAS – CCT CURSO DE MESTRADO EM COMPUTAÇÃO APLICADA


JOINVILLE, 2014

universidade do estado de santa catarina udesc …tede.udesc.br/bitstream/tede/1761/1/guilherme...

Documents