352ncia espacial na busca imagens coloridas similares ... · a utilizaÇÃo de matrizes de...

6
A UTILIZAÇÃO DE MATRIZES DE CO-OCORRÊNCIA ESPACIAL NA BUSCA DE IMAGENS COLORIDAS SIMILARES Marco T. F. Tannús a , Edna L. Flôres b , Gilberto A. Carrijo b , Antônio C. P. Veiga b , Milena B. P. Carneiro b a FEIT-UEMG, ISEPI, Ituiutaba – MG, [email protected] b UFU, Faculdade de Engenharia Elétrica, Uberlândia – MG, [email protected] Resumo - O sucesso dos mecanismos de busca textuais em uso, na Internet, mostra a utilidade de aplicações centradas na procura por informação relevante em gigantescos repositórios de dados. A busca por semelhança de conteúdo de imagens digitais pode utilizar técnicas que se baseiam na análise de textura e também de cor. Dentre as técnicas que se destacam na análise de textura, as matrizes de co-ocorrência espacial de tons de cinza apresentam resultados bastante satisfatórios. Este artigo propõe uma extensão das matrizes de co- ocorrência espacial aplicável às imagens coloridas. Os descritores propostos são testados e seu desempenho é comparado com o desempenho de descritores importantes definidos no padrão MPEG-7. O desempenho obtido para o descritor proposto é equivalente ao melhor desempenho obtido pelos descritores do padrão MPEG-7, com a vantagem adicional de ser mais compacto: ele contém, no máximo, 50% dos elementos dos descritores que apresentam desempenho semelhante. Além disso, mostra-se que o descritor proposto é ortogonal aos descritores de desempenho comparável, no sentido de conter informação discriminatória adicional. Isso permite a combinação do descritor proposto com os demais, com conseqüente incremento no desempenho, o que é mostrado com o resultado de testes adicionais realizados. 1 Palavras-Chave – Busca baseada em conteúdo, Matriz de co-ocorrência espacial, Semelhança de Imagens, MPEG-7. THE USE OF SPATIAL CO-OCCURRENCE MATRICES IN THE SEARCH FOR SIMILAR COLOR IMAGES Abstract - The success of textual search engines in use on the Internet, shows the usefulness of applications focused on the search for relevant information in huge data repositories. The search by similarity of content of digital images can use techniques that are based on the analysis of both, texture and color. Among the techniques that stand out in texture analysis, spatial gray level co- occurrence matrices bring satisfactory results. This article proposes an extension of spatial co-occurrence matrices applicable to color images. The proposed descriptors are tested and their performance compared with the performance of important descriptors defined in MPEG-7. The results obtained for the proposed descriptor are equivalent to the one obtained by the descriptors of MPEG-7, with the added advantage of being more compact: it contains, at most, 50% of the elements of descriptors that have similar performance. Moreover, it is shown that the proposed descriptor is orthogonal to the descriptors of comparable performance, in the sense that it contains additional discriminatory information. This allows for a combination of the proposed descriptor with others, with consequent increase in performance, which is shown through the results of additional tests performed. Keywords - Content Based Image Retrieval, Image Similarity, MPEG-7, Spatial Co-occurrence Matrix. I. INTRODUÇÃO A busca por imagens de conteúdo semelhante em um banco de imagens digitais é um campo de pesquisa promissor. Sua utilidade pode ser estimada pelo sucesso dos mecanismos de busca textuais em uso, atualmente, na Internet. A busca por imagens semelhantes desenvolveu-se a partir de pesquisas que objetivavam a classificação automática de diferentes tipos de imagens, como mostrado em Haralick et al. [1] e em Baraldi e Parmiggiani [2]. Inicialmente, os estudos baseavam-se nas características texturais. Limitações severas no hardware disponível dirigiam os estudos para características que necessitavam de poder computacional mais modesto. Haralick [3] apresenta uma revisão bibliográfica que expõe as principais técnicas estatísticas e estruturais existentes na década de 1970. Entre as abordagens apresentadas, mencionam-se a utilização da autocorrelação para a determinação de padrões repetitivos, as técnicas que utilizam transformadas, a análise da distribuição de bordas, a utilização das matrizes de co-ocorrência de níveis de cinza, a análise de comprimentos de corridas [4-6] e as medições de densidades de bordas e densidades de extremos. Tamura propôs um conjunto de indicadores derivados dos valores de intensidade da imagem [7]. Ele visava medir a correlação entre esses indicadores e a percepção de conceitos visuais tais como granularidade e rugosidade, entre outros. Isso permitiria uma descrição das texturas presentes nas imagens de uma forma naturalmente perceptível pelo

Upload: lyngoc

Post on 05-Jan-2019

214 views

Category:

Documents


0 download

TRANSCRIPT

A UTILIZAÇÃO DE MATRIZES DE CO-OCORRÊNCIA ESPACIAL NA BUSCA DE IMAGENS COLORIDAS SIMILARES

Marco T. F. Tannúsa, Edna L. Flôresb, Gilberto A. Carrijob,

Antônio C. P. Veigab, Milena B. P. Carneirob a FEIT-UEMG, ISEPI, Ituiutaba – MG, [email protected]

b UFU, Faculdade de Engenharia Elétrica, Uberlândia – MG, [email protected]

Resumo - O sucesso dos mecanismos de busca textuais em uso, na Internet, mostra a utilidade de aplicações centradas na procura por informação relevante em gigantescos repositórios de dados. A busca por semelhança de conteúdo de imagens digitais pode utilizar técnicas que se baseiam na análise de textura e também de cor. Dentre as técnicas que se destacam na análise de textura, as matrizes de co-ocorrência espacial de tons de cinza apresentam resultados bastante satisfatórios. Este artigo propõe uma extensão das matrizes de co-ocorrência espacial aplicável às imagens coloridas. Os descritores propostos são testados e seu desempenho é comparado com o desempenho de descritores importantes definidos no padrão MPEG-7. O desempenho obtido para o descritor proposto é equivalente ao melhor desempenho obtido pelos descritores do padrão MPEG-7, com a vantagem adicional de ser mais compacto: ele contém, no máximo, 50% dos elementos dos descritores que apresentam desempenho semelhante. Além disso, mostra-se que o descritor proposto é ortogonal aos descritores de desempenho comparável, no sentido de conter informação discriminatória adicional. Isso permite a combinação do descritor proposto com os demais, com conseqüente incremento no desempenho, o que é mostrado com o resultado de testes adicionais realizados.

1 Palavras-Chave – Busca baseada em conteúdo, Matriz

de co-ocorrência espacial, Semelhança de Imagens, MPEG-7.

THE USE OF SPATIAL CO-OCCURRENCE

MATRICES IN THE SEARCH FOR SIMILAR COLOR IMAGES

Abstract - The success of textual search engines in use

on the Internet, shows the usefulness of applications focused on the search for relevant information in huge data repositories. The search by similarity of content of digital images can use techniques that are based on the analysis of both, texture and color. Among the techniques that stand out in texture analysis, spatial gray level co-occurrence matrices bring satisfactory results. This

article proposes an extension of spatial co-occurrence matrices applicable to color images. The proposed descriptors are tested and their performance compared with the performance of important descriptors defined in MPEG-7. The results obtained for the proposed descriptor are equivalent to the one obtained by the descriptors of MPEG-7, with the added advantage of being more compact: it contains, at most, 50% of the elements of descriptors that have similar performance. Moreover, it is shown that the proposed descriptor is orthogonal to the descriptors of comparable performance, in the sense that it contains additional discriminatory information. This allows for a combination of the proposed descriptor with others, with consequent increase in performance, which is shown through the results of additional tests performed.

Keywords - Content Based Image Retrieval, Image

Similarity, MPEG-7, Spatial Co-occurrence Matrix.

I. INTRODUÇÃO

A busca por imagens de conteúdo semelhante em um banco de imagens digitais é um campo de pesquisa promissor. Sua utilidade pode ser estimada pelo sucesso dos mecanismos de busca textuais em uso, atualmente, na Internet. A busca por imagens semelhantes desenvolveu-se a partir de pesquisas que objetivavam a classificação automática de diferentes tipos de imagens, como mostrado em Haralick et al. [1] e em Baraldi e Parmiggiani [2].

Inicialmente, os estudos baseavam-se nas características texturais. Limitações severas no hardware disponível dirigiam os estudos para características que necessitavam de poder computacional mais modesto. Haralick [3] apresenta uma revisão bibliográfica que expõe as principais técnicas estatísticas e estruturais existentes na década de 1970. Entre as abordagens apresentadas, mencionam-se a utilização da autocorrelação para a determinação de padrões repetitivos, as técnicas que utilizam transformadas, a análise da distribuição de bordas, a utilização das matrizes de co-ocorrência de níveis de cinza, a análise de comprimentos de corridas [4-6] e as medições de densidades de bordas e densidades de extremos.

Tamura propôs um conjunto de indicadores derivados dos valores de intensidade da imagem [7]. Ele visava medir a correlação entre esses indicadores e a percepção de conceitos visuais tais como granularidade e rugosidade, entre outros. Isso permitiria uma descrição das texturas presentes nas imagens de uma forma naturalmente perceptível pelo

homem. Seu trabalho foi ampliado por Amadasun e King [8], que propuseram novas características de percepção visual.

Uma linha de pesquisa alternativa utilizava bancos de filtros para a extração de características texturais. Na década de 1990, Randem e Husoy [9] apresentaram uma revisão de técnicas de extração de características baseadas nesse princípio. Vários trabalhos publicados apresentaram resultados expressivos [10-16].

Os espectros de textura foram propostos no final da década de 1980 por He e Wang [17,18] baseados no histograma de ocorrência de determinados padrões binários na imagem. Essa idéia foi aprimorada na década posterior, com a proposta dos padrões binários locais por Ojala e Pietikäinen [19-22], que reportaram resultados significativos nas áreas de reconhecimento, segmentação e determinação de semelhanças.

A utilização das matrizes de co-ocorrência na análise de imagens digitais foi proposta por Haralick e outros [1]. Nesse trabalho, os autores objetivavam classificar microfotografias de rochas sedimentares, imagens aerofotogramétricas e dados provenientes de imagens de satélite por meio de características derivadas dessas matrizes, então denominadas de matrizes de dependência espacial angular de níveis de cinza entre vizinhos próximos. O índice de acerto relatado nesse trabalho foi da ordem de 80%.

Baraldi e Parmiggiani [2] estudaram algumas das características de Haralick [1] investigando a que tipo de percepção visual as características estudadas se associavam.

Ao longo do tempo, várias propostas apresentadas utilizam a cor, isoladamente, ou em conjunto com outras características, para a determinação de semelhança, para a busca por conteúdo, ou para a anotação automática de imagens digitais [23-29]. O desenvolvimento do padrão MPEG-7 selecionou algumas técnicas que se destacaram na literatura, tais como o histograma de cores, os descritores de cores dominantes, de estrutura de cores e outros [30].

Rosenfeld e outros analisaram, ainda na década de 1980, a possibilidade de extensão das matrizes de co-ocorrência para o caso de imagens representadas em mais de uma banda espectral [31], caso em que se enquadram as imagens coloridas. Na década de 2000, Palm retomou o tema e efetuou testes comparativos entre diversas propostas de vetores de características derivados de matrizes de co-ocorrência que ele denominou de matrizes integrativas [32].

Este artigo apresenta uma proposta de extensão da utilização das matrizes de co-ocorrência de níveis de cinza para imagens coloridas. Essa extensão é feita pelo cálculo das características propostas por Haralick [1] e sua utilização como vetor de características (descritor) associado à imagem. Dois descritores são propostos e testados segundo as definições do padrão MPEG-7 [30], utilizando as imagens de uma base de dados contendo 1000 imagens. Outras técnicas propostas na literatura foram implementadas e avaliadas segundo os mesmos parâmetros. Os resultados para essas outras técnicas formaram um banco de referência, com o qual, os resultados obtidos na utilização dos descritores propostos puderam ser comparados de forma adequada.

Este artigo está estruturado da seguinte forma. A seção II apresenta as matrizes de co-ocorrência espacial de tons de cinza, mostrando como elas são calculadas e como seu

resultado é descrito pelas características de Haralick. A seção III apresenta a proposta de extensão da aplicação dessas matrizes para imagens coloridas. A seção IV mostra a constituição do banco de imagens, apresenta a estrutura geral dos testes e descreve as medidas de desempenho utilizadas. Nessa seção são apresentados os detalhes de implementação dos descritores propostos. A seção V apresenta os resultados de desempenho obtidos tanto nos testes para os descritores da base de referência, quanto naqueles referentes aos descritores propostos neste artigo. Posteriormente, nessa mesma seção, os resultados de todos os testes são comparados e comentados. Ainda nessa seção, comenta-se sobre a relevância do descritor proposto. Finalmente, na seção VI, as conclusões são apresentadas.

II. MATRIZES DE CO-OCORRÊNCIA

As matrizes de co-ocorrência são calculadas a partir da componente de intensidade I(x,y) de uma imagem digital plana qualquer. Essa componente é uma matriz de pixels cujos valores indicam a intensidade de cada localização espacial especificada pelas coordenadas x e y.

As considerações importantes para o cálculo das matrizes de co-ocorrência são: 1) a utilização de uma escala de intensidade quantizada em N níveis, 2) a determinação de dois pixels distintos e um segmento de reta que passa por ambos, definindo o ângulo com a horizontal e a distância d entre os dois pixels, como mostrado na Figura 1.

Fig. 1. Parâmetros da matriz de co-ocorrência de níveis de cinza.

O número N de níveis de cinza determinam a dimensão da matriz de co-ocorrência. Cada elemento aij da matriz M(d,) representa o número de pares de pixels da imagem distantes um do outro de uma distância d, medida sobre um segmento de reta de suporte que faz um ângulo com a horizontal, sendo que um dos pixels apresenta o i-ésimo nível de cinza da escala e o outro pixel apresenta o j-ésimo nível de cinza da escala.

Calculada desta forma a matriz de co-ocorrência é quadrada e simétrica. Seus valores podem ser normalizados de forma que a soma deles seja igual a 1. Se isso é feito, a matriz representa uma estimativa de uma função densidade de probabilidade conjunta.

Para a obtenção de um descritor mais compacto, Haralick [1] propôs que fossem calculadas catorze características a partir da matriz de co-ocorrência. Se essa matriz for vista como uma função M(i,j), os catorze coeficientes têm o objetivo de caracterizar a forma do gráfico dessa função.

As características propostas por Haralick [1] são as seguintes: 1) Segundo Momento Angular, Energia ou Uniformidade; 2) Contraste; 3) Correlação; 4) Soma dos Quadrados, ou Variância; 5) Momento do Inverso da

Diferença, ou Homogeneidade; 6) Média da Soma; 7) Variância da Soma; 8) Entropia da Soma; 9) Entropia; 10) Variância da Diferença; 11) Entropia da Diferença; 12), 13) e 14) três medidas de correlação adicionais.

Essas características apresentam faixas de valores bastante variadas, o que dificulta sua utilização direta como componentes métricas. Para isso, é necessário normalizá-las para que os pesos relativos de cada característica sejam equivalentes. Essa normalização deve ser calculada sobre um universo específico de valores, por exemplo, conforme proposto por Manjunath [12].

III. PROPOSTA DE MATRIZES DE CO-OCORRÊNCIA EXTENDIDAS

A aplicação das matrizes de co-ocorrência na determinação de semelhança de imagens coloridas impõe algumas dificuldades tais como a dimensionalidade da representação e a perda de significação quando se usa a linearização do espaço de cores. Essas dificuldades são bem discutidas no artigo de Rosenfeld e outros [31].

Se uma imagem colorida é entendida como uma coleção de planos bidimensionais de cores, pode-se propor que as matrizes de co-ocorrência espacial sejam estendidas pela definição de dois tipos de estruturas. A primeira, calculada sobre cada um dos planos de cores da imagem, será denominada de matriz de co-ocorrência própria. A segunda, calculada levando-se em conta dois planos de cores diferentes, será denominada de matriz de co-ocorrência cruzada.

O cálculo da matriz de co-ocorrência própria segue os passos propostos por Haralick. A matriz de co-ocorrência cruzada, a seu turno, correlaciona o comportamento de dois planos de cores distintos da imagem colorida. Para isso, basta calcular a co-ocorrência para pixels que se localizam na mesma posição espacial nos planos de cor considerados. A matriz de co-ocorrência cruzada, calculada dessa forma, aproxima a função densidade de probabilidade conjunta entre dois planos de cor.

Uma limitação adicional que a técnica proposta neste artigo impõe, é que todos os planos de cor devem ser quantizados utilizando o mesmo número de níveis. Isso fará com que também as matrizes de co-ocorrência cruzada sejam matrizes quadradas e também simétricas Se o espaço de cores HSV for utilizado, por exemplo, as matrizes associadas a cada imagem colorida serão: 1) três matrizes de co-ocorrência próprias e 2) três matrizes de co-ocorrência cruzadas.

Para descrever essas matrizes de co-ocorrência de forma mais econômica utiliza-se um subconjunto adequado das características propostas por Haralick [1].

IV. EXPERIMENTOS EFETUADOS

A. O banco de dados de imagens Os experimentos descritos neste artigo foram realizados

utilizando um banco de dados de imagens chamado SIMPLIcity [34] disponibilizado pela Pennsylvania State University. Esse banco de dados é composto por 1000 imagens coloridas de dimensão 256 384 pixels para o

formato paisagem, ou 384 256 pixels para o formato de retrato. As imagens do banco são grosseiramente organizadas em 10 classes temáticas: indígenas, praia, construção, ônibus, dinossauro, elefante, flor, cavalo, montanha e comida. Cada uma dessas 10 classes possui 100 imagens.

A classificação das imagens é grosseira porque não particiona o conjunto de imagens em sub-conjuntos disjuntos sob o ponto de vista de semelhança. Supõe-se que a classificação grosseira implique em um desempenho absoluto pior, mantendo, todavia o desempenho relativo dos algoritmos testados, pois o ambiente de teste é o mesmo.

B. A estrutura geral dos testes e a medida de desempenho Os testes realizados neste artigo compõem-se de vários

experimentos semelhantes. Cada experimento consiste em propor um vetor de características e uma métrica para o cálculo da distância entre dois vetores. Após a definição do vetor e da métrica, são extraídas as características para cada imagem do banco de imagens SIMPLIcity [34]. Para cada imagem de referência, calculam-se as distâncias entre ela e cada uma das demais imagens do banco. As distâncias obtidas são classificadas em ordem crescente, produzindo-se a lista de imagens semelhantes à imagem de referência.

A medida Average Normalized Modified Retrieval Rank, ANMRR, proposta no padrão MPEG-7 [14,35,36], é utilizada para a avaliação de desempenho. O cálculo da ANMRR resulta, sempre, em um número no intervalo [0,1]. Quanto mais próximo de zero, melhor o desempenho. Quanto mais próximo de um, pior o resultado.

C. Os vetores de características testados Os experimentos descritos neste artigo avaliaram o

desempenho dos seguintes descritores: Scalable Color Descriptor (SCD), Color Structure Descriptor (CSD), Color Layout Descriptor (CLD), Dominant Color Descriptor (DCD), todos eles definidos pelo padrão MPEG-7 [14,35,36] e Histograms of uni-color and bi-color blocks and Directional Changes in Intensity Gradient (HDCIG) proposto por Nezamabadi-Pour e Kabir [28]. Esse conjunto de descritores forma uma base de comparação para os descritores propostos neste artigo, que incluem as características extraídas das matrizes de co-ocorrência, próprias e cruzadas.

Os experimentos realizados consistiram em calcular as matrizes de co-ocorrência — próprias e cruzadas — para as imagens. Apenas sistemas de cores tridimensionais foram testados e, por isso, seis matrizes de co-ocorrência foram obtidas: três próprias e três cruzadas.

Cada uma das matrizes próprias foi calculada para quatro ângulos distintos: 0°, 45°, 90° e 135°. Para cada uma delas foram calculadas as 11 primeiras características propostas por Haralick. Esse procedimento resultou em 4 vetores de 11 elementos para cada matriz própria:

RRRR

iRRRRRRRR

iRRRR

RRRRi

RRRRRRRRi

RRRR

fffFfffF

fffFfffF

11:135:1351:13513511:90:901:9090

11:45:451:454511:0:01:00

,,,,,,,,

,,,,,,,,

==

==

A partir desses quatro vetores, calculou-se o vetor médio RR

meanF e o vetor de faixa RRrangeF . Cada elemento do vetor

médio é a média dos valores dos quatro elementos

correspondentes dos vetores RRF0 , RRF45 , RRF90 e RRF135 ,

como mostra a Equação (1).

4:135:90:45:0:RR

iRR

iRR

iRRi

RRimean fffff +++=

Cada elemento do vetor de faixa corresponde à diferença

entre o maior e o menor valor dos elementos respectivos, como mostra a Equação (2).

( ) ( )RRi

RRi

RRirange fff ::: minmax !

!!

!"=

Duas propostas de descritores foram testadas neste artigo.

A primeira proposta utiliza apenas os vetores médios das matrizes de co-ocorrência próprias, além dos vetores de características das matrizes de co-ocorrência cruzadas. Esse descritor tem, ao todo, 66 elementos e será chamado de Haralick66.

A segunda proposta utiliza os vetores de características das matrizes de co-ocorrência cruzadas e, para cada matriz de co-ocorrência própria, utiliza a concatenação do vetor médio com o vetor de faixa. Assim, o descritor da segunda proposta tem, ao todo, 99 elementos e será chamado de Haralick99.

V. RESULTADOS

Os testes foram realizados utilizando-se o Matlab 7. As características das imagens foram extraídas, foram calculadas as distâncias cruzadas entre elas e a lista de imagens semelhantes foi construída. A partir dessa lista de imagens semelhantes, foram calculadas a ANMRR e a matriz de confusão percentual.

A. Comparação dos descritores propostos Ambos os descritores — Haralick66 e Haralick99 —

foram testados variando-se os seguintes parâmetros:

• Quatro sistemas de cores (RGB, HSV, L*a*b*,L*u*v*, ); • Cinco distâncias da matriz de co-ocorrência (d = 1, 2, 4,

8, 16); • Seis níveis de quantização dos planos de cor (8, 16, 32,

64, 128 e 256).

1) O melhor descritor: A Tabela I apresenta uma síntese dos melhores resultados obtidos para cada caso testado dos descritores Haralick66 e Haralick99.

Comparando-se os valores de ANMRR caso a caso, observa-se que, em todos eles, os valores de ANMRR para o descritor Haralick99 são os menores. Além disso, o sistema de cores L*a*b* apresentou os melhores resultados para ambos os descritores propostos.

Observa-se que, em situações análogas, os valores de ANMRR apresentados pelo descritor Haralick66 são consistentemente maiores do que os valores de ANMRR apresentados pelo descritor Haralick99.

2) O sistema de cores mais adequado: Considerando-se os testes com o descritor Haralick99, foram analisados os desempenhos para os quatro sistemas de cores testados. A

Tabela II apresenta os melhores valores de ANMRR obtidos nos testes para os quatro sistemas de cores testados. Para cada sistema de cor testado, os menores valores de ANMRR foram obtidos quando foi utilizado o descritor Haralick99.

Isso implica que, para o banco de imagens utilizado, o descritor Haralick99 apresenta melhor desempenho. Em qualquer caso de teste executado, os valores para o sistema L*a*b* foram os menores obtidos, como pode ser observado na Tabela II.

Tabela I Melhores valores de ANMRR para descritor Haralick66.

Distâncias d para Haralick66 Níveis 1 2 4 8 16

256 0,48038 0,48312 0,48607 0,49007 0,49572 128 0,48044 0,48298 0,48589 0,48996 0,49608 64 0,48045 0,48245 0,48523 0,48941 0,49573 32 0,48408 0,48497 0,48741 0,49128 0,49817 16 0,49244 0,49245 0,49383 0,49758 0,50473 8 0,50206 0,50219 0,50257 0,50492 0,51166

Distâncias d para Haralick99 Níveis 1 2 4 8 16

256 0,46411 0,46212 0,4642 0,47127 0,47911 128 0,46491 0,46179 0,46449 0,47177 0,4793 64 0,46667 0,46298 0,46334 0,47112 0,47861 32 0,46851 0,46665 0,46702 0,47258 0,48113 16 0,47971 0,47508 0,47453 0,48168 0,48888 8 0,48977 0,48626 0,48336 0,48862 0,49737

As linhas indicam os níveis de quantização e as colunas indicam a distância entre os pixels no cálculo da matriz de co-ocorrência. Cada célula mostra o melhor valor de ANMRR dentre os valores obtidos usando-se os quatro sistemas de cores. Os resultados dos testes mostraram que todos os melhores valores constantes da tabela foram produzidos utilizando-se o sistema de cores L*a*b*.

Tabela II

Melhores valores de ANMRR para os descritores Haralick66 e Haralick99 para cada sistema de cores.

Haralick66 Haralick99 Sistema de cor Melhor

ANMRR

Caso Melhor

ANMRR

Caso RGB 0,5396 128/2 0,5142 128/4 HSV 0,4930 256/1 0,4671 256/4

L*a*b* 0,4804 256/1 0,4618 128/2 L*u*v* 0,4991 256/1 0,4737 64/1

As colunas "Caso" indicam qual foi a situação em que a ANMRR à direita foi observada. Nos valores de formato nnn/n o numerador indica o número de níveis de quantização do plano de cores e o denominador indica a distância para o cálculo da matriz de co-ocorrência.

B. Verificação de relevância A utilização do descritor Haralick99 apresentou um

desempenho equivalente ao das melhores técnicas testadas neste artigo, como pode ser visualizado na Figura 2. Dentre os quatro descritores cujo desempenho é semelhante, o descritor Haralick99 apresenta a vantagem de ser mais compacto. Haralick99 é composto por 99 elementos, enquanto que o descritor SCD compõe-se de 256 elementos, HDCIG compõe-se de 1517 elementos e CSD compõe-se de 184 elementos. Os demais descritores testados possuem menor número de elementos — CLD compõe-se de 12 elementos e DCD compõe-se de até oito elementos compostos. Entretanto, o desempenho desses dois descritores é destacadamente inferior aos demais.

(1)

(2)

0,35

0,4

0,45

0,5

0,55

0,6

0,65

SCD Hara99 HDCIG CSD CLD DCD

Métodos

AN

MR

R

Fig. 2. Desempenho dos descritores testados.

É importante discutir se o descritor Haralick99 é apenas um aperfeiçoamento dos descritores testados, ou se ele traz contribuição nova ao processo. Duas possibilidades se apresentam:

1) O descritor Haralick99 é apenas uma forma diferente de informar as mesmas propriedades que já estão presentes nos demais descritores testados;

2) O descritor Haralick99 contém informação adicional, não apresentada pelos demais descritores analisados;

As duas afirmações acima apresentam conteúdos opostos e contraditórios. Para verificar qual das duas afirmações prevalece, foram efetuados testes adicionais. Esses testes combinaram os descritores testados, dois a dois, e o desempenho de cada conjunto foi medido. A junção de dois descritores foi feita pela combinação linear das distâncias calculadas isoladamente. Tomou-se o cuidado de normalizar os descritores mais discrepantes para que todos os valores de distâncias medidas estivessem posicionados dentro da mesma ordem de grandeza. A expressão geral da combinação linear das distâncias é dada pela equação (3).

21).1(. descritordescritorCOMB ddd ## "+=

A Tabela III mostra os valores de desempenho das

combinações exaustivas dos descritores testados. Os valores das combinações foram obtidos pelo teste exaustivo dos valores [0,1] tomados em intervalos 0,01.

Para cada célula da Tabela III, a linha superior apresenta o valor da ANMRR calculado para os descritores individuais (na diagonal principal), ou para as combinações de descritores indicados nos cabeçalhos das linhas e das colunas respectivas. A linha inferior de cada célula contém o valor normalizado da ANMRR, expresso como a razão percentual entre o valor da ANMRR da combinação e o valor da ANMRR do método combinado que apresenta melhor desempenho individual. Entre parênteses, o ganho percentual da combinação em relação ao método combinado de melhor desempenho.

Como pode ser observado na Tabela III, os melhores ganhos efetivos de desempenho foram observados para as combinações SCD Haralick99 (valor de 90%, com ganho de 10%) e HDCIG CSD (valor de 91%, com ganho de

9%). As demais combinações apresentaram valores maiores de desempenho, indicando a existência de uma interseção de informação maior entre os descritores combinados.

Tabela III Valores de ANMRR para as combinações de descritores.

SCD Har99 HDCIG CSD CLD DCD

SCD 0,460 100

0,416 90 (10)

0,450 98 (2)

0,429 93 (7)

0,449 98 (2)

0,456 99 (1)

Har99 - 0,462 100

0,434 94 (6)

0,436 94 (6)

0,454 98 (2)

0,455 98 (2)

HDCIG - - 0,476

100 (0) 0,434 91 (9)

0,468 98 (2)

0,470 99 (1)

CSD - - - 0,483

100 (0) 0,463 96 (4)

0,476 98(2)

CLD - - - - 0,574

100 (0) 0,545 95 (5)

DCD - - - - - 0,617

100 (0)

VI. CONCLUSÃO

O descritor Haralick99 apresenta desempenho medido pela ANMRR equivalente ao do melhor descritor testado neste artigo. Entretanto, o descritor Haralick99 é mais compacto quando são considerados os quatro melhores descritores testados, que apresentam desempenhos semelhantes: SCD, Haralick99, HDCIG e CSD, nesta ordem. Haralick99 é composto por 99 elementos, SCD por 256, HDCIG por 1517 e CSD por 184 elementos. Além disso, Haralick99 apresenta uma baixa interseção de informação discriminatória com relação aos demais quatro descritores do primeiro grupo. Isso significa que sua utilização em combinação com outro descritor do grupo ocasiona incremento de desempenho da ordem de 10%. Conforme medido, a melhor combinação de dois descritores foi responsável pela queda da ANMRR para o valor de 0,41605, bastante inferior à melhor performance individual, que coube ao descritor SCD (ANMRR = 0,46047), seguido de perto pelo descritor Haralick99 (ANMRR = 0,46212).

Os resultados promissores apontam ainda para duas direções de pesquisas futuras: 1) a análise da inclusão dos três coeficientes de Haralick não incluídos no descritor e 2) a busca de coeficientes redundantes no descritor Haralick99 com o objetivo de diminuir seu tamanho mantendo seu desempenho em níveis equivalentes.

REFERÊNCIAS BIBLIOGRÁFICAS

[1] R. Haralick, K. Shanmugam and I. Dinstein. “Textural features for image classification”, IEEE Transactions on Systems, Man and Cybernetics, SMC-3:6 (1973) 610-621.

[2] A. Baraldi, F. Parmiggiani. “A investigation of the textural characteristics associated with gray level cooccurrence matrix statistical parameters”, IEEE Transactions on Geosciences and Remote Sensing, 33:2 (1995) 293-304.

[3] R. Haralick. “Statistical and structural approaches to texture”, Proceedings of the IEEE, 67:5 (1979) 786-804.

(3)

[4] M. M. Galloway. Texture analysis using gray level run lengths, Computer Graphics and Image Processing, 4 (1975) 172-179.

[5] A. Chu, C. M. Sehgal, J. F. Greenleaf. “Use of gray level distribution of run lengths for texture analysis”, Pattern Recognition Letters, 11 (1990) 415-420.

[6] B. V. Dasarathy, E. B. Holder. “Image characterizations based on joint gray level run length distributions”, Pattern Recognition, 12 (1991) 497-502.

[7] H. Tamura, S. Mori, T. Yamawaki. “Textural features corresponding to visual perception”, IEEE Transactions on Systems, Man and Cybernetics, SMC-8:6 (1978) 460-473.

[8] M. Amadasun, R. King. “Textural features corresponding to textural properties”, IEEE Transactions on Systems, Man and Cybernetics, SMC-19:5 (1989) 1264-1274.

[9] T Randem, J. H. Husoy. “Filtering for texture classification: a comparative study”, IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-21:4 (1999) 291-310.

[10] K. I. Laws. “Rapid texture identification”, Proceedings of SPIE Conference on Image Processing for Missile Guidance, (1980) 376-380.

[11] R. W. Conners, C. A. Harlow, C. A. “A theoretical comparison of texture algorithms”, IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-2:2 (1980) 204-222.

[12] T. R. Reed, H. Wechsler. “Segmentation of textured images and gestalt organization using spatial/spatial-frequency representations”, IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-12:1 (1990) 1-12.

[13] B. S. Manjunath and W. Y. Ma. “Textural features for browsing and retrieval of image data”, IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-18:8 (1996) 837-842.

[14] B. S. Manjunath, J. Ohm, V. V. Vasudevan and A. Yamada. “Color and texture descriptors”, IEEE Transactions on Circuit and Systems for Video Technology, 11:6 (2001) 703-715.

[15] A. Dimai, “Rotation invariant texture description using general moment invariants and Gabor filters”, Proceedings of then 11th Scandinavian Conference on Image analysis, (1999) 391-398, vol. I, June.

[16] J. Ilonen, K. Kämäräinen, H. Kälviäinen. “Efficient computation Gabor features”, Research Report 100, Lappeenranta University of Technology, Lappeenranta, Finlândia, 2005.

[17] D. He, L. Wang. “Texture unit, texture spectrum and texture analysis”, IEEE Transactions on Geosciences and Remote Sensing, 28:4 (1990) 509-512.

[18] D. He, L. Wang. “Texture features based on texture spectrum”, Pattern Recognition, 24:5 (1991) 391-399.

[19] T. Ojala, M. Pietikäinen, D. Hardwood. “A comparative study of texture measures with classification based on feature distributions”, Pattern Recognition, 29 (1996) 51-59.

[20] M. Pietikäinen, T. Ojala, Z. Xu. “Rotation-invariant texture classification using feature distributions”, Pattern Recognition, 33 (2000) 43-52.

[21] T. Ojala, K. Valkealathi, E. Oja, M. Pietikäinen. “Texture discrimination with multidimensional distributions of signed gray-level differences”, Pattern Recognition, 34 (2001) 727-739.

[22] T. Ojala, M. Pietikäinen, T. Mäenpää. “Multiresolution gray-scale and rotation invariant classification with local binary patterns”, IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-24:7 (2002) 971-987.

[23] J. Hafner, H. S. Sawhney, W. Equitz, M. Flickner, W. Niblack. “Efficient color histogram indexing for quadratic form distance functions”. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-17:7 (1995) 729-736.

[24] B. M. Mehtre, M. S. KanKanhalli, A. D. Narasimhalu, G. C. Man. “Color matching for image retrieval”, Pattern Recognition Letters, 16 (1995) 325-331.

[25] Y. Deng, B. S. Manjunath, C. Kenney, M. S. Moore, H. Shin. “An efficient color representation for image retrieval”, IEEE transactions on Image Processing, 10:1 (2001) 140-147.

[26] K. Chen, S. Chen. “Color texture segmentation using feature distributions”, Pattern Recognition Letters, 23 (2002) 755-771.

[27] Y. Cheng, S. CHEN. “Image classification using color, texture and regions”, Image Vision and Computing, 21 (2003) 759-776.

[28] H. Nezamabadi-Pour, E. Kabir. “Image retrieval using histograms of uni-color and bi-color blocks and directional changes in intensity gradient”, Pattern Recognition Letters, 25 (2004) 1547-1557.

[29] J. Li, J. Wang. “Real-time computerized annotation of pictures”, IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-30:6 (2008) 985-1002.

[30] MPEG-7 -- International Standard ISO/IEC 15938-3. Information technology --- multimedia content descriptor interface --- part 3: visual, Switzerland, 2002.

[31] Azriel Rosenfeld, Cheng-Ye Wang Angela Y. Wu. “Multispectral textures”, IEEE Transactions on Systems, Man, and Cybernetics, SMC-12:1 (1982) 79-84.

[32] Christoph Palm. “Color texture classification by integrative co-occurrence matrices”, Pattern Recognition, 37 (2004) 965-976.

[33] Richard O. Duda, Peter E. Hart, David G. Stork. Pattern classification. 3 ed. New York : John Willey \& Sons, 2000.

[34] SIMPLIcity - Image database. James Z. Wang Research Group. College of Information Sciences and Technology. The Pennsylvania State University. Acessível em http:wang.ist.psu.edu/~jwang/test1.tar. 01/01/2008.

[35] S. Chang, T. Sikora and A. Puri. “Overview of the MPEG-7 standard”, IEEE Transactions on Circuit and Systems for Video Technology, 11:16 (2001) 688-695.

[36] T. Sikora. “The MPEG-7 visual standard for content description: an overview”, IEEE Transactions on Circuit and Systems for Video Technology, 11:16 (2001) 696-702.