caracterizac¸ao de imagens via redes neurais …caracterizac¸ao de imagens via redes neurais...

5
Caracterizac ¸˜ ao de Imagens via Redes Neurais Artificiais Autor: Eduardo Ferreira Ribeiro 1 , Orientadora: Celia Zorzo Barcelos 1 1 Programa de P ´ os-Graduac ¸˜ ao em Ciˆ encia da Computac ¸˜ ao Universidade Federal do Uberlˆ andia (UFU) Uberlˆ andia – MG – Brasil [email protected], [email protected] ıvel: Mestrado Ano de ingresso no programa: 2007 ´ Epoca esperada de conclus˜ ao: Marc ¸o / 2009 Resumo. Sistemas de Recuperac ¸˜ ao de Imagens Baseada em Conte´ udo (CBIR) se uti- lizam da hip´ otese de correspondˆ encia de uma dada imagem a outra a partir de seus atributos como cor, forma e textura. Por´ em, tais atributos geralmente falham em descrever conceitos semˆ anticos de alto n´ ıvel da mente dos usu´ arios. Este trabalho prop˜ oe, atrav´ es do aprendizado neural, a representac ¸˜ ao do conhecimento subjetivo usado por seres humanos para a verificac ¸˜ ao de quais aspectos s˜ ao mais importantes na caracterizac ¸˜ ao de imagens. Um vetor de caracter´ ısticas de alto n´ ıvel ser´ a formado com uso de t´ ecnicas de Inteligˆ encia Artificial, mais especificamente pelas Redes Neu- rais Artificiais para dar ` as caracter´ ısticas de baixo n´ ıvel (cor, forma e textura) uma nova interpretac ¸˜ ao baseada nas sem ˆ anticas inerentes das imagens adquiridas durante a fase de treinamento da rede. Palavras-Chave. Recuperac ¸˜ ao de Imagens Baseada em Conte´ udo, Redes Neurais Ar- tificiais, Semˆ anticas de Alto N´ ıvel, Aprendizado Neural, Caracterizac ¸˜ ao de Imagens.

Upload: others

Post on 25-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Caracterizac¸ao de Imagens via Redes Neurais …Caracterizac¸ao de Imagens via Redes Neurais Artificiais˜ Autor: Eduardo Ferreira Ribeiro 1, Orientadora: Celia Zorzo Barcelos 1Programa

Caracterizacao de Imagens via Redes Neurais Artificiais

Autor: Eduardo Ferreira Ribeiro1, Orientadora: Celia Zorzo Barcelos1

1Programa de Pos-Graduacao em Ciencia da ComputacaoUniversidade Federal do Uberlandia (UFU)

Uberlandia – MG – Brasil

[email protected], [email protected]

Nıvel: MestradoAno de ingresso no programa: 2007

Epoca esperada de conclusao: Marco / 2009

Resumo. Sistemas de Recuperacao de Imagens Baseada em Conteudo (CBIR) se uti-lizam da hipotese de correspondencia de uma dada imagem a outra a partir de seusatributos como cor, forma e textura. Porem, tais atributos geralmente falham emdescrever conceitos semanticos de alto nıvel da mente dos usuarios. Este trabalhopropoe, atraves do aprendizado neural, a representacao do conhecimento subjetivousado por seres humanos para a verificacao de quais aspectos sao mais importantesna caracterizacao de imagens. Um vetor de caracterısticas de alto nıvel sera formadocom uso de tecnicas de Inteligencia Artificial, mais especificamente pelas Redes Neu-rais Artificiais para dar as caracterısticas de baixo nıvel (cor, forma e textura) umanova interpretacao baseada nas semanticas inerentes das imagens adquiridas durantea fase de treinamento da rede.

Palavras-Chave. Recuperacao de Imagens Baseada em Conteudo, Redes Neurais Ar-tificiais, Semanticas de Alto Nıvel, Aprendizado Neural, Caracterizacao de Imagens.

Page 2: Caracterizac¸ao de Imagens via Redes Neurais …Caracterizac¸ao de Imagens via Redes Neurais Artificiais˜ Autor: Eduardo Ferreira Ribeiro 1, Orientadora: Celia Zorzo Barcelos 1Programa

1. Introducao e Motivacao

Nos ultimos tempos a Recuperacao de Imagens Baseada em Conteudo tem sido um signifi-cante objeto de pesquisa em visao computacional e processamento de imagens. Uma das car-acterısticas de um sistema de Recuperacao de Imagens Baseada em Conteudo (CBIR) e a deextrair informacoes a partir das imagens que venham a caracterizar seu conteudo. Para isso,utilizam-se principalmente aspectos primitivos ou caracterısticas de baixo nıvel como cor, tex-tura e forma ou uma combinacao destas para refletir a semantica inerente da imagem, o quemuitas vezes nao ocorre, pois os metodos automaticos de extracao de caracterısticas geralmentese concentram em propriedades locais de imagens, sendo que a percepcao humana das imagense mais holıstica.

Devido ao fato de que a percepcao humana e o ponto de referencia para a comparacaoda eficiencia dos sistemas de recuperacao, o desenvolvimento de um “sistema ideal” se tornacada vez mais desafiador. Da mesma maneira que a visao humana e considerada um pro-cesso inteligente, capaz de extrair padroes das imagens que as caracterize, assim como fazerinferencias e generalizacoes atraves desses padroes associados a uma informacao previa, umsistema de recuperacao ideal tambem deve ser capaz de extrair tais padroes e fazer tais in-ferencias semanticas. Deste modo os atributos de uma rede neural, tais como aprender atravesde exemplos, generalizacao de redundancias e tolerancia a falhas, proporcionam fortes incen-tivos para a escolha de redes neurais como uma alternativa apropriada para uma modelagemde um sistema de recuperacao baseado em semantica de alto nıvel [Bishop 1995]. No entanto,em muitos sistemas atuais, os conceitos semanticos de alto nıvel sao apresentados apenas compalavras chave [Zhang and Izquierdo 2007], o que pode limitar e comprometer o sucesso daconsulta.

A principal forca na estrutura das redes neurais reside em sua habilidade de adaptacao eaprendizagem. Isso significa que modelos de redes neurais podem lidar com dados imprecisose situacoes nao totalmente definidas, ou seja, uma rede treinada de maneira razoavel tem ahabilidade de generalizar quando e apresentada a entradas que nao estao presentes em dados jaconhecidos por ela [Haykin 2001]. Baseando-se nisso, este trabalho apresenta a formacao devetores de caracterısticas de alto nıvel atraves do conhecimento adquirido pelo aprendizado dasredes neurais que generaliza os conceitos semanticos da mente do usuario. Esta aproximacaotorna-se um aspecto importante para a reducao do gap-semantico na recuperacao de imagensbaseada em conteudo.

2. Trabalhos Relacionados

Para tentar reduzir o gap-semantico existente entre o poder limitado de interpretacao semanticapelas maquinas e a rica subjetividade do pensamento humano, alguns trabalhos baseados emsemanticas de alto nıvel tem sido propostos atraves do uso de ferramentas formais como astecnicas de aprendizado supervisionado [Sethi et al. 2001].

O objetivo do aprendizado supervisionado e fornecer um resultado (por exemplo, umacategoria semantica a qual a consulta pertence) baseado em uma serie de medidas de en-trada [Hastie et al. 2001]. Algumas tecnicas como o uso do Support Vector Machine (SVM)[Shi et al. 2004] podem ser utilizadas para aprender conceitos de alto nıvel (como categoriassemanticas) atraves de caracterısticas de baixo nıvel (como atributos de cor, forma e textura)[Liu et al. 2007].

Com teoria e aplicacoes bem fundamentadas, o SVM tem sido muito utilizado parareconhecimento de objetos, classificacao de textos, etc. e e considerado um bom candidato

Page 3: Caracterizac¸ao de Imagens via Redes Neurais …Caracterizac¸ao de Imagens via Redes Neurais Artificiais˜ Autor: Eduardo Ferreira Ribeiro 1, Orientadora: Celia Zorzo Barcelos 1Programa

para o aprendizado em sistemas de recuperacao de imagens [Tong and Chang 2001]. O SVMfoi originalmente desenvolvido para classificacao binaria e atraves dele pode-se encontrar umespaco n-dimensional (entre caracterısticas de baixo nıvel, por exemplo) onde um hiperplanoseparador e construıdo. Dentre os possıveis hiperplanos, o plano separador otimo (OSP) iramaximizar a distancia entre o hiperplano e os pontos mais proximos de cada classe utilizando,assim, esse separador para classificar as imagens [Shi et al. 2004].

As Redes Neurais tem sido utilizadas para se fazer a classificacao de imagens. Nessecaso um grande numero de dados de treinamento (caracterısticas de baixo nıvel) e inseridona rede neural para estabelecer o vınculo entre os atributos de baixo nıvel das imagens esuas semanticas de alto nıvel (categorias) [Town and Sinclair 2000]. A classificacao se dana constituicao de fronteiras de decisao nao lineares no espaco de caracterısticas de baixonıvel, adequando a imagem consulta ao grupo em que ela mais se aproxima. A partir destaclassificacao, cada grupo sera associado a um conceito semantico e tais conceitos serao utiliza-dos na recuperacao de imagens. Em [Gonzalez et al. 2006], Alain et. al descreve a combinacaode Redes Neurais e Wavellets para a recuperacao de imagens em termos de seu conteudo. Umadesvantagem desse metodo e que o mesmo requer um grande numero de dados de treinamentosendo computacionalmente extensivo alem de retornar apenas imagens pertencentes a catego-rias pre-estabelecidas.

A nossa abordagem utiliza redes neurais para caracterizar imagens de uma formagenerica baseando-se nas categorias semanticas intrınsecas de uma imagem consulta e nao decategorias pre-estabelecidas, ou seja, o sistema ira fazer a busca de imagens em categorias naoestabelecidas durante o treinamento baseando-se na capacidade de generalizacao da rede neu-ral, fazendo com que o sistema retorne imagens mais semelhantes a uma dada imagem consultaatraves dos vetores de caracterısticas provenientes da rede.

3. Metodologia e Cronograma do Trabalho ate a DefesaNossa pesquisa tem como objetivo fazer uma analise dos sistemas que utilizam redes neuraispara a selecao de caracterısticas e propor uma forma de caracterizacao de imagens utilizandoa inteligencia artificial, mais especificamente as redes neurais artificiais (rna’s), para constituirfronteiras de decisao altamente nao-lineares no espaco de caracterısticas de baixo nıvel, for-mando um novo vetor de caracterısticas de alto nıvel permitindo uma reducao substancial doespaco de armazenamento alem de ponderar as caracterısticas e salientar as mais importantesbaseando-se em exemplos predefinidos. Para isso, as rna’s irao atuar como uma abstracaomatematica inspirada no cerebro humano para adquirir conhecimento atraves da experiencia(treinamento da rede). Apos realizado este treinamento, os pesos da rede estarao prontos paraserem usados na fase de caracterizacao em alto nıvel. Os vetores resultantes desta operacaoserao utilizados como parametro de similaridade entre as imagens.

O plano de trabalho a ser utilizado para que se concretize o objetivo e composto pelosseguintes ıtens:

1. Levantamento, analise e estudo do material bibliografico.2. Implementacao e treinamento de rede neural artificial simples com atributos de cor.3. Implementacao e treinamento de rede reural artificial simples com atributos de cor,

forma e textura.4. Sofisticacao da rede neural.5. Recuperacao de imagens no banco de dados e avaliacao dos resultados obtidos.6. Comparacao dos resultados finais obtidos com outros metodos e avaliacao de perfor-

mance.

Page 4: Caracterizac¸ao de Imagens via Redes Neurais …Caracterizac¸ao de Imagens via Redes Neurais Artificiais˜ Autor: Eduardo Ferreira Ribeiro 1, Orientadora: Celia Zorzo Barcelos 1Programa

7. Escrita da dissertacao.8. Escrita e submissao de trabalhos a congressos e revistas.9. Termino da dissertacao e elaboracao da apresentacao.

A Tabela 1 apresenta o cronograma de atividades de acordo com a metodologia propostadesde a concepcao da pesquisa ate a apresentacao a banca examinadora. Os numeros a esquerdada tabela correspondem aos mesmos numeros listados em cada ıtem da metodologia.

Cronograma2007 2008 2009

Met

odol

ogia

Out

ubro

Nov

embr

o

Dez

embr

o

Jane

iro

Feve

reir

o

Mar

co

Abr

il

Mai

o

Junh

o

Julh

o

Ago

sto

Sete

mbr

o

Out

ubro

Nov

embr

o

Dez

embr

o

Jane

iro

Feve

reir

o

1⊗ ⊗ ⊗ ⊗ ⊗ ⊗ ⊗ ⊗ ⊗ ⊗ ⊗ ⊗ ⊗

2⊗ ⊗

3⊗ ⊗

4⊗ ⊗ ⊗ ⊗ ⊗ ⊗

5⊗ ⊗ ⊗

6⊗ ⊗ ⊗

7⊗ ⊗ ⊗ ⊗ ⊗ ⊗ ⊗ ⊗

8⊗ ⊗ ⊗ ⊗

9⊗ ⊗

Tabela 1. Cronograma de atividades para a execucao do projeto.

4. Alguns Resultados PreliminaresA seguir, alguns resultados experimentais obtidos pelo implementacao do metodo proposto saomostrados. Foram utilizados como caracterısticas de baixo nıvel os histogramas de cores nostres canais RGB para dar suporte ao treinamento de uma rede neural simples do tipo Perceptrone para a caracterizacao em alto nıvel atraves rede ja treinada. As imagens utilizadas nesteexperimento pertencem a um banco de dados montado pelo proprio grupo de pesquisa com12750 imagens de varias categorias semanticas. O ranking de similaridade foi formado pelacomparacao do vetor de alto nıvel da imagem consulta com todos os outros vetores atraves dadistancia euclidiana.

A Figura 1 (a e b) mostra a excelente adaptacao da rede neural para outros tiposde categorias semanticas (diferentes das usadas na fase de treinamento). A Figura 1 (c)mostra uma imagem possuindo a mesma categoria usada em uma das classes de treinamento(construcoes), pode-se notar que as 12 primeiras imagens recuperadas pertencem a mesma cat-egoria semantica, demonstrando o potencial da rede neural para aprender conceitos.

Como pode-se observar, apesar de ter sido implementada uma rede neural simples etestada apenas com atributos de cor como entradas da rede, a mesma apresentou resultadospromissores demonstrando sua potencialidade. Baseando-se nisso vamos explorar o incrementoda implementacao do modelo proposto com o aumento do numero de caracterısticas de baixonıvel a serem extraıdas como forma e textura, bem como aumentar o numero de classes para

Page 5: Caracterizac¸ao de Imagens via Redes Neurais …Caracterizac¸ao de Imagens via Redes Neurais Artificiais˜ Autor: Eduardo Ferreira Ribeiro 1, Orientadora: Celia Zorzo Barcelos 1Programa

Figura 1. Resultados obtidos pelo modelo proposto no banco de imagens BD-12750.

testar se a rede neural ficara ainda mais robusta e se podera gerar caracterısticas de alto nıvelque distinguam ainda mais as semanticas de alto nıvel utilizadas por interpretadores humanos.

ReferenciasBishop, C. M. (1995). Neural Networks for Pattern Recognition. Oxford University Press.

Gonzalez, A. C., Sossa, J. H., Felipe, E. M., and Pogrebnyak, O. (2006). Wavelet transformsand neural networks applied to image retrieval. In ICPR ’06: Proceedings of the 18th Inter-national Conference on Pattern Recognition, pages 909–912, Washington, DC, USA. IEEEComputer Society.

Hastie, T., Tibshirani, R., and Friedman, J. (2001). The Elements of Statistical Learning: DataMining, Inference, and Prediction. New York: Springer-Verlag.

Haykin, S. (2001). Redes Neurais: Princıpio e Pratica. 2 edition.

Liu, Y., Zhang, D., Lu, G., and Ma, W.-Y. (2007). A survey of content-based image retrievalwith high-level semantics. Pattern Recogn., 40(1):262–282.

Sethi, I. K., Coman, I. L., and Stan, D. (2001). Mining association rules between low-level im-age features and high-level concepts. Proceedings of the SPIE Data Mining and KnowledgeDiscovery, III:279–290.

Shi, R., Feng, H., Chua, T.-S., and Lee, C.-H. (2004). An adaptive image content representationand segmentation approach to automatic image annotation. International Conference onImage and Video Retrieval (CIVR), pages 545–554.

Tong, S. and Chang, E. (2001). Support vector machine active learning for image retrieval. InMULTIMEDIA ’01: Proceedings of the ninth ACM international conference on Multimedia,pages 107–118, New York, NY, USA. ACM Press.

Town, C. and Sinclair, D. (2000). Content based image retrieval using semantic visual cate-gories.

Zhang, Q. and Izquierdo, E. (2007). Combining low-level features for semantic inference inimage retrieval. Eurassip - Journal on Advances in Signal Processing, April.