sandberg marcel santos resumo s - fapese - fundação de ... · de vídeo. os resultados ... o...

47

Um Modelo Integrado de Atenção Espacial eTemporal

Sandberg Marcel Santos*

Sistemas visuais biológicos utilizam uma estratégia que prioriza

a extração das informações mais relevantes à execução de uma

determinada tarefa visual, reduzindo assim a quantidade de

recursos computacionais necessários para realizá-la. Tomando como

inspiração essa estratégia, tem-se a Atenção Visual, área da Visão

Computacional que se preocupa com o processamento de cenas

visuais, procurando encontrar as regiões mais salientes (mais im-

portantes de serem analisadas). Nesse contexto, o presente traba-

lho propõe e implementa um novo modelo de Atenção Visual que

integra as abordagens espacial (ou estática) bottom-up e temporal

(ou dinâmica), validado através de uma série de experimentos.

Apresentam-se uma estratégia para se realizar a segmentação de

objetos móveis em cenas visuais, como parte integrante do modelo

proposto, e um estudo de caso envolvendo a utilização das evidên-

cias temporais, obtidas pelo sistema de Atenção Visual desenvolvi-

do, no problema de detecção de transições abruptas em seqüências

de vídeo. Os resultados obtidos indicaram que a estratégia propos-

ta para a extração de características temporais e para a detecção de

objetos móveis se constituiu em uma forma simples e versátil para

se realizar a detecção e a segmentação de movimento em vídeos. Já

no que se refere aos experimentos envolvendo a detecção de transi-

ções abruptas, foi realizada uma avaliação de desempenho, na qual

foram observadas taxas de erro reduzidas. Finalmente, a integração

de características espaciais no contexto acima resultou em uma

estratégia interessante para se combinar evidências das Atenções

Espacial e Temporal.

PALAVRAS-CHAVE: Inteligência Artificial; Atenção Visual; Integra-

ção de Evidências Espaciais e Temporais; Detecção de Transições.

* Mestre em Ciência da Computação pela Universidade Federal de CampinaGrande (UFCG). Bolsista do CNPq em projeto de pesquisa realizado ecoordenado pela Universidade Federal de Campina Grande (UFCG). E-mail: [email protected]

Resum

o

Revista da Fapese, v. 2, n. 1, p. 47-70, jan./jun. 2006

4848


Sandberg Marcel Santos

1. Introdução

Entre os animais, a percepção de estímulos prove-

nientes do meio ambiente se constitui como ati-

vidade essencial no que diz respeito à sobrevivên-

cia. Já entre animais que possuem um sistema visu-

al mais desenvolvido (maior parte dos estímulos im-

portantes detectados pela visão), como os mamífe-

ros, o reconhecimento dos estímulos visuais desem-

penha um papel primordial (Gonçalves, 1999). Nes-

se contexto, a atenção visual, habilidade dos siste-

mas visuais biológicos de fixar rapidamente a visão

em pontos de interesse e reconhecer possíveis pre-

sas, predadores ou rivais, é determinante para a per-

petuação e a evolução das espécies (Itti e Koch, 2001).

Para se realizar a percepção dos estímulos visu-

ais em máquinas, utiliza-se um conjunto de méto-

dos e técnicas de análise e interpretação de imagens

conhecido como Visão Computacional. No contexto

da Visão Computacional, tem-se a área de Atenção

Visual Computacional (análoga à atenção visual bi-

ológica), que se dedica a desenvolver mecanismos

que reduzam o custo computacional quando do

processamento de cenas visuais em máquinas. A

partir deste ponto, a expressão Atenção Visual será

utilizada para referenciar as versões computacional

e biológica indistintamente.

Os primatas possuem uma grande capacidade de

interpretar cenas complexas em tempo real, apesar

da velocidade limitada do circuito neural disponí-

vel para uma tarefa dessa natureza. O tempo médio

de disparo de um neurônio é da ordem de 10 ms

(Bauchspiess, 2002), o qual pode ser considerado alto

quando comparado ao tempo de execução de uma

instrução de máquina elementar em um processador,

da ordem de 1 ns. Tendo-se como base estudos em

seres humanos e em macacos, acredita-se que os pro-

cessos visuais de níveis intermediário e alto selecio-

nam apenas um subconjunto da informação senso-

rial disponível (Tsotsos et al, 1995), na forma de uma

região circular do campo visual, conhecida como foco

de atenção. O poder de representação neural domundo visual é ampliado dentro da área restrita do

foco de atenção, e somente essa informação é sub-

metida para processamentos de mais altos níveis, oque favorece uma redução na complexidade de

processamento.

A Atenção Visual possui duas abordagens (Coull

e Nobre, 1998), a espacial (que se preocupa em de-

terminar estaticamente quais regiões da cena sãomais relevantes) e a temporal (que se preocupa em

determinar dinamicamente em que região e momento

do tempo realizar uma análise mais detalhada). Na

Atenção Espacial, tem-se uma única imagem (pode

estar representada em múltiplas resoluções, mas ain-

da assim é uma única imagem) e o objetivo é deter-minar em que lugar (onde) na imagem se deve pres-

tar atenção e qual objeto (o que) deve ser o foco da

atenção. Já a Atenção Temporal objetiva saber, em

uma seqüência de imagens (vídeo), em qual delas

(quando) deve recair a atenção e, nessa imagem, qual

objeto (o que) merece maior destaque.

A Atenção Espacial pode envolver análise de ca-

racterísticas ou evidências de baixo nível (Atenção

bottom-up) e modelos de alto nível (Atenção top-

down) (Itti e Koch, 2001). A abordagem bottom-up

realiza uma análise rápida (de 25 a 50 ms por item,em seres humanos (Itti e Koch, 2001)), grosseira,

maciçamente paralela, independente da tarefa e ba-

seada nas saliências, enquanto a análise top-down

é mais lenta (200 ms ou mais (Itti e Koch, 2001),

equiparável ao tempo necessário para se movimen-

tar os olhos), mais detalhada, seqüencial, depen-dente da tarefa, controlada pela vontade e baseada

em modelos de objetos (Itti, 2003; Niebur e Koch,

1998).

Os principais objetivos deste trabalho foram a

proposta e a implementação de um modelo de Aten-ção Visual (Seção 3) combinando as abordagens es-

pacial bottom-up e temporal, e o desenvolvimento

de experimentos de segmentação de objetos móveis

em cenas visuais (Seção 4.3) e de detecção de transi-

ções abruptas em vídeos (Seção 4.2), utilizando as

evidências temporais obtidas a partir do sistema deAtenção Visual desenvolvido.

49Um Modelo Integrado de Atenção Espacial e Temporal


A Atenção Visual (seja espacial ou temporal) visa

a redução do custo computacional para se analisarimagens. A Atenção Espacial realiza tal redução atra-

vés da seleção das regiões de maior importância na

imagem, tornando necessária a análise somente des-

sas regiões e não de toda a imagem. Integrando-se

elementos temporais aos elementos espaciais, é pos-

sível aperfeiçoar a detecção de regiões-alvo quandose possui uma seqüência de imagens, pois os dados

obtidos de uma determinada imagem vêm a simpli-

ficar consideravelmente a análise de uma imagem

posterior. É nesse sentido que os estudos aqui feitos,

visando a integração entre as Atenções Espacial e

Temporal, servem como uma contribuição para apesquisa de Atenção Visual.

Este trabalho está organizado como segue. Na

Seção 2, serão discutidos trabalhos relacionados à

pesquisa de Atenção Visual Espacial e Temporal. A

Seção 3 trata da arquitetura do sistema proposto. NaSeção 4, são exibidos os experimentos realizados e

os resultados obtidos. Finalmente, a Seção 5 apre-

senta as conclusões deste trabalho e sugestões para

trabalhos futuros.

2. Trabalhos relacionados

Nesta seção, serão discutidos três tipos de traba-

lhos: trabalhos relativos aos mecanismos biológicos

da Atenção Visual, que serviram como inspiração

(biológica) para o desenvolvimento deste artigo (Se-ção 2.1); trabalhos que tratam especificamente da

Atenção Espacial bottom-up (Seção 2.2); e trabalhos

que lidam com cenas visuais em que há movimento

(Atenção Temporal), para a execução de determina-

das tarefas (Seção 2.3).

2.1. INSPIRAÇÃO BIOLÓGICA

Uma das formas que pesquisadores em Visão

Computacional têm encontrado para avançar a pes-

quisa em modelos computacionais de Atenção Visu-

al (bem como em outras habilidades relacionadas àInteligência) é estudar a estrutura e a funcionalida-

de de mecanismos encontrados em organismos bio-

lógicos. Já se tem um bom conhecimento sobre osmecanismos que regem a Atenção Espacial em al-

guns mamíferos, como gatos e macacos (Thompson

e Schall, 2000; Pasupathy e Connor, 1999; Treue e

Trujillo, 1999; Carpenter et al, 1998; Roelfsema et al,

1998; Logothetis et al, 1995; Tsotsos et al, 1995;

Andersen et al, 1990; Northdurft, 1990; Gilbert eWiesel, 1989; entre vários outros).

Por outro lado, ainda existem muitas lacunas com

relação à Atenção Temporal. Um trabalho importan-

te encontrado na literatura na linha de entendimen-

to dos mecanismos biológicos da Atenção Temporale sua relação com a Atenção Espacial foi desenvol-

vido por Coull e Nobre (1998). Em seu trabalho, fo-

ram identificadas quais regiões do cérebro estariam

envolvidas na Atenção Temporal. Ou seja, o que se

desejava saber era quais regiões do cérebro são

ativadas quando se dirige a atenção a um determi-nado ponto no tempo, uma vez que o intervalo de

tempo já foi estimado. Além disso, fez-se um estudo

anatômico sobre os sistemas neurais responsáveis

pela Atenção Espacial e os responsáveis pela Aten-

ção Temporal, procurando identificar possíveis pon-

tos em comum entre eles. Dentre as conclusões doseu trabalho, podem-se citar: (i) a confirmação da

vantagem em se saber quando é mais provável que

um determinado evento ocorra (e não apenas onde),

(ii) a descoberta da existência de uma quantidade

considerável de circuitos neurais em comum para a

realização de Atenção Espacial e Temporal (apesarde haver um grau de especialização funcional em

certas regiões cerebrais) e (iii) a confirmação da lo-

calização anatômica da região responsável pela Aten-

ção Espacial (sulco intraparietal direito) e a desco-

berta das localizações para o caso temporal (sulco

intraparietal esquerdo e córtex pré-motor inferioresquerdo).

2.2. ATENÇÃO ESPACIAL

No trabalho de Koch e Ullman (1985), propôs-se

um modelo de Atenção bottom-up que utiliza o cha-mado mapa de saliência, um mapa bidimensional

5050



que representa a saliência visual (Itti e Koch, 2001).

O mapa de saliência é utilizado pela maioria dosmodelos bottom-up e é formado pela composição dos

vários mapas de características (cada mapa de ca-

racterística apresenta uma propriedade elementar da

imagem, como brilho, textura, profundidade, cor,

orientação etc, conhecidas como características vi-

suais primitivas). Tal composição gera uma medidade saliência independente de qualquer dimensão de

característica. As diversas regiões da cena visual dis-

putam nessa medida em várias escalas espaciais, e a

região vencedora é eleita como a mais saliente.

Para se descobrir a região mais saliente em ummapa de saliência, pode-se utilizar uma rede neural

do tipo winner-takes-all (Itti e Koch, 2001). Tal rede

realiza uma disputa entre os neurônios, encontran-

do, ao final, um único vencedor. Isso abre margem

para um problema: como evitar que o mecanismo

atencional aponte sempre para a mesma região (a maissaliente). Deseja-se que, após encontrada a região mais

saliente, o mecanismo aponte para as demais regiões

em ordem de saliência. Tal funcionalidade é obtida

através de inibição de neurônios na vizinhança do

neurônio vencedor, da seguinte forma: ao se encon-

trar a região vencedora, os neurônios de tal região sãoinibidos, de modo que o foco recaia sobre a segunda

região mais saliente, evitando assim que pontos mui-

to próximos sejam visitados repetidamente. O pro-

cesso é repetido a cada região vencedora encontrada,

fazendo com que a atenção se desloque sistematica-

mente para cada uma das regiões da cena, definindoassim os caminhos atencionais (Tsotsos et al, 1995).

2.3. ATENÇÃO TEMPORAL

Nesta seção, são revisados trabalhos que lidam

diretamente com tópicos pertinentes à Atenção Tem-poral, como um modelo de Atenção Temporal,

segmentação de vídeo, detecção de movimento,

renderização de vídeo, recorte automático de vídeo,

detecção de transições, entre outros.

No trabalho de Ouerhani (2004), foi proposto ummodelo de Atenção Temporal, seguindo os mesmos

moldes do modelo de Atenção Espacial proposto por

Itti (Itti, 2003; Itti, 2000; Itti e Koch, 2001; Itti et al,1998). Tal modelo se propõe a gerar um mapa de sa-

liência de movimento para cada imagem da seqüên-

cia de vídeo. A informação de movimento utilizada

por Ouerhani (2004) foi obtida através do cômputo

dos vetores de Fluxo Óptico, a partir de um método

baseado em gradiente multiescala. O Fluxo Ópticopode ser visto como um campo de velocidade

posicional instantânea que associa a cada elemento

do sensor visual o vetor de velocidade instantânea

daquele elemento (Marr, 1982). Assim, os módulos

dos vetores de Fluxo Óptico (valores de velocidade)

são utilizados como um indicador do movimento nacena.

Dados dois quadros consecutivos do vídeo, cons-

trói-se uma pirâmide (conjunto formado por uma

mesma imagem, representada em diferentes resolu-

ções) de resolução Gaussiana (Burt e Adelson, 1983)para cada quadro do vídeo, através de um processo

de filtragem passa-baixa e amostragem progressivas

da imagem original. Ouerhani utilizou uma pirâmi-

de em cinco níveis e calculou, para cada nível, um

mapa de velocidade, obtendo, assim, a pirâmide de

velocidade (as altas resoluções detectam pequenosmovimentos e as baixas resoluções, grandes movi-

mentos). Em seguida, os mapas de velocidade de cada

nível são convertidos, através de um filtro passa-bai-

xa, para a mais baixa resolução dentre os mapas, e

são somados, gerando um único mapa de saliência

de movimento para o quadro de vídeo processadono momento.

Ouerhani (2004) propõe ainda a integração desse

mapa de saliência de movimento com o mapa de

saliência bottom-up, gerando um mapa de saliência

que integre evidências espaciais e temporais. Tal for-ma de integração difere da executada neste traba-

lho. A idéia aqui é executar um pipeline, ou seja,

duas etapas de extração de evidências (Seção 3.1). A

primeira etapa extrai as evidências temporais, ou seja,

ignora as porções dos quadros do vídeo em que não

ocorre movimento. Já na segunda etapa, são extraí-das as características espaciais, através da geração



do mapa de saliência bottom-up para cada quadro

do vídeo, não se levando em consideração, entretan-to, todo o quadro em questão, e sim somente as regi-

ões do quadro selecionadas na primeira etapa.

Dentre as técnicas aplicáveis na Atenção Tempo-

ral, pode-se citar como exemplos o Fluxo Óptico e a

Detecção de Movimento. No trabalho de Maki et al

(2000), propõe-se um modelo que utiliza essas duas

técnicas, juntamente com uma terceira, a Visão

Estéreo (fornece informações sobre a profundidade

das regiões da cena), para realizar segmentação da

cena. A segmentação pode ser vista como o processo

de organizar a matriz de pixels da imagem em regi-ões que correspondem a entidades semânticas da

cena (Russel e Norvig, 1995). O ato de segmentar e

detectar movimento em cenas pode ser visto como

um processo de Atenção Visual Temporal na medi-

da em que identifica eventos importantes no tempo

e pode reduzir a complexidade de processos posteri-ores de análise da imagem.

Uma abordagem convencional para se segmentar

objetos móveis em uma cena é a subtração do fundo,

utilizada, por exemplo, no trabalho de Spagnolo et al

(2004). Trata-se basicamente de se comparar um mo-delo de fundo com a imagem atual, detectando-se,

assim, os objetos da cena que estão em primeiro pla-

no e as formas mais confiáveis dos objetos móveis.

Os algoritmos tradicionais de subtração do fun-

do detectam os objetos com suas próprias sombras(ou seja, não detectam a forma correta dos objetos) e

geralmente usam uma abordagem baseada em pixels

para detectar movimento. Os resultados obtidos a

partir de tal tipo de abordagem não são muito bons,

devido à presença de ruído e de similaridades entre

o fundo e os objetos móveis (Jaraba et al, 2003).

A proposta de Spagnolo et al (2004) de um

algoritmo de subtração do fundo para a segmentação

de objetos móveis baseia-se na correlação existente

entre pixels adjacentes na imagem de referência (fun-

do) e na imagem atual. Como as sombras dos objetosapresentam a mesma textura na imagem de referên-

cia e na atual, é possível segmentar os objetos sem

suas sombras, ou seja, detectar apenas o movimentoefetivo da cena (movimento dos objetos). Outros gan-

hos obtidos com tal abordagem se referem ao trata-

mento de casos como pequenos movimentos na ve-

getação, mudanças graduais de iluminação (típicas

de espaços abertos) e mudanças de iluminação pe-

quenas e bruscas (por exemplo, quando uma lâmpa-da é acesa em um espaço fechado). O algoritmo

minimiza as chances de uma região estática que está

sofrendo algum desses efeitos ser erroneamente clas-

sificada como uma região móvel.

Nessa abordagem, um pixel é identificado comomóvel comparando-se não apenas o seu valor em

duas diferentes imagens (a atual e a de referência),

mas também avaliando a relação de tal pixel com os

pixels adjacentes. Desse modo, para se classificar um

dado pixel como móvel ou estático, deve-se checar

se sua relação com os pixels adjacentes se mantémsubstancialmente não-modificada nas imagens atu-

al e de referência. Spagnolo et al (2004) realizaram

essa checagem comparando a razão entre o pixel que

está sendo analisado e um pixel adjacente na ima-

gem atual com a razão entre os pixels corresponden-

tes na imagem de referência.

No que se refere à detecção de objetos móveis,

esta pode ser aplicada na segmentação de vídeo (com-

ponentes móveis e fundo) e servir como foco de aten-

ção para reconhecimento, classificação e análise de

atividades (maior eficiência, já que somente os pixels

“móveis” são considerados), como proposto por

Collins et al (2000). Há três abordagens convencio-

nais para a detecção do movimento de objetos: a di-

ferenciação temporal (bem adaptada a ambientes

dinâmicos, mas ineficaz para extrair todos os pixels

relevantes), a subtração do fundo (fornece os dadosmais completos sobre os pixels, mas é bastante sen-

sível a mudanças dinâmicas na cena, seja por varia-

ções na luminosidade ou por eventos externos) e o

Fluxo Óptico (é capaz de detectar os movimentos de

objetos e isolá-los dos movimentos da câmera, mas

seus métodos são, na maioria das vezes, computaci-onalmente caros e complexos).

5252



Collins et al (2000) desenvolveram e implemen-

taram três métodos para a detecção de movimentode objetos. O primeiro é uma combinação de subtra-

ção adaptativa de fundo e diferenciação em três qua-

dros. Esse algoritmo híbrido é muito rápido e surpre-

endentemente eficaz. O segundo algoritmo foi desen-

volvido para atuar em caso de falha do primeiro. Trata-

se de um mecanismo para manter camadas temporaisde objetos, reduzindo a ambigüidade nos casos em que

objetos móveis param por um certo tempo, são enco-

bertos por outros objetos e, então, o movimento pros-

segue. Uma limitação que afeta os dois primeiros

algoritmos é que eles funcionam apenas com câmeras

estáticas. Para superar essa limitação, propôs-se umterceiro algoritmo, que permite a subtração do fundo

com câmeras móveis. Com o devido acúmulo de evi-

dências das imagens, é possível implementar tal

algoritmo em tempo real em um PC convencional.

Uma outra abordagem para detecção de movimen-to foi proposta no trabalho de Ma e Zhang (2001).

Em tal abordagem, a representação do movimento

se baseia na imagem do espectro de energia do mo-

vimento percebido (PMES), obtida utilizando-se um

filtro de energia temporal (elimina movimentos

irrelevantes de objetos na cena) e um filtro de movi-mento global (diferencia os movimentos dos objetos

dos movimentos da câmera). Desse modo, não se tor-

nam necessários o uso de segmentação de objetos

nem a estimação global de movimento.

Já no trabalho de Wildes (1998), a detecção demovimento se concretiza na forma de uma medida

de saliência de movimento para aplicações de moni-

toramento (surveillance). A ênfase é dada na distin-

ção entre movimento que tem um senso de direção

coerente durante um certo espaço de tempo (como

uma pessoa caminhando) e movimentos maisrandômicos (como vegetação fina em uma brisa) ou

periódicos (como galhos de uma árvore ao vento),

ou seja, entre alvos de real interesse e meros

distratores. O maior benefício dessa abordagem é que

ela fornece informação sobre a saliência de movi-

mento baseando-se em operações relativamente sim-ples, como descrito a seguir.

O período de tempo em que movimentos

randômicos ou oscilatórios se tornam aparentes épequeno quando comparado com o período em que

alvos de interesse mantêm uma direção coerente. Por

isso, Wildes (1998) baseou a saliência de movimen-

to na extensão na qual um determinado movimento

coerente domina regiões locais no domínio espaço-

temporal. Para se caracterizar tal situação, foram uti-lizados pares de filtros espaço-temporais que são

opostos no que diz respeito à qual direção de movi-

mento são mais sensíveis.

Já o trabalho de Yee et al (2001) trata de dois concei-

tos: sensitividade espaço-temporal e Atenção Visual. Asensitividade espaço-temporal indica, para cada região

de uma imagem, quanto erro se pode tolerar. Desse

modo, pode-se arquitetar uma estratégia menos custo-

sa computacionalmente para a renderização de imagens:

áreas com menor sensitividade espaço-temporal (onde

há maior tolerância a erros), podem ser representa-das com menor precisão (menos custo); já as áreas

com maior sensitividade espaço-temporal (onde há

menor tolerância a erros), seriam representadas com

maior precisão (maior custo). A Atenção Visual é

introduzida nesse mecanismo da seguinte forma: as

áreas merecedoras de maior atenção serão represen-tadas com maior precisão ou detalhe e, inversamen-

te, as merecedoras de menor atenção serão representa-

das com menor precisão e com menos detalhes.

Outra aplicação para a Atenção Temporal foi pro-

posta por Wang et al (2004). Em seu trabalho, foidesenvolvida uma estratégia para representação de

vídeo em tempo real em pequenos aparelhos, como

celulares, por exemplo. Para tanto, eles se basearam

nas características espaço-temporais dos vídeos.

Através da Atenção Temporal, determinaram quais

eram as seqüências de interesse (quadros com maiorsaliência de movimento) do vídeo. Já a partir de um

modelo conjunto de Atenção Espacial e Temporal,

determinaram as regiões de interesse em cada um

dos quadros do vídeo.

Finalmente, na área de detecção de transições,Guimarães et al (2001) idealizaram um método para



a detecção de transições abruptas em vídeos através

do ritmo visual. O ritmo visual é uma simplificaçãodo vídeo em uma imagem bidimensional (Guima-

rães et al, 2001). Um vídeo possui três dimensões:

uma temporal (correspondente aos quadros do vídeo)

e duas espaciais (cada quadro é uma imagem esca-

lar). O ritmo visual realiza uma amostragem em cada

quadro do vídeo, transformando cada quadro em umalinha vertical (uma única dimensão). É desse modo

que se obtém uma representação bidimensional para

os vídeos: uma temporal e outra espacial (cada qua-

dro está em uma representação unidimensional).

Após a geração do ritmo visual, pode-se detectar tran-

sições abruptas no vídeo, utilizando-se técnicas deprocessamento de imagens bidimensionais.

3. Arquitetura do sistema

Esta seção apresenta uma descrição do protótipodo sistema proposto. Primeiramente, é exposta a ar-

quitetura geral do sistema, comentando-se sucinta-

mente sobre cada um de seus módulos e sobre como

é feita a integração entre eles. Em seguida, o Módulo

de Atenção Temporal é explicado mais detalhada-

mente, especificando-se os passos do algoritmo de-senvolvido neste trabalho para a geração de mapas

de movimento.

3.1. ARQUITETURA GERAL DO SISTEMA

O sistema conta com uma única câmera. Oprocessamento do vídeo capturado consiste em ge-

rar um novo vídeo em cujos quadros somente sejam

visíveis as características bottom-up dos objetos mó-

veis. As demais regiões dos quadros são apresenta-

das completamente escuras (intensidade nula). Nos

parágrafos que seguem, descreve-se o procedimentogeral para a geração de um quadro desse novo vídeo.

Extraem-se do vídeo o t-ésimo quadro (quadro t)

e seu sucessor no tempo, o quadro t+1. Ambas ima-

gens são passadas para o Módulo de Atenção Tem-

poral, que gera o mapa de movimento. O quadro t eo mapa de movimento são, então, enviados para o

Módulo de Segmentação de Movimento, que gera um

quadro em que apenas os objetos móveis são visí-

veis e as demais regiões são completamente escuras

(quadro segmentado).

A seguir, o quadro segmentado é submetido para

o Módulo de Atenção Espacial bottom-up. Tal módulo

se constitui em um Extrator de Características Multi-

resolução, que recebe o quadro segmentado e o re-

presenta em várias resoluções. A seguir, são compu-

tadas as características visuais primitivas (nessa eta-pa, cor, intensidade e orientação) para cada resolu-

ção. Os mapas de características de diferentes reso-

luções são combinados, gerando os mapas de cor, de

intensidade e de orientação. Esses três mapas tam-

bém são combinados, produzindo o mapa de saliên-

cia. O fator diferencial desse mapa de saliência, emcomparação com os mapas produzidos em outros

modelos, é que ele se constitui em um mapa de sali-

ência bottom-up em que as regiões estáticas são apre-

sentadas completamente escuras (as regiões escuras

presentes no quadro segmentado serão preservadas

no mapa de saliência). Ou seja, esse mapa de saliên-cia integra conjuntamente evidências espaciais

bottom-up e temporais. Na Figura 1, pode-se

visualizar uma esquematização da arquitetura pro-

posta.

5454



3.2. Módulo de Atenção Temporal

O Módulo de Atenção Temporal recebe como en-trada dois quadros de um vídeo e gera como respos-

ta um quadro que indica o movimento ocorrido en-

tre um quadro e outro. Tal quadro-resposta consiste

em uma imagem em tom de cinza (com a intensida-

de dos pixels entre 0 e 255), em que, quanto maior aintensidade do pixel (quanto mais próximo da cor

branca), maior a intensidade do movimento no refe-

VÍDEO

Quadro t Quadro t+1

MÓDULO DE ATENÇÃO

TEMPORAL

Mapa de Movimento

MÓDULO DE SEGMENTAÇÃO

DE MOVIMENTO

Quadro Segmentado

MÓDULO DE ATENÇÃOESPACIAL BOTTOM-UP

Pirâmides de Cor, Orientação e Intensidade

Mapa de Saliência Segmentado

Figura 1 – Arquitetura do modelo de Atenção Visual proposto



rido ponto da imagem; inversamente, quanto menor

a intensidade do pixel (quanto mais próximo da corpreta), menor a intensidade do movimento. A esse

quadro-resposta chama-se mapa de movimento.

O algoritmo desenvolvido e utilizado neste tra-

balho para a geração do mapa de movimento baseou-

se naquele descrito no trabalho de Wildes (1998).Segue uma descrição geral do algoritmo desenvolvi-

do neste trabalho.

O algoritmo trabalha com uma seqüência de ima-

gens (quadros de um vídeo) e gera uma imagem-res-

posta (um mapa de movimento) para cada par con-secutivo da seqüência. Seja E

i, i = 1, 2, ... n, as n

imagens de entrada do algoritmo, têm-se como saída

as imagens (Saída)j, j = 1, 2, ... (n-1), seguindo o prin-

cípio de que cada imagem (Saída)j é gerada a partir

de cada par de imagens Ej e E

j+1 correspondentes.

Descrevem-se, a seguir, os processamentos reali-

zados com cada par de imagens de entrada, até a

geração do mapa de movimento relacionado a esse

par. Essa descrição esclarecerá as adaptações deste

algoritmo em relação àquele proposto por Wildes

(1998).

Primeiramente, realiza-se uma subtração entre os

dois quadros e normaliza-se o resultado em cada pixel

para um valor entre 0 e 255. Em seguida, essa sub-

tração normalizada sofre três convoluções, duas es-

paciais (uma no eixo X, outra no eixo Y) e uma deatenuação.

Como o resultado da convolução de atenuação é,

como o próprio nome já diz, simplesmente a atenu-

ação da subtração normalizada (que, por si só, já re-

presenta aspectos temporais), tal convolução é tra-tada, no contexto deste trabalho, como uma

convolução temporal.

As definições das convoluções espaciais e tem-

poral são apresentadas nas Equações 1, 2 e 3.

CeX = Mx * SNr (1)

CeY = My * SN (2)

Ct = Ma * SN (3)

em que CeX, CeY e Ct correspondem, respectivamen-

te, às convoluções espacial no eixo X, espacial no

eixo Y e temporal, Mx, M

y e M

a são as máscaras espa-

cial em X, espacial em Y e de atenuação e * é o sím-bolo de convolução.

Tendo em mãos essas três convoluções, o próxi-

mo passo é o cálculo das tendências de movimento

para a direita (R), para a esquerda (L), para cima (U)

e para baixo (D), transcritas da forma como foramrepresentadas por Wildes (1998) para, respectiva-

mente:

R(x,y,t) = Ct(x,y,t) - CeX(x,y,t) (4)

L(x,y,t) = Ct(x,y,t) + CeX(x,y,t) (5)

U(x,y,t) = Ct(x,y,t) - CeY(x,y,t) (6)D(x,y,t) = Ct(x,y,t) + CeY(x,y,t) (7)

A seguir, assim como em Wildes (1998), essas

quatros tendências (que se caracterizam como imagens

ou matrizes) têm o valor de cada um de seus elemen-

tos elevado ao quadrado e sofrem uma convolução poruma função Gaussiana, sendo transformadas nas ener-

gias espaço-temporais Er (para a direita), E

l (para a es-

querda), Eu (para cima) e E

d (para baixo).

Er(x,y,t) = G * [R2(x,y,t)] (8)

El(x,y,t) = G * [L2(x,y,t)] (9)

Eu(x,y,t) = G * [U2(x,y,t)] (10)

Ed(x,y,t) = G * [D2(x,y,t)] (11)

em que G é a máscara Gaussiana e A2(x,y,t) é uma

nova matriz formada pela potência quadrada de cada

um dos elementos da matriz A(x,y,t).

A partir das energias espaço-temporais, pode-se

obter as medidas de saliência de movimento na ho-

rizontal (Srl) e na vertical (S

ud), adaptadas das pro-

postas por Wildes (1998):

5656



21

),,(),,(),,(

fn

tyxEtyxEfntyxS lr

rl

−×= (12)

21

),,(),,(),,(

fn

tyxEtyxEfntyxS du

ud

−×= (13)

em que fn1 e fn

2 são fatores de normalização.

Wildes efetuou a normalização das subtrações decada par de energias espaço-temporais dividindo-os

pela soma do respectivo par. Já neste trabalho, para

se resolver problemas de geração de graves ruídos,

quando da utilização das expressões como propos-

tas por Wildes (1998), decidiu-se realizar algumas

alterações.

Primeiramente, a normalização passou a ser exe-

cutada através da divisão da subtração de cada par

pelo valor teórico máximo que essa subtração pode

assumir, ou seja, 5102 (fn2). Desse modo, os valores

de Srl e S

ud estariam, assim como os calculados por

Wildes (1998), entre 0 e 1. Entretanto, experimentos

provaram que o máximo alcançado por cada subtra-

ção em vídeos reais se situa muito abaixo do valor

5102, o que faria com que essa normalização forne-

cesse valores muito baixos.

Para aumentar essa faixa de valores para um pa-

tamar mais significativo, acrescentou-se, então, a

multiplicação pelo fator quatro (fn1, valor determi-

nado experimentalmente). Os valores que, após a

quadruplicação, ultrapassam 1 são considerados

valores destoantes em relação aos demais (que sedistribuem de maneira relativamente uniforme en-

tre 0 e 1) e são automaticamente reduzidos para 1.

Em outras palavras, o processo de normalização apli-

cado trunca todos os movimentos de intensidade

muito alta (ou muito acima da intensidade de movi-

mento médio encontrado em vídeos reais) para opatamar 1.

Em seguida, calcula-se a medida global de sali-

ência de movimento (S), exatamente como proposto

por Wildes (1998), ou seja, atribuindo a S(x,y,t) o

maior valor entre as saliências de movimento hori-

zontal e vertical.

S(x,y,t) = max [Srl(x,y,t), S

ud(x,y,t)] (14)

Por fim, normaliza-se a matriz de saliência glo-

bal entre 0 e 255 (multiplicando-se o valor de cada

elemento de S por 255), gerando uma imagem emtom de cinza (o mapa de movimento). Essa normali-

zação constitui uma última alteração (trivial) reali-

zada no algoritmo em relação ao proposto por Wildes

(1998), pois o algoritmo de Wildes oferece simples-

mente uma medida de saliência de movimento para

cada par de pixels (pixels na mesma posição em cadauma das duas imagens de entrada).

MM(x,y,t) = 255 x S(x,y,t) (15)

em que MM corresponde ao mapa de movimento.

4. Experimentos e resultados

Nesta seção, são descritos os experimentos reali-

zados com os módulos do sistema desenvolvido. Pri-

meiramente, apresentam-se experimentos com oMódulo de Atenção Temporal e seus resultados. Em

seguida, discute-se um estudo de caso envolvendo a

detecção de transições abruptas em vídeos, utilizan-

do-se evidências obtidas a partir do Módulo de Aten-

ção Temporal. Posteriormente, experimentos reali-

zados com o Módulo de Segmentação de Movimen-to são apresentados e discutidos. Por fim, detalham-

se os experimentos integrando Atenção Espacial

(bottom-up) e Atenção Temporal, e realiza-se uma

avaliação do desempenho computacional dos diver-

sos módulos do sistema.

Para o desenvolvimento do sistema e dos experi-

mentos, foram utilizados a linguagem de programa-

ção C/C++ e os pacotes de bibliotecas IPP (IPP;

INTEL) e OpenCV (OpenCVa; OpenCVb) (fornecidos

pela Intel), no sistema operacional Linux.



4.1. ATENÇÃO TEMPORAL

Experimentos para o cálculo de Atenção Tempo-

ral foram realizados a partir da geração de mapas de

movimento, utilizando-se o algoritmo descrito na

Seção 3.2. Primeiramente, foram capturados vídeos

a partir de uma webcam. Os quadros desse vídeo fo-

ram extraídos utilizando-se o software AdobePremiere e passados para o algoritmo, que gera um

mapa de movimento para cada par consecutivo de

quadros.

Um problema inicialmente detectado pelos ex-

perimentos foi a geração, em intervalos regularesdentro da seqüência, de mapas de movimento for-

mados apenas por intensidades nulas (indicando a

presença de quadros consecutivos idênticos no vídeo

original), até mesmo em seqüências de vídeo que não

apresentavam nenhum quadro sem objetos móveis.

Constatou-se que tal problema acontecia quando ovídeo era capturado a uma alta taxa (por exemplo,

24 quadros/s). A questão foi resolvida capturando-

se o vídeo a uma taxa menor (6 quadros/s, por exem-

plo). Acredita-se que a geração de quadros adjacen-

tes idênticos durante o processo de captura de um

vídeo seja um artefato do filtro de compressão utili-

zado, no caso deste trabalho, o filtro MPEG 1. Quan-

do não há mudanças substanciais de um quadro paraoutro, é provável que o algoritmo de compressão

considere que o par de quadros é idêntico. Quando

a taxa de captura é reduzida, as mudanças entre qua-

dros consecutivos tende a aumentar, minimizando a

chance do problema ocorrer.

O resultado final obtido com os experimentos foi

a geração de mapas de movimento (i) com uma boa

representatividade do movimento existente na cena

(quanto maior a intensidade do movimento, mais

próxima do branco é a intensidade do pixel) e (ii)

que só se apresentam completamente escuros emcenas verdadeiramente estáticas.

A Figura 2 ilustra um exemplo de mapa de mo-

vimento gerado a partir do algoritmo proposto nes-

te trabalho. O exemplo consiste em três imagens,

as duas primeiras sendo um par de quadros con-secutivos do vídeo original e a terceira, o mapa de

movimento gerado. Analisando a figura, podem-

se perceber claramente três pessoas caminhando,

duas mais à frente, e outra mais para trás (só é

possível visualizar a parte superior do corpo des-

sa pessoa).

Figura 2 – Exemplo de Atenção Temporal: par de imagens de entrada e imagem de saída

5858



4.2. APLICAÇÃO DE ATENÇÃO TEMPORAL NA DETECÇÃO DETRANSIÇÕES EM VÍDEO

Nesta seção, apresenta-se um estudo de caso que

demonstra a aplicabilidade do mecanismo de Atenção

Temporal desenvolvido na detecção automática de tran-

sições abruptas em vídeos genéricos. A detecção de tran-

sições é um processo importante para o processamentode vídeo, especialmente para a segmentação no tempo.

Pode haver dois tipos de transições em um vídeo: as

graduais e as abruptas (Guimarães et al, 2001). Neste

trabalho, foca-se na detecção de transições abruptas.

A idéia é que, através da Atenção Temporal, se-jam geradas medidas de movimento global para os

quadros do vídeo. Uma pequena modificação no

algoritmo gerador de mapas de movimento (Seção

3.2) executa uma soma dos valores das intensidades

dos pixels de cada um dos mapas de movimento, for-

necendo, para cada um dos mapas (cada par de qua-dros consecutivos do vídeo original), uma medida

de movimento global.

De posse das medidas de movimento global para

um determinado vídeo, pode-se desenhar o gráficodo comportamento do movimento durante o vídeo

(Gráfico 1). Desse modo, a derivada de primeira or-

dem de tal gráfico (Gráfico 2) representa as varia-

ções do movimento (variações das medidas de mo-

vimento global), enquanto a derivada segunda exibe

as amplitudes das variações do movimento duranteo vídeo.

A partir da análise dos módulos dessas amplitu-

des (Gráfico 3), foi definida, neste trabalho, a se-

guinte estratégia geral para se detectar transições

abruptas: (i) comparar cada valor do módulo daderivada segunda com a média dos N valores a par-

tir do primeiro vale (ponto de mínimo local) à es-

querda e com a média dos N valores a partir do pri-

meiro vale à direita; (ii) se o valor em questão for

maior ou igual a K vezes a média da esquerda ou a

K vezes a média da direita, os quadros do vídeo ori-ginal referentes ao valor em questão são considera-

dos transições abruptas.

Gráfico 1 – Comportamento do movimento (vídeo-exemplo)



Gráfico 2 – Derivada primeira do Gráfico 1

Gráfico 3 – Módulo da derivada segunda do Gráfico 1

Basta agora definir quais os valores ideais para N

e K. Para tanto, foi realizado o seguinte experimento:

para um conjunto de cinco vídeos (conjunto de trei-

namento), foi realizada, primeiramente, uma detecçãomanual das transições abruptas (foram anotados, para

cada vídeo, os quadros considerados como transições

abruptas). A seguir, foi executada a detecção automá-

tica das transições abruptas nos cinco vídeos, confor-

me a estratégia discutida nesta seção. Foram utiliza-

dos o valor de N variando de 1 a 20, com variação de

uma unidade, e o valor de K variando de 1,0 a 80,0,com variação de 0,5. Para cada um dos vídeos e cada

uma das combinações dos valores de N e K, foram

calculadas as seguintes métricas (em percentual):

6060



100×=M

FR

N

nRFR (16)

100×=M

FA

N

nRFA (17)

em que RFR e RFA significam, respectivamente, Ra-

zão das Falsas Rejeições e Razão das Falsas Afirma-

ções, e nFR

, nFA

e NM são o número de falsas rejeições

(número de quadros do conjunto selecionado ma-

nualmente que não foram detectados pelo algoritmo),

o número de falsas afirmações (número de quadros

apontados como transições pelo algoritmo, mas que

não constam no conjunto selecionado manualmen-

te) e o número total de quadros do conjunto selecio-nado manualmente, respectivamente.

Os intervalos de variação para N e K utilizados nes-

se experimento foram selecionados de modo a se ga-

rantir a ocorrência do pior resultado médio possível

para a RFR (ou seja, a taxa média de 100%), a fim defornecer um maior poder de representação aos resulta-

dos obtidos a partir dos experimentos. Não houve uma

preocupação semelhante quanto à RFA, pois, por defi-

nição, ela não apresenta um valor máximo fixo.

Para maior facilidade de manuseio, cada combi-nação dos valores N e K foi representada como um

número inteiro i, que varia de 1 até 3180 (número de

combinações entre os valores N e K). A fórmula ge-

ral para a obtenção de um valor de i está apresenta-

da na Equação 18.

i = 40 x (K-1) + N (18)

Desse modo, foram gerados, para cada um dos

vídeos, dois conjuntos:

CFRv = {RFR

1,v, RFR

2,v, ..., RFR

n,v} (19)

CFAv = {RFA

1,v, RFA

2,v, ..., RFA

n,v} (20)

em que CFRv e CFA

v significam, respectivamente,

Conjunto das Falsas Rejeições e Conjunto das Falsas

Afirmações para um dado vídeo v, e RFRi,v

e RFAi,v

são, respectivamente, os valores da razão das falsas

rejeições e da razão das falsas aceitações para um

dado i e um dado vídeo v.

Em seguida, foi realizada a média aritmética dasRFR

i,v e das RFA

i,v (i variando de 1 até n) sobre os

cinco vídeos:

∑=

=5

1,5

1

vvii RFRMFR (21)

∑=

=5

1,5

1

vvii

RFAMFA (22)

em que MFRi e MFA

i são, respectivamente, as médi-

as das razões das falsas rejeições e das falsas afirma-

ções para um dado i.

Desse modo, dois novos conjuntos foram obtidos,conforme as Equações 23 e 24.

CMFR = {MFR1, MFR

2, ..., MFR

n} (23)

CMFA = {MFA1, MFA

2, ..., MFA

n} (24)

em que CMFR e CMFA significam, respectivamente,Conjunto das Médias das Falsas Rejeições e Conjun-

to das Médias das Falsas Afirmações.

De posse desses dois conjuntos, o próximo passo

foi analisar que valor de i gera os menores valores de

MFR e MFA. Uma vez determinado, tal valor poderiaser utilizado como parâmetro do algoritmo desen-

volvido neste trabalho para se detectar transições

abruptas em outros vídeos.

Para observar a variação das MFRi e MFA

i, foram

desenhados os Gráficos 4 e 5 (i x MFR e i x MFA).



Percebe-se claramente que esses gráficos apresen-

tam tendências crescente e decrescente, respectiva-

mente. Desse modo, os menores valores de MFR são

dados por baixos valores de i, enquanto que os me-

nores valores de MFA são dados por altos valores dei. Assim, faz-se necessário encontrar um valor inter-

mediário de i que equilibre os valores de MFR e MFA.

Para tal, foi calculada a média ponderada dos valo-

res de MFR e MFA, como segue.

MPi = (w

1 x MFR

i) + (w

2 x MFA

i) (25)

em que MPi é a média ponderada dos valores de MFR

i

e MFAi, e w

1 e w

2 são os pesos associados a cada me-

dida de erro.

A escolha dos pesos (w1 e w

2) deve variar de-

pendendo da aplicação (prioridade em reduzir asfalsas rejeições ou as falsas afirmações, em parti-

cular). Para os experimentos realizados neste tra-

balho, optou-se por se utilizar pesos iguais para

essas duas métricas (w1 = w

2 = 0,5), não favore-

cendo a redução de uma única métrica, em detri-

mento da outra. Seguem os Gráficos 6 (i x MP) e 7(zoom do Gráfico 6, no intervalo de i variando de

320 a 390).

Gráfico 4 – i x MFR

Gráfico 5 – i x MFA

6262



Há três valores diferentes de i que fornecem a

menor MP do Gráfico 6 (destacados no Gráfico 7), ou

seja, três valores interessantes para se utilizar na

detecção de transições abruptas em vídeo: 334, 353

e 372 (que correspondem aos seguintes pares N e K:14 e 9,0, 13 e 9,5 e 12 e 10,0).

A seguir, foi realizado um experimento de

detecção de transições abruptas utilizando-se cinco

novos vídeos (conjunto de teste) e os valores 14 e

9,0, para N e K, respectivamente (uma das três du-plas de valores ótimos encontrados). Vale citar que

os vídeos utilizados nos experimentos, tanto no con-

junto de treinamento quanto no de teste, possuem

quadros com a dimensão 320 x 240 pixels, foram

capturados nos formatos mpeg ou avi, a uma taxa de

aquisição de 12 quadros/s, e têm um tempo de dura-

ção de aproximadamente 31 s cada um, o que resul-

ta em torno de 375 quadros por vídeo. A seguir, sãoexpostas estatísticas sobre os experimentos realiza-

dos com os dois conjuntos de vídeos, o de treina-

mento (Tabela 1) e o de teste (Tabela 2), em que Ac.,

FR e FA são os números de acertos, de falsas rejei-

ções e de falsas afirmações, respectivamente, D. P.

significa desvio padrão e as adições de Ac. com FR ede Ac. com FA fornecem os números de transições

detectadas manualmente e automaticamente, respec-

tivamente.

Gráfico 6 – i x MP

Gráfico 7 – Zoom do Gráfico 6



Como se pode ver pela Tabela 1, as taxas médias

para o conjunto de treinamento foram satisfatórias

(uma taxa relativamente baixa de falsas rejeições e

taxa nula de falsas afirmações). Já no que se refere

ao desvio padrão, este apresentou um alto valor para

as falsas rejeições, devido ao fato do Vídeo 5 e, prin-

cipalmente, o Vídeo 2 terem apresentados taxas defalsas rejeições destoantes em relação aos demais

vídeos, que apresentaram taxa nula de falsas rejei-

ções. O desvio padrão para as falsas afirmações, por

sua vez, foi obviamente nulo.

Analisando-se agora a Tabela 2, pode-se perceberque o experimento com o conjunto de teste apresen-

tou taxas mais altas do que as do conjunto de treina-

mento, tanto para as falsas rejeições quanto para as

falsas afirmações. Mesmo assim, as taxas apresenta-

das pelo conjunto de teste são satisfatórias e promis-

soras. Quanto ao desvio padrão para as falsas rejei-ções, este foi inferior ao do conjunto de treinamen-

to, indicando uma maior uniformidade entre os

vídeos do conjunto de teste nesse quesito. Já no que

diz respeito ao desvio padrão para as falsas afirma-

ções, os vídeos do conjunto de teste não apresenta-

ram apenas taxas nulas para as falsas afirmações, oque acarretou em um desvio padrão superior,

equiparável ao desvio padrão para as falsas rejeições

do conjunto de teste.

Nas Figuras 3, 4 e 5, são expostos um exemplo de

acerto, um de falsa rejeição e um de falsa afirmaçãoque ocorreram nos experimentos com os conjuntos

de treinamento e de teste.

CONJUNTO DE TESTE

RFR RFA Ac. FR FA

Vídeo 1 0 50 4 0 2

Vídeo 2 8,33 16,67 11 1 2

Vídeo 3 33,33 0 2 1 0

Vídeo 4 28,57 14,29 5 2 1

Vídeo 5 40 20 3 2 1

Média 22,05 20,19 5 1,2 1,2

D. P. 15,27 16,39 3,16 0,75 0,75

CONJUNTO DE TREINAMENTO

RFR RFA Ac. FR FA

Vídeo 1 0 0 3 0 0

Vídeo 2 55,56 0 8 10 0

Vídeo 3 0 0 5 0 0

Vídeo 4 0 0 2 0 0

Vídeo 5 11,11 0 16 2 0

Média 13,33 0 6,8 2,4 0

D. P. 21,55 0 5,04 3,88 0

Tabela 1 – Estatísticas (treinamento)

Tabela 2 – Estatísticas (teste)

Figura 3 – Exemplo de acerto

Detecçãomanual

Detecçãoautomática

6464



Dentre as causas da ocorrência de falsas rejeições,

ao se seguir a estratégia para a detecção de transi-

ções abruptas proposta neste trabalho, constam: fa-

lha humana na detecção manual, transição entrequadros com uma grande predominância de uma

determinada intensidade etc. Já no que se refere a

possíveis causas da ocorrência de falsas afirmações,

pode-se citar falha humana na detecção manual, o

surgimento de legendas (Figura 5), anotações,

logotipos e outros símbolos textuais ou gráficos nascenas, etc.

O algoritmo desenvolvido neste trabalho e comen-

tado nesta seção constitui-se como uma forma sim-

ples de se detectar transições abruptas em seqüênci-

as de vídeo. Tal algoritmo se utiliza das informaçõesobtidas pelo algoritmo gerador de mapas de movi-

mento e realiza, quando da utilização de uma das

três duplas ótimas de parâmetros N e K (determina-

das experimentalmente), uma detecção de transições

abruptas com percentuais médios relativamente bai-

xos de falsas rejeições e de falsas afirmações.

4.3. SEGMENTAÇÃO DE OBJETOS MÓVEIS

O Módulo de Segmentação de Movimento recebe

um vídeo A e um vídeo M (composto pelos mapas demovimento gerados pelo algoritmo exposto na Se-

ção 3.2 a partir dos quadros do vídeo A) e gera como

resposta um vídeo S, cujos quadros são idênticos aos

quadros do vídeo A, só que com as regiões estáticas

completamente escuras. O efeito desse processo é a

segmentação dos objetos móveis do vídeo A.

O procedimento para gerar o vídeo S é bastante

simples. Como pode ser visto na Seção 4.1, os ma-

pas de movimento apresentam o contorno dos obje-

tos móveis. Ao se aplicar uma máscara Gaussiana

de valor alto e se efetuar uma binarização com umlimiar baixo em cada um dos mapas de movimento,

os objetos móveis passam a se apresentar como áre-

as fechadas (que abrangem os objetos móveis e uma

pequena região em torno deles) de intensidade má-

xima (255), enquanto as demais porções dos mapas

se apresentam completamente escuras (intensidade

Figura 4 – Exemplo de falsa rejeição

Figura 5 – Exemplo de falsa afirmação



0). Foram utilizados, neste trabalho, uma máscara

Gaussiana 11x11 e um limiar de binarização igual a2% da máxima intensidade do mapa de movimento

(valores determinados experimentalmente).

Na Figura 6, é apresentado um exemplo da trans-

formação de um mapa de movimento em uma ima-

gem com áreas fechadas, indicando as regiões ondeocorre o movimento (mapa de movimento processa-

do). O par de quadros originais e o mapa de movi-

mento correspondentes são os mesmos expostos na

Figura 2 (Seção 4.1).

Com esses mapas de movimento processados emmãos, basta efetuar as seguintes alterações em cada um

dos quadros do vídeo A: as regiões do quadro que

correspondem a regiões escuras no mapa de movimento

processado são “pintadas” de preto e as demais regiões

permanecem inalteradas. A Figura 7 exibe um exemplo

do processamento realizado pelo Módulo deSegmentação de Movimento. Primeiramente, são mos-

trados alguns quadros de um vídeo e, em seguida, os

quadros segmentados pelo movimento correspondentes.

Ao se analisar a Figura 7, pode-se perceber que,

nos quadros segmentados, realmente estão visuali-záveis apenas os objetos que estão em movimento

na cena visual (pessoas caminhando e as extremida-

des de galhos de árvore balançando devido ao ven-

to) e uma pequena área ao seu redor. Todo o restante

da cena está completamente escuro. Observando-se

os quadros segmentados, é possível acompanhar(identificar quadro a quadro) facilmente os objetos

móveis (seja manual ou automaticamente), que são

o objeto de interesse no Módulo de Segmentação de

Movimento.

Em um contexto em que se deseja realizar umaanálise mais profunda apenas nas regiões do vídeo

onde ocorre movimento (por serem consideradas

maiores merecedoras de atenção), o sistema de-

sempenha tal funcionalidade de forma simples e

efetiva: ao eliminar as regiões estáticas da cena

(deixá-las completamente escuras), o sistema re-duz enormemente a quantidade de informações

que precisarão ser analisadas em cada quadro do

vídeo.

Figura 6 – Mapa de movimento processado (exemplo)

Figura 7 – Exemplo de segmentação de movimento: quadros de entrada e quadros segmentados (saída)

6666



4.4. INTEGRAÇÃO ENTRE ATENÇÃO ESPACIAL BOTTOM-UP EATENÇÃO TEMPORAL

Esta seção discute os experimentos para a gera-

ção, a partir dos quadros de um vídeo, de um novo

vídeo, composto pelos respectivos mapas de saliên-

cia segmentados pelo movimento (Seção 3.1).

Para a geração de mapas de saliência bottom-up,

foram realizadas algumas pequenas adaptações no

programa desenvolvido e gentilmente cedido por

Rodrigues (Rodrigues, 2002). Tal programa se baseia

no modelo de Atenção Espacial bottom-up proposto

por Itti (Itti, 2003; Itti e Koch, 2001; Itti, 2000; Itti et

al, 1998) e utiliza intensidade, cor e orientação como

as características visuais primitivas para a composi-

ção (com pesos iguais para as três características) do

mapa de saliência bottom-up.

Na Figura 8, é exibido um pequeno trecho de vídeogerado pelo sistema proposto neste trabalho, como

um exemplo dos resultados finais produzidos por

esse sistema. O trecho do vídeo original utilizado

para a geração desse exemplo foi o mesmo utilizado

para exemplificar os resultados do Módulo de

Segmentação de Movimento, e pode ser visualizadona Figura 7 (Seção 4.3).

Assim como no trabalho de Rodrigues (2002), em

que o sistema de Atenção Espacial bottom-up foi uti-

lizado para se localizar placas de sinalização (obje-

tos que apresentam, normalmente, saliência bottom-

up superior aos demais objetos presentes na mesma

cena visual), o sistema proposto neste trabalho (Aten-

ção Temporal + Atenção Espacial bottom-up) pode

ser aplicado para se detectar regiões com alta saliên-

cia bottom-up em objetos móveis. Uma possível abor-

Figura 8 – Exemplo de integração entre as Atenções Temporal e Espacial bottom-up: quadros de saída

dagem dentro dessa linha seria, por exemplo, locali-

zar placas de veículos em movimento, entre outras.

Outro exemplo de aplicação para um sistema como

o desenvolvido neste trabalho é a detecção de faces

de pessoas que estão em movimento. O fato de o mapa

de saliência segmentado não apresentar as regiões

estáticas das cenas filtra a quantidade de regiões ondese deve procurar uma face humana e descarta as fa-

ces das pessoas que não estão se movimentando. Além

disso, como certas regiões da face humana (os olhos,

por exemplo) possuem grande saliência bottom-up, as

características bottom-up apresentadas pelo mapa de

saliência segmentado facilitam a detecção de regiõesda face, pois, ao se encontrar uma determinada re-

gião (um olho, por exemplo), e de posse do conheci-

mento da anatomia facial (posição relativa entre os

olhos, o nariz, a boca e demais regiões), a tarefa de

determinar outras regiões e a face como um todo se

torna bem mais simples.

Dentre outras possíveis aplicações, pode-se ci-

tar um sistema de monitoramento de vídeo (video

surveillance), problemas de indexação de vídeo

(em empresas de televisão), bancos de dados

multimídia etc.

Para efeito de avaliação de desempenho, a Tabela

3 apresenta um sumário da velocidade média de

processamento dos Módulos de Atenção Temporal,

de Segmentação de Movimento e de Atenção Espa-

cial bottom-up. Vale frisar que os vídeos utilizadospossuíam quadros com a dimensão 352 x 240 pixels.

Já no que se refere às características médias dos com-

putadores utilizados, podem-se citar processador

com clock de 2 GHz, memória de 512 MB e hard disk

IDE UDMA 133.



Como se pode perceber pela Tabela 3, o desempe-nho varia bastante entre os diferentes módulos. Embo-

ra questões como velocidade de processamento não

sejam o objetivo final deste trabalho, o algoritmo para a

geração de mapas de movimento (utilizado no Módulo

de Atenção Temporal) apresentou um desempenho

satisfatório, apesar de insuficiente para operar em tem-po real. O Módulo de Segmentação de Movimento, por

sua vez, apresentou um desempenho bem inferior ao

do Módulo de Atenção Temporal, mas ainda aceitável

para processamentos off-line. Por fim, o programa de-

senvolvido e cedido por Rodrigues (2002), e incorpora-

do no sistema desenvolvido neste trabalho (sob a formado Módulo de Atenção Espacial bottom-up) apresentou

uma velocidade de processamento bastante baixa. No

entanto, vale frisar que tal programa também não

objetivava desempenho computacional.

5. Conclusão

Nos últimos anos, a Atenção Visual tem se desta-

cado como uma área de pesquisa promissora, seja

em sua vertente espacial ou temporal. Neste traba-

lho, o foco principal recaiu exatamente na proposi-ção e implementação de um modelo de Atenção Vi-

sual que integre essas duas vertentes.

O sistema proposto conta com (i) o Módulo de

Atenção Temporal, que se configurou como um

algoritmo simples que realiza uma detecção versátil

do movimento presente em cenas de vídeo; (ii) o

Módulo de Segmentação de Movimento, cujos resul-

tados, apesar de avaliados subjetivamente, apontam

na direção de uma ótima taxa na detecção dos obje-tos móveis em vídeos e (iii) o Módulo de Atenção

Espacial bottom-up, onde se efetiva a integração en-

tre Atenção Temporal e Espacial, devido à extração

das características bottom-up só ocorrer nas regiões

em que o movimento foi detectado. Desse modo, a

abordagem proposta permite a determinação das re-giões mais salientes (do ponto de vista estático e di-

nâmico) de uma forma mais eficaz.

Além disso, foi realizado um experimento em

detecção de transições abruptas em vídeos, a partir

das evidências de movimento obtidas pelo Módulode Atenção Temporal. Tal experimento manifestou

resultados bastante promissores, como, por exem-

plo, taxas relativamente baixas de falsas rejeições e

de falsas afirmações.

Dentre as sugestões para trabalhos futuros, pode-se citar (i) testar a geração dos mapas de saliência

segmentados com diferentes pesos para as caracte-

rísticas visuais primitivas da Atenção bottom-up, de

modo a se determinar quais seriam as melhores com-

binações para determinados tipos de problema; (ii)

o desenvolvimento de dois novos módulos para osistema proposto, um de Visão Estéreo e um de Aten-

ção Espacial top-down, para se obter uma

especificidade ainda maior do tipo de conteúdo que

se deseja analisar (conteúdo sobre o qual deve recair

o foco de atenção); (iii) um detector de outros tipos

de transições (não apenas abruptas); (iv) um sistemade video surveillance semi-automático, que, em tem-

po real, mostrasse apenas as regiões do vídeo onde

ocorre movimento; etc.

Tabela 3 – Desempenho médio dos módulos dosistema de Atenção Visual

Velocidade

(quadros/s)

Módulo de Atenção Temporal 12,422

Módulo de Segmentação de Movimento 1,613

Módulo de Atenção Espacial bottom-up 0,012

6868



ADOBE. Adobe Premiere Software, http://

www.adobe.com/products/premiere/main.html. Úl-

timo acesso: 12/08/2005.

ANDERSEN, R. A.; Bracewell, R. M.; Barash, S.;Gnadt, J. W. and Fogassi, L. Eye position effects on

visual, memory, and saccade-related activity in areas

lip and 7a of macaque. Journal of Neuroscience, vol.

10, pp. 1176-1196, 1990.

BAUCHSPIESS, Adolfo. Sistemas Inteligentes: redesneurais e lógica fuzzy. In: VI Semana de Engenharia

Elétrica da Universidade de Brasília, Brasília, dezem-

bro 2002.

BURT, P. J. and ADELSON, E. H. The Laplacian

Pyramid as a Compact Image Code. In: IEEE

Transactions on Communications, COM-31(4), pp.

532–540, 1983.

CARPENTER, G.; GROSSBERG, S. and LESHER, G.

The Representation of Visual Salience in MonkeyParietal Cortex. Nature, vol. 391, pp. 481-484, 1998.

COLLINS, R. T. et al. A System for Video Surveillance

and Monitoring. CMU-RI-TR-00-12, Carnegie Mellon

University, May 2000.

COULL, J. T. and NOBRE, A. C. Where and When to

Pay Attention: the neural systems for directing

attention to spatial locations and to time intervals as

revealed by both PET and fMRI. Journal of

Neuroscience, vol. 18, no.18, pp.7426-7435,

September 15, 1998.

GILBERT, C. D. and WIESEL, T. N. Columnar

Specificity of Intrinsic Horizontal and Corticocortical

Connections in Cat Visual Cortex. Nature Reviews

Neuroscience, vol. 9, pp. 2432-2442, 1989.

Referências Bibliográficas

GONÇALVES, S. E. Reconhecimento Visual

Atencional. PhD thesis, COPPE/UFRJ, D.Sc., Enge-

nharia de Sistemas e Computação, 1999.

GUIMARÃES, S. J. F.; Couprie, M.; Leite, N. J. andAraújo, A. A. A method for cut detection based on

visual rhythm. In: Proceedings of the Brazilian

Symposium on Computer Graphics and Image

Processing (SIBGRAPI), pp. 297-304, Brazil, 2001.

ISBN 0769513301.

INTEL Corporation, http://www.intel.com. Último

acesso: 10/08/2005.

IPP - Integrated performance primitives for Intel

architecture - reference manual, INTEL Corporation,

2000-2001, http://www.intel.com/design/strong/manuals/278288.htm. Último acesso: 10/08/2005.

ITTI, L. Visual Attention. In: The Handbook of Brain

Theory and Neural Networks, 2nd Ed., (M. A. Arbib

Ed.), pp. 1196-1201, MIT Press, Jan. 2003.

ITTI, L. Models of Bottom-Up and Top-Down Visual

Attention. PhD thesis, California Institute of

Technology, 2000.

ITTI, L. and Koch, C. Computational Modeling ofVisual Attention. Nature Reviews Neuroscience, 2(3),

pp.194–203, 2001.

ITTI, L.; Koch, C. and Niebur, E. A Model of Saliency-

based Visual Attention for Rapid Scene Analysis. In:

IEEE Transactions on Pattern Analysis and Machine

Intelligence, vol.20, no. 11, pp.1254–1259, 1998.

JARABA, E. H.; URUNUELA, C. O. and Senar J.

Detected Motion Classification with a Double-

background and a Neighbourhood-based Difference.



Pattern Recognition Letters, Elsevier, Location, pp.

2079-82, 2003(24).

KOCH, C. and ULLMAN, S. Shifts in Selective Visu-

al Attention: towards the underlying neural circuitry.

Human Neurobiology, vol.4, pp. 219-227, 1985.

LOGOTHETIS, N. K.; PAULS, J. and POGGIO, T.Shape representation in the inferior temporal cortex

of monkeys. Current Biology, vol. 5, pp. 552-563,

1995.

MA, Y. F. and ZHANG, H. J. A New Perceived Motion-

based Shot Content Representation. In: Proceedings

of International Conference on Image Processing, 2001.

MAKI, A.; NORDLUND, P. and EKLUNDH, J.

Attentional Scene Segmentation: integrating depth

and motion. Computer Vision and Image

Understanding, vol. 78, no. 3, pp. 351-373, 2000.

MARR, D. Vision. W. H. Freeman & Company, New

York, 1982.

NIEBUR, E. and KOCH C. Computational

Architectures for Attention. R. Parasuraman, The

Attentive Brain, pp. 163-186. MIT Press, Cambridge,

Massachusetts, 1998.

NOTHDURFT, H. C. Texture discrimination by cells

in the cat lateral geniculate nucleus. Experimental

Brain Research, vol. 82, pp. 48-66, 1990.

OPEN SOURCE COMPUTER VISION LIBRARY

(OpenCVa) - reference manual, INTEL Corporation,

1999-2001, http://www.cs.unc.edu/Research/stc/

FAQs/OpenCV/OpenCVReferenceManual.pdf. Últi-

mo acesso: 10/08/2005.

OPENCV PROJECT, http://sourceforge.net/projects/

opencvlibrary. Último acesso: 10/08/2005.

OUERHANI, Nabil. Visual Attention: From bio-

inspired modeling to real-time implementation. PhDthesis, University of Neuchâtel, Jan 2004.

PASUPATHY, A. and CONNOR, C. E. Responses to

contour features in macaque area v4. Journal of

Neurophysiology, vol. 82, pp. 2490-2502, 1999.

RODRIGUES, F. A. Localização e Reconhecimento de

Placas de Sinalização Utilizando um Mecanismo de

Atenção Visual e Redes Neurais Artificiais. Disserta-

ção de Mestrado, Universidade Federal de CampinaGrande, 2002.

ROELFSEMA, P. R.; LAMME, V. A. and SPEKREIJSE,

H. Object-based attention in the primary visual cortex

of the macaque monkey. Nature, vol. 395, pp. 376-

381, 1998.

RUSSEL, S. and NORVIG, P. Artificial Intelligence: a

modern approach. Prentice Hall, Englewood Cliffs,

New Jersey, 1995.

SPAGNOLO, Paolo; LEO, Marco; D’ORAZIO, Tizianeand DISTANTE, Arcângelo. Robust Moving Object

Segmentation By Background Subtraction. In: 5th

International Workshop on Image Analysis for

Multimedia Interactive Services, Lisboa, April 2004.

THOMPSON, K. G. and SCHALL, J. D. Antecedentsand correlates of visual detection and awareness in

macaque prefrontal cortex. Vision Research, vol. 40,

pp. 1523-1538, 2000.

TREUE, S. and TRUJILLO, J. C. M. Feature-based

attention influences motion processing gain inmacaque visual cortex. Nature, vol. 399, pp. 575-579,

1999.

TSOTSOS, J. K.; CULHANE, S. M.; WAI, W. Y. K.;

LAI, Y. H.; DAVIS, N. and Nuflo, F. Modelling Visual

Attention via Selective Tuning. Artificial Intelligence,vol. 78, no. 1-2, pp. 507–545, Oct. 1995.

WANG, J.; REINDERS, M. J. T.; LAGENDIJK, R. L.;

LINDENBERG, J. and KANKANHALLI, M. S. Video

content representation on tiny devices. In:

Proceedings of the IEEE International Conference on

Multimedia and Expo, Taipei, July 2004.

7070



WILDES, R. P. A measure of motion salience for

surveillance applications. In: Proceedings of the IEEE

International Conference on Image Processing,

pp.183-187, 1998.

YEE, H.; PATTANAIK, S. and GREENBERG, D. P.

Spatiotemporal sensitivity and visual attention for

efficient rendering of dynamic environments. In:

ACM Transactions on Graphics, ACM Press, pp. 39-65, 2001.

sandberg marcel santos resumo s - fapese - fundação de ... · de vídeo. os resultados ... o...

Documents