mauricio azevedo lage ferreira técnicas de visão...

1

Mauricio Azevedo Lage Ferreira

Técnicas de Visão Computacional para Vigilância de Veículos em Rodovias

Proposta de Dissertação de Mestrado

Orientador: Prof. Marcelo Gattass

Rio de Janeiro

25 de Janeiro de 2008

2

Sumário

Sumário ............................................................................................................... 2

Índice de Figuras ................................................................................................. 4

1 Introdução ......................................................................................................... 5

2 Detecção de Movimento ................................................................................... 8

2.1 Subtração de Fundo ...................................................................................... 11

2.2 Trabalhos Relacionados ............................................................................... 13

2.3 O Algoritmo Desenvolvido .......................................................................... 17

2.4 Pós-Processamento ...................................................................................... 24

2.5 Resultados parciais ....................................................................................... 27

2.6 Considerações Finais do Capítulo ................................................................. 29

3 Modelagem de Veículos .................................................................................. 36

3.1 Trabalhos Relacionados ............................................................................... 37

3.2 Modelo Proposto .......................................................................................... 40


3.4 Considerações Finais do Capítulo ................................................................. 51

4 Remoção de Sombras ...................................................................................... 52

4.1 Trabalhos relacionados ................................................................................. 54

4.2 Características da sombra e iluminação ........................................................ 56

4.3 Algoritmo proposto ...................................................................................... 64


4.5 Considerações de final de capítulo ............................................................... 70

5 Remoção de Oclusão, cálculo da velocidade e classificação dos veículos ....... 71

5.1 Detecção e remoção de oclusão .................................................................... 72

3

5.1.1 Trabalhos Relacionados ............................................................................ 73

5.1.2 Modelo Proposto ....................................................................................... 75

5.1.3 Resultados parciais .................................................................................... 79

5.2 Determinação da velocidade ......................................................................... 80

5.2.1 Trabalhos relacionados .............................................................................. 81

5.2.2 Algoritmo desenvolvido ............................................................................ 83


5.3 Classificação ................................................................................................ 86

5.3.1 Trabalhos relacionados .............................................................................. 87

5.3.2 Algoritmo desenvolvido ............................................................................ 88


5.5 Considerações de final de capítulo ............................................................... 90

6 Rastreamento de Veículos ............................................................................... 91

6.1 Trabalhos relacionados ................................................................................. 94

6.2 Algoritmo proposto ...................................................................................... 95


6.4 Considerações finais do capítulo .................................................................. 99

7 Conclusões .................................................................................................... 100

Reconstrucao com camera sintetica ................................................................. 101

7.1 Trabalhos futuros ....................................................................................... 101

8 Bibliografia ................................................................................................... 102

4

Índice de Figuras

Figura 1: Fluxograma do sistema desenvolvido .................................................... 7

Figura 2: Representação do espaço de cores HSV. ............................................. 18

Figura 3: Modelo da fase de classificação do algoritmo proposto. ...................... 21

Figura 4: Exemplo de mudança de iluminação. .................................................. 22

Figura 5: Diversas modelagens propostas pela literatura..................................... 38

Figura 6: Representação Tridimensional Veicular (RTV). .................................. 41

Figura 7: Imagem real da rodovia e sua respectiva detecção de faixas e

identificação das suas pistas. ....................................................................................... 42

Figura 8: Etapas do algoritmo automático de detecção de linhas de um campo de

futebol. ....................................................................................................................... 44

Figura 9: Exemplo de polígonos gerados através das pistas da rodovia. .............. 46

Figura 10: Representação de um Bounding-Box de uma silhueta. ....................... 47

Figura 11: Modelo simplificado do veículo no espaço 3D (a) e o 2D (b). ........... 48

Figura 12: Representação do MSPA. .................................................................. 49

Figura 13: Resultado de deteção de movimento com e sem a remoção de sombras.

................................................................................................................................... 52

Figura 14: Histogramas de quatro pixels de uma imagem qualquer para as

componentes H, S e V. (Zhao, et al.) ........................................................................... 58

Figura 15: Resultado da remoção de sombra encontrado por cinco diferentes

algoritmos. .................................................................................................................. 62

Figura 16: (a) Modelo da sombra; e (b) os seis tipos de sombras projetadas para

cada direção de iluminação. Retirado de (Yoneyama, et al., 2005) .............................. 64

Figura 17: Seis possíveis modelos de sombra. Retirado de (Yoneyama, et al.,

2005) .......................................................................................................................... 65

Figura 18: Retirado de (Yoneyama, et al., 2005) ................................................ 66

Figura 19: Fluxograma do algoritmo de rastreamento desenvolvido. .................. 97

5

1 Introdução

Recentemente, sistemas de vigilância eletrônica automática ou semi-automática

têm despertado grande interesse, tanto por parte dos pesquisadores e estudiosos da área

de visão computacional, quanto da indústria. Esse sucesso tem crescido graças ao

barateamento e evolução das câmeras digitais no mercado e dos microcomputadores fez

com que os algoritmos que compõem um sistema de vigilância eletrônica se tornassem

cada vez mais confiáveis.

Esses sistemas estão aos poucos realizando a vigilância de ambientes fechados

como bancos, museus e residências ou para ambientes externos como rodovias, estradas

ou estacionamentos.

Normalmente, o objeto de interesse nestes sistemas é o ser humano ou o veículo.

Logo, cabe ao sistemas de vigilância eletrônica a responsabilidade de, por exemplo,

alertar seu operador para elementos suspeitos no prédio, rastrear veículos ao longo de

rodovias, ou até mesmo o fluxo de pessoas em trechos de um shopping center.

Os equipamentos mais comuns utilizados na vigilância eletrônica, antes de uma

tentativa de automatização computadorizada são câmeras e sensores de presença. Esses

equipamentos eram operados manualmente, porém com o volume de informações

simultâneas cada vez maior ultrapassou a capacidade humana de avaliar muitas

câmeras, por exemplo, ao mesmo tempo, tornando o sistema de segurança falho, o que é

perigoso para o que ele se propõe.

Então, essa vigilância eletrônica automática ou semi-automática é uma tecnologia

que tende aos poucos susbstituir o olho humano. Para realizar esse tipo de vigilância a

tecnologia pode detectar, por exemplo, um intruso sendo uma pessoa ou um objeto no

ambiente de interesse. Um grande desafio para a tecnologia é ter a capacidade de

realizar estas detecções ao longo de ambientes externos amplos como rios, portos e

parques com mais de 50m2.

6

Outro desafio a ser vencido por sistemas como este é a capacidade de operar

durante 24 horas por dia e 7 dias por semana. Isto, obviamente, se dá ao fato de serem

sistemas de segurança, nos quais uma falha ou um desligamento da vigilância pode

comprometer toda a segurança a que o sistema visa proteger.

O objeto de estudo desta dissertação para vigilância eletrônica é o veículo, e este é

estudado especificamente para ambientes como rodovias e estradas. Estes sistemas têm

demandado tarefas como contagem, determinação da velocidade, classificação,

rastreamento, classificação do fluxo, detecção de acidentes, entre outros.

Um sistema eletrônico capaz de realizar todas essas tarefas, além de tornar o

sistema mais seguro por auxiliar o operador humano, é capaz de armazenar estatísticas

de cada veículo (velocidade, aceleração e espaçamento) e da rodovia (tipo de veículo

mais popular do trecho, velocidade média do percurso, números de acidentes por mês,

número médio de veículos por dia, comportamentos dos motoristas, entre outros ).

Todos esses fatos motivaram o estudo desta dissertação. Este trabalho está focado

para ambientes externos, analizando o comportamento dos veículos, dentre eles carros,

ônibus, motos e caminhões. O sistema desenvolvido se propõe a resolver as seguintes

tarefas:

• Detectar os objetos em movimento através da subtração de fundo;

• Atualizar do modelo de fundo em relação à iluminação;

• Detectar a silhueta e a caixa envolvente (bounding box) do objeto;

• Detectar e calibrar as faixas da rodovia de estudo;

• Modelar estes objetos em movimento para se assemelharem ao formato

dos veículos (6-PM e Box3D);

• Remover sombras e oclusões;

• Classificar os veículos;

• Rastrear os veículos ao longo da cena;

• Determinar a velocidade;

A

Figura 1 ilustra um fluxograma destas etapas descritas acima com a ordem de

entrada e saída dos eventos.

7

O documento engloba a resolução dessas tarefas e foi organizado em sete

capítulos. O capítulo um é o presente texto e propõe a motivação, objetivos e estutura

desta dissertação.

No capítulo dois é apresentada a técnica de subtração de fundo, utilizada para

segmentar o objeto de interesse do fundo da cena. Neste capítulo é feito um estudo e

avaliação dos diferentes algoritmos propostos para este tema e desenvolvendo um

algoritmo próprio para tornar o sistema capaz de se adequar a mudanças a mudança de

iluminação do ambiente. Além disso, o capítulo apresenta o pós-processamento

realizado composto de filtros morfológicos, detecção de bordas e contornos com o

objetivo de realizar uma melhoria da segmentação e obtenção das silhuetas.

Figura 1: Fluxograma do sistema desenvolvido

8

No capítulo três é discutida uma modelagem desenvolvida para melhor

caracterizar a morfologia dos veículos para disponibilizar mais informações,

principalmente geométricas, deles mesmos. É feito um estudo sobre a caracterização

geométrica das pistas da rodovia de interesse.

O capítulo quatro se destina exclusivamente para discutir algoritmo de remoção

de sombras. Essa tarefa tem fundamental importância, porque a sombra é

freqüentemente extraída quando associada ao objeto de interesse, podendo causar

distorções em sua forma, umas com outros objetos distintos e até mesmo a perda deles.

O capítulo cinco reune três fundamentais algoritmos para um sistema de

vigilância eletrônica que visa extrair e gerenciar importântes informações da rodovia.

Esses algoritmos são: remoção de oclusão, cálculo da velocidade e classificação dos

veículos.

No capítulo seis é apresentado o algoritmo de rastreamento de veículos que tem

como objetivo localizar um ou mais objetos em movimento e relacioná-los ao longo do

vídeo.

Finalmente, no capítulo sete são apresentadas considerações finais sobre o

trabalho de pesquisa desenvolvida com os resultados comparativos de cada etapa e os

trabalhos futuros que podem resultar à partir deste.

9

2 Detecção de Movimento

A Detecção de Movimento visa diferenciar, em uma seqüência de vídeo, as

imagens dos objetos dinâmicos dos estáticos. Essa técnica é um passo essencial na

resolução de diversos problemas de visão computacional, especialmente no campo de

segurança e vigilância eletrônica. Quanto maior a perfeição com que os objetos em

movimento forem extraídos, menores os ruídos, levando a um menor custo

computacional nas etapas seguintes.

Técnicas de Subtração ou Segmentação de Fundo, Detecção de Textura como pele

e Fluxo Óptico podem ser utilizadas para resolver alguns dos problemas de Detecção de

Movimento. Essas técnicas vêm sendo estudadas a mais de 25 anos e englobam diversas

áreas de interesse humano como: sistemas de vigilância (Haritaoglu, et al., 2000)

(Heikkila, et al., 1999), captura de movimento 3D (Horprasert, et al., 1998), arte digital

(Levin, 2004), reconhecimento de gestos (Kjeldsen, 1997), estimativa de pose humana

(Sminchiescu, et al., 2002), rastreamento de objetos (McFarlane, et al., 1995), entre

outros.

Atualmente, não existe uma abordagem definitiva para resolver o problema de

Detecção de Movimento de forma genérica. As soluções já existentes consistem na

resolução desse problema em condições específicas relacionadas à aplicação que se

deseja criar. Isto ocorre principalmente devido a: mudanças na iluminação (posição e

intensidade), sombras, camuflagem, superfícies espelhadas, mudanças na movimentação

(oscilação da câmera e objetos de alta freqüência), mudanças na geometria do fundo, e o

mais importante de todos – ser em tempo real.

Para esta dissertação, foi selecionada a técnica de Subtração de Fundo para extrair

os veículos em movimento do vídeo. Para isso, foi desenvolvido um algoritmo baseado

na coleção de outros encontrados na literatura da área.

O presente capítulo apresenta um breve resumo sobre as principais características

e problemas dos algoritmos de Subtração de Fundo, juntamente a uma evolução dos

10

algoritmos, encontrados na literatura, desenvolvidos para resolver esses problemas.

Posteriormente, será descrito o algoritmo desenvolvido para esta dissertação com o

objetivo de realizar a detecção de veículos utilizando vídeos de rodovias.

11

2.1 Subtração de Fundo

A técnica de Segmentação ou Subtração de Fundo (McIvor, 2000) é utilizada para

segmentar regiões em movimento em uma seqüência de imagens a partir de uma câmera

estática comparando cada novo quadro com um modelo de fundo da cena. Um

algoritmo baseado nessa técnica, normalmente, compreende as seguintes etapas:

treinamento, classificação e atualização.

A etapa de treinamento consiste em coletar informações de um conjunto de n

quadros seqüenciais para fazer uma estimativa de um modelo de fundo inicial. Esta

etapa não é obrigatória. Nos casos em que esta etapa é inexistente, o modelo é calculado

dinamicamente nas etapas seguintes.

Para definir se um pixel x pertence ao fundo ou a um objeto em movimento é

necessária uma etapa de classificação. Nessa etapa é feito o uso de um modelo de fundo

previamente calculado.

Por fim, a etapa de atualização é responsável por manter a coerência do modelo

de fundo, tratando eventuais mudanças como de iluminação ou de geometria que

possam ocorrer no modelo de fundo.

Algumas características essenciais diferenciam os algoritmos de Subtração de

Fundo, sendo estas: tipo de câmera, de informação extraída de cada imagem, de

ambiente, espectrais, regra de decisão, modelo de atualização e de representação.

A câmera utilizada em um algoritmo de Subtração de Fundo pode ser simples

(uma única câmera), estéreo (duas câmeras em visão estereoscópica) ou múltiplas

câmeras. A utilização de um modelo ou outro revela vantagens e desvantagens. Para

exemplificar essa diferença é dado como exemplo o problema da oclusão. No caso de

câmeras em estéreo e de múltiplas câmeras esse problema é facilmente removido devido

às diferentes vistas de um mesmo objeto, o que já não acontece no caso de uma única

câmera, porém o custo computacional de se trabalhar a cada quadro aumenta

proporcionalmente ao número de câmeras do sistema.

12

O tipo de informação extraída dos pixels pode ser espacial, temporal ou ambas.

Essa informação se refere ao tipo de característica armazenada para uso do algoritmo de

Subtração de Fundo.

O ambiente em que o algoritmo é focado pode ser: interno, externo ou ambos. A

grande maioria de algoritmos da literatura é focada somente para ambientes internos ou

somente externos e é rara a existência de algoritmos robustos para ambos os ambientes,

pois suas características são muito diferentes. Em ambientes externos existe uma maior

influência da luz solar, o que gera mudanças graduais na intensidade da iluminação. O

mesmo não acontece em ambientes internos, pois as fontes de luz artificiais são as

responsáveis pela iluminação do ambiente e podem mudar bruscamente a iluminação se

ligadas ou desligadas durante a gravação do vídeo.

A característica espectral refere-se ao nível de informação extraída de uma

imagem. Ela pode ser por pixel ou por grupo de pixels. Além disso, também, é levado

em consideração o espaço de cor envolvido. Os modelos mais comuns dentre os

algoritmos de Subtração de Fundo são: RGB, YUV, HSV e tons de cinza.

A regra de decisão é a forma como cada pixel do modelo de fundo é classificado,

sendo esta através de limiares, mapas ou redes inteligentes como a Bayesiana.

O modelo de atualização, através das características espectrais armazenadas,

monta o novo modelo de fundo e utiliza, por exemplo, parâmetros, limiares e funções

probabilísticas para isso.

A última característica é o modelo de representação, que define o tipo de

matemática envolvida, por exemplo, distribuição normal, minímos e máximos ou PCA.1

Deve-se considerar, também, em um algoritmo de Subtração de Fundo a sua

performance em termos computacionais. A maioria das aplicações tem necessidade de

ocorrer em tempo real. Então, avalia-se a quantidade de memória utilizada, de

processamento e o valor de quadros por segundo (FPS) da aplicação que utiliza o

algoritmo. Busca-se, então, sempre um maior custo-benefício entre o processamento e a

qualidade da segmentação.

1 Da literatura Principal Components Analysis é uma técnica utilizada para reduzir conjunto de

dados multidimensionais para dimensões menores para simplificar o trabalho com esses dados.

13

2.2 Trabalhos Relacionados

Esta seção traça um paralelo dos problemas existentes nos algoritmos de

Subtração de Fundo com as soluções propostas pelos algorímos da literatura em ordem

cronológica de evolução.

Algoritmos de visão computacional têm a função de auxiliar o estudo dos

elementos do mundo real para trazê-los ao virtual. Essa tarefa não é simples, porque

essa coleção de elementos possui uma alta complexidade para ser modelada com

precisão. Essa falta de precisão acarreta erros na detecção como ruídos, falsos-positivos2

e falsos-negativos3 para o caso dos algoritmos de Subtração de Fundo.

Um dos elementos mais difíceis de ser modelado é a iluminação, devido à

diversidade de tipos de fonte de luz e da forma como ela se comporta ao longo da cena

de interesse em relação à variação da sua posição e intensidade. Ela também é

responsável por gerar outros elementos como sombras e especulares.

Na literatura existem diversos algoritmos de Subtração de Fundo. (Veja os artigos

de revisão Hu (Hu, et al., 2004) e Piccardi (Piccardi, 2004)). Os primeiros que surgiram

na literatura foram criados por Otsu (N, 1979) e por Pun (Pun, 1980). Esses algoritmos,

também conhecidos como “Subtração Básica de Fundo” (BBS) (Hall, et al., 2005),

seguiram uma abordagem não-estatística. Os pesquisadores referenciados utilizaram

uma implementação simples, baseando-se somente na diferenciação direta de quadros

consecutivos em relação a um limiar. Futuramente, Lo (Lo, et al., 2001), Rosin (Rosin,

et al., 1995) e Cucchiara (Cucchiara, et al., 1996) aperfeiçoaram os algoritmos

anteriores, mas nenhum deles obteve um resultado satisfatório em cenas que lidassem

com alterações no quadro de iluminação ou na geometria de fundo (ex. um objeto

deixado na cena deve ser incorporado ao modelo de fundo).

Isso fez com que os algoritmos se tornassem mais adaptativos ao longo da cena

para lidar com mudanças no modelo de fundo treinado. Horprasert (Heikkila, et al.,

2 No caso da subtração de fundo, falsos-positivos são os pixels que, por exemplo, deveriam ser

classificados como fundo, porém foram classificados como movimento. 3 Seguindo a mesma idéia acima, os falsos-negativos seriam os que deveriam ser classificados

como movimento, porém foram classificados como fundo.

14

1999) e McFarlane (McFarlane, et al., 1995) foram os primeiros a desenvolver essas

idéias.

A abordagem não-determinística foi substituída por uma abordagem estatística,

para que ela permita construir modelos de fundo mais sofisticados que representavam

melhor a cena e as mudanças nela ocorridas, realizando, assim, uma subtração de fundo

de maior qualidade. Um dos pioneiros nessa abordagem foi o algoritmo Pfinder (Wren,

et al., 1997) e depois extensões dele como o Spfinder (Azarbayjani, et al., 1996) e

LOTS (Boult, et al., 2001). Todos esses algoritmos utilizavam uma distribuição normal

ou gaussiana para modelar o fundo.

Outro algoritmo de importância na literatura, bastante estudado e referenciado até

hoje é o W4 (Haritaoglu, et al., 2000), desenvolvido por Haritaoglu no ano 2000. Esse

nome é devido ao fato de que o sistema se propõe a resolver as quatro questões: o que

fazem (What), onde atuam (Where), quando atuam (When) e quem são (Who). W4 é

considerado mais um sistema do que um algoritmo, pois ele se propõe a resolver

diversas tarefas na área de vigilância eletrônica, as tarefas são: Detecção de Movimento

através da Subtração de Fundo, classificação dos objetos em movimento para pessoa ou

grupo de pessoas, rastreamento do objeto em movimento (“Tracking”), análise de

postura para uma pessoa isolada (“Ghost”), detecção se a pessoa carrega algum objeto

ou não (“Backpack”) e para o caso de pessoas em grupo a segmentação através da

detecção de cabeça (“Hydra”).

Em relação a sua subtração de fundo, W4 utiliza uma distribuição bimodal e

trabalha com as imagens em tons de cinza, sendo preparado para ambientes externos e

suportando mudanças suaves na iluminação através de mapas de suporte, sem lidar com

sombras em sua segmentação. W4 serviu de inspiração para diversos trabalhos na

literatura e inclusive para esta dissertação. No decorrer da seção, durante a descrição do

método criado, alguns pontos do W4 serão analisados com mais detalhes.

Muitas outras extensões dos algoritmos anteriores surgiram, mas todos eles apesar

de tratarem com sucesso pequenas ou graduais mudanças no cenário de fundo, falharam

para cenários com pixels de distribuição multimodal ou com uma dispersão muito

intensa. Em suma, todos esses algoritmos tinham dificuldade de tratar pixels não-

estacionários de fundo. Como, por exemplo, galhos de árvores em movimento, neve,

chuva ou ondas do mar.

15

O algoritmo Wallflower de Toyama (Toyama, et al., 1999) foi um dos primeiros a

tratar essa questão. Ele emprega o filtro linear de Wiener (um modelo simplificado do

filtro de Kalman) para aprender e prever eventuais mudanças no cenário de fundo.

Wallflower funciona bem para mudanças periódicas nos pixels. Porém, quando os

pixels de fundo alteram drasticamente ou quando o movimento destes é menos

incidente, Wallflower é menos efetivo no aprendizado e na previsão das mudanças no

cenário de fundo. Na mesma tentativa de manipular múltiplos modelos de fundo,

surgiram outros algoritmos como: Kottow (Kottow, et al., 2004), que modela o fundo e

os objetos em movimento como vetores de código (codebook-vectors), e Seki (Seki, et

al., 2003), em que é desenvolvido um modelo de fundo dinâmico através de

coocorrência de variações em blocos vizinhos da imagem.

Outro algoritmo que também buscou lidar com múltiplos modelos de fundo foi

conhecido como MOG (Mixture of Gaussians) ou Mistura de Gaussianas. Esse

algoritmo, criado por Grimson e Stauffer (Grimson, et al., June, 1998) (Stauffer, et al.,

1999), era uma versão extendida do modelo Pfinder. A idéia básica do MOG é assumir

que cada pixel da imagem pode ser modelado por uma mistura de K Gaussianas (k é

normalmente um valor entre 3 e 5). O algoritmo MOG se tornou bastante popular na

literatura e por isso propiciou a criação de muitas outras técnicas. Wang (Wang, et al.,

2005) modificou o MOG para tratar sombras e evoluiu o processo de atualização do

modelo de fundo e classificação. Lee (Lee, et al., 2003) utiliza uma rede Bayesiana para

realizar a segmentação do modelo de fundo do MOG. Muitas outras extensões do MOG

existem na literatura como de Harville (Harville, 2002) e Javed (Javed, et al., 2002).

O MOG tem muitas desvantagens em relação a fundos com rápidas variações que

não podem ser precisamente modeladas com poucas gaussianas, e falha ao prover uma

detecção sensível (Elgammal, et al., 2000). Além disso, dependendo da taxa de

aprendizagem para se adaptar a mudanças do fundo, MOG enfrenta um dilema: para

uma baixa taxa de aprendizagem produz um modelo que apresenta dificuldades de

adaptação às mudanças bruscas no fundo como definidas anteriormente. Por outro lado,

se o modelo se adaptar muito, objetos que se movem muito lentamente terão seus pixels

absorvidos junto ao modelo de fundo, resultando em inúmeros falsos-positivos.

Em uma tentativa de resolver esse problema descrito por Toyama (Toyama, et al.,

1999), uma técnica “não-paramétrica” foi desenvolvida para estimar a função de

16

densidade de probabilidade de cada pixel utilizando a estimativa de densidade Kernel

(Kernel Density Estimation) por Elgammal (Elgammal, et al., 2002). Esse algoritmo

permitiu que o modelo de fundo se adaptasse mais rapidamente às mudanças no atual

cenário de fundo e detectasse os objetos em movimento com maior precisão e

sensibilidade.

Infelizmente a técnica não-paramétrica não pode ser usada quando longos

períodos de tempo são necessários para estimar o modelo de fundo com eficiência, por

exemplo, quando existe uma cena com uma vegetação se movimentando

significativamente devido aos ventos ou numa auto-estrada movimentada devido ao alto

consumo de memória para armazenar os quadros.

Chalidabhongse e Kim (Chalidabhongse, et al., 2003) apresentaram o algoritmo

de Subtração de Fundo chamado Codebook (CB). Esse algoritmo resolveu o problema

da técnica não-paramétrica, permitindo a construção de um modelo de fundo a partir de

longas seqüências de vídeo.

Devido à enorme popularidade do tema de Subtração de Fundo na literatura,

existem muitos outros algoritmos que não foram citados no texto com diferentes

abordagens e com bons resultados. Como, por exemplo, Tai (Tai, et al., 2004) que

propõe um algoritmo utilizando histogramas modificados para segmentar o modelo de

fundo, Idupalli (Indupalli, et al., 2006), que utiliza algoritmos de clusterização como o

K-means, Grossmann (Grossmann, et al.) com um algoritmo supervisionado através de

redes neurais, ou Yang (Yang, et al., 1992), que propõe um sistema baseado na

representação do modelo de fundo por arestas chamado de “Primal Skecth”.

Porém, como foi dito na seção anterior, não existe atualmente um algoritmo que

lide com todos os problemas enumerados e que ainda seja em tempo real, mas cada

algoritmo busca resolver os problemas da aplicação à qual fora designado.

17

2.3 O Algoritmo Desenvolvido

No presente trabalho, o algoritmo foi projetado para trabalhar com vídeos de

rodovias e, a partir disso, algumas considerações foram feitas:

• O ambiente de trabalho é somente o ambiente externo durante a fase

diurna.

• O modelo de fundo é baseado no plano estático do vídeo, sendo sua

principal representante a rodovia.

• Os objetos em movimento são todos os que passam ao longo da rodovia

como veículos e pessoas.

• Os veículos que por um motivo qualquer se tornarem estacionários ao

longo da cena, não são incorporados ao modelo de fundo.

• As únicas alterações no cenário que são incorporadas ao modelo de fundo

são as que foram causadas pela iluminação, tanto devido a mudanças

climáticas quanto a mudanças temporais.

O algoritmo trabalha com as informações temporais e espaciais providas de uma

única câmera estática. O espaço de cores utilizado é o HSV, abreviatura de tonalidade

ou matiz (Hue), saturação (Saturation) e valor (Value). Sua representação é cônica,

segundo a Figura 2, onde H varia de 0 a 360 graus, iniciando no vermelho, S varia de 0

a 100%, iniciando no centro da circunferência e V também varia de 0 a 100% iniciando

na ponta do cone.

18

Figura 2: Representação do espaço de cores HSV.

Este espaço de cor apresenta algumas vantagens sobre outros espaços ao trabalhar

com algoritmos de subtração de fundo. O espaço HSV representa bem a percepção

humana de cor, pois ele separa a cromacidade (saturação e tonalidade) da intensidade

(valor). A vantagem disso é que, além de ser mais fácil para a modelagem, uma variação

de brilho na cena é irrelevante para a informação de cromacidade da imagem. O mesmo

não acontece com o tradicional espaço RGB, onde a distância entre duas cores não é

simétrica. O espaço HSV também oferece mais algumas vantagens: lida melhor com

ruídos, maior exatidão de valores médios de suas componentes e maior facilidade de

caracterizar regiões em sombra.

Na literatura existem muitos outros algoritmos que também utilizam, para tratar a

subtração de fundo, espaços de cores diferentes do tradicional RGB. Um exemplo disso

é o Pfinder (Wren, et al., 1997) já citado anteriormente nessa seção. O Pfinder utiliza o

espaço YUV que da mesma forma que o HSV realiza a separação da intensidade (“Y”)

da cromacidade (“UV”), mas o subespaço “UV” é baseado numa combinação linear do

espaço RGB e não é tão intuitivo como o “HS”. Por todos esses motivos apresentados, o

espaço HSV é o espaço de cor mais popular utilizado nos algoritmos de subtração de

fundo da literatura. Exemplos disso são: Zhao (Zhao, et al.), François (François, et al.) e

Indupalli (Indupalli, et al., 2006).

O algoritmo desenvolvido no presente trabalho possui quatro etapas bem

definidas: treinamento, classificação e atualização.

A primeira fase do algoritmo é a de treinamento. Seu objetivo é realizar a

estimativa inicial do modelo de fundo. Essa etapa pode ter duração de 100 a 200

quadros em seqüência de um trecho qualquer do vídeo. Para todos os pixels de cada

19

quadro desse trecho é realizado o filtro da mediana (Massey, et al.) da mesma maneira

que o W4 de Haritaoglu sugere. O filtro da mediana serve para criar uma estimativa

inicial de quais pixels possuem comportamento estacionário e quais são dinâmicos. A

equação 1 demonstra esse filtro onde Iz(x) é a intensidade do pixel x em um quadro z

qualquer, λ(x) é a mediana e σ(x) é o desvio padrão do pixel x em todos os quadros do

treinamento. Apenas os pixels que satisfazem essa equação são utilizados de fato na

montagem do representante do modelo de fundo. Todo esse cálculo do modelo de fundo

deve ser feito para cada canal H, S e V individualmente.

(1)

É válido ressaltar que para os valores de H a média tradicional não vale, pois os

valores se encontram ao longo de uma circunferência. Funções trigonométricas se fazem

necessárias para calcular corretamente a média, a mediana e o desvio padrão.

Assim, cada pixel filtrado é modelado através do vetor B(x) da equação 2, onde

para cada pixel x, m(x) é o maior valor do pixel x, n(x) é o menor valor, d(x) é a maior

diferença entre dois quadros consecutivos e f(x) é o valor mais freqüente na fase de

treinamento.

(2)

Como dito anteriormente, o treinamento tem como objetivo criar um representante

para o modelo de fundo, representado por B(x) da equação 2. Considerando a aplicação

do presente trabalho, esse representante deve ser composto apenas pela rodovia e os

elementos ao seu redor e não pelos carros em movimento. Porém, existem casos em que

essa tarefa pode se tornar muito complicada, pois durante todo o treinamento, a pista

permanece lotada de veículos passando. Dessa maneira, os valores mínimos e máximos

de cada pixel poderão se tornar bastante ruidosos. Para isso, após o cálculo de B(x), os

20

valores de m(x) e n(x) poderão sofrer alterações, segundo a equação 3, onde α vale 10%

do valor de f(x).

Se,

Então, (3)

Esta equação admite que todos os pixels da imagem devem ser temporalmente

coerentes ao longo de todo o vídeo. Como d(x) é a maior diferença entre dois quadros

consecutivos, quando esse valor for muito maior do que o desvio padrão nesse pixel,

sua informação será considerada ruidosa e os valores máximos e mínimos naquele pixel

serão corrigidos para uma estimativa utilizando o seu valor mais freqüente, conforme

demonstrado na equação 3.

Assim, a fase de treinamento chega ao seu fim com toda a informação do modelo

de fundo B(x) já calculada, conforme a equação 4.

(4)

A fase de classificação do algoritmo utiliza o modelo de fundo para decidir quais

pixels fazem parte aos objetos em movimento e quais fazem parte do fundo. Essa etapa

é representada pela Figura 3. Nela está representado o cone do espaço HSV, e a partir

dos limites m(x) e n(x), calculados no treinamento, é possível segmentar um volume.

Então, para cada novo pixel da seqüência de vídeo, este é classificado como fundo se

estiver dentro do volume, caso contrário é classificado como objeto em movimento.

21

Figura 3: Modelo da fase de classificação do algoritmo proposto.

A representação do modelo de classificação ganhou esta aparência geométrica na

tentativa de realizar uma melhor atualização do modelo de fundo e de remover sombras

e especulares com mais facilidade (ver Capítulo 4).

Por fim, a fase de atualização do modelo de fundo do algoritmo tem como

objetivo manter o modelo atualizado segundo as mudanças caracterizadas pela

iluminação. Considerando a atual aplicação, a única fonte de luz é a do sol, pois o

algoritmo não leva em consideração vídeos noturnos e nem de ambientes internos, onde,

em ambos os casos, as fontes de luz são artificiais. Sendo assim, as mudanças de

iluminação são devido a mudanças climáticas. A Figura 4 exemplifica essa situação.

Nela, o lado esquerdo (a) possui regiões mais escuras do que o lado direito (b). Nesse

22

caso, pode-se observar que a tonalidade (H) de cada pixel se mantém semelhante nas

duas imagens, a saturação (S) é muito semelhante, variando em 20% no máximo, na

maioria dos casos. Já o brilho (V) aumenta razoavelmente da figura (a) para a (b).

(a) (b)

Este resultado já era esperado, considerando a afirmação feita anteriormente na

seção em que H e S controlam a tonalidade e V a intensidade. Outra importante

informação observada é que os veículos jamais ficam estacionários ou mudam de

sentido na pista. Essa característica leva à conclusão de que um pixel, ao permanecer

por muito tempo classificado como em movimento, tenha sofrido influência da

mudança de iluminação.

Com base nessas informações, o modelo de atualização cria e gerencia mapas de

mudanças. Existem três mapas para acompanhar essas mudanças. A cada n quadros

conta-se quantas vezes o mesmo pixel x esteve classificado como:

• Fundo e dentro do volume de classificação (mapa A);

• Fundo e fora do volume de classificação (mapa B);

• Em movimento e fora do volume de classificação (mapa C);

Para cada mapa é armazenada, além dos valores máximo n(x) e mínimo m(x) para

cada pixel, a média dos valores para cada canal HSV da imagem, com objetivo de

Figura 4: Exemplo de mudança de iluminação.

23

auxiliar na atualização do modelo de fundo. Após os n quadros, se algum desses mapas

estiver presente 80% do tempo, dependendo do caso, podem ou não ocasionar

mudanças no modelo de fundo.

Se o mapa A for o vitorioso, significa que o modelo de fundo utilizado no

momento está correto e não deve ser atualizado.

Se o mapa B for o vitorioso, significa que o modelo de fundo utilizado tenha,

possivelmente, sofrido mudanças de iluminação e deve ser modificado. Caso o valor

médio dos canais H e S forem similares a uma taxa máxima de 10% de erro, os valores

m(x) e n(x) do modelo atual ganham os valores armazenados pelo mapa B para todos os

canais, caso contrário, o modelo deve ser treinado novamente.

Se o mapa C for o vitorioso, significa que durante os n quadros a cena foi bastante

movimentada ou sofreu erros devido à mudança de iluminação. Nesse caso, o modelo

também deve ser treinado novamente.

24

2.4 Pós-Processamento

Com o intuito de definir melhor o formato dos blobs encontrados pela subtração

de fundo é realizada uma etapa de pós-processamento. Essa etapa é composta por uma

sequência de algoritmos clássicos:

• Aplicação de filtros morfológicos;

• Aplicação de filtros de suavização;

• Detecção de silhuetas ou contornos;

• Suavização das silhuetas ou contornos;

A primeira parte do pós-processamento é composta pelos filtros morfológicos.

Eles têm como objetivo corrigir a imagem binária do objeto segmentado, eliminando

regiões de poucos pixels e preenchendo buracos de regiões bem definidas, podendo

assim remover ruídos e melhor a qualidade da segmentação da imagem (Referencia

XXX).

As duas operação mais básicas da morfologia matemática é erosão (Eq. XX) e a

dilatação (Eq. XX). Ambos os operadores recebem duas entradas: a imagem para sofrer

erosão ou dilatação chamado de A, e o elemento estrutural de B.

Onde d é o offset do elemento estrututal. A morfologia binária pode ser

considerada um caso especial da morfologia em nível de tons de cinza, onde a luz

possui dois valores. Para uma imagem em tons de cinza, elementos estruturais podem

ser aplicados diretamente em valores da intensidade do pixel. Para a imagem binária, fij

= 1 é usualmente usado para representar a parte em movimento, enquanto fij = 0 para o

plano de fundo. Elementos morfológicos estruturais podem ser definidos

25

arbritariamente e serem considerados um conjunto de coordenadas. Tipicamente, o

ponto é centrado na origem.

Operadores de morfologia de ersosão e dilatação funcionam através da aplicação

de elementos estruturais, B, para todos os pontos da imagem de entrada, A, onde fij = 1,

e examinar interseções entre as coordenadas do ponto translatado B e os de coordenadas

A. Por exemplo, no caso da morfologia de dilatação o resultado da imagem será

resultado de um novo conjunto de pixels da união de elementos estruturais e da imagem

de entrada.

Com intuito de suavizar ainda mais o resultado dos filtros morfológicos, a

segunda etapa do pós-processamento, é a aplicação sobre a imagem, de tradicionais

filtros de suavização: o filtro da mediana e o filtro gaussiano.

COLOCAR FIGURA dos filtros

A detecção da silhueta é a responsável de localizar na imagem binária fornecida

pela subtração de fundo a representação matemática dos contornos dos objetos. O

resultado dessa etapa pode ser considerado um reconhecimento dado que essa etapa já

identifica o que seria um objeto e qual seria a região a que ele representa. O algoritmo

utilizado para realizar esta etapa é o chamado Teh Chin (XX). Esse algoritmo de

aproximação poligonal proposto por C. H. Teh realiza várias passadas através da curva

e elimina alguns pontos em cada uma destas. Primeiramente, todos os pontos de

curvatura zero são removidos. Para todos os pontos de parâmetro M, é calculado junto

ao ângulo de curvatura . Em seguida o algoritmo realiza uma supressão não-máxima

excluindo pontos, cuja curvatura satisfaz a condição prévia em que para , a métrica

H1 é estabelecida a M1. Finalmente, o algoritmo substitui grupos de dois pontos

remanescentes sucessivos com um único ponto e grupos de três ou mais pontos

sucessivos com um par do primeiro e último.

26

A última etapa do pós-processamento é a simplificação dos contornos encontrados

pelo algoritmo anterior. No presente trabalho foi utilizado o algoritmo de Douglas-

Peucker (xx) que é capaz de realizar a simplificação poligonal da silhueta mantendo

com extrema perfeição o formato original do contorno do objeto. Através desse

algoritmo foi capaz de reduzir bastante o custo computacional das etapas seguintes.

[1973] Douglas, D. H.; Peucker, T. K. Algorithms for the reduction of the

number of points required to represent a digitized line or its caricature.

The Canadian Cartographer, Vol. 10, No. 2.

27

2.5 Resultados parciais

Os resultados obtidos para o algoritmo de subtração de fundo obtido nesse

capítulo foram dividos em duas categorias: o resultado da segmentação propriamente

dita e o pela atualização do modelo de fundo.

Nesta fase de resultados é introduzido o conceito de “cenário” que é utilizado em

ambas categorias. Cada cenário, no caso deste capítulo, é composto de um vídeo

original com quadros sequenciais e um outro com a “segmentação perfeita” dos objetos

em movimento do plano de fundo deste vídeo original. Esta “segmentação perfeita” é

obtida através da separação manual em programas de edição de imagem de cada vídeo

que pertecence ao cenário escolhido, na literatura são conhecidos como vídeos “ground-

truth”. Cada vídeo de “ground-truth” possui 150 quadros.

A tarefa de gerar esses vídeos “ground-truth” foi uma tarefa extremamente árdua

e trabalhosa de fazer. Existem pesquisas para buscar alternativas de facilitar essa tarefa,

uma delas seria utlizar vídeos sintéticos simulando os problemas da vida real. Porém

nenhuma delas foi adotada neste trabalho.

Foram escolhidos quatro cenários para a primeira abordagem e dois para a

segunda. Todos os vídeos desses cenários foram gravados durante a fase diurna do dia e

a partir de uma câmera estática localizada em rodovias. Eles possuem a resolução

320x240 e possuem compactação MPEG, o que leva a eventuais artefatos na imagem

que podem prejudicar a segmentação. Esses cenários estão ilustrados na figura XXX.

[ Figura dos cenários ]

Vale a pena lembrar que no caso dos cenários da abordagem de atualização do

modelo de fundo, foram criados apenas casos em que ocorrem mudanças na iluminação.

28

Para todos os outros casos que geram mudanças nos parâmetros da subtração de fundo

foram ignorados, conforme explicado anteriormente em seu algoritmo.

A primeira categoria de resultados, gerados pela subtração de fundo, é

apresentado na seção seguinte e a seguir os da atualização.

29

2.5.1 Resultados da segmentação de fundo

Para analisar algoritmo desenvolvido foram considerados dois quesitos:

qualidade da segmentação e a complexidade computacional. Nesta seção é realizada

uma comparação do algoritmo proposto com outros populares da literatura. São eles W4

de Haritaoglu (Haritaoglu, et al., 2000), Bowden (Bowden, et al., 2001), Rosin (Rosin,

1998) e Li (Li, et al., 2003).

O primeiro quesito é a qualidade da segmentação, ela é de fundamental

importância para uma avaliação objetiva do resultado. Para esta tarefa são utilizadas

medidas baseadas no “ground-truth” do vídeo de cada cenário criado. Embora algumas

medids perceptuais existam, são utilizadas apenas medidas baseadas em precisão de

pixel bem-conhecidas.

Enquanto os verdadeiros-positivos (VP) fornecem o número de pixels dos objetos

em movimendo corretamente detectados, os verdadeiros-negativos (VN) fornecem o

número de pixels do plano de fundo corretamente identificados.

Por outro lado, os falsos-negativos (FN) são os pixels que foram detectados

erradamente como fundo, e os falsos-positivos (FP) são àqueles que foram detectados

erradamente como movimento.

A Figura 5 ilustra a relação desses parâmetros juntamente com as cores

selecionadas para a representação dos mesmos no resultado.

Figura 5: Parâmetros estatísticos para availação da subtração de fundo.

30

Com base nesses parâmetros, diferentes medidas de avaliação podem ser

definidas:

1. A razão do VP é dada por:

2. A razão do VN é dada por:

3. A razão do FP é dada por:

4. A razão do FP é dada por:

Enquanto as medidas mencionadas acima podem ser utilizadas para qualquer tipo

de classificação, as medidas típicas para problemas clássicos são:

1. A razão entre o número de de pixels corretamente detectados e o número

de pixels relevantes no “ground-truth” é dada por:

2. A razão entre o número de de pixels corretamente detectados e o número

total de pixels é definido como:

31

3. A medida F combina essas duas razões com pesos iguais quando

calculado. Essa proporção é dada por:

Outro quesito importante para a avaliação dos algoritmos é a qualidade subjetiva.

A partir do momento que as medidas da qualidade objetiva não são muito sofisticadas, a

avaliaç ão da qualidade subjetiva realizada por observadores humanos é inevitável. Isto

permite uma análise futura futura dos erros dos diferentes métodos de segmentação.

Com base nos dados do “ground-truth”, cada pixel é classificado como VP, VN, FN ou

FP e codificados por uma cor específica como ilustrado na Figura 5.

A tabela abaixo ilustra os resultado médio obtido de todos os quatro cenários

especificados anteriormente. para cada algoritmo em relação a cada um destes critérios.

Algoritmo VP VN FP FN R P F

Rosin 52 99 1 48 68 52 57

Li 60 99 1 40 60 60 64

Bowden 64 98 2 36 65 64 63

W4 73 99 1 27 70 73 75

Algoritmo proposto 89 99 1 11 78 89 82

32

[Figuras de resultados]

[Análise dos resultados por algoritmo]

Foram realizados também testes comparativos entre o resultados da subtração de

fundo com vídeos com compactação e sem compactação. Neste caso as diferenças

encontradas foram muito pequenas. Essas diferenças passam a ser impercaptíveis após a

etapa de pós-processamento descrita anteriormente neste capítulo.

O segundo e último quesito é a complexidade computacional dos algoritmos

escolhidos. Essa informação tem extrema importância para as aplicações que busquem

uma performance em tempo real, tal fato que se deseja obter nesta dissertação.

33

A complexidade computacional pode ser dividida em duas partes: consumo de

tempo e memória. Para uma certa extensão eles são mutáveis entre si. Estruturas de

dados sofisticadas podem ser utilizadas para aumentar a velocidade dentro de um custo

maior de memória. Por outro lado, o custo de mémoria pode ser reduzido pelo uso das

funções do acesso de dados elaborados, que quase sempre efetuam a velocidade.

[ Dados da máquina ]

34

2.5.2 Resultados da atualização do modelo de fundo

A análise dos resultados encontrados dos cenários de atualização de fundo

mantém o mesmo critério definido pela seç ão anterior e foi comparado com os mesmos

algoritmos da literatura.

Continuar...

35

2.6 Considerações Finais do Capítulo

A abordagem utilizada para realizar a detecção de movimento no vídeo de

rodovias foi a subtração de fundo. Como visto neste capítulo, atualmente não existe um

algoritmo de subtração de fundo capaz de realizar com eficiência o que ele se propõe a

fazer para qualquer ambiente ou para qualquer condição de iluminação dado a alta

complexidade dos cenários reais. O que os pesquisadores se limitam a fazer é

desenvolver seus algoritmos restritos a sub-problemas deste problema maior que é a

subtração de fundo genérica. Seguindo essa regra o algoritmo desenvolvido lida com

ambientes externos, com cenário de rodovias e somente com cenas diurnas com

presença de sombras ou não.

O algoritmo de subtração de fundo desenvolvido é capaz de separar os veículos

em movimento do restante estático da cena. Este algoritmo utilizou o espaço HSV de

cores como ferramenta de trabalho devido as características mais estáveis que o

tradicional espaço RGB. Através de mapas de atualização foi possível também tornar o

sistema inteligente o suficiente a de se adaptar de enventuais mudanças de iluminação

ocorridas ao longo da cena.

Outro fato consumado no capítulo é que silhueta ganhou sua importância

fundamental no sistema dado que a subtração de fundo sozinha não classifica as regiões

em movimento como objetos. Assim, é realizado no final do processo um pós

processamento com etapas de filtros mórfológicos e de suavização com objeto de

melhorar o resultado da segmentação e uma etapa de detecção e suavização de silhuetas

de cada veículo encontrado pela subtração de fundo.

Em linhas breves, esse capítulo é responsável por uma etapa fundamental do

sistema, encontrar na imagem original de entrada uma primeira representação do que

seria um veículo em movimento na cena. Os resultados obtidos da subtração de fundo

comparados com outros algoritmos clássicos da literatura e os resultados “ground-truth”

são apresentados no último capítulo desta dissertação.

36

3 Modelagem de Veículos

A modelagem dos objetos em movimento é de fundamental importância para

melhor caracterizar a morfologia destes e disponibilizar mais informações para a

aplicação em que atuam.

Somente a silhueta do veículo não propicia uma boa modelagem do formato do

objeto, pois esta não fornece nenhuma noção de perspectiva ou volume, levando a

interpretações equivocadas da morfologia do veículo agravando-se devido a sombras e

oclusões.

Uma modelagem mais inteligente, além de auxiliar na resolução desses

problemas, ajudaria o sistema a realizar com mais facilidade as etapas posteriores.

Inicialmente, neste capítulo, é feito um levantamento dos trabalhos da literatura e

uma comparação das modelagens propostas pelos autores. A seguir, apresenta-se o

modelo desenvolvido neste trabalho juntamente com uma descrição detalhada de suas

etapas. Finalmente, é feita uma análise crítica do modelo listando as suas vantagens e

desvantagens em relação à aplicação de interesse.

37

3.1 Trabalhos Relacionados

A maioria dos trabalhos encontrados na literatura utilizam somente a silhueta para

representar os veículos em seus algoritmos. Haritaoglu (Haritaoglu, et al., 2000) e

Cucchiara (Cucchiara, et al., 1996) são alguns exemplos de trabalhos que utilizam a

silhueta para modelar seus objetos de interesse, sejam estes pessoas ou objetos.

A silhueta é uma boa estimativa inicial para representar a morfologia do objeto de

interesse, porém, conforme exposto anteriormente ela não representa toda a geometria

do objeto. Além disso, ela poderá conter graves erros em seu formato devido a

recorrentes problemas como má detecção da Subtração de Fundo, sombras e oclusão.

Tais erros somente podem ser removidos com algoritmos específicos utilizando-se

outras informações que a silhueta não fornece.

Uma das maiores dificuldades de utilizar a silhueta em algoritmos de rastreamento

de veículos é a deformação do contorno devido à transformação da perspectiva. Na

tentativa de amenizar esse problema, Terzopoulos (Terzopoulos, et al., 1992) e Zhong

(Zhong, et al., 2000) geraram pequenas mudanças no formato da silhueta ao longo de

quadros consecutivos. Entretanto, esses algoritmos gastam um enorme esforço para

garantir a coerência do contorno entre quadros consecutivos que acabam permitindo

transformações inválidas que levaram a formatos incoerentes dos veículos.

Um algoritmo alternativo proposto por Freedman (Friedman, et al., 1997) e Giebel

(Giebel, et al., 2004) foi de extrair o espaço de formatos de um contorno de um

treinamento prévio e capturar as suas transições através do aprendizado. Esse tipo de

algoritmo requer extensivos treinamentos de uma cena particular e envolve complicadas

transformações, devido ao fato de sua representação utilizar o espaço .

Independente da aplicação de visão computacional, fez-se necessário uma

modelagem focada no problema que se deseja resolver. O que foi não foi fixo nos

algoritmos anteriores citados acima. Na área de vigilância eletrônica para rodovias os

algoritmos de modelagem procuraram criar uma representação mais próxima da

38

realidade do veículo. A Figura 6 representa alguns modelos de veículos em quatro

trabalhos diferentes.

Figura 6: Diversas modelagens propostas pela literatura.

O primeiro deles é a modelagem proposta por Ma (Ma, et al., 2005) representada

na Figura 6 (a) utiliza características de arestas para auxiliar o rastreamento de veículos

através de famosos algoritmos como o SHIFT.

Leotta (Leotta, et al., 2006) desenvolveu um modelo veicular ilustrado pela Figura

6 (b). Este modelo é a representação de uma malha tridimensional de automóveis que

auxilia o autor, juntamente com o modelo de iluminação e uma projeção da imagem

para realizar um treinamento. Este tem o propósito de segmentar imagens em relação a

algumas classes de veículos, sombras e plano de fundo. Na mesma linha de modelo, Tan

(Tan, et al., 2000) propôs um algoritmo eficiente que utiliza modelos tridimensionais

para estimar a morfologia de veículos de diferentes poses e localizá-los nas imagens.

39

Para recuperar a pose tridimensional de uma imagem, Tan requer informações sobre o

plano da estrada não permitindo, desta forma, rodovias com curvas.

Rother (Rother, et al., 2000) propõe um modelo chamado “Plate-Model”

ilustrado na Figura 6 (c). Este modelo une a real representação do veículo com sua

sombra no plano da rodovia, desde que o tipo de veículo e o modelo de iluminação

sejam conhecidos.

Por fim, representado pela Figura 6 (d), foi desenvolvido pelo pesquisador Wai-

Sing (Wai-Sing, et al.). Ele propôs um modelo baseado na simplificação de um cubóide

3D para um modelo 2D. Essencialmente, cada contorno pertencente a este modelo é

parametrizado para acomodar todas as classes de veículos, integrando a representação

com informações de cor e da detecção de movimento. Nesta mesma linha de

modelagem, Yoneyama (Yoneyama, et al., 2005) propõe uma representação

bidimensional do veículo utilizando apenas seis pontos que ligados formam a mesma

simplificação do cubóide utilizado por Wai-Sing. Yoneyama utiliza essa representação

para remover sombras, oclusão e detecções à noite. Neste trabalho foi utilizada uma

modelagem similar à desenvolvida pelo pesquisador.

Justificativa....

40

3.2 Modelo Proposto

Como exposto no capítulo anterior, foi encontrada a silhueta dos veículos em

movimento no vídeo, sendo possível se ter uma primeira idéia do que poderia ser um

objeto na cena. Por esse motivo, a silhueta ganhou sua importância tendo em vista que a

Subtração de Fundo sozinha não classifica as regiões em movimento como objetos,

conforme exposto no capítulo 2. Além disso, a silhueta, através de seu baricentro,

realiza uma primeira estimativa da posição do veículo em relação à imagem.

Todavia, como fora explicitado na descrição introdutória, a silhueta não ilustra a

devida morfologia do veículo. Esta omite importantes informações como dimensões,

volume e perspectiva, dados que poderiam ser bastante úteis em etapas posteriores,

como por exemplo, o rastreamento, detecção da velocidade e da classificação dos

veículos de interesse.

Apesar disso, a silhueta é, ainda, mais comumente utilizada nos algoritmos da

literatura devido a sua maior simplicidade de representação, manipulação e baixo custo

computacional em relação a modelagens mais complexas.

Ademais, dada esta simplicidade, a silhueta acaba por não fornecer nenhuma

ferramenta para auxiliar nos tradicionais problemas anteriormente referidos da atual

aplicação. Pensando nisso, foi preciso ser desenvolvida uma modelagem que pudesse

fornecer mais informações e que se aproxime mais da realidade da morfologia de cada

veículo de interesse.

O objetivo da modelagem proposta é justamente encontrar uma forma mais

inteligente de representar os veículos e que possa resolver estes problemas comuns

citados e, por fim, auxiliar nas etapas seguintes do sistema. Esta modelagem utilizará

como base a própria silhueta, aperfeiçoada para a realização de uma mais sofisticada.

A idéia inicial da modelagem empregada é de encontrar um volume envolvente no

veículo de interesse. Esse volume assume um formato de um cubóide, onde a altura,

comprimento e largura são definidos de acordo com os valores máximos de cada uma

41

dessas dimensões encontradas. Esse formato foi selecionado dentre outros possíveis

devido a sua grande semelhança com a morfologia do veículo, além da simplicidade

matemática.

Nesta dissertação, este volume que representa os veículos é chamado de

“Representação Tridimensional Veicular”, ou simplesmente RTV. A Figura 7

exemplifica o formato do RTV que se deseja encontrar.

Figura 7: Representação Tridimensional Veicular (RTV).

O RTV fornece ao sistema as dimensões, o volume e a posição em relação à pista.

Para encontrar o RTV de cada veículo é preciso coletar algumas informações

geométricas da rodovia e do veículo levando o algoritmo a ser dividido nas seguintes

etapas:

1. Detectar cada faixa da rodovia e classificá-las como pistas numeradas.

2. Identificar de qual pista cada veículo da imagem de entrada faz parte e

remover aqueles que não fizerem.

3. Calcular a Bounding-Box de cada silhueta contida na pista de interesse.

4. Utilizar a silhueta e o Bounding-Box de cada veículo para calcular o

MSPA (Modelo com Seis Pontos de Articulação).

5. Encontrar o RTV.

42

Todas essas etapas e siglas citadas acima estão descritas detalhadamente nos

próximos parágrafos desta seção.

A primeira etapa do algoritmo do RTV é a detecção das faixas e identificação das

pistas da rodovia com uma classificação numeral, como mostra a Figura 8 ao lado

direito.

Figura 8: Imagem real da rodovia e sua respectiva detecção de faixas e identificação das suas pistas.

A Figura 8 representa três típicas cenas de câmeras de vigilância em Seattle nos

EUA. Esta foi retirada do trabalho de Schoepflin (Schoepflin, et al., 2003) e exemplifica

43

com exatidão o resultado que se deseja obter nessa primeira etapa da modelagem: o

posicionamento da rodovia em relação à câmera.

Na imagem (a) da Figura 8 exibe do lado esquerdo a cena real capturada do vídeo

e do lado direito a delimitação da rodovia (representada pelas linhas vermelhas

contínuas), a marcação de cada faixa (representada pelas linhas pontilhadas em cinza) e

pela identificação de cada pista (representada pelos números em preto). O mesmo vale

para todos os outros pares de imagens.

É importante ressaltar que, nos três casos da Figura 8, as pistas e faixas de

interesse são bem definidas e tudo que está fora delas é ignorado em qualquer nova

detecção do sistema, poupando processamentos desnecessários.

Na literatura existem alguns algoritmos para encontrar automaticamente as linhas

que compõem a rodovia. Em destaque o algoritmo de Schoepflin (Schoepflin, et al.,

2003), que realiza uma análise completa de cenas de rodovias. Esta analise utiliza

mapas de atividade compostos da média da diferença entre quadros e sua análise gráfica

para definir a geometria das pistas. (explicar!)

Outros algoritmos não detectam exatamente as faixas, porém realizam uma

segmentação da região da pista como: Chung (Chung, et al., 2002) através da lógica

Fuzzy, Jeon (Jeon, et al., 2002) que utiliza algoritmos genéticos e Dell’Acqua

(Dell'Acqua, et al.) com métodos de clusterização e redes neurais.

Nesta dissertação, foram realizados testes para também encontrar

automaticamente as linhas da rodovia. Este processo é composto em estatísticas sobre o

espaço HSV e RGB, filtros morfológicos, transformada de Hough, filtro de Sobel e

detecção de linhas baseada em uma árvore de interpretação segundo Szenberg

(Szemberg, et al., 2001) propõe. Este algoritmo foi testado, primeiramente, para detectar

automaticamente as linhas de um campo de futebol, segundo a Figura 9.

44

Apesar dos bons resultados encontrados no método automático de detecção de

linhas para o campo de futebol, foi decidido não realizar os testes para a rodovia e

incorporam no sistema deste trabalho somente o modo manual. Esta decisão foi tomada

devido a algumas considerações:

1. Muitos vídeos da base de teses estão com as suas linhas desgastadas, tal

fato que dificulta bastante a sua detecção.

2. Essa etapa é a base de todas as outras que estão a seguir, devido a isso

qualquer falha na detecção de linhas pode acarretar graves problemas em

todo o sistema. Nenhum modo automático pode garantir resultados

perfeitos para todos os casos.

3. Todos os algoritmos encontrados na literatura e o algoritmo proposto

para detectar as linhas são computacionalmente caros, tal fato que

também levou à necessidade de um modelo manual para que o sistema

ainda pudesse se comprometer com o desempenho em tempo real.

4. Outra característica, já não tão importante, é a baixa qualidade de alguns

vídeos de entrada, podendo levar à má classificação dos algoritmos

classificadores.

O modo manual do presente sistema funciona da seguinte maneira: o usuário deve

fornecer as coordenadas inicial e final de cada linha e as identificar em relação a qual

faixa elas pertencem.

Figura 9: Etapas do algoritmo automático de detecção de linhas de um campo de futebol.

45

Para fins de ilustração, um sistema da literatura que também utiliza a detecção

manual é o “Speed Trap” de Burns (Burns, et al.). Esta detecção é realizada através da

seleção de um quadrilátero na janela de trabalho, onde o usuário deverá marcar o início

e o final de uma linha pontilhada.

Para manter a corretude da detecção das linhas, foram feitas algumas

considerações:

1. A rodovia de interesse deve ser aproximadamente plana e ocupar ao

menos um terço da imagem capturada pelo vídeo.

2. Os limites paralelos de cada faixa devem ser visíveis e facilmente

extraídos da imagem.

3. O ângulo α formado entre a reta do eixo central da rodovia e a reta

paralela ao eixo x, conforme ilustrado na na Figura 8, deve estar entre 30

e 150 graus. A Figura 8(a) exibe um caso real onde α vale

aproximadamente 135 graus, a Figura 8(b) 50 graus e a Figura 8(c) 85

graus.

4. Os veículos das pistas selecionadas devem se movimentar ao longo do

mesmo sentido, o que facilita o rastreamento na etapa seguinte.

5. As faixas não necessariamente deverão existir de verdade no vídeo, desde

que sejam marcadas virtualmente.

6. É desejável que a câmera capture a rodovia com maior alcance possível

da vista, de tal maneira que se possa extrair com facilidade o

comportamento dos veículos, principalmente em relação à mudança de

faixas.

Uma vez que todas as pistas de interesse estão detectadas e classificadas

corretamente, é possível identificar à qual pista cada veículo do vídeo faz parte e

remover aqueles que não estiverem em nenhuma dessas pistas nos processamentos

futuros.

Para a realização desta tarefa é utilizado um algoritmo para verificar se um ponto

está dentro ou fora de um polígono qualquer. Cada pista de interesse é transformada em

um quadrilátero utilizando-se as duas faixas paralelas da pista, juntamente às retas

paralelas do eixo x da imagem.

46

Com fins de exemplificar a montagem dos polígonos das pistas, a Figura 10

ilustra uma rodovia com duas pistas. Uma delas representada pelo número um e com

seu quadrilátero da cor vermelha e a outra representada pelo número dois e com seu

quadrilátero da cor azul.

Figura 10: Exemplo de polígonos gerados através das pistas da rodovia.

De posse dos polígonos de cada pista, o algoritmo é utilizado para verificar em

qual destes se encontra cada ponto que compõe a silhueta. Então, o veículo será

identificado de acordo com a pista que contiver a maioria dos pontos da silhueta.

Porém, se a maioria não estiver em nenhuma das pistas, o veículo será descartado e

eliminado das futuras detecções.

A terceira etapa da modelagem é encontrar para cada silhueta pertencente a uma

das pistas de interesse a sua caixa envolvente ou o “Bounding-Box”. Para isso, é preciso

somente percorrer todos os pontos da silhueta e buscar os menores e maiores valores em

x e y. A Figura 11 ilustra a caixa envolvente de uma silhueta de um veículo no plano

2D.

47

Figura 11: Representação de um Bounding-Box de uma silhueta.

A etapa seguinte tem como objetivo encontrar o modelo de seis pontos de

articulação ou simplesmente MSPA. Este modelo é a base final para calcular a caixa

envolvente tridimensional chamada neste trabalho de RTV.

Para encontrar o MSPA é preciso primeiramente considerar um modelo M de um

cubóide simplificado no espaço tridimensional o qual é composto de altura (h) , largura

(w) e comprimento (l) conforme ilustrado na Figura 12 (a). Este modelo M é

transformado em outro modelo M’ no plano da imagem 2D. A Figura 12 (b) ilustra o

resultado desta transformação. Este modelo M’ já é a representação do formato final, o

MSPA, e conforme o próprio nome diz, este modelo possui seis vértices orientados no

plano 2D, logo:

(X)

48

Para certas posições da câmera este modelo no plano 2D da imagem pode ser

aproximado utilizando-se as seguintes considerações:

(X)

Utilizando-se essas considerações, a montagem do MSPA pode ser realizada da

seguinte forma:

1. O ponto P1 tem mesma coordenada (x, y) do ponto B1 do Bounding-Box.

2. V2 é o ponto pertencente à silhueta que é mais próximo da faixa 2 da

pista contida pelo veículo. Rp2 é a reta paralela a da faixa 2 que contém

esse ponto V2, segundo ilustra a Figura 13. Assim, P2 é obtido através da

interseção da reta do Bounding-Box com a esta reta Rp2.

3. P3 é obtido através da interseção de com Rp2.

Figura 12: Modelo simplificado do veículo no espaço 3D (a) e o 2D (b).

49

4. O ponto P4, da mesma maneira que o primeiro ponto, é obtido através da

cópia da coordenada (x, y) do ponto B4 do Bounding-Box.

5. P5 é obtido através da interseção de com Rp2.

6. Da mesma maneira que Rp2, a reta Rp1 é a reta que contém V1 paralela a

faixa 1. P0 é obtido pela interseção de Rp1 com .

Figura 13: Representação do MSPA.

Após a determinação do MSPA a modelagem final pode ser finalmente

encontrada. Para isso, é necessário traçar uma reta da mesma proporção de S0 em P2, de

S4 em P0, S5 em P4.

Assim, é possível que se obtenha informações extras sobre o veículo, além da sua

pista de localização, sua altura, largura e comprimento. É possível, também, determinar

o seu ponto de fuga Pf, segundo a Figura 12 (b), utilizando a interseção das retas S2 e S5.

50


Encontrar uma maneira de medir a qualidade do resultado gerado pelo algoritmo

deste capítulo não foi uma tarefa simples. ...

51

3.4 Considerações Finais do Capítulo

Neste capítulo é desenvolvida uma modelagem voltada para veículos. Utilizando

esta abordagem é importante para as próximas tarefas, principalmente na etapa de

remoção de sombra e oclusão, na determinação de velocidade e classificação.

Isto se deve ao fato de que a modelagem fornece importantes dados geométricos

do veículo (posição no espaço da pista, altura, largura e comprimento) e da rodovia

(coordenadas das faixas e identificação das pistas).

Esta modelagem é dependente da silhueta, pois tem o propósito de ser uma

evolução dela. Caso a silhueta contenha erros em seu formato devido a uma má

subtração de fundo, estes serão levados para a modelagem. Portanto, a precisão da

silhueta é de fundamental importância para a corretude do sistema como um todo. Dessa

mesma forma, a modelagem necessita ser precisa para que essas outras etapas

funcionem corretamente.

52

4 Remoção de Sombras

A detecção de sombras é uma das tarefa fundamental para se obter alguma

robustez em aplicações de visão computacional de um modo geral, principalmente na

área de vigilância eletrônica.

Isso se deve ao fato de que a sombra é freqüentemente extraída quando associada

ao objeto de interesse, podendo causar distorções em sua forma, união com outros

objetos distintos e até mesmo a perda destes. A Figura 14 ilustra justamente esse

problema, ela mostra o caso da detecção de movimento sem a remoção das sombras

(primeira imagem) e com a remoção das sombras (segunda imagem).

Figura 14: Resultado de deteção de movimento com e sem a remoção de sombras.

No caso da aplicação desta dissertação, vigilância eletrônica para estradas, as

sombras geradas por veículos em movimento podem ser segmentadas como parte

destes, fator que não só interfere no seu tamanho e forma, como também pode criar

oclusões sobre outros veículos.

A sombra também fornece ricas informações para a compreensão das

características de iluminação da cena, pois esta só ocorre quando um objeto oclui uma

luz.

53

Diversos algoritmos foram propostos na literatura para lidar com sombras, mas

ainda resta uma abordagem preparada para atuar em qualquer aplicação.

A próxima seção apresenta um breve resumo dos trabalhos existentes na área de

remoção de sombra. Em seguida é feito um levantamento das características da sombra

e da iluminação em uma cena e finalmente apresenta-se o modelo proposto para

remoção de sombras neste trabalho.

54

4.1 Trabalhos relacionados

Nesta seção apresentam-se algoritmos da literatura para a detecção e remoção de

sombras de uma seqüência de imagens capturadas por uma câmera estática.

Estes algoritmos foram classificados nas seguintes categorias: detecção de sombra

baseada em características de textura, estatísticas, de cor ou geométricas.

O princípio em que os algoritmos de detecção e remoção de sombra baseados em

características de textura se orientam é a textura dos objetos em movimento, diferente

do modelo de fundo, e a textura das regiões em sombra que se mantém igual a da

textura do modelo de fundo.

Um dos exemplos desta abordagem é o trabalho de Xu (Xu, et al., 2005). Seu

algoritmo, baseado somente em imagens de cenas em ambientes internos, realiza a

remoção de sombras através da integração da textura de múltiplos quadros. Outro

exemplo é o trabalho de McKenna (McKenna, et al., 2000). Ele admite que a sombra

projetada resulta em significativas mudanças na intensidade sem alterar muito a

cromacidade. Leone (Leone, et al., 2006) utiliza um sistema de dicionário chamado de

Matching Pursuit para discriminar as sombras dos objetos em movimento. Por fim,

Fung (Fung, et al., 2002) desenvolveu seu algoritmo voltado para veículos. Ele analisa

as características das sombras em relação à luminância, crominância, gradiente da

densidade, domínios geométricos e um mapa de probabilidade obtido através de uma

pontuação de confiança chamado de SCS (Shadow Confidence Score).

Para os algoritmos que seguem a abordagem estatística, pode-se citar Toth (Toth,

et al., 2004) que utiliza o algoritmo de Mean Shift para realizar uma clusterização não-

paramétrica utilizando dados classificados como “em movimento”, para assim agrupar

aqueles que possuam propriedades similares. Já Wang (Wang, et al., 2003) desenvolveu

um algoritmo capaz de remover sombras de imagens de ambientes internos. Para isso

ele modela o fundo, a sombra e as informações de aresta como uma distribuição

Gaussiana que é periodicamente atualizada. Martel-Brisson (Martel-Brisson, et al.,

2005) introduz um modelo de sombras de mistura de gaussianas (Gaussian mixture

55

shadow models, GMSM) com a habilidade de aprender a construir modelos estatísticos

para remover sombras projetas em superfícies.

Os algoritmos que utilizam características de cor descrevem mudanças no padrão

da cor nos pixels em sombra e buscam características destes que sejam invariantes à

iluminação. Esta abordagem é a mais popular entre os pesquisadores da área devido a

sua simplicidade e aos bons resultados para a detecção e remoção de sombras em

qualquer que seja a aplicação. Cucchiara (Cucchiara, et al., 1996) (Cucchiara, et al.,

2003) investiga as propriedades da sombra no espaço de cor HSV e Salvador (Salvador,

et al., 2004) propõe o espaço de cor RGB normalizado. Siala (XX) considera que a

mudança de intensidade de um pixel ocorre de maneira uniforme em todos os

componentes do espaço RGB. Horprasert (XX) projetou um modelo em que a

cromacidade é separada da intensidade a partir de suas distorções.

Por fim, existem também algoritmos que seguem uma abordagem geométrica.

Normalmente estes utilizam informações como a localização da câmera, a posição do

chão, geometria do objeto, entre outros.

Hsieh (XX) propôs um modelo gaussiano da sombra para detectá-las em

pedestres. Esse modelo é parametrizado com diversas características incluindo

orientação, intensidade média e a posição central da região da sombra. Um ano depois,

Hsieh, desenvolveu um método baseado em histogramas para detectar diferentes faixas

de rodovias e através destas eliminar as sombras. Yoneyama (Yoneyama, et al., 2005)

utiliza a modelagem de veículos similar à proposta no capítulo anterior e classifica as

regiões de sombra através da luminância.

De todas essas abordagens estudas através da literatura foi decidido que um

algoritmo que utilize a abordagem geométrica seria mais eficiente para remover as

sombras dos veículos de rodovias. Na próxima sessão serão apresentados argumentos

comparativos da abordagem escolhida com as outras. Pq foi decidido?

56

4.2 Características da sombra e iluminação

A sombra é uma região de escuridão gerada pela presença de um objeto opaco

localizado entre uma fonte de luz e esta região. A partir do ponto de vista do observador

a sombra pode ser dividida em estática ou dinâmica. A sombra estática é gerada por

objetos imóveis, enquanto a sombra dinâmica é gerada por objetos em movimento.

Tendo em vista a aplicação desta dissertação, a sombra estática gera poucos erros de

detecções do sistema, pois esta é naturalmente inserida ao modelo de fundo. Já a sombra

dinâmica, se não tratada, pode levar a erros como agrupamento e deformação de

objetos.

Outra característica importante da sombra é a maneira com que ela é projetada,

conforme definido em (Herodotou, et al., 1998). A sombra gerada por um objeto

qualquer pode ser projetada nele mesmo (conhecida na literatura como self-shadow) ou

em outro lugar / objeto qualquer (cast-shadow). Self-Shadow é a parte do objeto na qual

não é iluminada pela fonte de luz direta do ambiente, este tipo de sombra não atrapalha

o sistema, dado que ela está associada ao objeto. Cast-Shadow é a região projetada pelo

objeto na direção da fonte de luz direta. O objetivo desta seção é justamente

desenvolver um algoritmo capaz de detectar este tipo de sombra.

Através do ponto de vista geométrico, a sombra pode ser dividida em regiões

menores chamadas de umbra e penumbra (XX). A umbra corresponde à área onde a luz

é quase que totalmente bloqueada pelo objeto e a região de penumbra é onde essa luz é

parcialmente bloqueada.

A partir de uma imagem capturada pela câmera, a intensidade de um pixel P(x, y)

pode ser dada pela equação (XX) onde i(x, y) representa a componente de iluminação e

r(x, y) a refletância da superfície do objeto.

57

A componente de iluminação é computada através da quantidade de potência de

luz recebida pela área de superfície do objeto segundo a equação XX. (Stanler XX)

Nesta equação, representa a intensidade da luz ambiente e da fonte de luz, t

é a transição dentro da penumbra que é dependente da fonte de luz e da geometria da

cena, onde t deve estar entre 0 e 1, por fim, j é o ângulo da superfície com a fonte de

luz. A área iluminada é representada pela primeira parte da equação: , a

área de penumbra pela segunda parte: e por fim a umbra pela

última parte da equação: .

Neste trabalho, a umbra e a penumbra foram detectadas de forma unificada sem

esta separação, pois para o sistema não importa muito qual tipo de sombra foi detectada

dado que as duas atrapalham igualmente a detecção correta dos limites do veículo.

Na aplicação deste trabalho, os veículos são os responsáveis pela geração de

sombras no ambiente, pois conforme dito anteriormente, os outros objetos estáticos da

cena têm suas sombras inseridas ao modelo de fundo e não atrapalham as detecções de

etapas posteriores do sistema. Remover corretamente as sombras dos veículos não é

uma tarefa fácil. O algoritmo deve ser capaz de diferenciar em um grupo de pixels em

movimento os pertencentes ao veículo dos da sombra.

Conforme exposto na seção anterior, existem diversas abordagens para tratar a

sombra, uma delas seria utilizar características de cor de cada pixel da cena. Uma

primeira solução, utilizando esta abordagem, seria utilizar essas características baseadas

no espaço de cor HSV, dado que este espaço já é utilizado no algoritmo de Subtração de

Fundo apresentado no capítulo 2 deste trabalho. Inicalmente, durante o estudo apostou-

se muito nessa abordagem e foi reservado um grande esforço para que características do

58

espaço HSV fossem decisivas para o desenvolvimento do algoritmo final de remoção de

sombras.

A literatura é riquíssima em relação a estudos relacionados a remoção se sombras

com algoritmos baseados neste espaço de cor. Assim, foi possível enumerar algumas

características em que estes algoritmos se baseiam:

1. A sombra geralmente transforma a região em que ela está presente em tons

mais escuros, tal fato leva que cada pixel isolado desta região sofra

alterações em sua aparência (Baisheng, et al., 2004).

2. A razão entre os pixels quando iluminados e para os mesmos quando em

sombra é estritamente linear (Rosin, et al., 1995).

3. Nas regiões em sombra ocorre uma suave variação nos canais de saturação

(S) e tonalidade (H), e alta no canal de intensidade (V) em relação a imagem

original sem sombra.

4. No caso de um veículo ou outro objeto qualquer em movimento, ocorre

geralmente grande variação na saturação (S) e tonalidade (H) em relação a

imagem original de fundo.

Figura 15: Histogramas de quatro pixels de uma imagem qualquer para as

componentes H, S e V. (Zhao, et al.)

59

A partir daí foram realizados testes em imagens reais com sombra para observar

como cada componente do espaço HSV se comporta. A Figura 15 ilustra as

propriedades do H, S e V reespectivamente para quatro pixels de uma imagem real

qualquer com as coordenadas (100, 120), (100, 180), (200, 120) e (200, 180). Cada

figura das 12 ilustradas na Figura 15 representa um histograma ao longo de cem

quadros consecutivos de uma seqüência de vídeo estático sem a presença de objetos em

movimento. Cada linha da Figura 15 representa uma componente, exibida na ordem H,

S e V reespectivamente, e cada coluna representa um dos quatro pixels estudados.

Pode-se observar através da figura que a componente V é a mais estável durante o

período de modelagem. Tal característica se assemelha a uma distribuição normal com

um pequeno desvio padrão. H e S se mostraram menos estáveis que a componente V.

Eles variam bastante, são muito dependentes da localização e de condições do ambiente

em que o vídeo é capturado. Diferentemente de V, as componentes H e S não se

assemelham a uma distribuição normal e possuem um alto desvio padrão.

Após os obejtos em movimento entrarem na cena, as condições de iluminação

sofrem alterações. Essas mudanças podem ser pequenas a primeira vista do olho

humano, porém provocam mudanças para H, S e V em diferentes intensidades.

Assumindo o mesmo caso para o espaço de cor HSV um pixel qualquer sofreria essas

mudanças devido a iluminação no acrescimo constante de:

Conforme a transformação de espaços de RGB para HSV, V é igual ao máximo

de R, G e B. Logo, dado a essa dependência V é modificado na proporção de ,

conforme a equação XX.

60

A componente H é proporcional a (X - Y) / (Max - Min), onde X e Y são dois de

R, G e B, Max e Min são os máximos e mínimos de R, G e B. Portanto, H não será

alterado a partir de R, G e B.

Por fim, a componente S é igual a (Max - Min) / Max, ele é alterado em uma

proporção menor que , essa relação é representada pela equação XX.

Obviamente, o uso do espaço HSV apresenta vantagens e desvantagens. E esta

pesquisa levou a seguinte conclusão:

• H, S: A distribuição desses canais podem variar bastante. Eles não se

assemelham a uma distribuição normal e possuem um alto desvio padrão.

Porém, H não sofrem alterações em seu valor devido a iluminação e S

altera somente um pouco. Para os pixels com distribuição estável em H

e/ou S deve ser primeiramente considerado para a subtração de fundo.

Mas, primeiramente, deve-se ter certeza se eles são estáveis ou não. Se não

forem, eles devem ser ignorados

• V: Essa componente é a que apresenta a distribuição mais estável. Ela

usualmente se assemelha a uma distribuição normal com um pequeno

desvio padrão. Porém ela é bastante sensível a alterações na iluminação do

ambiente.

O trabalho mais reverenciado para a detecção e remoção de sombras utilizando

esta abordagem relacionada ao espaço de cores HSV é o proposto por Cucchiara

(Cucchiara, et al., 1996). Em seu trabalho, Cucchiara propõe a equação XX que é

realizada para cada pixel da imagem onde resulta um para o pixel classificado como

sombra e zero caso contrário.

61

A equação XX afirma que o pixel (x,y) é classificado como sombra se ele possuir

as três seguintes características:

1. A proporção da componente V de It(x,y) e Bt(x,y) respeitem o limite

inferior e o superior ;

2. A diferença da componente H é limitada em relação ao limiar ;

3. A diferença da componente S é limitada em relação ao limiar ;

Muitos pesquisadores, como François (François, et al.), Baisheng (Baisheng, et

al., 2004) e Zhao (Zhao, et al.), apostaram na idéia de utilizar o espaço HSV juntamente

com algumas ou todas as características apresentadas acima. François (François, et al.)

obteve resultados satisfatórios, porém seu algoritmo não avalia individualmente cada

componente do espaço HSV, o que gera muito ruído em seu resultado. Baisheng

(Baisheng, et al., 2004) e Zhao (Zhao, et al.) fizeram uma análise mais aprofundada das

propriedades dos componentes do HSV para remover a sombra por pixel da

segmentação de fundo.

62

Figura 16: Resultado da remoção de sombra encontrado por cinco diferentes algoritmos.

Foram implementados estes algoritmos propostos pela literatura para remover as

sombras de seqüências de vídeos de rodovias. A Figura 16 ilustra o resultado

encontrado da remoção de sombra por cinco diferentes algoritmos, sendo que no grupo

das primeiras quatro imagens a sombra é representada pela cor azul e o objeto em

movimento pela cor vermelha. A imagem representada pela sigla “SP” (statistical

parametric) é uma abordagem adotada pelo algoritmo de Mikic (XX12), já a imagem

representada pela sigla “SNP” (statistical nonparametric) tem como exemplo o

algoritmo de Horprasert (XX12) e por fim as imagens representadas pelas siglas

“DNM1” e “DNM2” (deterministic non-model) têm como exemplo o algoritmo de

Cucchiara (XX13) e Stauder (XX14). Na última imagem da Figura 16, a sombra é

representada pela cor cinza, o fundo pela cor preta e os objetos em movimento pela cor

branca. Essa imagem representa o resultado encontrado pelo algoritmo de Cucchiara em

seu trabalho (XX) que é ilustrado pela equação XX.

Como se pode observar em todas essas imagens, os resultados obtidos pelos

algoritmos apresentam muitas regiões de falhas e imperfeições que podem ser

irrelevantes dependendo da aplicação que essa detecção de movimento se destina. No

caso desta dissertação, como tem-se tarefas do sistema que demandam precisão nas

silhuetas, como por exemplo a classificação do tipo de cada veículo, então esses

resultados se mostraram insatisfatórios. Além disso, muitas vezes as regiões de sombra

63

projetadas não foram removidas por completo levando uma detecção de novos objetos

erradamente.

Pensando nesses problemas, buscou-se uma solução fora dessa ideía de classificar

cada pixel da imagem como sombra ou não. A partir de uma nova pesquisa percebeu-se

que uma abordagem que utilizasse também informações gemométricas do veículo e da

pista poderia se obter resultados mais interessantes. A próxima seção anuncia o

algoritmo desenvolvido para detectar e remover sombras de veículos em rodovias e

estradas.

[11] T. Horprasert, D. Harwood, and L.S. Davis, “A Statistical Approach for Real-Time Robust Background Subtraction and Shadow Detection,” Proc. IEEE Int’l Conf. Computer Vision ’99 FRAME-RATE Workshop, 1999. [12] I. Mikic, P. Cosman, G. Kogut, and M.M. Trivedi, “Moving Shadow and Object Detection in Traffic Scenes,” Proc. Int’l Conf. Pattern Recognition, vol. 1, pp. 321-324, Sept. 2000. [13] R. Cucchiara, C. Grana, G. Neri, M. Piccardi, and A. Prati, “The Sakbot System for Moving Object Detection and Tracking,” Video-Based Surveillance Systems—Computer Vision and Distributed Processing, pp. 145-157, 2001. [14] J. Stauder, R. Mech, and J. Ostermann, “Detection of Moving Cast Shadows for Object Segmentation,” IEEE Trans. Multimedia, vol. 1, no. 1, pp. 65-76, Mar. 1999.

64

4.3 Algoritmo proposto

O algoritmo de detecção e remoção de sombras desenvolvido nesta dissertação é

fortemente baseado ao criado por Yoneyama (Yoneyama, et al., 2005), sofrendo apenas

algumas modificações em relação a proposta inicial do autor. Este modelo de sombra

utiliza a abordagem geométrica conforme visto na seção anterior. Diferentemente da

maioria dos algorítmos que seguem esta abordagem encontrados na literatura, a sombra

é modelada no plano 2D segundo a Figura 17 (a). Nesta figura, encontra-se um objeto

no formato de um poste representado pela cor vermelha e sua reespectiva sombra

representada pela cor cinza. A sombra deste objeto é decomposta nas direção de sua

altura e largura. Para o modelo da sombra é utilizado três vetores: sh, sl e sw para

representar a “altura do objeto”, o “comprimento da sombra” e a “largura da sombra”

reespectivamente.

Figura 17: (a) Modelo da sombra; e (b) os seis tipos de sombras projetadas para cada direção de iluminação. Retirado de (Yoneyama, et al., 2005)

Dependendo da iluminação da cena de interesse, a projeção da sombra no plano

2D pode adquirir seis tipos distintos conforme ilustra a Figura 17 (b). As três linhas que

65

orientam esta imagem seguem a mesma orientação de sh, sl e sw, representados no

modelo da sombra.

O modelo da sombra é realizado com base na modelagem MSPA veicular que foi

definida anteriormente no capítulo 4. A Figura 18 exibe os seis possíveis modelos da

sombra para um veículo qualquer detectado. Nesta figura, a caixa externa de cada tipo

representa o MSPA de um veículo (cor amarela) que inclui a sua sombra projetada (cor

cinza) no plano 2D. Já a caixa interna de cada modelo representa o MSPA sem a

sombra. O que claramente diferencia cada um dos seis modelos é forma em que eles são

iluminados. Essa diferença é facilmente perecebida pelo fato de cada um deles possuir

pelo menos um dos seis lados em que sua posição e comprimento não é alterada com a

presença da sombra. Este lado imutável de cada modelo é chamado de sf e está

representado na Figura 18 pela linha vermelha mais grossa do MSPA.

Figura 18: Seis possíveis modelos de sombra. Retirado de (Yoneyama, et al., 2005)

66

Considerando M’ o MSPA de um veículo qualquer, da mesma forma que a

equação XXX da seção 4.2, e M’s o MSPA de um veículo unido a sombra, é possível

disponibilizar ferramentas para a remoção da sombra. A Figura 19 ilustra este

relacionamento para cada tipo entre o modelo M’ (representado pela cor azul) e o

modelo M’s (representado pela cor laranja). A equação XXX demonstra a relação entre

os lados de M’ e M’s.

Onde,

(i) é o lado adjacente a Sf de M’ em ordem ascendente.

(ii) é o lado adjacente a Sf de M’ em ordem descendente.

(iii) é a proporção dos parâmetros do modelo de sombra entre e .

(iv) é a proporção dos parâmetros do modelo de sombra entre e .

Figura 19: Retirado de (Yoneyama, et al., 2005)

67

Para exemplificar a equação XXX, é utilizado o Tipo 0 da Figura 19 como

exemplo. A altura do veículo pode ser definida através de Sf. Caso as proporções e

sejam conhecidas, a largura e o comprimento do veículo poderão ser obtidos através

de e , respectivamente. Esta equação implica que o modelo M’ do

veículo pode ser determinado se:

(1) O tipo do modelo é conhecido;

(2) As proprorções e são conhecidas;

(3) Os parâmetros do modelo MSPA podem ser determinados segundo o método

de subtração de fundo.

Para determinar as afirmações (1) e (2) é preciso exbir as seguintes informações....

O modelo MSPA depende de localizações relativas da fonte de luz, do veículo, e a

câmera como demostrado na Figura 18. A localização de Sf no modelo indica a direção

da fonte de luz no plano 2D da imagem. Utilizando essa informação de que um lado não

possui sombra projetada e nem sombra própria, é possível determinar Sf examinando a

luminância de cada lado do MSPA e encontrando o lado que tenha a maior luminância

média. Esse processo é matematicamente calculado através da equação:

Na equação, N é o número de pixels em e representa o valor da

luminância na posição (x,y) da imagem capturada. Os parâmetros do modelo da sombra

sl, sh e sw poderão ser determinados através do comprimento as sombra. Embora seja

difícil obter a precisão da região de sombra projetada de todos os veículos que passam

ao longo da cena devido a diversas adversidades naturais, é possível diferenciar

bruscamente estas regiões de sombra através de diferenças de luminância. O processo é

exibido na Figura XXX. Assim, as proporções e e os parâmetros da sombra

podem ser determinados.

68

... Desenvolver melhor....

COLOCAR FIGURA DO CALCULO D LUMINANCIA

69


O algoritmo de detecção e remoção de sombras que utiliza a abordagem

geométrica obteve melhores resultados do que a abordagem por pixel apresentada nos

trabalhos relacionados.

Nesta seção é realizado testes comparativos entre o algoritmo da Cucciara (XX) e

o algoritmo desenvolvido neste capítulo. Para tal tarefa foram selecionados cinco vídeos

para gerar uma estatística similar a densnvolvida pelos resultados do capítulo 2.

Da mesma formar que nos resultados da subtração de fundo, foram desenvolvidas

imagens “ground-truth” para cada quadro original do vídeo, separando as sombras

projetadas de todo o resto da imagem. As sombras próprias, ou cast shadows, foram

associadas sempre ao objeto em movimento e portanto nao devem ser identificadas.

70

4.5 Considerações de final de capítulo

Este capítulo mostrou que apesar da grande popularidade dos algoritmos de

detecção e remoção de sombras que utilizam as propriedades do espaço HSV para

realizar esta tarefa, não foi suficiente para resolver todas as tarefas que esta dissertação

se propõem a resolver, podendo comprometer a veracidade de cada uma delas.

Mostrou também que é possível utilizar de informações previamente encontradas

como a modelagem do carro e cada pista da rodovia pode auxiliar na detecção e

remoção de sombras do vídeo.

O algoritmo desenvolvido obteve bons resultados que são ilustrados com mais

detalhes pelo capítulo 7. Porém, a teoria apresentada no ínicio deste trabalho de que

quanto menos genérico o algoritmo for, mas preciso ele será.

71

5 Remoção de Oclusão, cálculo da velocidade e classificação dos veículos

Este capítulo reúne três fundamentais algoritmos para um sistema de vigilância

eletrônica que visa extrair e gerenciar importantes informações das rodovias como a

velocidade média do percurso, detectar excessos de velocidade, definir o tipo de veículo

que mais freqüenta o trecho de interesse da rodovia e contagem de veículos. Para obter

todas essas informações, seria necessário somente o cálculo da velocidade e a

classificação de cada veículo, porém devido a sombras e à angulação da câmera acabam

levando os veículos, nesta aplicação, a serem ocluídos por outros ou por estruturas na

pista e na redondeza da cena.

O atual capítulo apresenta para cada uma dessas três técnicas os trabalhos

relacionados da área e o algorítmo proposto. Assim, será apresentado primeiramente o

estudo para detectar e remover a oclusão, a seguir, para determinar a velocidade de cada

veículo e, por fim, para classificar os veículos de acordo com o seu modelo.

72

5.1 Detecção e remoção de oclusão

A remoção de oclusão é uma etapa fundamental quando há interesse do sistema

em realizar um rastreamento dos veículos em movimento com mais perfeição. Este

rastreamento, conforme será visto no capítulo 7, é encontrado conectando o centro do

contorno do veículo ao longo da seqüência de imagens do vídeo. Logo, qualquer

distorção neste levará a uma mudança artificial na trajetória do objeto. Além disso,

oclusões de veículos geradas por outros pode acarretar nos mesmos problemas que as

sombras, como: distorções na forma e união com outros distintos. Na tentativa de

amenizar esses problemas, principalmente em relação à trajetória, fez-se necessário uma

etapa de remoção de oclusão.

73

5.1.1 Trabalhos Relacionados

Os algoritmos de detecção de oclusão da literatura voltados para a vigilância

eletrônica de veículos foram somente desenvolvidos nos últimos anos, sendo portanto,

uma área de poucas referências. Foram selecionados, para essa seção, os trabalhos de

maior importância que levaram o desenvolvimento do algoritmo de detecção e remoção

de oclusão apresentado nesta dissertação.

Yoneyama (Yoneyama, et al., 2005) utiliza informações gemométricas da pista e

dos veículos, à partir da relação das imagens geradas por múltiplas câmeras

sincronizadas, para realizar a detecção implícita da oclusão. Koller em seus trabalhos

(Koller, et al., 1994) também utiliza uma etapa de detecção de oclusão dependente da

geometria da cena, acrescentando a afirmação de que o movimento ocorre sempre no

plano da rodovia.

Kim (XX) utiliza uma abordagem estatística em um agrupamento de

características linhas através do modelo tridimensional do veículo. Kim foi capaz de ...

Huang (XX) desenvolveu um algoritmo de detecção e segmentação de oclusão

astravés da análise do “Campo de Movimento” das regiões concisas e suas trajetórias.

Para isto, o autor realiza três etapas: estimativa de movimento, transformação do vetor

de movimento e detecção com segregação das regiões oclusivas. A primeira etapa do

algoritmo de Huang é realizada através do método “Block Matching” para descobrir o

vetor de movimento de cada pixel. Este método é utilizado somente para blocos de

textura e a busca é operada sempre em uma determinada direção. A segunda etapa

converte o vetor de movimento tradicional para um espaço não homogêneo para ficar

coerente com a projeção da perspectiva. Por fim, a detecção de oclusão é feita através

de descontinuidades nas trajetórias dos objetos e da análise deste “campo de

movimento” da silhueta.

Koller em seu trabalho (XX) foi capaz de remover a oclusão através da interseção

as regiões de profundidade ordenadas associadas aos objetos através dos seguintes

passos: ordenar os objetos na lista de rastreio através de suas coordenadas y no centro

74

do contorno predefinido, procurar regiões sobrescritas os contornos predefinidos e

decidir no caso deste se o objeto está ocludido ou se o objeto em questão oclui outro. E

Por fim, analisar todos os objetos na lista de rastreio lidando com diferentes casos de

oclusão.

- Punduk (xx)

- Colocar figuras desses metodos?

75

5.1.2 Modelo Proposto

Para detectar e remover a oclusão dos veículos, determinar suas velocidades, ou

até mesmo classificá-los é preciso, neste trabalho, realizar uma etapa comum a todos

esses algoritmos. Essa etapa é a calibração da pista e a sua transformação projetiva. A

maior dificuldade destes algoritmos é justamente a deformação da projeção que a

imagem capturada pela câmera sofre. Ao passo que se analisa a projeção dos veículos

no vídeo, observa-se que há divergência na dimensão destes. Por exemplo, um ônibus

pode ser confundido com um carro próximo se dentro do plano da cena ele estiver longe

da câmera. Além disso, a detecção da velocidade é afetada e a oclusão é mais presente.

Esta etapa comum tem como objetivo resolver este problema, para isso é preciso

encontrar transformações que levam pontos da imagem da rodovia do mundo

tridimensional para a da cena para o plano 2D da imagem.

Muitos pesquisadores da área como Blabla (XX) e Bleble (XX) propuseram

diferentes técnicas para realizar a calibração da pista. A diretiva escolhida para esta

dissertação foi a desenvolvida por Kanhere (XX). Este autor elaborou diversos trabalhos

que necessitaram calibrações eficientes. Em seus primeiros trabalhos (XX), o autor

utilizou uma homografia simples (mapeamento de plano a plano), porém ela é

normalmente insuficiente para segmentar os pixels de cada veículo detectado devido à

ambigüidade na informação de profundidade da cena que utiliza apenas uma câmera.

Essa ambigüidade se dá pelo fato de que um ponto no mundo real e todos os pontos que

pertencem ao raio que atravessam o centro da câmera são projetados como um único

ponto na imagem.

Em seus trabalhos anteriores, Kanhere segmenta todos os pontros de

características em grupos (representados por veículos) através da estimativa de suas

coordenadas do mundo para lidar com as alturas dos veículos, em seu trabalho seguinte

o autor detecta regiões na imagem em que a ambiguidade de profundidade é inexistente.

Caso a base do veículo esteja em contato direto com a pista não existira essa

ambigüidade no mapeamento das coordenadas da imagem para as coordenadas do

mundo utilizando uma homografia simples.

76

O método de calibração é extremamente simples. É necessário apenas informar

quatro pontos da pista, o comprimento, a largura e o número de faixas contida na cena.

Tal informação já foi definida anteriormente no capítulo 4 para realizar a modelagem

dos veículos e é ilustrada pela Figura XXX.

FIGURA CALIBRAÇÃO!!!

A homografia é definida por uma matriz H 3x3 que possui 12 parâmetros e é

convenientemente descrita utilizando coordenadas homogêneas através da equação XX.

Onde P = (x,y,0,w) é um ponto do mundo da cena e P = (u,v,t) um ponto no plano

da imagem (utilizando coordenadas homogêneas). Dado que, neste trabalho, a escala

geral não é relevante, o último elemento da matriz é um, levando a oito parâmetros

necessários para encontrar a homografia H. Cada ponto de calibração leva a duas

equações, logo faz-se necessário quatro pontos não-colineares para encontrar a solução

exata dos oito elementos desconhecidos de H.

O mapeamento entre as coordenadas da imagem e do plano da pista serão

denominados conforme a equação XXX.

Onde P e P’ são coordenadas homogêneas no plano da imagem e no plano da

pista, respectivamente, de um ponto do mundo.

77

Com a homografia calculada é possível, finalmente, realizar a transformação do

plano da cena real para o plano da imagem igual ao resultado ilustrado na Figura xxx

(b).

COLOCAR FIGURA DA CALIBRACAO E HOMOGRAFIA!!

Com essa transformação realizada é possível agora descrever o algoritmo para

detectar e remover a oclusão no sistema. O algoritmo proposto é fortemente baseado no

desenvolvido por Kanhere em seu trabalho (XX). A parte chave deste algoritmo é a

detecção da base frontal de cada veículo, ou como o autor sugere, “Vehicle Base Front”

(VBF).

Para cada imagem de entrada de resultado da subtração de fundo e filtros

morfológicos, é realizado o operador de diferença na direção vertical. Para assim gerar

uma nova imagem segundo a equação:

Onde, B(x,y) é um pixel da nova imagem gerada, F(x,y) é o pixel do quadro atual

da subtração de fundo e F(x,y+1) é pixel do próximo quadro somente na direção

vertical. Logo, os pixels em movimento serão renomeados com valores positivos, e

pixels de fundo com o valor zero. O resultado desta operação é exibido na Figura XX

(c).

Após projetar a imagem base no plano da pista utilizando a matriz H da

homografia (Figura XX), é realizada uma análise dos componentes conexos para

selecionar apenas a parte frontal da região base (por exemplo, o segmento orientado na

direção horizontal). A razão para selecionar somente a base frontal é que os lados

78

laterais da base são mais facilmente ocluídos devido a sombras de veículos adjacentes,

já que a parte frontal do veículo recebe apenas oclusões parciais.

É facilmente notado que algoritmos com abordagens baseadas em regiões e

contornos podem também lidar bem com a detecção e remoções de oclusões somente se

os veículos entrarem na cena não-ocluídos, essas técnicas falham quando o ângulo da

câmera é baixo, fazendo com que múltiplos veículos entrem na cena parcialmente

ocluídos (Figura XX).

FIGURA OCLUSÃO!!

A habilidade dos VBFs de separar os veículos que são detectados como um único

blob é ilustrado na Figura XXX.

FIM?

79

5.1.3 Resultados parciais

Fazer....

80

5.2 Determinação da velocidade

A determinação de velocidade é uma tarefa de grande utilidade dentro do conjunto

de outras apresentadas neste trabalho. Esta informação é obtida de maneira muito

simples e barata, pois apenas com uma câmera e um computador podem ser substituídos

os caros contradores de velocidades eletrônicos existentes.

Além disso, dado que estes radares eletrônicos determinam as velocidades através

de reflexões de ondas ultra-sonoras do veículo, podem tornar esta informação imprecisa

em até 10%. Através de sistemas computadorizados, essa margem de erro seria bem

mais baixa, podendo chegar em valores de menos de 1%.

No caso dos radares de velocidade convencionais, quando um veículo se encontra

acima da velocidade máxima permitida, o sistema dispara uma foto de um ângulo

predeterminado e que muitas vezes pode sofrer com a qualidade, devido a reflexos,

problemas com flash ou oclusão de outros veículos no momento da foto. Já é algo que

não acontece no algoritmo proposto aqui, pois a velocidade é determinada todo o tempo

ao longo da via filmada e dado a ateração o carro irregular pode ser filmado e ai sim um

operador buscar a melhor foto como comprovação de sua infração.

Outra grande vantagem é que estes sistemas computadorizados possuem uma

instalação e a manutenção muito mais simples do que os radares convencionais. Para

qualquer uma dessas tarefas o sistema computadorizado se basta por instalar ou

consertar a câmera. Já no caso dos radares, muitas vezes é preciso realizar uma

manutenção dos sensores que se encontram por baixo da superfície da rodovia, gerando

mais trabalho e transtorno para a execução dessas tarefas.

Por fim, o sistema computadorizado de medição de velocidade proposto neste

trabalho pode ser instalado ao longo de toda a via podendo informar com precisão a

velocidade de cada veículo durante todo o percurso e não somente em pontos isolados.

81

Nas próximas seções são apresentados primeiramente os trabalhos da literatura

com os atuais algoritmos para medição de velocidade e a seguir o algoritmo proposto

neste trabalho.

5.2.1 Trabalhos relacionados

Poucos trabalhos da literatura estimam a velocidade dos veículos do vídeo.

Alguns destes poucos autores que desenvolveram algoritmos para determinar a

velocidade foram citados nos próximos parágrafos desta seção.

Kim (XX) apresenta um modelo tridimensional para representar o veículo e

através um agrupamento probabilístico de características de linha o autor consegue

modelar o comportamento do motorista obtendo informações como aceleração,

desaceleração, velocidade e mudança de pistas.

Zhongzhen (XX) através de conhecidas marcações da pista, chamados pelo autor

de “virtual loops”, que na verdade são as linhas pontilhadas que dividem as faixas da

rodovia, consegue determinar a velocidade de cada veículo da cena. Para isso, o autor

calcula o tempo em que um veículo leva para ultrapassar dois “virtual loops”, e utiliza o

valor das distâncias conhecidas da marcações e do número de quadros durante esse

processo.

Grammatikopoulos (XX) utiliza a geometria da pista e pontos de fuga para que

através da transformação projetiva a velocidade dos carros possa ser estimado. Outro

exemplo que segue esta idéia é o trabalho de Burns (Burns, et al.).

Por fim, o trabalho desenvolvido por Zhu (XX) chamado de VISATRAM, é capaz

de automaticamente monitorrar o tráfego através de uma câmera comum colocada sobre

uma rodovia. O sistema utilize uma vista panorâmica e um plano epipolar para cada

pista da rodovia. Através disso é possível contar o número de veículos e estimar suas

velocidades.

AUTOMATIC ESTIMATION OF VEHICLE SPEED FROM UNCALIBRATED VIDEO SEQUENCES Lazaros Grammatikopoulos, George Karras, Elli Petsa (GR)

82

Fast Vehicle Detection with Probabilistic Feature Grouping and its Application to Vehicle Tracking ZuWhan Kim and Jitendra Malik Computer Science Division University of California at Berkeley, CA, USA Model for Predicting Roadside Concentrations of Traffic Pollutants* YANG Zhongzhen (杨忠振)**, MIAO Guoqiang (苗国强), WANG Lu (王璐) College of Transportation and Logistics, Dalian Maritime University, Dalian 116026, China

Bose, B., Grimson, E., 2003. Ground plane rectification by tracking moving objects. Proceedings of the Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance.

Dual-Stage Robust Vehicle Detection and Tracking for Real-time Traffic Monitoring Jorge Batista, Paulo Peixoto, Catarina Fernandes and Miguel Ribeiro ISR-Institute of Systems and Robotics Department of Electrical Engineering and Computers University of Coimbra, Coimbra, Portugal -Zhu, Zhigang, G. Xu, B. Yang, D. Shi and X. Lin. "VISATRAM: A real-time

vision system for automatic traffic monitoring."

83

5.2.2 Algoritmo desenvolvido

A etapa de determinar a velocidade dos veículos é relativamente simples, ela é

determinada através da tradicional equação de distância sobre o tempo. Porém para

poder realizar esse cálculo é necessário realizar algumas transformações para que o

resultado desta equação esteja correto.

A fins de obter maior precisão do resultado, o cálculo da velocidade é somente

realizado para cada quadro do vídeo em que o veículo rastreado esteja dentro da área

previamente selecionada conforme discutido no capítulo 3. A figura xxx ilustra um

exemplo de uma seleção ilustrada pelas linhas vermelhas.

A idéa para a medição da velocidade é iniciar a contagem de tempo a partir do

momento em que o veículo entra na área de interesse, assim a cada quadro é convertido

o tempo para segundos e a distância do início da seleção para o ponto atual é medida.

Assim, é preciso obter essa informação temporal que o vídeo fornece. Tal

informação é fornecida través de quantos quadros do vídeo se passaram do início da

seleção até o momento em que se deseja determinar a velocidade. Além disso é preciso

84

saber a quantidade de quadros por segundo que o vídeo foi gravado. Logo, através de

uma regra de três simples é possível obter o tempo em que o veículo levou para

percorrer este percurso.

A informação espacial é obtida através da quantidade de pixels da menor distância

em linha reta do entre o veículo e a reta do início da região de interesse. Essa

informação é convertida em metros através da homografia previamente calculada.

Esse processo segue a regra...

A seção seguinte demonstra os resultados obtidos para esse algoritmo.

85

5.2.3 Resultados parciais Fazer...

86

5.3 Classificação

A partir da informação obtida pela modelagem e pela homografia é possível

avaliar as características do veículo e encontrar a sua classificação.

A etapa de classificação tem como objetivo de identificar cada veículo encontrado

de acordo com o seu tipo. Neste trabalho é possível distinguí-los em quatro tipos: moto,

carro, ônibus e caminhão.

Essa tarefa coleciona importantes dados que forcene a capacidade de avaliar a

infra-estrutura e a segurança da rodovia, realocar recursos, engenharia de tráfego, entre

outros.

As próximas seções apresentam os trabalhos relacionados e o algoritmo proposto

para a classificação dos veículos reespectivamente.

87

5.3.1 Trabalhos relacionados

Huang(XX) é capaz, através de seu algoritmo de classifição, identificar sete

diferentes tipos de veículos, estes são: carro, van, pickup, caminhão de pequeno porte,

caminhão de grande porte, ônibus e trailer. Seu algoritmo chamado de “classificação

hierárquica de veículos” extrai três características das silhuetas dos veículos: largura,

razão e proporcionalidade. Através dessas informações e de limiares, o algoritmo é

capaz de realizar a classificação razoavelmente bem.

Kanhere (XX) classifica os veículos somente como carro ou caminhão utilizando

somente as informações de altura e largura da caixa envolvente dos veículos.

88

5.3.2 Algoritmo desenvolvido

89

5.3.3 Resultados parciais

Fazer...

90

5.5 Considerações de final de capítulo

Este capítulo agrupou a exibição de três importântes algoritmos para a coleção de

informações sobre os veículos e seu comportamento na rodovia. São eles: a remoção de

oclusão, o cálculo da velocidade e a classificação dos veículos em relação ao seu tipo.

A remoção de olcusão...

O algoritmo de calculo de velocidade, conforme exposto neste capítulo, se mostou

mais eficiente e barato do que os atuais radares eletrônicos. O algoritmo é bastante

simples e bastante preciso.

A classificação...

A informação que cada um desses algoritmos propõe pode gerar uma riquesa de

dados importântes da rodovia, como:

• Contagem de veículos de acordo com o seu tipo, gerando uma estatística

de quais são os carros mais populares daquela via.

• ...

A partir deste capítulo já é possível ter um grande controle de quase tudo que

acontece na rodovia, só faltando o rastreamento que é apresentando no capítulo

seguinte.

91

6 Rastreamento de Veículos

O processo de rastreamento em vídeo ou “video tracking” é uma área que tem

dispertado muito interesse dos pesquisadores de visão computacional e da indústria de

modo geral. O objetivo deste é localizar um ou mais objetos em movimento no vídeo

capturado pela câmera. Logo, o objetivo de um algoritmo de rastreamento é analisar

cada quadro do vídeo de entrada e retornar a localização dos objetos em movimento

deste quadro.

O rastreamento na área de vigilância eletrônica para veículos tem ganhado toda

esta importância, pois um sistema de posse de um eficiente algoritmo de rastreamento

torna-o mais robusto e confiável. Logo, a habilidade de rastrear e prever o movimento

dos veículos se torna uma tarefa muito importante.

Primeiramente, a presença de ruídos e imperfeições na imagem, bastante comuns

nos vídeos desta área, levam a uma posição final imprecisa. Dadas essas condições, um

filtro se faz necessário para obter uma estimativa suave dos parâmetros do veículo. Em

segundo lugar, as propriedades preditivas do filtro podem ser utilizadas para obter uma

estimativa da pose do próximo quadro baseado na medição dos quadros anteriores. Uma

medição precisa pode simplificar o sistema e reduzir o custo computacional da busca do

objeto de cada módulo, em geral é a precisão do rastreamento que contém o modelo

dinâmico do veículo em movimento.

Como o presente trabalho enfoca somente o rastreamento de veículos em

rodovias, conforme as características discutidas anteriormente no capítulo 3, alguns

desses problemas não estarão presentes ou serão minimizados, que é o caso da troca de

identificadores e casamento errado de trajetórias, respectivamente.

Um grande facilitador do rastreamento de veículos é a posse dos dados

geométricos da pista e do veículo, pois isto limita o rastreamento basicamente a

movimentos aproximadamente paralelos no sentido da pista com exceção para o caso de

eventuais mudanças de pista.

92

Um sistema de rastreamento permitiu a análise de trajetórias ao longo do tempo e

espaço, o que fornece ao sistema novas informações a respeito da cena como:

• Detecção de incidentes;

• Análise do tráfego (lento ou bom);

• Estudo do comportamento do motorista (velocidade, aceleração e

espaçamento);

• Análise do percurso (caminho atravessado pelo motorista);

Através de informações como estas descritas sobre os motoristas e as rodovias

permite que reformulações possam ser feitas na rodovia no sentido de realizar ummnovo

planejamento da rodovia a fim de diminuir taxas de acidentes, alerta imediato de orgãos

responsáveis para socorrer rapidamente vítimas destes acidentes, amenizar

congestionamentos através de um sistema automático para informar o motoristas sobre

as condições de cada via, ou seja, ter como base dados reais e estatísticos para que a

rodovida em análise possa se tornar mais eficiente para os motoristas.

Existem na literatura de visão computacional diferentes algoritmos de

rastreamento de veículos que podem ser classificadas em algumas abordagens distintas.

São elas: rastreamento de modelos tridimensionais, de regiões, de contornos ativos e de

características.

A abordagem de rastreamento a partir de modelos tridimensionais dá ênfase na

recuperação de trajetórias através de modelos de alta precisão para um número reduzido

de veículos. O alto detalhamento destes acaba sendo o maior limitador desta abordagem,

pois não é uma tarefa simples associar modelos com tanta precisão para todos veículos

do vídeo, por limitação de qualidade ou problemas anteriormente discutidos como

sombra e oclusão.

O rastreamento baseado em região tem como objetivo identificar regiões

conectadas na imagem (blobs) associadas a cada veículo que é rastrado ao longo do

tempo utilizando uma medição cruzada-correlacionada. Normalmente inicializado por

algoritmos de subtração de fundo, os veículos são rastreados através da busca pelos

pixels onde a imagem de diferença é acima de limiares pré-definidos. Essa abordagem

funciona razoavelmente bem em cenas de tráfego de velocidade constante. Entretanto,

93

sob condições de congestionamento, onde os veículos parcialmente ocluem outros, leva

a tarefa da segmentação de regiões muito complicada de se realizar.

A abordagem baseada em contornos ativos ou “snakes” tem como idéia central a

representação do contorno envolvente do objeto e mantê-lo atualizado dinamicamente.

Essa abordagem possui um baixo custo computacional, entretanto é bastante susceptível

a oclusões.

Por fim, a última abordagem referenciada é o rastreamento baseado em

característica. Esta abandona a idéia de rastrear os objetos como um todo e no lugar

disso rastrear sub-características do veículo como, por exemplo, pontos ou linhas. A

vantagem desta abordagem é que mesmo com a presença de oclusões parciais, algumas

das características dos objetos em movimento se mantém visíveis. Além disso, o mesmo

algoritmo pode ser usado a princípio para o rastreamento de veículos a luz do dia ou a

noite. Essas caraterísticas podem, no caso da luz do dia, canto de janelas, arestas

laterais, entre outros e no caso da noite feixes de luz. Essa abordagem foi a escolhida

para o desenvolvimento deste trabalho.

Na seção seguinte serão referenciados trabalhos de pesquisadores da área para

cada uma destas abordagens aqui apresentadas.

94

6.1 Trabalhos relacionados

Na área de vigilância eletrônica para veículos existe um número alto de trabalhos

que realizam a etapa de rastreamento. Normalmente, os trabalhos consideram o

rastreamento como o objetivo principal de seus sistemas. Isso se dá ao fato que o

rastreamaneto fornece uma riquesa muito grande de informações importantes da rodovia

conforme discutido na seção anterior.

Alguns trabalhos de rastreamento de veículos serão apresentados a seguir

seguindo a classificação dos algoritmos segundo as abordagens apresentadas

anteriormente.

Na abordagem de rastreamento de modelos tridimensionais pode-se referenciar

Koller (XX) e Baker (XX) que foram os percursores dessa abordagem. Futuramente Bla

(X) e Bla (X) também realizaram seus trabalhos de rastreamento a partir de uma

abordagem tridimensional, conforme apresentado no capítulo 3.

Karmann (XX) e Kilger (XX) utilizaram um modelo de fundo adaptativo baseado

no filtro de Kalman para realizar o rastreamento de veículos baseados em região.

Koller em seus trabalhos (XX) e (XX) utilizou o rastremento baseado em

contornos ativos ou “snakes”.

Coifman (XX) foi capaz de rastrear veículos através de características de cantos

destes, e Achlex (XX) utilizou as rodas a partir de uma câmera lateral....

De um modo geral, todas as abordagens estudadas tiveram sucesso em realizar a

tarefa de rastreamento, porém através do modo de características se saiu relativamente

melhor nos testes realizados desta dissertação e o que levou a ser a abordagem escolhida

neste sistema e será discuitida na seç ão seguinte.

95

6.2 Algoritmo proposto

Após as etapas de segmentação dos veículos do vídeo, modelagem, remoção de

sobras e oclusão, o sistema já é possível rastrear cada veículo ao longo da cena do

vídeo.

O algoritmo proposto utiliza sempre como condição inicial o quadro anterior para

relacionar os veículos rastreados. Intuitivamente, os seguimentos que estiverem mais

próximos dos quadros adjacentes são relacionados. Esses segmentos são os centros dos

VBAs (Ver capítulo 5) de cada veículo e a distância euclidiana é utilizada para medir a

distância esses centros.

Considerando que Vc é o centro da base frontal de um veículo, ela pode ser

encontrada segundo a equação (XX):

,

,

,

Onde, Vp é o número de pixels pertencentes ao VBA do veículo V, e Vxi

representa a coordenada x do i-ésimo pixel do veículo, enquanto Vyi representa a

coordenada y.

Portanto, considerando VcM e VcN o centro do VBA dos consecutivos quadros M

e N, logo a distância euclidiana de um centro a outro é definida como:

96

Posto isto, para cada MTV do quadro M é calculado o ED de cada MTV do

quadro N, segundo a equação (XX), e para a menor distância de um MTV de M para

todos os MTVs de N calculados, será, a princípio , a associação do dado veículo do

quadro M com o V do quadro N. Assim, esse processo é repetido para os MTVs

restantes de M.

A base do processo é essa criada acima, porém foram estipuladas algumas regras

para o rastreamento de veículos nesta dissertação aproveitando as informações

geométricas do veículo calculado nas etapas anteriores. As regras são:

1. Os veículos somente serão rastreados se estiverem na região de interesse da

rodovia.

2. O veículo ao entrar na cena pela 1a vez adquire o status de “novo”.

3. Caso o rastreio do veículo com status de “novo” permaneça com sucesso por

mais de dez quadros consecutivos e ele receberá um novo status de

“rastreando”.

4. Se o rastreio se perder por mais de dez quadros consecutivos a partir de um

tag novo, ou por mais de 30 quadros consecutivos a partir de tag “rastreando”,

o veículo será classificado como eliminado” e retirado da lista de rastreios.

5. A partir do status de rastreando, o veículo recebe um identificador único em

relação a todos os outros e o mantém ao longo da cena.

6. Adimite-se que antes da realização do rastreamento toda e qualquer oclusão já

foi removida.

7. Mudança de pista?

Fluxograma do rastreamaneto....

Filtro de kalman??

O filtro de Kalman é uma ferramenta muito útil em sistemas de rastreamento para

estimar a posição, a velocidade, a aceleração dos obejtos em movimento da sequência

de imagens. Esse filtro funciona bem em muitas aplicações utilizadas buscando trajetos

simples obtendo bons resultados.

97

Figura 20: Fluxograma do algoritmo de rastreamento desenvolvido.

98


Fazer...

99

6.4 Considerações finais do capítulo

Fazer...

100

7 Conclusões

Ao longo dos capítulos anteriores é apresentado diversos algoritmos

Problemas:

1.

2. - Nao faz distincao de objetos alem dos pre-definidos

3. - Nao funciona a noite

101

4.

7.1 Trabalhos futuros

Reconstrucao com camera sintetica 1. Análise do fluxo de veículos, condicao do trafego

2. Noite

102

3.

8

Bibliografia

Azarbayjani A., Wren C. and Pentland A. "Real-Time 3D Tracking of the

human body" [Conference]. - [s.l.] : Proc. IMAGE'COM, 1996.

Baisheng Chen and Yunqui L. "Indoor and Outdoor Detection and Shadow

Suppresion by Exploiting HSV Color Information" [Article] // IEEE Computer

Information Technology. - 2004.

Barron J., Fleet D. and Beauchemin S. "Performance of optical flow

techniques" [Journal]. - [s.l.] : International Journal of Computer Vision, 1994. - pp. 42-

77.

Boult T. E. [et al.] "Into the woods: Visual Surveillance of noncooperative and

camouflaged targets in complex outdoor settings" [Article] // Proceedings of the IEEE. -

2001. - pp. 1382-1402.

Burns M., De Coro C. and Misra A. "Speed Trap" [Report].

Chalidabhongse T. H. [et al.] "A Pertubation Method for Evaluating Background

Subtraction Algotithms" [Journal]. - Nice, France : IEEE International Workshop on

Visual Surveillance and Performance of Tracking and Surveillance (VS-PETS), 2003.

Chen T. P. [et al.] "Computer Vision Analysis: Case Study of Video Surveillance

Systems" [Journal]. - [s.l.] : Intel Technology Journal, 2005.

Chung Y. C., Wang J. M. and Chen S. W. "Progressive Background Images

Generation" [Article] // 15th IPPR Conference on Computer Vision. - 2002.

Cucchiara R. [et al.] "Detecting moving objects, ghosts, and shadows in video

streams" [Article] // IEEE Trans. on Pattern Anal. and Machine Intell.. - 2003. - pp.

1337-1442 : Vol. 25.

103

Cucchiara R. [et al.] "Detecting Objects, Shadows and Ghosts in Video Streams

by Exploiting" [Report]. - Italy : D.S.I. - University of Modena and Reggio Emilia,

1996.

Dell'Acqua F. and Gamba P. "Detection of urban structures in SAR images by

robust fuzzy clustering algorithms: the example of street tracking" [Article] // IEEE

TRansactions on Geoscience and Remote Sensing. - Hsinchu : [s.n.]. - Vol. 39.

Elgammal A. [et al.] "Background and Foreground Modeling Using

Nonparametric Kernel Density Estimation for Visual Surveillance" [Journal]. - [s.l.] :

Proceedings of the IEEE, 2002.

Elgammal A., Harwood D. and Davis LS. "Non-parametric model for

background subtraction" [Article] // European Conference on Computer Vision. -

2000. - pp. 751-767 : Vol. 2.

François Alexandre R. J. and Medioni Gérard G. "Adaptative Color

Background Modeling for Real-Time Segmentation" [Report]. - [s.l.] : Integrated Media

Systems Center, University of Southern California, USA.

Friedman N. and Russel S. "Image Segmentation in video sequences: A

probabilistic approach" [Conference]. - [s.l.] : Thirteenth Conference on Uncertainty in

Artificial Intelligence (UAI), 1997.

Fung G. S. K., Pang G. K. H. and Lai A. H. S. "Effective moving cast shadow

detection for monocular color traffic image sequences" [Article] // Optical

Engineering. - 2002. - 6. - pp. 1425-1440 : Vol. 41.

Giebel J., Gavrila D. M. and Schnurr “A bayesian framework for multi-cue 3d

object tracking” [Article] // Proc. 8th European Conference on Computer Vision. -

2004. - pp. 241–252 : Vol. IV.

Grimson W. E. L. [et al.] "Using adaptative tracking to classify and monitor

activities in a site" [Conference]. - Santa Barbara, CA : CVPR, 1998.

Grossmann E. [et al.] "Offline Generation of High Quality Background

Subtraction Data" [Journal].

104

Hall D. [et al.] "Comparison of target detection algorithms using adaptive

background models" [Conference]. - Beijing : Proc. 2nd Joint IEEE Int. Workshop on

Visual Surveillance and Performance Evaluation of Tracking and Surveillance, (VS-

PETS), 2005. - pp 113-120.

Haritaoglu I., Harwood D. and Davis L. S. "W4: real-time surveillance of

people and their activities" [Article] // IEEE Transactions on Pattern Analysis and

Machine Intelligence. - 2000. - pp. 809-830.

Harville M. "A framework for high-level feedback to adaptive, per-pixel,

mixture-of-gaussian backgound models" [Conference]. - Copenhagen, Denmark :

ECCV, May, 2002. - pp. III: 543.

Heikkila J. and Silven O. "A real-time system for monitoring of cyclists and

pedestrians" [Conference]. - Fort Collins, Colorado : Second IEEE Workshop on Visual

Surveillance, 1999. - pp. 74-81.

Herodotou N., Plataniotis K. N. and Venetsanopolus A. N. "A Color

Segmentation Scheme for Object-Based Video Coding" [Article] // IEEE Symp

Advances in Digital Filtering and Signal Processing. - 1998. - pp. 25-29.

Horn B. K. P. "Robot Vision". - [s.l.] : Massachusetts Institute of Technology,

1986.

Horprasert T. and Haritaoglu I. "Real-time 3D Motion Capture" [Journal]. -

[s.l.] : Proc. Perceptual User Interfaces, 1998. - pp. 87-90.

Hu W. [et al.] "A Survey on Visual Surveillance of Object Motion and

Behaviors". - [s.l.] : IEEE Trans. SMC, 2004. - Vol. 34. - pp. 334-353.

Huerta I. [et al.] "Improving Foreground Detection for Adaptive Background

Segmentation" [Journal]. - 2005.

Indupalli S., Ali A. and Boufama B. "A Novel Clustering-Based Method for

Adaptive Background Segmentation" [Journal]. - [s.l.] : Procedings of the IEEE, 2006.

Javed O., Shafique K. and Shah M. "A hierarchical approach to robust

background subtraction using color and gradient information" [Conference]. - Florida,

USA : MVC, 2002. - pp. 22-27.

105

Jeon B. K., Jang J. H. and Hong K. S. "Road Dectection in Spaceborne SAR

images using a genetic algorithm" [Article] // IEEE Transaction on Geoscience and

Remote Sensig. - 2002. - 22-29 : Vol. 40.

Júnior J. J., Jung C. R. and Musse S. R. "Background Subtraction and Shadow

Detection in Grayscale Video Sequences" [Journal]. - 2005.

Kjeldsen F. "Visual interpretation of hand gestures as a practical" // Phd Thesis. -

[s.l.] : Columbia University, 1997.

Koller D. [et al.] "Towards Robust Automatic Traffic Scene Analysis in Real-

Time" [Journal]. - [s.l.] : In Proc. of the 12th Int’l Conference on Pattern Recognition

(ICPR-94), 1994.

Koller D., Weber J. and Malik J. "Robust Multiple Car Tracking with

Occlusion Reasoning" [Journal]. - [s.l.] : In Proc. Third European Conference on

Computer Vision, 1994.

Kottow D., Koppen M. and Ruiz-del-Solar J. "A Background Maintenance

Model in the Spatial-Range Domain" [Conference]. - Prague, Czech Republic : 2nd

Workshop on Statistical Methods in Video, 2004.

Lee D-S, Hull J. J. and Erol B. "A Bayesian Framework for Gaussian Mixture

Background Modeling" [Article] // IEEE Proc. ICIP. - 2003. - pp 973-979 : Vol. 3.

Leone A., Distante C. and Buccolieri F. "A shadow elimination approach in

video surveillance context" [Article] // Pattern Recognition Letters. - 2006. - 5. - pp.

345-355 : Vol. 27.

Leotta M. J. and Mundy J. L. "Learning Background and Shadow Appearance

with 3-D Vehicle Models" [Journal]. - Providence, RI, USA : Division of Engineering,

Brown University, 2006.

Lepisk A. "The Use of Optic Flow within Background Subtraction". - Stockholm,

Sweden : Numerisk analys och datalogi (NADA), 2005.

Levin G. "Computer Vision for Artists and Designer: Pedagogic Tools and

Techniques for Novice Programmers" [Journal]. - [s.l.] : Carnegie Mellon University,

2004.

106

Lo B. P. L. and Velastin A. S. "Automatic congestion detection system for

underground plataforms" [Article] // Proc. ISIMP. - 2001. - pp. 158-161.

Ma X. and Grimson W. E. L. "Edge-based rich representation for vehicle

classification" [Journal]. - Cambridge, USA : Massachusetts Institute of Technology,

2005.

Martel-Brisson N. and Zaccarin A. "Moving cast shadow detection from a

Gaussian mixture shadow model" [Article] // IEEE Computer Society Conference on

Computer Vision and Patter Recognition. - 2005. - pp. 643-648 : Vol. 2.

Massey M. and Bender W. "Salient stills: Process and Practicei" [Report].

McFarlane N. and Schopfield C. "Segmentation and tracking of piglets in

images" [Article] // Machine Vision and Applications 8(3). - 1995. - pp. 187-193.

McIvor Alan Backgroud subtraction techniques [Report]. - [s.l.] : Proceedings of

Image and Vision Computing, 2000.

McKenna J. S. [et al.] "Tracking Groups of People" [Article] // Computer Vision

and Image Understanding. - 2000. - pp. 42-56 : Vol. 80.

N Otsu A threshold selection method from gray-level histograms [Article] // Proc.

of IEEE Trans. Systems, Man, and Cybernetics. - 1979. - pp. 62-66.

Oliveira R. J. [et al.] "A Video System for Urban Surveillance: Function

Integration and Evaluation" [Conference]. - [s.l.] : International Workshop on Image

Analysis for Multimedia Interactive Systems, 2004.

Piccardi M. "Background Subtraction Techniques: A Review". - [s.l.] : IEEE

Proc. SMC, 2004. - Vol. 4. - pp. 3099-3104.

Pun T "A new method for gray-level picture thresholding using the entropy of the

histogram" [Artigo] // Signal Processing. - 1980. - 2 ed.. - pp. 223-237.

Rosin Paul L. and Ellis T. "Image difference threshold strategies and shadow

detection" [Conference]. - Birmingham : 6th British Machine Vision Conf., 1995. - pp.

347-356.

107

Rother C. and Nagel H.-H. "Analysing the Localisation of Road Vehicles for

Tracking" [Journal]. - Stockholm, Sweden : Royal Institute of Technology (KTH),

2000.

Salvador E., Cavallaro A. and Ebrahimi T. "Cast shadow segmentation using

invariant color features" [Article] // Computer Vision and Image Understanding. -

2004. - pp. 238-259 : Vol. 95.

Schoepflin T. N. and Dailey D. J. "Algorithms for Estimating Mean Vehicle

Speed Using Uncalibrated Traffic Management Cameras" [Journal]. - Seattle,

Washington : University of Washington, 2003.

Seki M., Wada T. F. and Sumi H. K. "Background Subtraction Based on

Cooccurrence of Image Variations" [Conference]. - [s.l.] : Computer Vision and Pattern

Recognition, 2003. - pp. 65-72.

Sminchiescu C. and Telea A. "Human pose estimation from silhouettes. A

consistent approach using distance level sets" [Conference]. - [s.l.] : WSCG

International Conference on Computer Graphics, 2002.

Stauffer C. and Grimson W. E. L. "Adaptative Background Mixture Models for

Real-Time Tracking" [Conference]. - [s.l.] : Proc. IEEE Int'l Conf. on Computer Vision

and Pattern Recognition, 1999. - pp. 246-252.

Szemberg F. and Gattass M. "Acompanhamento de Cenas com Calibração

Automática de Câmeras" [Article] // Dissertação de Doutorado. - 2001. - PUC-RIO.

Tai J. C. and Song K. T. "Background Segmentation and its Application to

Traffic Monitoring Using Modified Histogram" [Journal]. - [s.l.] : IEE, International

Conference of Networking, Sensing & Control, 2004.

Tan T. N. and Baker K. D. “Efficient image gradient based vehicle localization"

[Article] // IEEE Transactions on Image Processing. - 2000. - 8. - pp. 1343–1356, : Vol.

9.

Terzopoulos D. and Szeliski R. “Tracking with kalman snakes” [Journal]. -

[s.l.] : Active Vision, MIT Press, 1992. - pp. 3–20..

108

Toth D. [et al.] "Detection of moving shadows using mean shift clustering and a

significance test" [Article] // IEEE International Conference on Pattern Recognition. -

2004. - pp. 260-263 : Vol. 4.

Toyama K. [et al.] "Wallflower: Principles and practice of background

maintenance" [Conference]. - [s.l.] : Proceedings of IEEE International Conference on

Computer Vision, 1999. - pp. 255-261.

Wai-Sing B. [et al.] "Explicit Contour Model For Vehicle Tracking With

Automatic Hypothesis Validation" [Journal]. - Pokfulam, Hong Kong : Department of

Computer Science, The University of Hong Kong.

Wang H. and Suter D. "A Re-evaluation of Mixture of Gaussian Background

Modeling" [Article] // IEE Proc. ICASSP. - 2005. - 2. - pp. 1017 - 1020 : Vol. 2.

Wang Y., Tan T. and Loe K.-F. "A probabilistic method for foreground and

shadow segmentation" [Article] // IEEE International Conference on Image

Processing. - 2003. - pp. 937-940 : Vol. 3.

Wren C. R. [et al.] "PFinder: real-time tracking of the human body" [Article] //

IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1997. - no. 7, pp.

780-785 : Vol. 19.

Xu D. [et al.] "Cast Shadow detection in video segmentation" [Article] // Pattern

Recognition Letters. - 2005. - pp.91-99 : Vol. 26.

Yang Y. H. and Levinic M. D. "The Background Primal Sketch: An Approach

for tracking moving objects" [Journal]. - [s.l.] : Machine Vision and Applications,

1992. - Vol. 5.

Yoneyama A., Yeh C. H. and Kuo C.-C. J. "Robust Vehicle and Traffic

Information Extraction for Highway Surveillance" [Journal]. - [s.l.] : EURASIP, 2005.

Zhao Ming, Bu Jiajun and Chen Chun "Robust background subtraction in HSV

color space" [Report]. - China : School of Computer Science, Zhejiang University,

Hangzhou.

109

Zhong Y., Jain A. K. and Dubuisson-Jolly M. P. "Object tracking using

deformable templates” [Article] // IEEE Transactions on Pattern Analysis and Machine

Intelligence. - 2000. - pp. 544–549 : Vol. 22.

mauricio azevedo lage ferreira técnicas de visão...

Documents