estimac˘ao das direc˘~ oes de chegada de...
TRANSCRIPT
ESTIMACAO DAS DIRECOES DE CHEGADA DE FONTES
SONORAS VEICULARES USANDO ARRANJO DE
MICROFONES
Gabriela Dantas Rocha
Projeto de Graduacao apresentado ao Curso
de Engenharia Eletronica e de Computacao
da Escola Politecnica, Universidade Federal
do Rio de Janeiro, como parte dos requisitos
necessarios a obtencao do tıtulo de Enge-
nheira.
Orientadora: Mariane Rembold Petraglia
Rio de Janeiro
Marco de 2018
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO
Escola Politecnica - Departamento de Eletronica e de Computacao
Centro de Tecnologia, bloco H, sala H-217, Cidade Universitaria
Rio de Janeiro - RJ CEP 21949-900
Este exemplar e de propriedade da Universidade Federal do Rio de Janeiro, que
podera incluı-lo em base de dados, armazenar em computador, microfilmar ou adotar
qualquer forma de arquivamento.
E permitida a mencao, reproducao parcial ou integral e a transmissao entre bibli-
otecas deste trabalho, sem modificacao de seu texto, em qualquer meio que esteja
ou venha a ser fixado, para pesquisa academica, comentarios e citacoes, desde que
sem finalidade comercial e que seja feita a referencia bibliografica completa.
Os conceitos expressos neste trabalho sao de responsabilidade do(s) autor(es).
iv
AGRADECIMENTO
Agradeco a minha orientadora, Mariane, pela confianca em mim depositada e pela
ajuda no desenvolvimento deste trabalho. E ainda a todos os professores que cruza-
ram o meu caminho ao longo deste curso, nao so por me passarem o conteudo que
sera a base para a minha carreira profissional, mas principalmente por despertarem
em mim a paixao pela Engenharia Eletronica.
Agradeco aos meus colegas da faculdade, pelas licoes de companheirismo e gene-
rosidade que me ensinaram, e pelos momentos de descontracao que tornaram essa
longa caminhada um pouco menos ardua. E tambem a minha famılia e meus amigos,
que me ofereceram refugio durante os momentos mais conturbados e estressantes.
Por ultimo e mais importante, agradeco ao meu pai, pois suas contribuicoes para
a conclusao desta etapa da minha vida sao muito anteriores ao inıcio deste projeto
ou deste curso. Agradeco por sempre incentivar meus estudos e pelo investimento
financeiro realizado em prol da minha educacao. Sou grata tambem pelo respeito as
minhas escolhas pessoais e profissionais e pela compreensao e apoio concedidos nos
momentos difıceis que passei ao longo do curso. E, por fim, agradeco por ser uma
das poucas pessoas que nunca perguntou: “quando voce vai se formar?”. Amo voce.
v
RESUMO
A poluicao sonora e considerada um problema de saude publica pela Organizacao
Mundial da Saude (OMS). A utilizacao de mapas de ruıdo mostra-se ineficiente
na avaliacao das intervencoes em areas urbanas. Uma alternativa para avaliar a
qualidade do ruıdo sonoro ocorre a partir da simulacao do som tridimensional do
local de interesse. Devido a diversidade de fontes sonoras urbanas, principalmente
veiculares, torna-se necessaria a criacao de um banco de dados de sinais para serem
utilizados nos simuladores.
Este trabalho apresenta um sistema composto por um arranjo de microfones,
que registra os dados de audio e os fornece a uma etapa de processamento. Essa,
baseada na diferenca entre o sinal de dois sensores, estima a direcao de chegada
unidimensional do sinal. Quatro metodos sao testados para o processamento do
som. O primeiro se baseia na funcao correlacao cruzada, o segundo se inspira nas
diferencas de tempo interaurais e os dois ultimos utilizam filtros adaptativos. Uma
etapa adicional e introduzida para lidar com a multiplicidade das fontes de ruıdo,
representadas pelos automoveis e seus diferentes elementos.
O sistema proposto consegue, de forma automatica, rastrear a posicao do carro
ao longo do tempo, alem de distinguir e separar as componentes geradas pelas rodas
dianteiras e traseiras. Desse processo e possıvel ainda extrair informacoes sobre a
velocidade do veıculo. Conclui-se que algoritmos baseados na diferenca de atraso
entre o sinal de dois sensores sao capazes de estimar a direcao de chegada de uma
fonte em movimento, dentro de um cenario urbano. A deteccao de multiplas fontes,
no entanto, exige uma etapa adicional de processamento.
Palavras-Chave: AEVD, arranjo de sensores, direcao de chegada, FLMS, GCC,
ITD, processamento de sinais, ruıdo urbano.
vi
ABSTRACT
Noise pollution is considered a public health issue by the World Health Orga-
nization (WHO). Noise map shows to be an inefficient way of evaluating urban
interventions. An alternative for rating environmental noise arises from the 3D
sound simulation of the concerned area. Diversity of urban noise sources, especially
from vehicles, results in the need of creating a signal data base to be used by the
simulator.
A system is introduced consisting of a microphone array, which registers audio
data and feed it to a processing stage that, based on the signal from two sensors,
estimates the unidimensional direction of arrival. Four DOA estimation methods are
tested. The first one is based on cross-correlation function, the second is inspired
by the interaural time difference, and the others use an adaptive filter strategy.
One additional step is introduced to handle the multiple noise sources found in this
environment, represented by cars and its elements.
The proposed system is able to automatically track vehicle position through time
and also distinguishes and isolates the front and rear wheel components. From the
process is still possible to obtain information concerning the vehicle speed. The-
refore, time delay difference based algorithms are able to estimate the direction of
arrival of a single moving source in an urban environment. For multiple source
tracking, though, an extra processing step is required.
Key-words: AEVD, array processing, direction of arrival, environmental noise,
FLMS, GCC, ITD, signal processing.
vii
SIGLAS
DOA - Direction of Arrival
GCC - Generalized Cross-Correlation
IDFT - Inverse Discrete Fourier Transform
LISA - Laboratorio de Instrumentacao e Simulacao Acustica
LMS - Least Mean Square
PHAT - Phase Transform
TDD - Time Delay Difference
UFRJ - Universidade Federal do Rio de Janeiro
viii
Sumario
Lista de Figuras xi
Lista de Tabelas xiii
1 Introducao 1
1.1 Tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.4 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5 Descricao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Estimacao da Direcao de Chegada 4
2.1 Metodo Baseado na Funcao GCC-PHAT . . . . . . . . . . . . . . . . 5
2.2 Metodo Baseado na Diferenca de Tempo Interaural . . . . . . . . . . 8
2.3 Metodos Adaptativos . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 Metodo Baseado na Minimizacao do Erro Quadratico Medio
(LMS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.2 Metodo Baseado na Decomposicao Espectral (AEVD) . . . . . 12
3 Aquisicao e Estudo do Sinal 16
3.1 Medidas Experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2 Curva Teorica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3 Analise do Sinal Acustico . . . . . . . . . . . . . . . . . . . . . . . . . 20
4 Resultados 26
4.1 Separacao de Fontes com Deslocamento Paralelo . . . . . . . . . . . . 32
ix
5 Conclusao 36
6 Trabalhos Futuros 37
Bibliografia 38
x
Lista de Figuras
2.1 Esquema com dois microfones utilizado para a localizacao de fontes
sonoras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Esquema utilizado para detectar a correspondencia de fase entre os
sinais para a frequencia k e janela de tempo m. . . . . . . . . . . . . 9
2.3 Sistema utilizado para a estimacao do TDD composto por um filtro
adaptativo FIR de comprimento L. . . . . . . . . . . . . . . . . . . . 11
2.4 Modelo do sinal que chega aos microfones a esquerda, em linha trace-
jada. Estimador das respostas ao impulso a direita, em linha contınua. 13
3.1 Vista superior do experimento com seus principais componentes. . . . 17
3.2 Vista frontal do arranjo de sensores. O microfone 5 apresentou falhas
durante as gravacoes e seus registros nao foram utilizados na etapa
de estimacao da DOA. . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3 Esquema tridimensional do experimento. Altura h medida entre o
chao e o centro do arranjo de microfones. Distancia l entre a fonte e
um dos microfones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.4 Curva teorica do TDD para uma fonte a 60 km/h. . . . . . . . . . . . 20
3.5 Esquema utilizado para o calculo do comprimento da janela de dados. 21
3.6 Espectrograma do sinal amostrado a 44,1 kHz. . . . . . . . . . . . . . 23
3.7 Estimativa do espectro do sinal amostrado a 44,1 kHz. . . . . . . . . . 23
3.8 Estimativas do espectro para o carro 1. Sinal reamostrado a 16 kHz. . 24
3.9 Estimativas do espectro para a velocidade de 60 km/h. Carros 1 e 2
com cambio automatico (A), e carro 3 com cambio manual (M). Sinal
reamostrado a 16 kHz. . . . . . . . . . . . . . . . . . . . . . . . . . . 25
xi
4.1 Comparacao entre diferentes valores deN . Estimativa da DOA obtida
com o metodo GCC-PHAT para vx = 40 km/h e Fs = 44 100 Hz. . . . 27
4.2 FuncaoRx1x2 calculada com o metodo GCC-PHAT para vx = 60 km/h,
Fs = 44 100 Hz e N = 256. . . . . . . . . . . . . . . . . . . . . . . . . 27
4.3 DOA estimada com o metodo GCC-PHAT para vx = 60 km/h, Fs =
44 100 Hz e N = 256. . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.4 Media na frequencia dos histogramas obtidos com o metodo ITD para
vx = 60 km/h, Fs = 44 100 Hz, N = 512 e α = 0, 9. . . . . . . . . . . . 29
4.5 DOA estimada com o metodo ITD para vx = 60 km/h, Fs = 44 100 Hz,
N = 512 e α = 0, 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.6 Mapeamento dos coeficientes do filtro adaptativo (LMS) para vx =
60 km/h, Fs = 44 100 Hz, N = 256 e µ = 0, 25. . . . . . . . . . . . . . 30
4.7 DOA estimada com filtro adaptativo (LMS) para vx = 60 km/h, Fs =
44 100 Hz, N = 256 e µ = 0, 25. . . . . . . . . . . . . . . . . . . . . . 30
4.8 Mapeamento dos coeficientes do filtro adaptativo (EVD) para vx =
60 km/h, Fs = 44 100 Hz, N = 256 e µ = 0, 25. . . . . . . . . . . . . . 31
4.9 DOA estimada com filtro adaptativo (EVD) para vx = 60 km/h, Fs =
44 100 Hz, N = 256 e µ = 0, 25. . . . . . . . . . . . . . . . . . . . . . 31
4.10 Funcao Rx1x2 e TDD estimado com o metodo GCC-PHAT para vx =
60 km/h, Fs = 44 100 Hz e N = 256. . . . . . . . . . . . . . . . . . . . 32
4.11 Etapas do ajuste de curvas, antes (a) e depois (b) da eliminacao dos
pontos discrepantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.12 Funcao Rx1x2 e TDD estimado com o metodo GCC-PHAT para vx =
60 km/h, Fs = 44 100 Hz e N = 256. . . . . . . . . . . . . . . . . . . . 34
4.13 Estimativa da direcao de chegada obtida com o metodo GCC-PHAT
para Fs = 44 100 Hz e N = 256, seguido da etapa de pos-processamento. 35
xii
Lista de Tabelas
4.1 Coeficientes de ajuste obtidos ao estimar a direcao de chegada. . . . . 34
xiii
Capıtulo 1
Introducao
1.1 Tema
O trabalho aqui apresentado tem como tema a localizacao de fontes sonoras base-
ada na estimacao da direcao de chegada, usualmente chamada de DOA (do ingles,
direction of arrival). A partir do sinal recebido por um arranjo de microfones, do
qual se conhece a geometria, e possıvel estimar o posicionamento da fonte atraves
de diferentes abordagens. Os metodos testados baseiam-se na funcao correlacao
cruzada generalizada com transformada de fase (GCC-PHAT, do ingles Generalized
Cross-Correlation with Phase Transform) [1], nas diferencas de tempo interaurais
(ITD, do ingles Interaural Time Differences) [2] e em filtros adaptativos [3] para
chegar a uma estimativa robusta da DOA.
Os metodos sao aplicados em trechos de sinais sonoros, gravados com o auxılio de
um arranjo de microfones em um cenario urbano. Portanto, o audio captado reflete
as caracterısticas do ruıdo sonoro observado nas cidades, sendo formado principal-
mente pelo som dos veıculos motorizados que compoem o transito do local.
1.2 Motivacao
O ruıdo urbano representa um fator importante na avaliacao do conforto e da
qualidade de vida em um cidade, alem de ser considerado pela Organizacao Mundial
da Saude (OMS) um problema de saude publica [4]. Para entender o efeito do
1
ruıdo nos indivıduos de uma sociedade, e necessario um estudo de aspectos tecnicos
e psicoacusticos [5] que buscam quantificar esse fenomeno, com a avaliacao final
geralmente feita atraves da analise de mapas acusticos [6]. Mas a caracterizacao
fornecida por esses mapas nao e suficiente para expressar a real impressao sonora do
ambiente, alem de ser de difıcil compreensao para a populacao em geral, incluindo os
setores responsaveis pela tomada de decisoes relacionadas as intervencoes urbanas e
seus impactos.
E desejavel entao o desenvolvimento de uma ferramenta de realidade virtual
acustica capaz de simular e reproduzir o som tridimensional que seria ouvido em
um determinado local da cidade. Assim, os orgaos competentes e a sociedade em
geral podem ter acesso a um parametro realista para a avaliacao do ruıdo.
Contudo, o desenvolvimento do sistema de audibilizacao, termo usado para o
processo de geracao do som tridimensional, e desafiador. Para que o resultado
seja realista, os modelos de propagacao do som utilizados devem incluir toda a
complexidade encontrada nos cenarios urbanos e, alem disso, a caracterizacao das
fontes sonoras e fundamental para gerar os sons utilizados na simulacao.
O escopo desde trabalho e caracterizar as fontes de ruıdo urbano. Os veıculos re-
presentam a principal fonte de ruıdo nas cidades e apresentam uma grande variedade
em suas formas de fabricacao, uso e manutencao. Alem disso, o som emitido por
cada veıculo possui uma contribuicao dos seus varios componentes: o som do rola-
mento dos pneus, do ronco do motor, do escapamento, entre outros. O ruıdo gerado
por cada componente apresenta caracterısticas diferentes, que devem ser observadas
a fim de gerar, atraves da simulacao, o som que seria realmente percebido.
1.3 Objetivo
Este trabalho tem como objetivo o estudo e a implementacao de quatro metodos
de localizacao de fontes acusticas para estimar a direcao de chegada de fontes sonoras
veiculares. Alem disso, deseja-se estudar as caracterısticas espectrais dos sinais de
audio registrados com o auxılio de um arranjo de microfones.
2
1.4 Metodologia
Para a utilizacao dos metodos de estimacao da DOA na aplicacao desejada, e
necessario um conjunto de dados que representem o ruıdo sonoro de uma cidade.
Com auxılio do equipamento cedido pelo Laboratorio de Instrumentacao e Simulacao
Acustica (LISA) da UFRJ e tendo como cenario a Cidade Universitaria, localizada
no Rio de Janeiro, os audios utilizados ao longo deste trabalho foram registrados.
A partir desses audios, e encontrada uma estimativa para a diferenca de atraso
∆t entre os sinais incidentes em dois microfones do arranjo. Em seguida, o angulo
φ correspondente ao posicionamento da fonte pode ser encontrado.
A implementacao dos metodos segue os procedimentos descritos em [7], assim
como os algoritmos desenvolvidos no software MATLAB sao baseados nos codigos
disponibilizados por esse autor. As devidas modificacoes sao realizadas para servir
a aplicacao deste trabalho.
Visando obter um parametro de avaliacao para a estimativa da direcao de che-
gada, foi derivada uma curva teorica para cada fonte sonora baseada na geometria
do problema. As medidas necessarias para o calculo da curva foram efetuadas no
dia e local da gravacao dos audios. Os resultados obtidos com a implementacao dos
metodos estudados sao entao exibidos em graficos gerados no MATLAB e compara-
dos com os valores teoricos calculados.
1.5 Descricao
No Capıtulo 2 sao apresentadas as tecnicas utilizadas para a estimacao da direcao
de chegada. O Capıtulo 3 apresenta um estudo acerca dos sinais de audio dis-
ponıveis e da forma como foram obtidos. No Capıtulo 4 encontram-se os resultados
alcancados com a implementacao dos algoritmos descritos no Capıtulo 2. Por fim, o
Capıtulo 5 apresenta as conclusoes resultantes do trabalho, alem de propostas para
a sua continuidade e aperfeicoamento.
3
Capıtulo 2
Estimacao da Direcao de Chegada
Neste capıtulo sao apresentadas as estrategias empregadas para a localizacao uni-
dimensional de fontes sonoras, utilizando os sinais obtidos por um arranjo linear de
dois microfones e metodos computacionais para o calculo da diferenca de atraso,
TDD (do ingles, Time Delay Difference), entre eles. Dado o esquema ilustrado na
Figura 2.1 e sob a hipotese de um modelo ideal de propagacao do som em ondas
planas, o angulo φ, que indica a direcao da fonte em relacao a linha definida pelos
microfones, pode ser obtido a partir da relacao
φ = arccos(vsτ0
d
), (2.1)
com vs sendo a velocidade de propagacao do som, d a distancia entre os microfones
e τ0 a diferenca de atraso entre os sinais dos dois microfones.
0
Fonte
τ0
d
φ
Figura 2.1: Esquema com dois microfones utilizado para a localizacao de fontes
sonoras.
4
Sao apresentadas quatro abordagens para a estimativa do TDD. O primeiro metodo,
GCC-PHAT (Generalized Cross-Correlation with Phase Transform), e um dos mais
explorados em aplicacoes de localizacao de fontes, utilizando a funcao correlacao
cruzada para tal. Em seguida e apresentado o metodo ITD (Interaural Time Diffe-
rence), inspirado na habilidade humana de localizacao sonora a partir da diferenca de
tempo entre a chegada do som em cada ouvido. Por fim, sao descritos dois metodos
utilizando filtros adaptativos, implementados atraves dos algoritmos FLMS (Fast
Block Least Mean Squares) e AEVD (Adaptive Eigenvalue Decomposition).
2.1 Metodo Baseado na Funcao GCC-PHAT
O metodo da correlacao cruzada apresentado aqui e capaz de estimar a diferenca
de atraso entre os sinais de dois sensores baseado no valor maximo da correlacao
entre eles. Utilizando o esquema ilustrado na Figura 2.1, os sinais nos microfones
sao modelados como
x1(t) = s(t) + v1(t)
x2(t) = s(t− τ0) + v2(t), (2.2)
onde s(t) e o sinal emitido pela fonte e v1(t) e v2(t) representam as componentes do
ruıdo.
A representacao discreta dos sinais facilita o desenvolvimento do algoritmo, e e
obtida atraves da amostragem do sinal analogico (Eq. (2.2)) em intervalos iguais a
T , resultando em
x1(nT ) = s(nT ) + v1(nT )
x2(nT ) = s(T (n− τ0/T )) + v2(nT ). (2.3)
Em seguida, aplicando a transforma de Fourier na Eq. (2.3)
X1(ejΩ) = S(ejΩ) + V1(ejΩ)
X2(ejΩ) = S(ejΩ)e−jΩτ0T + V2(ejΩ). (2.4)
5
Supondo que os ruıdos v1(nT ) e v2(nT ) sao processos descorrelacionados e de
media zero, o espectro de potencia cruzado e dado por
Sx1x2(Ω) = EX1(ejΩ)X∗2 (ejΩ)
= Sss(Ω)ejΩ
τ0T , (2.5)
onde E . representa o operador media estatıstica e Sss(Ω) e o espectro de potencia
do sinal da fonte s(n).
A partir de Sx1x2(Ω) pode-se entao calcular a funcao correlacao cruzada generali-
zada, Rx1x2(n):
Rx1x2(n) =1
2π
π∫−π
ψ12(ejΩ)Sx1x2(Ω)ejΩndΩ, (2.6)
onde a funcao peso ψ12(ejΩ) e utilizada. Repare que se ψ12(ejΩ) = 1 na Eq. (2.6), a
funcao obtida e a correlacao cruzada classica entre o sinal dos microfones.
A funcao peso e utilizada com o objetivo de criar um pico dominante na funcao
GCC, facilitando a busca pelo seu ponto maximo. Para que cumpra com o objetivo
de concentrar a energia de Rx1x2(n) em uma faixa estreita, a funcao peso deve
atuar como um filtro branqueador [8], gerando um espectro de potencia plano. Na
implementacao deste trabalho, a funcao utilizada
ψ12(ejΩ) =1
|Sx1x2(Ω)|, (2.7)
resulta no algoritmo denominado GCC-PHAT.
Para calcular o valor exato da funcao GCC, como na Eq. (2.6), seria necessario
o conhecimento dos processos aleatorios representados pelos sinais dos microfones
x1(n) e x2(n) para infinitas realizacoes, e ao longo de todo o tempo. Dadas as
limitacoes da posse de apenas uma realizacao e da nao estacionariedade dos processos
como um todo, o operador valor esperado na Eq. (2.5) e substituıdo pela media
temporal, ao ser utilizada a hipotese de ergodicidade. Alem disso, a media temporal
e realizada ao longo de intervalos curtos de tempo, nos quais o sinal e considerado
estacionario. Na pratica, aplica-se um janelamento ao sinal no tempo atraves de uma
janela w(n) do tipo Hamming, de comprimentoN . Duas janelas subsequentes podem
ainda apresentar uma sobreposicao de N −M amostras, onde M e a quantidade
6
de avanco, em numero de amostras, entre duas janelas. A DFT dos sinais apos a
aplicacao de w(n) e dada por
Xi(m, k) =N−1∑n=0
xi(mM + n)w(n)e−j2πNnk, (2.8)
onde i = 1, 2 indica os sinais dos microfones 1 e 2, m = 0, 1, 2, ... e o ındice da janela
e k = 0, 1, ..., N−1 o ındice da frequencia. A partir do sinal janelado, a estimativa do
espectro de potencia e calculada, utilizando uma ponderacao exponencial de dados
passados,
Sx1x2(m, k) = αSx1x2(m− 1, k) + (1− α)X1(m, k)X∗2 (m, k), (2.9)
com α = 0.8 na implementacao deste trabalho.
Aplicando a transformada inversa de Fourier (IDFT) na Eq. (2.9), chega-se a
uma estimativa para a funcao GCC-PHAT:
Rx1x2(m,n) =1
N
N−1∑k=0
Sx1x2(m, k)∣∣∣Sx1x2(m, k)∣∣∣ej 2πN nk, n = 0, 1, ..., N − 1. (2.10)
Finalmente, a partir de Rx1x2(m,n) o atraso entre os sinais dos dois microfones
pode ser calculado para cada janela m
τ0m
T≈ n0m = arg max
nRx1x2(m,n). (2.11)
A busca pelo maximo nao precisa ser feita exaustivamente ao longo de todos os
possıveis valores de n ∈ [0, N − 1], ja que o valor maximo para o atraso e limitado
fisicamente pela distancia entre os microfones (τ0max = d/vs). Alem disso, o valor
para n0 encontrado pela busca so representa com exatidao o atraso τ0 se este for
multiplo do perıodo de amostragem T . Para tratar dos casos em que o atraso e
fracionario, uma interpolacao de Rx1x2(m,n) deve ser realizada antes da aplicacao
da IDFT. Essa operacao e implementada atraves da extensao do sinal utilizando
a tecnica zero padding, que consiste na inclusao de zeros ao fim do sinal. Assim,
a transformada inversa e feita com mais pontos, resultando no sinal Rx1x2(m,n)
interpolado.
7
2.2 Metodo Baseado na Diferenca de Tempo In-
teraural
O sistema de audicao humano, assim como em outros animais, deve parte da sua
eficiencia na comunicacao a habilidade em processar o som que chega aos dois ouvi-
dos, conseguindo localizar o posicionamento de fontes mesmo em ambientes ruidosos
e reverberantes. Baseado entao na utilizacao da diferenca de tempo interaural (entre
os dois ouvidos) nos seres vivos, o metodo ITD utiliza a diferenca de tempo entre
dois microfones para estimar o TDD.
O algoritmo se inicia com a geracao do conjunto de todos os possıveis atrasos entre
os dois microfones, para uma dada resolucao, que sejam relevantes para a estimacao
do angulo azimutal φ. Dentro desse conjunto, e feita uma busca pelo atraso otimo
no sentido de gerar a melhor correspondencia entre os sinais dos dois microfones.
O angulo φ ∈ [0, π] e dividido em um numero ımpar I de setores igualmente
espacados, com cada setor correspondendo a um valor para o TDD. Usando como
referencia o esquema da Figura 2.1, os atrasos gerados sao
τi =d
2vssin
(i− 1
I − 1π − π
2
), i = 1, 2, ..., I, (2.12)
onde d e a distancia entre os microfones e vs e a velocidade de propagacao do som.
No domınio da frequencia, os atrasos correspondem aos desvios de fase
pk(i) = e−j2πNkfsτi , k = 0, 1, ...,
N
2, i = 1, 2, ..., I, (2.13)
com frequencia de amostragem fs = 1/T e τi como definido na Eq. (2.12). Os
componentes de fase sao entao multiplicados pela DFT dos sinais dos microfones,
X1(m, k) e X2(m, k), calculada como na Eq. (2.8), para cada janela de ındice m do
sinal. Por fim, o atraso e estimado a partir das comparacoes indicadas na Figura
2.2.
Como ilustrado, a comparacao e feita para cada par alinhado verticalmente, co-
brindo todos os possıveis atrasos entre os dois sinais. O bloco detector de coin-
8
Detector de Coincidencias
X1(m, k)
X2(m, k)
pk(1) pk(2) pk(I+1
2) pk(I − 1) pk(I)
pk(I) pk(I − 1) pk(I+1
2) pk(2) pk(1)
Figura 2.2: Esquema utilizado para detectar a correspondencia de fase entre os sinais
para a frequencia k e janela de tempo m.
cidencias da Figura 2.2 utiliza a regra de comparacao
∆i(m, k) = |pk(i)X1(m, k)− pk(I − i− 1)X2(m, k)|2, i = 1, 2, ..., I (2.14)
iotm(m, k) = arg mini
∆i(m, k), k = 0, 1, ...,N
2(2.15)
para encontrar, a cada janela m, o ındice iotm(m, k) que, ao ser substituıdo na Eq.
(2.12) no lugar do ındice i, resulta no atraso otimo τotm.
Para gerar melhores estimativas para o TDD entre os sinais dos microfones, e
utilizada uma estrategia de avaliacao da media de histogramas. E construıdo um
histograma Pk(τi,m) que contem a quantidade de deteccoes dos atrasos τi para
cada componente de frequencia k. A media do histograma e calculada utilizando
informacao do trecho m atual e de trechos anteriores do sinal, ponderados pelo fator
de esquecimento α, como indicado:
Pk(τi,m) = αPk(τi,m− 1) + δ(i− iotm(m, k)),
i = 1, 2, ..., I
k = 0, 1, ...,N
2
m = 0, 1, 2, ...
, (2.16)
onde δ(.) e a funcao impulso unitario1 e τi e o conjunto de atrasos definido na Eq.
(2.12). O fator de esquecimento α e escolhido entre 0, 85 e 0, 9.
1δ(.) vale 1 quando seu argumento e nulo e vale 0 para todos os outros valores do argumento.
9
Alem disso, os histogramas calculados como indicado na Eq. (2.16) sofrem com o
efeito do aliasing espacial, que gera uma ambiguidade na fase para frequencias acima
de fmax = vs/d. Para contornar esse efeito, os valores Pk(τi,m) do histograma sao
somados ao longo de todas as frequencias, para cada τi. O valor otimo para o atraso
e entao encontrado atraves da relacao
τopt(m) = arg maxτi
N2∑
k=0
Pk(τi,m). (2.17)
O metodo ITD apresenta a vantagem de nao demandar uma interpolacao do sinal,
ja que a busca pelo atraso otimo e realizada no domınio da frequencia. Por outro
lado, muitas execucoes de algoritmos de busca sao necessarias ate chegar a uma
estimativa para o atraso de fase.
2.3 Metodos Adaptativos
Os metodos apresentados anteriormente sao desenvolvidos assumindo-se um mo-
delo ideal para a propagacao de ondas. Esta secao parte para uma abordagem
mais realista, recorrendo a utilizacao de filtros adaptativos de comprimento finito
(FIR) para modelar o canal entre a fonte e os microfones. Dentro dessa estrategia
adaptativa, dois algoritmos sao propostos para chegar a uma estimativa da DOA.
2.3.1 Metodo Baseado na Minimizacao do Erro Quadratico
Medio (LMS)
O primeiro sistema, esquematizado na Figura 2.3, utiliza o algoritmo LMS (Least
Mean Square) para atualizar os coeficientes do filtro adaptativo. Ou seja, uma
estimativa para o TDD e encontrada atraves da minimizacao do erro quadratico
medio, medido entre o sinal de um microfone, utilizado como referencia, e a saıda
do filtro adaptativo.
Seja L o comprimento do filtro, e os vetores que indicam sua entrada, x2(n), e
seus coeficientes, w(n), definidos como
x2(n) = [x2(n) x2(n− 1) · · · x2(n− L+ 1)]T (2.18)
10
Atraso
∆
Filtro
Adaptativo
Detector
de
Pico
x1(n)
x2(n)
x1(n−∆)
+
−
w(n)
e(n)
τ(n)
Figura 2.3: Sistema utilizado para a estimacao do TDD composto por um filtro
adaptativo FIR de comprimento L.
w(n) = [w0(n) w1(n) · · ·wL−1(n)]T . (2.19)
Assim, o erro de estimacao pode ser calculado atraves da relacao
e(n) = x1(n−∆)−wT (n)x2(n), (2.20)
onde o atraso ∆ =⌊L−1
2
⌋e inserido no sinal de referencia para compensar o atraso
gerado pelo filtro.
A atualizacao dos coeficientes e feita atraves do algoritmo LMS normalizado, ou
seja:
w(n+ 1) = w(n) +µ
‖x2(n)‖2 e(n)x2(n), (2.21)
onde µ e o passo de adaptacao. Para a implementacao no domınio da frequencia
utilizada neste trabalho, as amostras dos sinais sao agrupadas em blocos de com-
primento N = 2L e os coeficientes do filtro sao mantidos constantes enquanto um
mesmo bloco e processado. Entao, para cada bloco indexado por m, os coeficientes
sao atualizados segundo a implementacao rapida do metodo LMS, conhecida como
FLMS (do ingles Fast Least Mean Square) [9], que pode ser resumida atraves das
equacoes:
X2(m, k) =N−1∑n=0
x2(mL+ n)e−j2πNnk, k = 0, 1, ..., N − 1 (2.22)
11
y(m,n) =1
N
N−1∑k=0
W (m, k)X2(m, k)ej2πNnk, n = 0, 1, ..., N − 1 (2.23)
e(m,n) =
0, n = 0, 1, ..., L− 1
x1(mL+ n−∆)− y(m,n), n = L,L+ 1, ..., N − 1
(2.24)
E(m, k) =N−1∑n=0
e(m,n)e−j2πNnk, k = 0, 1, ..., N − 1 (2.25)
Sx2x2(m, k) = αSx2x2(m− 1, k) + (1− α)|X2(m, k)|2, k = 0, 1, ..., N − 1 (2.26)
W (m+ 1, k) = W (m, k) +µ
Sx2x2(m, k) + εX∗2 (m, k)E(m, k),
k = 0, 1, ..., N − 1. (2.27)
A filtragem do sinal x2(n) e implementada utilizando o metodo overlap-save, com o
numero de amostras sobrepostas em cada bloco igual ao comprimento L do filtro, e
com as transformadas DFT e IDFT de tamanho N .
Idealmente, o vetor de coeficientes otimos w(n) encontrado pelo algoritmo seria
formado por zeros, exceto pela amostra correspondente ao atraso τ0 entre os sinais.
Na pratica, devido ao modelo de comprimento finito usado para a resposta ao im-
pulso do canal, e necessaria uma etapa de interpolacao antes da busca realizada no
bloco Detector de Pico (ver Figura 2.3).
Apos a interpolacao, chega-se finalmente a estimativa τ(n) para o TDD, atraves da
busca pelo valor maximo do vetor de coeficientes. Assim como no algoritmo GCC-
PHAT (Secao 2.1), essa busca nao precisa ser realizada exaustivamente, ficando
restrita apenas aos valores possıveis para o atraso.
2.3.2 Metodo Baseado na Decomposicao Espectral (AEVD)
O segundo sistema adaptativo utilizado busca estimar a resposta ao impulso do
canal presente entre a fonte e os microfones, atraves da decomposicao espectral da
matriz correlacao.
12
h1(n)
h2(n)
h2(n)
h1(n)
s(n)
x1(n)
x2(n)
e(n) ≡ 0+
−
Figura 2.4: Modelo do sinal que chega aos microfones a esquerda, em linha tracejada.
Estimador das respostas ao impulso a direita, em linha contınua.
Assume-se que as respostas ao impulso do canal formado entre a fonte e os dois
microfones, denominadas h1(n) e h2(n), representam sistemas lineares e invariantes
no tempo. Assim, o sinal que chega aos microfones e modelado como indicado na
parte tracejada da Figura 2.4. A estimacao das respostas ao impulso, representada
em linha contınua na mesma figura, e feita baseada na seguinte relacao:
x1(n) ∗ h2(n) = h1(n) ∗ s(n) ∗ h2(n) = h1(n) ∗ x2(n), (2.28)
onde as propriedades associativa e comutativa da convolucao linear foram utilizadas.
Assumindo ainda que as respostas ao impulso h1(n) e h2(n) podem ser aproxi-
madas por filtros FIR de comprimento L, os dados do problema sao agrupados nos
vetores de dimensao L× 1
xi =
xi(n)
xi(n− 1)...
xi(n− L+ 1)
e hi =
hi(0)
hi(1)...
hi(L− 1)
, (2.29)
i = 1, 2. Alem disso, definindo os vetores de dimensao estendida 2L× 1
x(n) =
xT1 (n)
xT2 (n)
, u =
hT2
−hT1
, (2.30)
e partindo da Eq. (2.28), percebe-se que
xT1 (n)h2(n)− xT2 (n)h1(n) = 0 (2.31)
13
e
xT (n)u = 0. (2.32)
Multiplicando a Eq. (2.32) pela esquerda por x(n) e aplicando o operador valor
esperado, a matriz das covariancias Rxx(n) = Ex(n)xT (n)
pode ser identificada,
levando a relacao
Rxx(n)u = 0. (2.33)
A Eq. (2.33) indica que u e o autovetor da matriz Rxx(n) correspondente ao
autovalor 0. Portanto, a busca pelo vetor u, que permite encontrar h1(n) e h2(n),
passa a ser uma busca por um autovetor da matriz das covariancias.
Como demonstrado em [3], o vetor u pode ser encontrando atraves de uma mini-
mizacao da funcao uTRxxu sujeita a restricao uTu = 1. Dado o objetivo de estimar
o atraso entre os dois microfones, nao ha a necessidade de encontrar a forma real de
h1(n) e h2(n), bastando buscar o pico negativo de u(n), que corresponde ao valor
maximo de h1(n).
A estrutura do algoritmo AEVD implementado no domınio da frequencia e seme-
lhante a estrutura apresentada para o FLMS (Eqs. (2.22) - (2.27)), como pode ser
observado atraves das equacoes correspondentes:
Xi(m, k) =N−1∑n=0
xi(mL+ n)e−j2πNnk, i = 1, 2, k = 0, 1, ..., N − 1 (2.34)
e(m,n) =1
N
N−1∑k=0
[U1(m, k)X1(m, k) + U2(m, k)X2(m, k)] ej2πNnk,
n = 0, 1, ..., N − 1 (2.35)
e(m,n) =
0, n = 0, 1, ..., L− 1
e(m,n), n = L,L+ 1, ..., N − 1
(2.36)
E(m, k) =N−1∑n=0
e(m,n)e−j2πNnk, k = 0, 1, ..., N − 1 (2.37)
14
Sxixi(m, k) = αSxixi(m− 1, k) + (1− α)|Xi(m, k)|2,
i = 1, 2, k = 0, 1, ..., N − 1 (2.38)
Ui(m+ 1, k) = Ui(m, k)− µ
Sxixi(m, k) + εX∗i (m, k)E(m, k),
i = 1, 2, k = 0, 1, ..., N − 1. (2.39)
Os filtros possuem resposta ao impulso de tamanho L e as transformadas DFT/IDFT
sao implementadas com comprimento N = 2L. Assim como no algoritmo FLMS, a
interpolacao dos coeficientes do filtro resultante (no domınio do tempo) e necessaria
para se obter estimativas precisas da diferenca dos tempos de chegada do sinal aos
microfones.
15
Capıtulo 3
Aquisicao e Estudo do Sinal
Os metodos apresentados no Capıtulo 2 podem ser empregados para estimar a
direcao de chegada de fontes acusticas em diferentes aplicacoes, desde que tomado o
devido cuidado na escolha dos parametros fornecidos aos algoritmos, como o tama-
nho das janelas de dados e a frequencia de amostragem. O presente capıtulo trata
das particularidades do cenario de interesse deste trabalho, descrevendo os dados de
audio disponıveis e como eles foram obtidos.
3.1 Medidas Experimentais
As cidades e suas fontes de ruıdo sao o foco deste estudo, por isso o cenario
das medicoes experimentais foi escolhido em uma area urbana da cidade do Rio de
Janeiro. O experimento proposto, ilustrado na Figura 3.1, consiste em um conjunto
de microfones que, de uma posicao fixa, registra o ruıdo gerado pela passagem de
veıculos em uma via urbana. A velocidade dos automoveis foi mantida constante
durante uma mesma realizacao do experimento, sendo a trajetoria percorrida por eles
uma reta paralela ao plano dos microfones. Cabe ainda destacar que os experimentos
foram realizados em um dia de pouco movimento no transito, resultando em um nıvel
reduzido de ruıdo ambiente.
Dispondo de cinco microfones, escolheu-se a configuracao em forma de cruz ilus-
trada na Figura 3.2. O arranjo foi ainda colocado sobre um suporte, erguendo seu
centro a um distancia de 1,26 m do chao. A estrutura dos sensores equivale a uti-
16
Microfones
Figura 3.1: Vista superior do experimento com seus principais componentes.
lizacao de dois arranjos lineares, perpendiculares entre si, sendo cada um capaz de
resolver a direcao de chegada em uma dimensao. Ou seja, a configuracao na forma
de cruz foi escolhida com o intuito de estimar a DOA bidimensionalmente.
3 2 1
5
4
0,2 m 0,2 m
0,2 m
0,2 m
Figura 3.2: Vista frontal do arranjo de sensores. O microfone 5 apresentou falhas
durante as gravacoes e seus registros nao foram utilizados na etapa de estimacao da
DOA.
O experimento foi realizado para tres diferentes modelos de automoveis, que em
cada teste passavam pelo arranjo com velocidade constante de 30, 40, 50, 60 ou
70 km/h. O objetivo dessas variacoes e a geracao de uma base de dados mais repre-
sentativa das fontes de ruıdo presentes no ambiente de estudo, e que permita uma
analise acerca da influencia dos fatores que foram variados sobre o ruıdo gerado.
O som foi captado por meio de cinco microfones do modelo Behringer ECM8000
e com o auxılio da interface de audio Scarlett 18i20. O registro digital do audio
17
foi efetuado atraves da versao de teste do software Mixcraft 8, com uma frequencia
de amostragem de Fs = 44 100 Hz. O processamento dos sinais foi realizado com o
software MATLAB.
3.2 Curva Teorica
Dispondo dos dados registrados experimentalmente, e possıvel prever o comporta-
mento da curva que descreve a direcao de chegada do sinal ao conjunto de sensores.
Para isso, calcula-se a diferenca entre o caminho percorrido pelo sinal da fonte ate
dois microfones do arranjo e, a partir desse valor, o TDD e a DOA podem ser
determinados.
x
y
z
Sensores
O
hs
l Fontev
sx
sy
φ
Figura 3.3: Esquema tridimensional do experimento. Altura h medida entre o chao
e o centro do arranjo de microfones. Distancia l entre a fonte e um dos microfones.
A Figura 3.3 apresenta um esquema tridimensional do problema, do qual e possıvel
extrair a distancia l entre a fonte e um dos microfones do arranjo. Assume-se que
a fonte se encontra no plano z = 0, que representa o nıvel do chao, enquanto
o arranjo de sensores pertence ao plano y = 0. Apenas os microfones alinhados
horizontalmente foram representados na figura, ja que a curva teorica foi derivada
considerando a direcao de chegada do sinal em relacao ao arranjo linear horizontal
(uma derivacao semelhante pode ser feita para outras configuracoes). A altura h,
medida entre o chao e o centro do arranjo, a distancia sy, entre o plano dos microfones
e a reta que contem a trajetoria do veıculo, e a velocidade v com que ele se desloca,
18
sao os dados conhecidos. A imagem ilustra o sistema para um instante especıfico
de tempo, omitindo assim a dependencia temporal que sera destacada ao longo dos
calculos.
A velocidade do automovel e mantida constante durante cada realizacao do teste,
e sua direcao e paralela ao eixo x, ou seja, v = vx. No desenvolvimento apresentado
a seguir, a velocidade e considerada no sentido positivo de x, como indicado na
figura, e por isso o modulo da velocidade vx = |vx| e utilizado, o que nao implica
em perda de generalidade, bastando inverter o sinal de vx caso o carro se desloque
no sentido contrario. Assim, o componente horizontal do posicionamento da fonte,
sx(t), e dado pela relacao
sx(t) = vx (t− t0) (3.1)
onde o instante t0 indica o momento em que a fonte cruza o eixo y. O problema da
Figura 3.3 pode entao ser facilmente resolvido atraves das relacoes trigonometricas
s2(t) = s2y + s2
x(t) (3.2)
l2(t) = h2 + s2(t) (3.3)
e substituindo a Eq. (3.2) em (3.3):
l2(t) = h2 + s2y + s2
x(t). (3.4)
A Eq. (3.4) indica a distancia ate um sensor qualquer do eixo horizontal do
arranjo. Seja agora li a distancia entre a fonte e o microfone mi, i = 1, 2. Se a
distancia entre m1 e m2 e igual a d, entao
l21(t) = h2 + s2y + s2
x(t) (3.5)
l22(t) = h2 + s2y + (sx(t) + d)2. (3.6)
Finalmente, o TDD e a DOA sao calculados, respectivamente, por
τ =l2(t)− l1(t)
vx(3.7)
φ = arccos
(l2(t)− l1(t)
d
). (3.8)
19
Ainda considerando o caso vx > 0, nota-se que enquanto t < t0, o valor sx(t) e
negativo (ver Eq. (3.1)), resultando em l1(t) > l2(t) segundo as Eqs. (3.5) e (3.6).
Ou seja, enquanto a fonte se aproxima dos sensores, observa-se que a diferenca de
atraso e negativa, τ < 0, ao passo que essa diferenca passa a ser positiva, τ > 0,
quando a fonte se afasta. Essa situacao e ilustrada na Figura 3.4, onde a curva
teorica da diferenca do atraso entre o sinal de dois microfones e apresentada para
vx = 60 km/h e t0 ≈ 1,5 s.
0 0.5 1 1.5 2 2.5 3
Tempo (s)
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Atr
aso
(m
s)
TDD vs. Tempo
Figura 3.4: Curva teorica do TDD para uma fonte a 60 km/h.
3.3 Analise do Sinal Acustico
O conhecimento acerca do sinal da fonte permite uma configuracao adequada
dos parametros utilizados nos algoritmos de estimacao da DOA, resultando em um
melhor desempenho destes. Posto isso, e efetuada uma analise dos dados de audio
registrados experimentalmente, buscando extrair suas principais caracterısticas.
Nos testes realizados, a fonte de interesse se encontra em movimento com relacao
aos sensores e por isso, o tamanho da janela de dados utilizada pelos algoritmos se
torna um fator de grande influencia nos resultados obtidos. A fim de obter uma boa
20
estimativa para a DOA, o trecho de dados escolhido deve ter informacao suficiente
sobre o sinal, mas nao pode abranger um grande deslocamento da fonte.
Deseja-se entao obter um limite para o numero de amostras em uma janela, sob
a condicao de que a direcao de chegada nesse intervalo nao varie acima de um valor
arbitrado. A tarefa de chegar a esse valor maximo e dificultada pela relacao nao
linear observada entre o angulo de chegada e o deslocamento da fonte. Buscando
entao uma simplificacao, nota-se que a intensidade do som que chega aos microfones
e maior quando a direcao de chegada da fonte se aproxima de 90, tornando o trecho
em torno do instante t0 o mais relevante para o estudo do sinal.
Dados dois instantes de tempo t1 e t2, onde t1 < t2, define-se a variacao da direcao
de chegada entre eles como
∆φ = |φ(t2)− φ(t1)| , (3.9)
onde φ(t1) e φ(t2) sao calculados como em (2.1). Para entao analisar o trecho do
sinal referente a passagem da fonte em frente ao arranjo de microfones, escolhe-se
um intervalo de tempo simetrico em relacao a t0, ou seja, t0 = t1+t22
. Essa simetria
resulta na simplificacao ilustrada na Figura 3.5.
s
∆s = vx∆t
ssy
Microfone
Fonte em t1 Fonte em t2
∆φ
θ θ
Figura 3.5: Esquema utilizado para o calculo do comprimento da janela de dados.
21
O triangulo formado pelo posicionamento da fonte em t1 e t2 e por um dos micro-
fones fornece a relacao
sin(θ) =sys
=sy√
s2y +
(∆s2
)2, (3.10)
e a soma dos seus angulos internos leva a
∆φ+ 2θ = 180 (3.11)
∆φ+ 2 arcsin
sy√s2y +
(∆s2
)2
= 180, (3.12)
onde a Eq. (3.10) foi utilizada para substituir o angulo θ na Eq. (3.11). Agora,
isolando ∆s na Eq. (3.12) conclui-se que
∆s = 2sy
√1
sin2(90 − φ
2
) − 1. (3.13)
Por fim, usando que sin (90 − α) = cos (α) e sin2 (α)+cos2 (α) = 1 na Eq. (3.13),
chega-se a relacao
∆s = 2sysin(
∆φ2
)cos(
∆φ2
) , (3.14)
da qual e possıvel, escolhendo uma variacao maxima para o angulo de chegada
∆φ = ∆φmax, obter o numero maximo de amostras Nmax que satisfaz essa restricao,
ou seja,
Nmax = fs∆t = fs2syvx
sin(
∆φmax2
)cos(
∆φmax2
) , (3.15)
sendo fs a frequencia de amostragem do sinal.
Alem do comprimento da janela, um estudo e feito acerca do espectro do sinal de
interesse, visando identificar as faixas de frequencia onde ha maior concentracao de
energia. A Figura 3.6 apresenta o espectrograma do sinal de audio correspondente
a um veıculo com velocidade igual a 50 km/h. Aproximadamente aos 1,5 s e possıvel
observar um pico de energia, que representa a passagem do veıculo em frente ao
arranjo de sensores e portanto a regiao onde espera-se uma razao sinal-ruıdo mais
alta. Esse instante, chamado de t0, e obtido atraves da busca pelo ponto de maxima
energia do sinal.
22
0.5 1 1.5 2 2.5
Tempo (s)
0
5
10
15
20
Fre
quên
cia
(kH
z)
-140
-120
-100
-80
-60
-40
Pot
ênci
a / F
requ
ênci
a (d
B/H
z)
Figura 3.6: Espectrograma do sinal amostrado a 44,1 kHz.
Entao, condicionado ao numero maximo de amostras dado pela Eq. (3.15),
escolhe-se um trecho do sinal centrado em t0 e obtem-se uma nova estimativa do
espectro baseada no metodo de Welch [10]. O resultado e apresentado na Figura
3.7.
0 5 10 15 20
Frequência (kHz)
-60
-50
-40
-30
-20
-10
0
Mag
nitu
de (d
B)
Figura 3.7: Estimativa do espectro do sinal amostrado a 44,1 kHz.
23
A Figura 3.8 apresenta as estimativas obtidas com o sinal reamostrado a 16 kHz,
para as diferentes velocidades testadas. A reducao da taxa de amostragem e feita
com o unico objetivo de melhorar a visualizacao do espectro do sinal, que concentra
sua energia nas frequencias mais baixas. Para gerar as estimativas da direcao de
chegada no Capıtulo 4 e utilizado o sinal com frequencia de amostragem de 44,1 kHz.
0 1 2 3 4 5 6 7 8
Frequência (kHz)
-55
-50
-45
-40
-35
-30
-25
-20
-15
-10
-5
0
Mag
nitu
de (
dB)
30 km/h40 km/h50 km/h60 km/h70 km/h
Figura 3.8: Estimativas do espectro para o carro 1. Sinal reamostrado a 16 kHz.
A distribuicao da energia ao longo do espectro e semelhante para as diferentes
velocidades, com uma predominancia das frequencias ate aproximadamente 1 kHz.
Na Figura 3.9 e feita uma comparacao entre o espectro gerado pelos tres modelos
de veıculos testados, onde dois carros tem cambio de marchas automatico e um
um carro tem cambio manual, para a velocidade de 60 km/h. Pode-se notar uma
diferenca entre os espectros, sendo o carro 3 (cambio manual) o que apresenta menos
energia em baixas frequencias, enquanto o carro 1 (cambio automatico) e o que tem
mais.
24
0 1 2 3 4 5 6 7 8Frequência (kHz)
-60
-50
-40
-30
-20
-10
0
Mag
nitu
de (
dB)
Carro 1 (A)Carro 2 (A)Carro 3 (M)
Figura 3.9: Estimativas do espectro para a velocidade de 60 km/h. Carros 1 e 2
com cambio automatico (A) e carro 3 com cambio manual (M). Sinal reamostrado
a 16 kHz.
25
Capıtulo 4
Resultados
A seguir sao apresentados os resultados obtidos atraves da implementacao dos
algoritmos descritos no Capıtulo 2, para testes com os sinais adquiridos, que foram
descritos e analisados no Capıtulo 3. O comprimento da janela de dados foi escolhido
como a maior potencia de 2 abaixo do comprimento maximo Nmax, ou seja,
N = 2blog2Nmaxc, (4.1)
onde Nmax foi calculado como na Eq. (3.15). Para a faixa de velocidades com-
preendida nos testes, de 30 km/h a 70 km/h, e para a frequencia de amostragem
Fs = 44,1 kHz, Nmax encontra-se entre 285 e 665, considerando uma variacao maxima
para o angulo ∆φmax = 2.
A Figura 4.1 ilustra a influencia da escolha de N na estimativa obtida para a
direcao de chegada. Sao apresentadas duas imagens, onde todos os dados utilizados
para gera-las foram os mesmos, exceto pelo comprimento da janela: N = 1024 na
Figura 4.1(a) e N = 256 na Figura 4.1(b). Observa-se que para um comprimento
maior do que Nmax, a direcao de chegada se mantem constante por longos perıodos,
durante os quais um trecho do sinal esta sendo processado. O resultado disso e uma
estimativa pouco confiavel para a DOA.
A Figura 4.2 apresenta o mapeamento da funcao correlacao cruzada entre o sinal
de dois microfones do arranjo, para uma fonte com velocidade vx = 60 km/h. Base-
ado nesse resultado, o algoritmo obteve a evolucao da direcao de chegada ao longo
26
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Âng
ulo
(º)
DOA - Método GCC-PHAT
(a) N = 1024
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Âng
ulo
(º)
DOA - Método GCC-PHAT
(b) N = 256
Figura 4.1: Comparacao entre diferentes valores de N . Estimativa da DOA obtida
com o metodo GCC-PHAT para vx = 40 km/h e Fs = 44 100 Hz.
do tempo, indicada em linha contınua na Figura 4.3, enquanto a curva prevista se
encontra em linha tracejada.
Função GCC-PHAT Rx
1x
2
( ,t)
0 0.5 1 1.5 2 2.5
Tempo (s)
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Atra
so
(ms)
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
Figura 4.2: Funcao Rx1x2 calculada com o metodo GCC-PHAT para vx = 60 km/h,
Fs = 44 100 Hz e N = 256.
Na Figura 4.2 nota-se que para os instantes proximos a t0, quando nao existe
atraso entre os sinais x1 e x2, duas regioes de pico se destacam na funcao Rx1x2 ,
formando um padrao que se assemelha a duas curvas com um deslocamento temporal
de aproximadamente 0,3 s entre si. A uma velocidade constante de 60 km/h, esse
intervalo equivale a distancia de 2,5 m, que por sua vez e compatıvel com o espaco
presente entre as rodas dianteiras e traseiras dos carros. Essa analise leva a conclusao
27
de que as curvas deslocadas representam as diferentes fontes de ruıdo presentes em
um mesmo veıculo.
Para o mesmo sinal que resultou nas Figuras 4.2 e 4.3, o metodo inspirado nas
diferencas de tempo interaurais foi tambem testado, com o fator de esquecimento
α igual a 0, 9. O mapeamento da media dos histogramas avaliada ao longo das
frequencias e o respectivo resultado obtido para a DOA sao apresentados nas Figuras
4.4 e 4.5, respectivamente.
Ainda para os mesmos dados de audio, os metodos adaptativos sao agora utilizados
para obter a estimativa da DOA. A implementacao do filtro adaptativo atraves do
algoritmo LMS resulta no mapeamento dos coeficientes indicado na Figura 4.6. Os
pontos de maximo desse mapa fornecem a estimativa para o atraso τ , que por sua vez
permitem o calculo da estimativa da direcao de chegada, apresentada na Figura 4.7.
Esses resultados foram obtidos com um filtro FIR de comprimento L = N2
= 128,
cujos coeficientes foram atualizados a cada 512 amostras, utilizando um passo de
adaptacao µ = 0.25.
O teste com o metodo adaptativo baseado na decomposicao espectral resultou
na resposta ao impulso cujos coeficientes sao apresentados na Figura 4.8. Essa
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ângu
lo
(º)
DOA - Método GCC-PHAT
EstimadoTeórico
Figura 4.3: DOA estimada com o metodo GCC-PHAT para vx = 60 km/h, Fs =
44 100 Hz e N = 256.
28
ITD - Média dos histogramas vs. Tempo
0 0.5 1 1.5 2 2.5 3
Tempo (s)
-0.4
-0.2
0
0.2
0.4
Atra
so
(ms)
0
20
40
60
80
100
120
140
160
180
200
Figura 4.4: Media na frequencia dos histogramas obtidos com o metodo ITD para
vx = 60 km/h, Fs = 44 100 Hz, N = 512 e α = 0, 9.
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ângu
lo
(º)
DOA - Método ITD
EstimadoTeórico
Figura 4.5: DOA estimada com o metodo ITD para vx = 60 km/h, Fs = 44 100 Hz,
N = 512 e α = 0, 9.
estimativa foi obtida com um filtro de comprimento L = 128, atualizado a cada
2048 amostras, e com passo de adaptacao µ = 0.25. A direcao de chegada obtida a
partir desse resultado encontra-se na Figura 4.9.
Ao comparar os resultados obtidos com os diferentes metodos, o mesmo padrao e
observado na deteccao da direcao de chegada. Na media, as estimativas se aproxi-
mam do valor teorico previsto, mas todos os algoritmos demonstraram dificuldades
29
Coeficientes do Filtro Adaptativo
0 0.5 1 1.5 2 2.5 3
Tempo (s)
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Atra
so
(ms)
-0.2
0
0.2
0.4
0.6
0.8
Figura 4.6: Mapeamento dos coeficientes do filtro adaptativo (LMS) para vx =
60 km/h, Fs = 44 100 Hz, N = 256 e µ = 0, 25.
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ângu
lo
(º)
DOA - Método Adaptativo (LMS)
EstimadoTeórico
Figura 4.7: DOA estimada com filtro adaptativo (LMS) para vx = 60 km/h, Fs =
44 100 Hz, N = 256 e µ = 0, 25.
em identificar angulos fora da faixa entre 20 e 160, alem de apresentarem uma
oscilacao nos instantes proximos a t0, quando φ = 90. Esse resultado oscilatorio
pode ser compreendido observando-se, por exemplo, o comportamento da funcao
GCC na Figura 4.2. O algoritmo GCC-PHAT utiliza o valor maximo dessa funcao
a cada instante de tempo para estimar o TDD, nao levando em consideracao a pre-
senca das duas curvas que representam fontes de ruıdo diferentes. Como resultado,
30
Coeficientes do Filtro Adaptativo
0 0.5 1 1.5 2 2.5 3
Tempo (s)
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Atra
so
(ms)
-0.1
-0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
Figura 4.8: Mapeamento dos coeficientes do filtro adaptativo (EVD) para vx =
60 km/h, Fs = 44 100 Hz, N = 256 e µ = 0, 25.
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Ângu
lo
(º)
DOA - Método Adaptativo (EVD)
EstimadoTeórico
Figura 4.9: DOA estimada com filtro adaptativo (EVD) para vx = 60 km/h, Fs =
44 100 Hz, N = 256 e µ = 0, 25.
a estimativa obtida alterna entre as duas regioes de pico da funcao, o que pode ser
observado na Figura 4.10.
31
Função GCC-PHAT Rx
1x
2
( ,t)
0 0.5 1 1.5 2 2.5
Tempo (s)
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Atra
so
(ms)
TDD Estimado
Figura 4.10: Funcao Rx1x2 e TDD estimado com o metodo GCC-PHAT para vx =
60 km/h, Fs = 44 100 Hz e N = 256.
4.1 Separacao de Fontes com Deslocamento Pa-
ralelo
Deseja-se separar as contribuicoes das diferentes fontes de ruıdo e para isso uma
etapa de pos-processamento e introduzida no algoritmo, onde a busca agora e feita
nao por um unico valor maximo, mas pelos diversos valores de pico da funcao.
Essa estrategia e desenvolvida para tratar de fontes em movimento paralelo. A nova
etapa se inicia com a aplicacao de um limiar aos valores da funcao a ser maximizada,
zerando os pontos que nao ultrapassam esse valor. Em seguida, uma busca pelos
picos e efetuada para cada instante de tempo e do resultado sao extraıdos os pontos
referentes ao menor e maior atraso, separando-os em dois vetores de dados que
representam as duas fontes de ruıdo principais. Duas curvas sao entao ajustadas
aos pontos selecionados, uma para cada vetor, como e ilustrado na Figura 4.11a. A
partir desse resultado calcula-se o erro entre as curvas encontradas e os dados reais,
e os pontos para os quais o erro excede um valor tolerado sao eliminados. Os novos
dados, sem os pontos discrepantes, sao enfim utilizados para ajustar novas curvas,
apresentadas na Figura 4.11b.
32
0 0.5 1 1.5 2 2.5
Tempo t (s)
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Atr
aso
(s)
Curva Fonte 1 Curva Fonte 2 Dados Fonte 1 Dados Fonte 2
(a)
0 0.5 1 1.5 2 2.5
Tempo t (s)
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Atr
aso
(s)
Curva Fonte 1 Curva Fonte 2 Dados Fonte 1 Dados Fonte 2
(b)
Figura 4.11: Etapas do ajuste de curvas, antes (a) e depois (b) da eliminacao dos
pontos discrepantes.
Os dados utilizados na Figura 4.11 foram obtidos a partir do algoritmo GCC-
PHAT e os ajustes foram encontrados utilizando-se a previsao teorica para o TDD,
segundo o desenvolvimento da Secao 3.2. A velocidade da fonte, sua distancia ate
o microfone e o instante t0 foram utilizados como parametros a serem ajustados,
enquanto a altura dos microfones e a distancia d entre eles foram mantidas constan-
tes. Para os testes representados nessa imagem, por exemplo, os coeficientes obtidos
indicaram uma velocidade de 49,75 km/h e uma distancia entre fonte e sensor de
4,73 m nos instantes t0 = 1,36 s, para a fonte mais adiantada, e t0 = 1,43 s para a
atrasada. Sobrepondo o resultado do ajuste de curvas aos dados da funcao GCC da
Figura 4.10, observa-se que a nova estimativa para o TDD coincide com as regioes
de pico da correlacao, como indicado na Figura 4.12.
Para se adequar ao novo cenario, a previsao teorica das curvas da direcao de
chegada tambem e modificada. Isso e feito baseado no conhecimento da distancia
entre as rodas dos veıculos, que e utilizado para deslocar a curva teorica original e
gerar duas novas curvas. Os resultados previsto e estimado para a DOA apos a etapa
de pos-processamento sao apresentados na Figura 4.13, para diversas velocidades.
Os coeficientes de ajuste obtidos a partir das estimativas da Figura 4.13 encontram-
se na Tabela 4.1. O instante t0 previsto foi obtido atraves da busca pelo pico de
energia do sinal, nao havendo distincao entre as multiplas fontes geradoras do ruıdo.
33
Função GCC-PHAT Rx
1x
2
( ,t)
0 0.5 1 1.5 2 2.5
Tempo (s)
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Atra
so
(ms)
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
TDD Estimado
Figura 4.12: Funcao Rx1x2 e TDD estimado com o metodo GCC-PHAT para vx =
60 km/h, Fs = 44 100 Hz e N = 256.
Esse valor e ainda utilizado na determinacao da curva teorica para a DOA, e quando
mal calculado gera os desajustes observados nas imagens 4.13(a) e 4.13(d).
Tabela 4.1: Coeficientes de ajuste obtidos ao estimar a direcao de chegada.
a b c d e
Velocidade (km/h) 35, 57 42, 47 54, 45 53, 30 68, 29
Valor previsto (30) (40) (50) (60) (70)
Distancia Fonte-Sensor (m) 3, 74 3, 56 3, 24 4, 41 3, 74
Valor previsto (3,60) (3,60) (3,60) (3,60) (3,60)
Distancia entre Fontes (m) 2, 83 2, 80 3, 18 2, 59 2, 61
Valor previsto (2,70) (2,70) (2,70) (2,45) (2,70)
Instante t0 (s)Fonte 1 1, 43 1, 33 1, 40 1, 38 1, 45
Fonte 2 1, 50 1, 40 1, 53 1, 40 1, 48
Valor previsto (1,76) (1,52) (1,49) (1,51) (1,51)
34
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Âng
ulo
(º)
DOA - Método GCC-PHAT
EstimadoTeórico
(a) 30 km/h
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Âng
ulo
(º)
DOA - Método GCC-PHAT
EstimadoTeórico
(b) 40 km/h
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Âng
ulo
(º)
DOA - Método GCC-PHAT
EstimadoTeórico
(c) 50 km/h
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Âng
ulo
(º)
DOA - Método GCC-PHAT
EstimadoTeórico
(d) 60 km/h
0 0.5 1 1.5 2 2.5 3
Tempo (s)
0
20
40
60
80
100
120
140
160
180
Âng
ulo
(º)
DOA - Método GCC-PHAT
EstimadoTeórico
(e) 70 km/h
Figura 4.13: Estimativa da direcao de chegada obtida com o metodo GCC-PHAT
para Fs = 44 100 Hz e N = 256, seguido da etapa de pos-processamento.
35
Capıtulo 5
Conclusao
Este trabalho buscou, atraves da implementacao de quatro algoritmos diferentes,
encontrar um metodo capaz de localizar fontes de ruıdo em um ambiente urbano.
A aplicacao dos metodos na qual este trabalho se baseou [7] tratava de sinais de
voz em um cenario onde era esperado apenas um falante por vez, podendo ele estar
em movimento. Assim, os algoritmos chegaram a resultados satisfatorios para a
estimativa da direcao de chegada. No entanto, os sinais de audio utilizados neste
trabalho exibiram um comportamento diferente, sendo possıvel distinguir mais de
uma fonte para cada instante de tempo. Os metodos foram entao ajustados para
que a estimativa da DOA se tornasse condizente com a real.
Apos efetuar as modificacoes foi entao possıvel estimar a direcao de chegada para
as duas fontes principais observadas. Apesar da etapa de pos-processamento intro-
duzida poder utilizar o resultado de qualquer um dos metodos, deu-se preferencia
ao algoritmo baseado na funcao correlacao cruzada por ter sido observado que as
duas regioes de pico, referentes as duas fontes, encontram-se mais evidentes nesse
metodo, facilitando a etapa do ajuste das curvas.
Das curvas encontradas foi tambem possıvel extrair os parametros inicialmente
estimados para a velocidade, para o instante da passagem do veıculo em frente ao
arranjo e para a distancia entre fonte e sensor medida nesse instante. Dado que
o objetivo e a utilizacao do arranjo de sensores para captar o ruıdo de carros dos
quais nao se tem nenhuma informacao, os coeficientes resultantes do ajuste tornam-
se importantes na categorizacao dos sinais obtidos.
36
Capıtulo 6
Trabalhos Futuros
Para a continuacao deste trabalho, as curvas encontradas da direcao de chegada
podem ser utilizadas para extrair, atraves da tecnica de beamforming, a contribuicao
individual de cada componente. A ideia e direcionar o lobulo principal do beamfor-
mer para uma das fontes de ruıdo, enquanto um nulo e imposto a posicao da outra,
assim separando-as. Alem disso, faixas de frequencia do espectro podem ser filtra-
das a fim de se distinguir outras fontes alem das rodas, como o ruıdo emitido pelo
motor, por exemplo.
Outra tarefa sugerida e a avaliacao da direcao de chegada estimada a partir de
dois microfones posicionados no eixo vertical do arranjo. O angulo resultante dessa
analise indica a posicao da fonte com relacao ao eixo z e pode auxiliar na separacao
de fontes que se encontram em alturas diferentes.
37
Referencias Bibliograficas
[1] KNAPP, C., CARTER, G., “The generalized correlation method for estimation
of time delay”, IEEE Transactions on Acoustics, Speech, and Signal Processing,
v. 24, n. 4, pp. 320–327, 1976.
[2] LIU, C., WHEELER, B. C., O?BRIEN JR, W. D., et al., “Localization of
multiple sound sources with two microphones”, The Journal of the Acoustical
Society of America, v. 108, n. 4, pp. 1888–1905, 2000.
[3] BENESTY, J., “Adaptive eigenvalue decomposition algorithm for passive
acoustic source localization”, The Journal of the Acoustical Society of Ame-
rica, v. 107, n. 1, pp. 384–391, 2000.
[4] ORGANIZATION, W. H., OTHERS, “Burden of disease from environmental
noise: Quantification of healthy life years lost in Europe”. In: Burden of disease
from environmental noise: quantification of healthy life years lost in Europe, pp.
126–126, 2011.
[5] BRAMBILLA, G., GALLO, V., ASDRUBALI, F., et al., “The perceived quality
of soundscape in three urban parks in Rome”, The Journal of the Acoustical
Society of America, v. 134, n. 1, pp. 832–839, 2013.
[6] PINTO, F. A. D. N. C., MARDONES, M. D. M., “Noise mapping of densely
populated neighborhoods: example of Copacabana, Rio de Janeiro, Brazil”,
Environmental monitoring and assessment, v. 155, n. 1-4, pp. 309–318, 2009.
[7] DOBLINGER, G., “Localization and tracking of acoustical sources”, Topics in
acoustic echo and noise control, pp. 91–122, 2006.
38
[8] HAYES, M. H., Statistical digital signal processing and modeling. John Wiley
& Sons, 2009.
[9] FERRARA, E., “Fast implementations of LMS adaptive filters”, IEEE Tran-
sactions on Acoustics, Speech, and Signal Processing, v. 28, n. 4, pp. 474–475,
1980.
[10] WELCH, P., “The use of fast Fourier transform for the estimation of power
spectra: a method based on time averaging over short, modified periodograms”,
IEEE Transactions on audio and electroacoustics, v. 15, n. 2, pp. 70–73, 1967.
39