estimac˘ao das direc˘~ oes de chegada de...

ESTIMACAO DAS DIRECOES DE CHEGADA DE FONTES

SONORAS VEICULARES USANDO ARRANJO DE

MICROFONES

Gabriela Dantas Rocha

Projeto de Graduacao apresentado ao Curso

de Engenharia Eletronica e de Computacao

da Escola Politecnica, Universidade Federal

do Rio de Janeiro, como parte dos requisitos

necessarios a obtencao do tıtulo de Enge-

nheira.

Orientadora: Mariane Rembold Petraglia

Rio de Janeiro

Marco de 2018

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO

Escola Politecnica - Departamento de Eletronica e de Computacao

Centro de Tecnologia, bloco H, sala H-217, Cidade Universitaria

Rio de Janeiro - RJ CEP 21949-900

Este exemplar e de propriedade da Universidade Federal do Rio de Janeiro, que

podera incluı-lo em base de dados, armazenar em computador, microfilmar ou adotar

qualquer forma de arquivamento.

E permitida a mencao, reproducao parcial ou integral e a transmissao entre bibli-

otecas deste trabalho, sem modificacao de seu texto, em qualquer meio que esteja

ou venha a ser fixado, para pesquisa academica, comentarios e citacoes, desde que

sem finalidade comercial e que seja feita a referencia bibliografica completa.

Os conceitos expressos neste trabalho sao de responsabilidade do(s) autor(es).

iv

AGRADECIMENTO

Agradeco a minha orientadora, Mariane, pela confianca em mim depositada e pela

ajuda no desenvolvimento deste trabalho. E ainda a todos os professores que cruza-

ram o meu caminho ao longo deste curso, nao so por me passarem o conteudo que

sera a base para a minha carreira profissional, mas principalmente por despertarem

em mim a paixao pela Engenharia Eletronica.

Agradeco aos meus colegas da faculdade, pelas licoes de companheirismo e gene-

rosidade que me ensinaram, e pelos momentos de descontracao que tornaram essa

longa caminhada um pouco menos ardua. E tambem a minha famılia e meus amigos,

que me ofereceram refugio durante os momentos mais conturbados e estressantes.

Por ultimo e mais importante, agradeco ao meu pai, pois suas contribuicoes para

a conclusao desta etapa da minha vida sao muito anteriores ao inıcio deste projeto

ou deste curso. Agradeco por sempre incentivar meus estudos e pelo investimento

financeiro realizado em prol da minha educacao. Sou grata tambem pelo respeito as

minhas escolhas pessoais e profissionais e pela compreensao e apoio concedidos nos

momentos difıceis que passei ao longo do curso. E, por fim, agradeco por ser uma

das poucas pessoas que nunca perguntou: “quando voce vai se formar?”. Amo voce.

v

RESUMO

A poluicao sonora e considerada um problema de saude publica pela Organizacao

Mundial da Saude (OMS). A utilizacao de mapas de ruıdo mostra-se ineficiente

na avaliacao das intervencoes em areas urbanas. Uma alternativa para avaliar a

qualidade do ruıdo sonoro ocorre a partir da simulacao do som tridimensional do

local de interesse. Devido a diversidade de fontes sonoras urbanas, principalmente

veiculares, torna-se necessaria a criacao de um banco de dados de sinais para serem

utilizados nos simuladores.

Este trabalho apresenta um sistema composto por um arranjo de microfones,

que registra os dados de audio e os fornece a uma etapa de processamento. Essa,

baseada na diferenca entre o sinal de dois sensores, estima a direcao de chegada

unidimensional do sinal. Quatro metodos sao testados para o processamento do

som. O primeiro se baseia na funcao correlacao cruzada, o segundo se inspira nas

diferencas de tempo interaurais e os dois ultimos utilizam filtros adaptativos. Uma

etapa adicional e introduzida para lidar com a multiplicidade das fontes de ruıdo,

representadas pelos automoveis e seus diferentes elementos.

O sistema proposto consegue, de forma automatica, rastrear a posicao do carro

ao longo do tempo, alem de distinguir e separar as componentes geradas pelas rodas

dianteiras e traseiras. Desse processo e possıvel ainda extrair informacoes sobre a

velocidade do veıculo. Conclui-se que algoritmos baseados na diferenca de atraso

entre o sinal de dois sensores sao capazes de estimar a direcao de chegada de uma

fonte em movimento, dentro de um cenario urbano. A deteccao de multiplas fontes,

no entanto, exige uma etapa adicional de processamento.

Palavras-Chave: AEVD, arranjo de sensores, direcao de chegada, FLMS, GCC,

ITD, processamento de sinais, ruıdo urbano.

vi

ABSTRACT

Noise pollution is considered a public health issue by the World Health Orga-

nization (WHO). Noise map shows to be an inefficient way of evaluating urban

interventions. An alternative for rating environmental noise arises from the 3D

sound simulation of the concerned area. Diversity of urban noise sources, especially

from vehicles, results in the need of creating a signal data base to be used by the

simulator.

A system is introduced consisting of a microphone array, which registers audio

data and feed it to a processing stage that, based on the signal from two sensors,

estimates the unidimensional direction of arrival. Four DOA estimation methods are

tested. The first one is based on cross-correlation function, the second is inspired

by the interaural time difference, and the others use an adaptive filter strategy.

One additional step is introduced to handle the multiple noise sources found in this

environment, represented by cars and its elements.

The proposed system is able to automatically track vehicle position through time

and also distinguishes and isolates the front and rear wheel components. From the

process is still possible to obtain information concerning the vehicle speed. The-

refore, time delay difference based algorithms are able to estimate the direction of

arrival of a single moving source in an urban environment. For multiple source

tracking, though, an extra processing step is required.

Key-words: AEVD, array processing, direction of arrival, environmental noise,

FLMS, GCC, ITD, signal processing.

vii

SIGLAS

DOA - Direction of Arrival

GCC - Generalized Cross-Correlation

IDFT - Inverse Discrete Fourier Transform

LISA - Laboratorio de Instrumentacao e Simulacao Acustica

LMS - Least Mean Square

PHAT - Phase Transform

TDD - Time Delay Difference

UFRJ - Universidade Federal do Rio de Janeiro

viii

Sumario

Lista de Figuras xi

Lista de Tabelas xiii

1 Introducao 1

1.1 Tema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.3 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.4 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.5 Descricao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Estimacao da Direcao de Chegada 4

2.1 Metodo Baseado na Funcao GCC-PHAT . . . . . . . . . . . . . . . . 5

2.2 Metodo Baseado na Diferenca de Tempo Interaural . . . . . . . . . . 8

2.3 Metodos Adaptativos . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.1 Metodo Baseado na Minimizacao do Erro Quadratico Medio

(LMS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.2 Metodo Baseado na Decomposicao Espectral (AEVD) . . . . . 12

3 Aquisicao e Estudo do Sinal 16

3.1 Medidas Experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.2 Curva Teorica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.3 Analise do Sinal Acustico . . . . . . . . . . . . . . . . . . . . . . . . . 20

4 Resultados 26

4.1 Separacao de Fontes com Deslocamento Paralelo . . . . . . . . . . . . 32

ix

5 Conclusao 36

6 Trabalhos Futuros 37

Bibliografia 38

x

Lista de Figuras

2.1 Esquema com dois microfones utilizado para a localizacao de fontes

sonoras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2 Esquema utilizado para detectar a correspondencia de fase entre os

sinais para a frequencia k e janela de tempo m. . . . . . . . . . . . . 9

2.3 Sistema utilizado para a estimacao do TDD composto por um filtro

adaptativo FIR de comprimento L. . . . . . . . . . . . . . . . . . . . 11

2.4 Modelo do sinal que chega aos microfones a esquerda, em linha trace-

jada. Estimador das respostas ao impulso a direita, em linha contınua. 13

3.1 Vista superior do experimento com seus principais componentes. . . . 17

3.2 Vista frontal do arranjo de sensores. O microfone 5 apresentou falhas

durante as gravacoes e seus registros nao foram utilizados na etapa

de estimacao da DOA. . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.3 Esquema tridimensional do experimento. Altura h medida entre o

chao e o centro do arranjo de microfones. Distancia l entre a fonte e

um dos microfones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.4 Curva teorica do TDD para uma fonte a 60 km/h. . . . . . . . . . . . 20

3.5 Esquema utilizado para o calculo do comprimento da janela de dados. 21

3.6 Espectrograma do sinal amostrado a 44,1 kHz. . . . . . . . . . . . . . 23

3.7 Estimativa do espectro do sinal amostrado a 44,1 kHz. . . . . . . . . . 23

3.8 Estimativas do espectro para o carro 1. Sinal reamostrado a 16 kHz. . 24

3.9 Estimativas do espectro para a velocidade de 60 km/h. Carros 1 e 2

com cambio automatico (A), e carro 3 com cambio manual (M). Sinal

reamostrado a 16 kHz. . . . . . . . . . . . . . . . . . . . . . . . . . . 25

xi

4.1 Comparacao entre diferentes valores deN . Estimativa da DOA obtida

com o metodo GCC-PHAT para vx = 40 km/h e Fs = 44 100 Hz. . . . 27

4.2 FuncaoRx1x2 calculada com o metodo GCC-PHAT para vx = 60 km/h,

Fs = 44 100 Hz e N = 256. . . . . . . . . . . . . . . . . . . . . . . . . 27

4.3 DOA estimada com o metodo GCC-PHAT para vx = 60 km/h, Fs =

44 100 Hz e N = 256. . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4.4 Media na frequencia dos histogramas obtidos com o metodo ITD para

vx = 60 km/h, Fs = 44 100 Hz, N = 512 e α = 0, 9. . . . . . . . . . . . 29

4.5 DOA estimada com o metodo ITD para vx = 60 km/h, Fs = 44 100 Hz,

N = 512 e α = 0, 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.6 Mapeamento dos coeficientes do filtro adaptativo (LMS) para vx =

60 km/h, Fs = 44 100 Hz, N = 256 e µ = 0, 25. . . . . . . . . . . . . . 30

4.7 DOA estimada com filtro adaptativo (LMS) para vx = 60 km/h, Fs =

44 100 Hz, N = 256 e µ = 0, 25. . . . . . . . . . . . . . . . . . . . . . 30

4.8 Mapeamento dos coeficientes do filtro adaptativo (EVD) para vx =

60 km/h, Fs = 44 100 Hz, N = 256 e µ = 0, 25. . . . . . . . . . . . . . 31

4.9 DOA estimada com filtro adaptativo (EVD) para vx = 60 km/h, Fs =

44 100 Hz, N = 256 e µ = 0, 25. . . . . . . . . . . . . . . . . . . . . . 31

4.10 Funcao Rx1x2 e TDD estimado com o metodo GCC-PHAT para vx =

60 km/h, Fs = 44 100 Hz e N = 256. . . . . . . . . . . . . . . . . . . . 32

4.11 Etapas do ajuste de curvas, antes (a) e depois (b) da eliminacao dos

pontos discrepantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.12 Funcao Rx1x2 e TDD estimado com o metodo GCC-PHAT para vx =

60 km/h, Fs = 44 100 Hz e N = 256. . . . . . . . . . . . . . . . . . . . 34

4.13 Estimativa da direcao de chegada obtida com o metodo GCC-PHAT

para Fs = 44 100 Hz e N = 256, seguido da etapa de pos-processamento. 35

xii

Lista de Tabelas

4.1 Coeficientes de ajuste obtidos ao estimar a direcao de chegada. . . . . 34

xiii

Capıtulo 1

Introducao

1.1 Tema

O trabalho aqui apresentado tem como tema a localizacao de fontes sonoras base-

ada na estimacao da direcao de chegada, usualmente chamada de DOA (do ingles,

direction of arrival). A partir do sinal recebido por um arranjo de microfones, do

qual se conhece a geometria, e possıvel estimar o posicionamento da fonte atraves

de diferentes abordagens. Os metodos testados baseiam-se na funcao correlacao

cruzada generalizada com transformada de fase (GCC-PHAT, do ingles Generalized

Cross-Correlation with Phase Transform) [1], nas diferencas de tempo interaurais

(ITD, do ingles Interaural Time Differences) [2] e em filtros adaptativos [3] para

chegar a uma estimativa robusta da DOA.

Os metodos sao aplicados em trechos de sinais sonoros, gravados com o auxılio de

um arranjo de microfones em um cenario urbano. Portanto, o audio captado reflete

as caracterısticas do ruıdo sonoro observado nas cidades, sendo formado principal-

mente pelo som dos veıculos motorizados que compoem o transito do local.

1.2 Motivacao

O ruıdo urbano representa um fator importante na avaliacao do conforto e da

qualidade de vida em um cidade, alem de ser considerado pela Organizacao Mundial

da Saude (OMS) um problema de saude publica [4]. Para entender o efeito do

1

ruıdo nos indivıduos de uma sociedade, e necessario um estudo de aspectos tecnicos

e psicoacusticos [5] que buscam quantificar esse fenomeno, com a avaliacao final

geralmente feita atraves da analise de mapas acusticos [6]. Mas a caracterizacao

fornecida por esses mapas nao e suficiente para expressar a real impressao sonora do

ambiente, alem de ser de difıcil compreensao para a populacao em geral, incluindo os

setores responsaveis pela tomada de decisoes relacionadas as intervencoes urbanas e

seus impactos.

E desejavel entao o desenvolvimento de uma ferramenta de realidade virtual

acustica capaz de simular e reproduzir o som tridimensional que seria ouvido em

um determinado local da cidade. Assim, os orgaos competentes e a sociedade em

geral podem ter acesso a um parametro realista para a avaliacao do ruıdo.

Contudo, o desenvolvimento do sistema de audibilizacao, termo usado para o

processo de geracao do som tridimensional, e desafiador. Para que o resultado

seja realista, os modelos de propagacao do som utilizados devem incluir toda a

complexidade encontrada nos cenarios urbanos e, alem disso, a caracterizacao das

fontes sonoras e fundamental para gerar os sons utilizados na simulacao.

O escopo desde trabalho e caracterizar as fontes de ruıdo urbano. Os veıculos re-

presentam a principal fonte de ruıdo nas cidades e apresentam uma grande variedade

em suas formas de fabricacao, uso e manutencao. Alem disso, o som emitido por

cada veıculo possui uma contribuicao dos seus varios componentes: o som do rola-

mento dos pneus, do ronco do motor, do escapamento, entre outros. O ruıdo gerado

por cada componente apresenta caracterısticas diferentes, que devem ser observadas

a fim de gerar, atraves da simulacao, o som que seria realmente percebido.

1.3 Objetivo

Este trabalho tem como objetivo o estudo e a implementacao de quatro metodos

de localizacao de fontes acusticas para estimar a direcao de chegada de fontes sonoras

veiculares. Alem disso, deseja-se estudar as caracterısticas espectrais dos sinais de

audio registrados com o auxılio de um arranjo de microfones.

2

1.4 Metodologia

Para a utilizacao dos metodos de estimacao da DOA na aplicacao desejada, e

necessario um conjunto de dados que representem o ruıdo sonoro de uma cidade.

Com auxılio do equipamento cedido pelo Laboratorio de Instrumentacao e Simulacao

Acustica (LISA) da UFRJ e tendo como cenario a Cidade Universitaria, localizada

no Rio de Janeiro, os audios utilizados ao longo deste trabalho foram registrados.

A partir desses audios, e encontrada uma estimativa para a diferenca de atraso

∆t entre os sinais incidentes em dois microfones do arranjo. Em seguida, o angulo

φ correspondente ao posicionamento da fonte pode ser encontrado.

A implementacao dos metodos segue os procedimentos descritos em [7], assim

como os algoritmos desenvolvidos no software MATLAB sao baseados nos codigos

disponibilizados por esse autor. As devidas modificacoes sao realizadas para servir

a aplicacao deste trabalho.

Visando obter um parametro de avaliacao para a estimativa da direcao de che-

gada, foi derivada uma curva teorica para cada fonte sonora baseada na geometria

do problema. As medidas necessarias para o calculo da curva foram efetuadas no

dia e local da gravacao dos audios. Os resultados obtidos com a implementacao dos

metodos estudados sao entao exibidos em graficos gerados no MATLAB e compara-

dos com os valores teoricos calculados.

1.5 Descricao

No Capıtulo 2 sao apresentadas as tecnicas utilizadas para a estimacao da direcao

de chegada. O Capıtulo 3 apresenta um estudo acerca dos sinais de audio dis-

ponıveis e da forma como foram obtidos. No Capıtulo 4 encontram-se os resultados

alcancados com a implementacao dos algoritmos descritos no Capıtulo 2. Por fim, o

Capıtulo 5 apresenta as conclusoes resultantes do trabalho, alem de propostas para

a sua continuidade e aperfeicoamento.

3

Capıtulo 2

Estimacao da Direcao de Chegada

Neste capıtulo sao apresentadas as estrategias empregadas para a localizacao uni-

dimensional de fontes sonoras, utilizando os sinais obtidos por um arranjo linear de

dois microfones e metodos computacionais para o calculo da diferenca de atraso,

TDD (do ingles, Time Delay Difference), entre eles. Dado o esquema ilustrado na

Figura 2.1 e sob a hipotese de um modelo ideal de propagacao do som em ondas

planas, o angulo φ, que indica a direcao da fonte em relacao a linha definida pelos

microfones, pode ser obtido a partir da relacao

φ = arccos(vsτ0

d

), (2.1)

com vs sendo a velocidade de propagacao do som, d a distancia entre os microfones

e τ0 a diferenca de atraso entre os sinais dos dois microfones.

0

Fonte

τ0

d

φ

Figura 2.1: Esquema com dois microfones utilizado para a localizacao de fontes

sonoras.

4

Sao apresentadas quatro abordagens para a estimativa do TDD. O primeiro metodo,

GCC-PHAT (Generalized Cross-Correlation with Phase Transform), e um dos mais

explorados em aplicacoes de localizacao de fontes, utilizando a funcao correlacao

cruzada para tal. Em seguida e apresentado o metodo ITD (Interaural Time Diffe-

rence), inspirado na habilidade humana de localizacao sonora a partir da diferenca de

tempo entre a chegada do som em cada ouvido. Por fim, sao descritos dois metodos

utilizando filtros adaptativos, implementados atraves dos algoritmos FLMS (Fast

Block Least Mean Squares) e AEVD (Adaptive Eigenvalue Decomposition).

2.1 Metodo Baseado na Funcao GCC-PHAT

O metodo da correlacao cruzada apresentado aqui e capaz de estimar a diferenca

de atraso entre os sinais de dois sensores baseado no valor maximo da correlacao

entre eles. Utilizando o esquema ilustrado na Figura 2.1, os sinais nos microfones

sao modelados como

x1(t) = s(t) + v1(t)

x2(t) = s(t− τ0) + v2(t), (2.2)

onde s(t) e o sinal emitido pela fonte e v1(t) e v2(t) representam as componentes do

ruıdo.

A representacao discreta dos sinais facilita o desenvolvimento do algoritmo, e e

obtida atraves da amostragem do sinal analogico (Eq. (2.2)) em intervalos iguais a

T , resultando em

x1(nT ) = s(nT ) + v1(nT )

x2(nT ) = s(T (n− τ0/T )) + v2(nT ). (2.3)

Em seguida, aplicando a transforma de Fourier na Eq. (2.3)

X1(ejΩ) = S(ejΩ) + V1(ejΩ)

X2(ejΩ) = S(ejΩ)e−jΩτ0T + V2(ejΩ). (2.4)

5

Supondo que os ruıdos v1(nT ) e v2(nT ) sao processos descorrelacionados e de

media zero, o espectro de potencia cruzado e dado por

Sx1x2(Ω) = EX1(ejΩ)X∗2 (ejΩ)

= Sss(Ω)ejΩ

τ0T , (2.5)

onde E . representa o operador media estatıstica e Sss(Ω) e o espectro de potencia

do sinal da fonte s(n).

A partir de Sx1x2(Ω) pode-se entao calcular a funcao correlacao cruzada generali-

zada, Rx1x2(n):

Rx1x2(n) =1

2π

π∫−π

ψ12(ejΩ)Sx1x2(Ω)ejΩndΩ, (2.6)

onde a funcao peso ψ12(ejΩ) e utilizada. Repare que se ψ12(ejΩ) = 1 na Eq. (2.6), a

funcao obtida e a correlacao cruzada classica entre o sinal dos microfones.

A funcao peso e utilizada com o objetivo de criar um pico dominante na funcao

GCC, facilitando a busca pelo seu ponto maximo. Para que cumpra com o objetivo

de concentrar a energia de Rx1x2(n) em uma faixa estreita, a funcao peso deve

atuar como um filtro branqueador [8], gerando um espectro de potencia plano. Na

implementacao deste trabalho, a funcao utilizada

ψ12(ejΩ) =1

|Sx1x2(Ω)|, (2.7)

resulta no algoritmo denominado GCC-PHAT.

Para calcular o valor exato da funcao GCC, como na Eq. (2.6), seria necessario

o conhecimento dos processos aleatorios representados pelos sinais dos microfones

x1(n) e x2(n) para infinitas realizacoes, e ao longo de todo o tempo. Dadas as

limitacoes da posse de apenas uma realizacao e da nao estacionariedade dos processos

como um todo, o operador valor esperado na Eq. (2.5) e substituıdo pela media

temporal, ao ser utilizada a hipotese de ergodicidade. Alem disso, a media temporal

e realizada ao longo de intervalos curtos de tempo, nos quais o sinal e considerado

estacionario. Na pratica, aplica-se um janelamento ao sinal no tempo atraves de uma

janela w(n) do tipo Hamming, de comprimentoN . Duas janelas subsequentes podem

ainda apresentar uma sobreposicao de N −M amostras, onde M e a quantidade

6

de avanco, em numero de amostras, entre duas janelas. A DFT dos sinais apos a

aplicacao de w(n) e dada por

Xi(m, k) =N−1∑n=0

xi(mM + n)w(n)e−j2πNnk, (2.8)

onde i = 1, 2 indica os sinais dos microfones 1 e 2, m = 0, 1, 2, ... e o ındice da janela

e k = 0, 1, ..., N−1 o ındice da frequencia. A partir do sinal janelado, a estimativa do

espectro de potencia e calculada, utilizando uma ponderacao exponencial de dados

passados,

Sx1x2(m, k) = αSx1x2(m− 1, k) + (1− α)X1(m, k)X∗2 (m, k), (2.9)

com α = 0.8 na implementacao deste trabalho.

Aplicando a transformada inversa de Fourier (IDFT) na Eq. (2.9), chega-se a

uma estimativa para a funcao GCC-PHAT:

Rx1x2(m,n) =1

N

N−1∑k=0

Sx1x2(m, k)∣∣∣Sx1x2(m, k)∣∣∣ej 2πN nk, n = 0, 1, ..., N − 1. (2.10)

Finalmente, a partir de Rx1x2(m,n) o atraso entre os sinais dos dois microfones

pode ser calculado para cada janela m

τ0m

T≈ n0m = arg max

nRx1x2(m,n). (2.11)

A busca pelo maximo nao precisa ser feita exaustivamente ao longo de todos os

possıveis valores de n ∈ [0, N − 1], ja que o valor maximo para o atraso e limitado

fisicamente pela distancia entre os microfones (τ0max = d/vs). Alem disso, o valor

para n0 encontrado pela busca so representa com exatidao o atraso τ0 se este for

multiplo do perıodo de amostragem T . Para tratar dos casos em que o atraso e

fracionario, uma interpolacao de Rx1x2(m,n) deve ser realizada antes da aplicacao

da IDFT. Essa operacao e implementada atraves da extensao do sinal utilizando

a tecnica zero padding, que consiste na inclusao de zeros ao fim do sinal. Assim,

a transformada inversa e feita com mais pontos, resultando no sinal Rx1x2(m,n)

interpolado.

7

2.2 Metodo Baseado na Diferenca de Tempo In-

teraural

O sistema de audicao humano, assim como em outros animais, deve parte da sua

eficiencia na comunicacao a habilidade em processar o som que chega aos dois ouvi-

dos, conseguindo localizar o posicionamento de fontes mesmo em ambientes ruidosos

e reverberantes. Baseado entao na utilizacao da diferenca de tempo interaural (entre

os dois ouvidos) nos seres vivos, o metodo ITD utiliza a diferenca de tempo entre

dois microfones para estimar o TDD.

O algoritmo se inicia com a geracao do conjunto de todos os possıveis atrasos entre

os dois microfones, para uma dada resolucao, que sejam relevantes para a estimacao

do angulo azimutal φ. Dentro desse conjunto, e feita uma busca pelo atraso otimo

no sentido de gerar a melhor correspondencia entre os sinais dos dois microfones.

O angulo φ ∈ [0, π] e dividido em um numero ımpar I de setores igualmente

espacados, com cada setor correspondendo a um valor para o TDD. Usando como

referencia o esquema da Figura 2.1, os atrasos gerados sao

τi =d

2vssin

(i− 1

I − 1π − π

2

), i = 1, 2, ..., I, (2.12)

onde d e a distancia entre os microfones e vs e a velocidade de propagacao do som.

No domınio da frequencia, os atrasos correspondem aos desvios de fase

pk(i) = e−j2πNkfsτi , k = 0, 1, ...,

N

2, i = 1, 2, ..., I, (2.13)

com frequencia de amostragem fs = 1/T e τi como definido na Eq. (2.12). Os

componentes de fase sao entao multiplicados pela DFT dos sinais dos microfones,

X1(m, k) e X2(m, k), calculada como na Eq. (2.8), para cada janela de ındice m do

sinal. Por fim, o atraso e estimado a partir das comparacoes indicadas na Figura

2.2.

Como ilustrado, a comparacao e feita para cada par alinhado verticalmente, co-

brindo todos os possıveis atrasos entre os dois sinais. O bloco detector de coin-

8

Detector de Coincidencias

X1(m, k)

X2(m, k)

pk(1) pk(2) pk(I+1

2) pk(I − 1) pk(I)

pk(I) pk(I − 1) pk(I+1

2) pk(2) pk(1)

Figura 2.2: Esquema utilizado para detectar a correspondencia de fase entre os sinais

para a frequencia k e janela de tempo m.

cidencias da Figura 2.2 utiliza a regra de comparacao

∆i(m, k) = |pk(i)X1(m, k)− pk(I − i− 1)X2(m, k)|2, i = 1, 2, ..., I (2.14)

iotm(m, k) = arg mini

∆i(m, k), k = 0, 1, ...,N

2(2.15)

para encontrar, a cada janela m, o ındice iotm(m, k) que, ao ser substituıdo na Eq.

(2.12) no lugar do ındice i, resulta no atraso otimo τotm.

Para gerar melhores estimativas para o TDD entre os sinais dos microfones, e

utilizada uma estrategia de avaliacao da media de histogramas. E construıdo um

histograma Pk(τi,m) que contem a quantidade de deteccoes dos atrasos τi para

cada componente de frequencia k. A media do histograma e calculada utilizando

informacao do trecho m atual e de trechos anteriores do sinal, ponderados pelo fator

de esquecimento α, como indicado:

Pk(τi,m) = αPk(τi,m− 1) + δ(i− iotm(m, k)),

i = 1, 2, ..., I

k = 0, 1, ...,N

2

m = 0, 1, 2, ...

, (2.16)

onde δ(.) e a funcao impulso unitario1 e τi e o conjunto de atrasos definido na Eq.

(2.12). O fator de esquecimento α e escolhido entre 0, 85 e 0, 9.

1δ(.) vale 1 quando seu argumento e nulo e vale 0 para todos os outros valores do argumento.

9

Alem disso, os histogramas calculados como indicado na Eq. (2.16) sofrem com o

efeito do aliasing espacial, que gera uma ambiguidade na fase para frequencias acima

de fmax = vs/d. Para contornar esse efeito, os valores Pk(τi,m) do histograma sao

somados ao longo de todas as frequencias, para cada τi. O valor otimo para o atraso

e entao encontrado atraves da relacao

τopt(m) = arg maxτi

N2∑

k=0

Pk(τi,m). (2.17)

O metodo ITD apresenta a vantagem de nao demandar uma interpolacao do sinal,

ja que a busca pelo atraso otimo e realizada no domınio da frequencia. Por outro

lado, muitas execucoes de algoritmos de busca sao necessarias ate chegar a uma

estimativa para o atraso de fase.

2.3 Metodos Adaptativos

Os metodos apresentados anteriormente sao desenvolvidos assumindo-se um mo-

delo ideal para a propagacao de ondas. Esta secao parte para uma abordagem

mais realista, recorrendo a utilizacao de filtros adaptativos de comprimento finito

(FIR) para modelar o canal entre a fonte e os microfones. Dentro dessa estrategia

adaptativa, dois algoritmos sao propostos para chegar a uma estimativa da DOA.

2.3.1 Metodo Baseado na Minimizacao do Erro Quadratico

Medio (LMS)

O primeiro sistema, esquematizado na Figura 2.3, utiliza o algoritmo LMS (Least

Mean Square) para atualizar os coeficientes do filtro adaptativo. Ou seja, uma

estimativa para o TDD e encontrada atraves da minimizacao do erro quadratico

medio, medido entre o sinal de um microfone, utilizado como referencia, e a saıda

do filtro adaptativo.

Seja L o comprimento do filtro, e os vetores que indicam sua entrada, x2(n), e

seus coeficientes, w(n), definidos como

x2(n) = [x2(n) x2(n− 1) · · · x2(n− L+ 1)]T (2.18)

10

Atraso

∆

Filtro

Adaptativo

Detector

de

Pico

x1(n)

x2(n)

x1(n−∆)

+

−

w(n)

e(n)

τ(n)

Figura 2.3: Sistema utilizado para a estimacao do TDD composto por um filtro

adaptativo FIR de comprimento L.

w(n) = [w0(n) w1(n) · · ·wL−1(n)]T . (2.19)

Assim, o erro de estimacao pode ser calculado atraves da relacao

e(n) = x1(n−∆)−wT (n)x2(n), (2.20)

onde o atraso ∆ =⌊L−1

2

⌋e inserido no sinal de referencia para compensar o atraso

gerado pelo filtro.

A atualizacao dos coeficientes e feita atraves do algoritmo LMS normalizado, ou

seja:

w(n+ 1) = w(n) +µ

‖x2(n)‖2 e(n)x2(n), (2.21)

onde µ e o passo de adaptacao. Para a implementacao no domınio da frequencia

utilizada neste trabalho, as amostras dos sinais sao agrupadas em blocos de com-

primento N = 2L e os coeficientes do filtro sao mantidos constantes enquanto um

mesmo bloco e processado. Entao, para cada bloco indexado por m, os coeficientes

sao atualizados segundo a implementacao rapida do metodo LMS, conhecida como

FLMS (do ingles Fast Least Mean Square) [9], que pode ser resumida atraves das

equacoes:

X2(m, k) =N−1∑n=0

x2(mL+ n)e−j2πNnk, k = 0, 1, ..., N − 1 (2.22)

11

y(m,n) =1

N

N−1∑k=0

W (m, k)X2(m, k)ej2πNnk, n = 0, 1, ..., N − 1 (2.23)

e(m,n) =

0, n = 0, 1, ..., L− 1

x1(mL+ n−∆)− y(m,n), n = L,L+ 1, ..., N − 1

(2.24)

E(m, k) =N−1∑n=0

e(m,n)e−j2πNnk, k = 0, 1, ..., N − 1 (2.25)

Sx2x2(m, k) = αSx2x2(m− 1, k) + (1− α)|X2(m, k)|2, k = 0, 1, ..., N − 1 (2.26)

W (m+ 1, k) = W (m, k) +µ

Sx2x2(m, k) + εX∗2 (m, k)E(m, k),

k = 0, 1, ..., N − 1. (2.27)

A filtragem do sinal x2(n) e implementada utilizando o metodo overlap-save, com o

numero de amostras sobrepostas em cada bloco igual ao comprimento L do filtro, e

com as transformadas DFT e IDFT de tamanho N .

Idealmente, o vetor de coeficientes otimos w(n) encontrado pelo algoritmo seria

formado por zeros, exceto pela amostra correspondente ao atraso τ0 entre os sinais.

Na pratica, devido ao modelo de comprimento finito usado para a resposta ao im-

pulso do canal, e necessaria uma etapa de interpolacao antes da busca realizada no

bloco Detector de Pico (ver Figura 2.3).

Apos a interpolacao, chega-se finalmente a estimativa τ(n) para o TDD, atraves da

busca pelo valor maximo do vetor de coeficientes. Assim como no algoritmo GCC-

PHAT (Secao 2.1), essa busca nao precisa ser realizada exaustivamente, ficando

restrita apenas aos valores possıveis para o atraso.

2.3.2 Metodo Baseado na Decomposicao Espectral (AEVD)

O segundo sistema adaptativo utilizado busca estimar a resposta ao impulso do

canal presente entre a fonte e os microfones, atraves da decomposicao espectral da

matriz correlacao.

12

h1(n)

h2(n)

h2(n)

h1(n)

s(n)

x1(n)

x2(n)

e(n) ≡ 0+

−

Figura 2.4: Modelo do sinal que chega aos microfones a esquerda, em linha tracejada.

Estimador das respostas ao impulso a direita, em linha contınua.

Assume-se que as respostas ao impulso do canal formado entre a fonte e os dois

microfones, denominadas h1(n) e h2(n), representam sistemas lineares e invariantes

no tempo. Assim, o sinal que chega aos microfones e modelado como indicado na

parte tracejada da Figura 2.4. A estimacao das respostas ao impulso, representada

em linha contınua na mesma figura, e feita baseada na seguinte relacao:

x1(n) ∗ h2(n) = h1(n) ∗ s(n) ∗ h2(n) = h1(n) ∗ x2(n), (2.28)

onde as propriedades associativa e comutativa da convolucao linear foram utilizadas.

Assumindo ainda que as respostas ao impulso h1(n) e h2(n) podem ser aproxi-

madas por filtros FIR de comprimento L, os dados do problema sao agrupados nos

vetores de dimensao L× 1

xi =

xi(n)

xi(n− 1)...

xi(n− L+ 1)

e hi =

hi(0)

hi(1)...

hi(L− 1)

, (2.29)

i = 1, 2. Alem disso, definindo os vetores de dimensao estendida 2L× 1

x(n) =

xT1 (n)

xT2 (n)

, u =

hT2

−hT1

, (2.30)

e partindo da Eq. (2.28), percebe-se que

xT1 (n)h2(n)− xT2 (n)h1(n) = 0 (2.31)

13

e

xT (n)u = 0. (2.32)

Multiplicando a Eq. (2.32) pela esquerda por x(n) e aplicando o operador valor

esperado, a matriz das covariancias Rxx(n) = Ex(n)xT (n)

pode ser identificada,

levando a relacao

Rxx(n)u = 0. (2.33)

A Eq. (2.33) indica que u e o autovetor da matriz Rxx(n) correspondente ao

autovalor 0. Portanto, a busca pelo vetor u, que permite encontrar h1(n) e h2(n),

passa a ser uma busca por um autovetor da matriz das covariancias.

Como demonstrado em [3], o vetor u pode ser encontrando atraves de uma mini-

mizacao da funcao uTRxxu sujeita a restricao uTu = 1. Dado o objetivo de estimar

o atraso entre os dois microfones, nao ha a necessidade de encontrar a forma real de

h1(n) e h2(n), bastando buscar o pico negativo de u(n), que corresponde ao valor

maximo de h1(n).

A estrutura do algoritmo AEVD implementado no domınio da frequencia e seme-

lhante a estrutura apresentada para o FLMS (Eqs. (2.22) - (2.27)), como pode ser

observado atraves das equacoes correspondentes:

Xi(m, k) =N−1∑n=0

xi(mL+ n)e−j2πNnk, i = 1, 2, k = 0, 1, ..., N − 1 (2.34)

e(m,n) =1

N

N−1∑k=0

[U1(m, k)X1(m, k) + U2(m, k)X2(m, k)] ej2πNnk,

n = 0, 1, ..., N − 1 (2.35)

e(m,n) =

0, n = 0, 1, ..., L− 1

e(m,n), n = L,L+ 1, ..., N − 1

(2.36)

E(m, k) =N−1∑n=0

e(m,n)e−j2πNnk, k = 0, 1, ..., N − 1 (2.37)

14

Sxixi(m, k) = αSxixi(m− 1, k) + (1− α)|Xi(m, k)|2,

i = 1, 2, k = 0, 1, ..., N − 1 (2.38)

Ui(m+ 1, k) = Ui(m, k)− µ

Sxixi(m, k) + εX∗i (m, k)E(m, k),

i = 1, 2, k = 0, 1, ..., N − 1. (2.39)

Os filtros possuem resposta ao impulso de tamanho L e as transformadas DFT/IDFT

sao implementadas com comprimento N = 2L. Assim como no algoritmo FLMS, a

interpolacao dos coeficientes do filtro resultante (no domınio do tempo) e necessaria

para se obter estimativas precisas da diferenca dos tempos de chegada do sinal aos

microfones.

15

Capıtulo 3

Aquisicao e Estudo do Sinal

Os metodos apresentados no Capıtulo 2 podem ser empregados para estimar a

direcao de chegada de fontes acusticas em diferentes aplicacoes, desde que tomado o

devido cuidado na escolha dos parametros fornecidos aos algoritmos, como o tama-

nho das janelas de dados e a frequencia de amostragem. O presente capıtulo trata

das particularidades do cenario de interesse deste trabalho, descrevendo os dados de

audio disponıveis e como eles foram obtidos.

3.1 Medidas Experimentais

As cidades e suas fontes de ruıdo sao o foco deste estudo, por isso o cenario

das medicoes experimentais foi escolhido em uma area urbana da cidade do Rio de

Janeiro. O experimento proposto, ilustrado na Figura 3.1, consiste em um conjunto

de microfones que, de uma posicao fixa, registra o ruıdo gerado pela passagem de

veıculos em uma via urbana. A velocidade dos automoveis foi mantida constante

durante uma mesma realizacao do experimento, sendo a trajetoria percorrida por eles

uma reta paralela ao plano dos microfones. Cabe ainda destacar que os experimentos

foram realizados em um dia de pouco movimento no transito, resultando em um nıvel

reduzido de ruıdo ambiente.

Dispondo de cinco microfones, escolheu-se a configuracao em forma de cruz ilus-

trada na Figura 3.2. O arranjo foi ainda colocado sobre um suporte, erguendo seu

centro a um distancia de 1,26 m do chao. A estrutura dos sensores equivale a uti-

16

Microfones

Figura 3.1: Vista superior do experimento com seus principais componentes.

lizacao de dois arranjos lineares, perpendiculares entre si, sendo cada um capaz de

resolver a direcao de chegada em uma dimensao. Ou seja, a configuracao na forma

de cruz foi escolhida com o intuito de estimar a DOA bidimensionalmente.

3 2 1

5

4

0,2 m 0,2 m

0,2 m

0,2 m

Figura 3.2: Vista frontal do arranjo de sensores. O microfone 5 apresentou falhas

durante as gravacoes e seus registros nao foram utilizados na etapa de estimacao da

DOA.

O experimento foi realizado para tres diferentes modelos de automoveis, que em

cada teste passavam pelo arranjo com velocidade constante de 30, 40, 50, 60 ou

70 km/h. O objetivo dessas variacoes e a geracao de uma base de dados mais repre-

sentativa das fontes de ruıdo presentes no ambiente de estudo, e que permita uma

analise acerca da influencia dos fatores que foram variados sobre o ruıdo gerado.

O som foi captado por meio de cinco microfones do modelo Behringer ECM8000

e com o auxılio da interface de audio Scarlett 18i20. O registro digital do audio

17

foi efetuado atraves da versao de teste do software Mixcraft 8, com uma frequencia

de amostragem de Fs = 44 100 Hz. O processamento dos sinais foi realizado com o

software MATLAB.

3.2 Curva Teorica

Dispondo dos dados registrados experimentalmente, e possıvel prever o comporta-

mento da curva que descreve a direcao de chegada do sinal ao conjunto de sensores.

Para isso, calcula-se a diferenca entre o caminho percorrido pelo sinal da fonte ate

dois microfones do arranjo e, a partir desse valor, o TDD e a DOA podem ser

determinados.

x

y

z

Sensores

O

hs

l Fontev

sx

sy

φ

Figura 3.3: Esquema tridimensional do experimento. Altura h medida entre o chao

e o centro do arranjo de microfones. Distancia l entre a fonte e um dos microfones.

A Figura 3.3 apresenta um esquema tridimensional do problema, do qual e possıvel

extrair a distancia l entre a fonte e um dos microfones do arranjo. Assume-se que

a fonte se encontra no plano z = 0, que representa o nıvel do chao, enquanto

o arranjo de sensores pertence ao plano y = 0. Apenas os microfones alinhados

horizontalmente foram representados na figura, ja que a curva teorica foi derivada

considerando a direcao de chegada do sinal em relacao ao arranjo linear horizontal

(uma derivacao semelhante pode ser feita para outras configuracoes). A altura h,

medida entre o chao e o centro do arranjo, a distancia sy, entre o plano dos microfones

e a reta que contem a trajetoria do veıculo, e a velocidade v com que ele se desloca,

18

sao os dados conhecidos. A imagem ilustra o sistema para um instante especıfico

de tempo, omitindo assim a dependencia temporal que sera destacada ao longo dos

calculos.

A velocidade do automovel e mantida constante durante cada realizacao do teste,

e sua direcao e paralela ao eixo x, ou seja, v = vx. No desenvolvimento apresentado

a seguir, a velocidade e considerada no sentido positivo de x, como indicado na

figura, e por isso o modulo da velocidade vx = |vx| e utilizado, o que nao implica

em perda de generalidade, bastando inverter o sinal de vx caso o carro se desloque

no sentido contrario. Assim, o componente horizontal do posicionamento da fonte,

sx(t), e dado pela relacao

sx(t) = vx (t− t0) (3.1)

onde o instante t0 indica o momento em que a fonte cruza o eixo y. O problema da

Figura 3.3 pode entao ser facilmente resolvido atraves das relacoes trigonometricas

s2(t) = s2y + s2

x(t) (3.2)

l2(t) = h2 + s2(t) (3.3)

e substituindo a Eq. (3.2) em (3.3):

l2(t) = h2 + s2y + s2

x(t). (3.4)

A Eq. (3.4) indica a distancia ate um sensor qualquer do eixo horizontal do

arranjo. Seja agora li a distancia entre a fonte e o microfone mi, i = 1, 2. Se a

distancia entre m1 e m2 e igual a d, entao

l21(t) = h2 + s2y + s2

x(t) (3.5)

l22(t) = h2 + s2y + (sx(t) + d)2. (3.6)

Finalmente, o TDD e a DOA sao calculados, respectivamente, por

τ =l2(t)− l1(t)

vx(3.7)

φ = arccos

(l2(t)− l1(t)

d

). (3.8)

19

Ainda considerando o caso vx > 0, nota-se que enquanto t < t0, o valor sx(t) e

negativo (ver Eq. (3.1)), resultando em l1(t) > l2(t) segundo as Eqs. (3.5) e (3.6).

Ou seja, enquanto a fonte se aproxima dos sensores, observa-se que a diferenca de

atraso e negativa, τ < 0, ao passo que essa diferenca passa a ser positiva, τ > 0,

quando a fonte se afasta. Essa situacao e ilustrada na Figura 3.4, onde a curva

teorica da diferenca do atraso entre o sinal de dois microfones e apresentada para

vx = 60 km/h e t0 ≈ 1,5 s.

0 0.5 1 1.5 2 2.5 3

Tempo (s)

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Atr

aso

(m

s)

TDD vs. Tempo

Figura 3.4: Curva teorica do TDD para uma fonte a 60 km/h.

3.3 Analise do Sinal Acustico

O conhecimento acerca do sinal da fonte permite uma configuracao adequada

dos parametros utilizados nos algoritmos de estimacao da DOA, resultando em um

melhor desempenho destes. Posto isso, e efetuada uma analise dos dados de audio

registrados experimentalmente, buscando extrair suas principais caracterısticas.

Nos testes realizados, a fonte de interesse se encontra em movimento com relacao

aos sensores e por isso, o tamanho da janela de dados utilizada pelos algoritmos se

torna um fator de grande influencia nos resultados obtidos. A fim de obter uma boa

20

estimativa para a DOA, o trecho de dados escolhido deve ter informacao suficiente

sobre o sinal, mas nao pode abranger um grande deslocamento da fonte.

Deseja-se entao obter um limite para o numero de amostras em uma janela, sob

a condicao de que a direcao de chegada nesse intervalo nao varie acima de um valor

arbitrado. A tarefa de chegar a esse valor maximo e dificultada pela relacao nao

linear observada entre o angulo de chegada e o deslocamento da fonte. Buscando

entao uma simplificacao, nota-se que a intensidade do som que chega aos microfones

e maior quando a direcao de chegada da fonte se aproxima de 90, tornando o trecho

em torno do instante t0 o mais relevante para o estudo do sinal.

Dados dois instantes de tempo t1 e t2, onde t1 < t2, define-se a variacao da direcao

de chegada entre eles como

∆φ = |φ(t2)− φ(t1)| , (3.9)

onde φ(t1) e φ(t2) sao calculados como em (2.1). Para entao analisar o trecho do

sinal referente a passagem da fonte em frente ao arranjo de microfones, escolhe-se

um intervalo de tempo simetrico em relacao a t0, ou seja, t0 = t1+t22

. Essa simetria

resulta na simplificacao ilustrada na Figura 3.5.

s

∆s = vx∆t

ssy

Microfone

Fonte em t1 Fonte em t2

∆φ

θ θ

Figura 3.5: Esquema utilizado para o calculo do comprimento da janela de dados.

21

O triangulo formado pelo posicionamento da fonte em t1 e t2 e por um dos micro-

fones fornece a relacao

sin(θ) =sys

=sy√

s2y +

(∆s2

)2, (3.10)

e a soma dos seus angulos internos leva a

∆φ+ 2θ = 180 (3.11)

∆φ+ 2 arcsin

sy√s2y +

(∆s2

)2

= 180, (3.12)

onde a Eq. (3.10) foi utilizada para substituir o angulo θ na Eq. (3.11). Agora,

isolando ∆s na Eq. (3.12) conclui-se que

∆s = 2sy

√1

sin2(90 − φ

2

) − 1. (3.13)

Por fim, usando que sin (90 − α) = cos (α) e sin2 (α)+cos2 (α) = 1 na Eq. (3.13),

chega-se a relacao

∆s = 2sysin(

∆φ2

)cos(

∆φ2

) , (3.14)

da qual e possıvel, escolhendo uma variacao maxima para o angulo de chegada

∆φ = ∆φmax, obter o numero maximo de amostras Nmax que satisfaz essa restricao,

ou seja,

Nmax = fs∆t = fs2syvx

sin(

∆φmax2

)cos(

∆φmax2

) , (3.15)

sendo fs a frequencia de amostragem do sinal.

Alem do comprimento da janela, um estudo e feito acerca do espectro do sinal de

interesse, visando identificar as faixas de frequencia onde ha maior concentracao de

energia. A Figura 3.6 apresenta o espectrograma do sinal de audio correspondente

a um veıculo com velocidade igual a 50 km/h. Aproximadamente aos 1,5 s e possıvel

observar um pico de energia, que representa a passagem do veıculo em frente ao

arranjo de sensores e portanto a regiao onde espera-se uma razao sinal-ruıdo mais

alta. Esse instante, chamado de t0, e obtido atraves da busca pelo ponto de maxima

energia do sinal.

22

0.5 1 1.5 2 2.5

Tempo (s)

0

5

10

15

20

Fre

quên

cia

(kH

z)

-140

-120

-100

-80

-60

-40

Pot

ênci

a / F

requ

ênci

a (d

B/H

z)

Figura 3.6: Espectrograma do sinal amostrado a 44,1 kHz.

Entao, condicionado ao numero maximo de amostras dado pela Eq. (3.15),

escolhe-se um trecho do sinal centrado em t0 e obtem-se uma nova estimativa do

espectro baseada no metodo de Welch [10]. O resultado e apresentado na Figura

3.7.

0 5 10 15 20

Frequência (kHz)

-60

-50

-40

-30

-20

-10

0

Mag

nitu

de (d

B)

Figura 3.7: Estimativa do espectro do sinal amostrado a 44,1 kHz.

23

A Figura 3.8 apresenta as estimativas obtidas com o sinal reamostrado a 16 kHz,

para as diferentes velocidades testadas. A reducao da taxa de amostragem e feita

com o unico objetivo de melhorar a visualizacao do espectro do sinal, que concentra

sua energia nas frequencias mais baixas. Para gerar as estimativas da direcao de

chegada no Capıtulo 4 e utilizado o sinal com frequencia de amostragem de 44,1 kHz.

0 1 2 3 4 5 6 7 8

Frequência (kHz)

-55

-50

-45

-40

-35

-30

-25

-20

-15

-10

-5

0

Mag

nitu

de (

dB)

30 km/h40 km/h50 km/h60 km/h70 km/h

Figura 3.8: Estimativas do espectro para o carro 1. Sinal reamostrado a 16 kHz.

A distribuicao da energia ao longo do espectro e semelhante para as diferentes

velocidades, com uma predominancia das frequencias ate aproximadamente 1 kHz.

Na Figura 3.9 e feita uma comparacao entre o espectro gerado pelos tres modelos

de veıculos testados, onde dois carros tem cambio de marchas automatico e um

um carro tem cambio manual, para a velocidade de 60 km/h. Pode-se notar uma

diferenca entre os espectros, sendo o carro 3 (cambio manual) o que apresenta menos

energia em baixas frequencias, enquanto o carro 1 (cambio automatico) e o que tem

mais.

24

0 1 2 3 4 5 6 7 8Frequência (kHz)

-60

-50

-40

-30

-20

-10

0

Mag

nitu

de (

dB)

Carro 1 (A)Carro 2 (A)Carro 3 (M)

Figura 3.9: Estimativas do espectro para a velocidade de 60 km/h. Carros 1 e 2

com cambio automatico (A) e carro 3 com cambio manual (M). Sinal reamostrado

a 16 kHz.

25

Capıtulo 4

Resultados

A seguir sao apresentados os resultados obtidos atraves da implementacao dos

algoritmos descritos no Capıtulo 2, para testes com os sinais adquiridos, que foram

descritos e analisados no Capıtulo 3. O comprimento da janela de dados foi escolhido

como a maior potencia de 2 abaixo do comprimento maximo Nmax, ou seja,

N = 2blog2Nmaxc, (4.1)

onde Nmax foi calculado como na Eq. (3.15). Para a faixa de velocidades com-

preendida nos testes, de 30 km/h a 70 km/h, e para a frequencia de amostragem

Fs = 44,1 kHz, Nmax encontra-se entre 285 e 665, considerando uma variacao maxima

para o angulo ∆φmax = 2.

A Figura 4.1 ilustra a influencia da escolha de N na estimativa obtida para a

direcao de chegada. Sao apresentadas duas imagens, onde todos os dados utilizados

para gera-las foram os mesmos, exceto pelo comprimento da janela: N = 1024 na

Figura 4.1(a) e N = 256 na Figura 4.1(b). Observa-se que para um comprimento

maior do que Nmax, a direcao de chegada se mantem constante por longos perıodos,

durante os quais um trecho do sinal esta sendo processado. O resultado disso e uma

estimativa pouco confiavel para a DOA.

A Figura 4.2 apresenta o mapeamento da funcao correlacao cruzada entre o sinal

de dois microfones do arranjo, para uma fonte com velocidade vx = 60 km/h. Base-

ado nesse resultado, o algoritmo obteve a evolucao da direcao de chegada ao longo

26

0 0.5 1 1.5 2 2.5 3

Tempo (s)

0

20

40

60

80

100

120

140

160

180

Âng

ulo

(º)

DOA - Método GCC-PHAT

(a) N = 1024

0 0.5 1 1.5 2 2.5 3

Tempo (s)

0

20

40

60

80

100

120

140

160

180

Âng

ulo

(º)


(b) N = 256

Figura 4.1: Comparacao entre diferentes valores de N . Estimativa da DOA obtida

com o metodo GCC-PHAT para vx = 40 km/h e Fs = 44 100 Hz.

do tempo, indicada em linha contınua na Figura 4.3, enquanto a curva prevista se

encontra em linha tracejada.

Função GCC-PHAT Rx

1x

2

( ,t)

0 0.5 1 1.5 2 2.5

Tempo (s)

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Atra

so

(ms)

-0.15

-0.1

-0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

Figura 4.2: Funcao Rx1x2 calculada com o metodo GCC-PHAT para vx = 60 km/h,

Fs = 44 100 Hz e N = 256.

Na Figura 4.2 nota-se que para os instantes proximos a t0, quando nao existe

atraso entre os sinais x1 e x2, duas regioes de pico se destacam na funcao Rx1x2 ,

formando um padrao que se assemelha a duas curvas com um deslocamento temporal

de aproximadamente 0,3 s entre si. A uma velocidade constante de 60 km/h, esse

intervalo equivale a distancia de 2,5 m, que por sua vez e compatıvel com o espaco

presente entre as rodas dianteiras e traseiras dos carros. Essa analise leva a conclusao

27

de que as curvas deslocadas representam as diferentes fontes de ruıdo presentes em

um mesmo veıculo.

Para o mesmo sinal que resultou nas Figuras 4.2 e 4.3, o metodo inspirado nas

diferencas de tempo interaurais foi tambem testado, com o fator de esquecimento

α igual a 0, 9. O mapeamento da media dos histogramas avaliada ao longo das

frequencias e o respectivo resultado obtido para a DOA sao apresentados nas Figuras

4.4 e 4.5, respectivamente.

Ainda para os mesmos dados de audio, os metodos adaptativos sao agora utilizados

para obter a estimativa da DOA. A implementacao do filtro adaptativo atraves do

algoritmo LMS resulta no mapeamento dos coeficientes indicado na Figura 4.6. Os

pontos de maximo desse mapa fornecem a estimativa para o atraso τ , que por sua vez

permitem o calculo da estimativa da direcao de chegada, apresentada na Figura 4.7.

Esses resultados foram obtidos com um filtro FIR de comprimento L = N2

= 128,

cujos coeficientes foram atualizados a cada 512 amostras, utilizando um passo de

adaptacao µ = 0.25.

O teste com o metodo adaptativo baseado na decomposicao espectral resultou

na resposta ao impulso cujos coeficientes sao apresentados na Figura 4.8. Essa

0 0.5 1 1.5 2 2.5 3

Tempo (s)

0

20

40

60

80

100

120

140

160

180

Ângu

lo

(º)


EstimadoTeórico

Figura 4.3: DOA estimada com o metodo GCC-PHAT para vx = 60 km/h, Fs =

44 100 Hz e N = 256.

28

ITD - Média dos histogramas vs. Tempo

0 0.5 1 1.5 2 2.5 3

Tempo (s)

-0.4

-0.2

0

0.2

0.4

Atra

so

(ms)

0

20

40

60

80

100

120

140

160

180

200

Figura 4.4: Media na frequencia dos histogramas obtidos com o metodo ITD para

vx = 60 km/h, Fs = 44 100 Hz, N = 512 e α = 0, 9.

0 0.5 1 1.5 2 2.5 3

Tempo (s)

0

20

40

60

80

100

120

140

160

180

Ângu

lo

(º)

DOA - Método ITD

EstimadoTeórico

Figura 4.5: DOA estimada com o metodo ITD para vx = 60 km/h, Fs = 44 100 Hz,

N = 512 e α = 0, 9.

estimativa foi obtida com um filtro de comprimento L = 128, atualizado a cada

2048 amostras, e com passo de adaptacao µ = 0.25. A direcao de chegada obtida a

partir desse resultado encontra-se na Figura 4.9.

Ao comparar os resultados obtidos com os diferentes metodos, o mesmo padrao e

observado na deteccao da direcao de chegada. Na media, as estimativas se aproxi-

mam do valor teorico previsto, mas todos os algoritmos demonstraram dificuldades

29

Coeficientes do Filtro Adaptativo

0 0.5 1 1.5 2 2.5 3

Tempo (s)

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Atra

so

(ms)

-0.2

0

0.2

0.4

0.6

0.8

Figura 4.6: Mapeamento dos coeficientes do filtro adaptativo (LMS) para vx =

60 km/h, Fs = 44 100 Hz, N = 256 e µ = 0, 25.

0 0.5 1 1.5 2 2.5 3

Tempo (s)

0

20

40

60

80

100

120

140

160

180

Ângu

lo

(º)

DOA - Método Adaptativo (LMS)

EstimadoTeórico

Figura 4.7: DOA estimada com filtro adaptativo (LMS) para vx = 60 km/h, Fs =

44 100 Hz, N = 256 e µ = 0, 25.

em identificar angulos fora da faixa entre 20 e 160, alem de apresentarem uma

oscilacao nos instantes proximos a t0, quando φ = 90. Esse resultado oscilatorio

pode ser compreendido observando-se, por exemplo, o comportamento da funcao

GCC na Figura 4.2. O algoritmo GCC-PHAT utiliza o valor maximo dessa funcao

a cada instante de tempo para estimar o TDD, nao levando em consideracao a pre-

senca das duas curvas que representam fontes de ruıdo diferentes. Como resultado,

30

Coeficientes do Filtro Adaptativo

0 0.5 1 1.5 2 2.5 3

Tempo (s)

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Atra

so

(ms)

-0.1

-0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

Figura 4.8: Mapeamento dos coeficientes do filtro adaptativo (EVD) para vx =

60 km/h, Fs = 44 100 Hz, N = 256 e µ = 0, 25.

0 0.5 1 1.5 2 2.5 3

Tempo (s)

0

20

40

60

80

100

120

140

160

180

Ângu

lo

(º)

DOA - Método Adaptativo (EVD)

EstimadoTeórico

Figura 4.9: DOA estimada com filtro adaptativo (EVD) para vx = 60 km/h, Fs =

44 100 Hz, N = 256 e µ = 0, 25.

a estimativa obtida alterna entre as duas regioes de pico da funcao, o que pode ser

observado na Figura 4.10.

31


1x

2

( ,t)

0 0.5 1 1.5 2 2.5

Tempo (s)

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Atra

so

(ms)

TDD Estimado

Figura 4.10: Funcao Rx1x2 e TDD estimado com o metodo GCC-PHAT para vx =

60 km/h, Fs = 44 100 Hz e N = 256.

4.1 Separacao de Fontes com Deslocamento Pa-

ralelo

Deseja-se separar as contribuicoes das diferentes fontes de ruıdo e para isso uma

etapa de pos-processamento e introduzida no algoritmo, onde a busca agora e feita

nao por um unico valor maximo, mas pelos diversos valores de pico da funcao.

Essa estrategia e desenvolvida para tratar de fontes em movimento paralelo. A nova

etapa se inicia com a aplicacao de um limiar aos valores da funcao a ser maximizada,

zerando os pontos que nao ultrapassam esse valor. Em seguida, uma busca pelos

picos e efetuada para cada instante de tempo e do resultado sao extraıdos os pontos

referentes ao menor e maior atraso, separando-os em dois vetores de dados que

representam as duas fontes de ruıdo principais. Duas curvas sao entao ajustadas

aos pontos selecionados, uma para cada vetor, como e ilustrado na Figura 4.11a. A

partir desse resultado calcula-se o erro entre as curvas encontradas e os dados reais,

e os pontos para os quais o erro excede um valor tolerado sao eliminados. Os novos

dados, sem os pontos discrepantes, sao enfim utilizados para ajustar novas curvas,

apresentadas na Figura 4.11b.

32

0 0.5 1 1.5 2 2.5

Tempo t (s)

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Atr

aso

(s)

Curva Fonte 1 Curva Fonte 2 Dados Fonte 1 Dados Fonte 2

(a)

0 0.5 1 1.5 2 2.5

Tempo t (s)

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

Atr

aso

(s)

Curva Fonte 1 Curva Fonte 2 Dados Fonte 1 Dados Fonte 2

(b)

Figura 4.11: Etapas do ajuste de curvas, antes (a) e depois (b) da eliminacao dos

pontos discrepantes.

Os dados utilizados na Figura 4.11 foram obtidos a partir do algoritmo GCC-

PHAT e os ajustes foram encontrados utilizando-se a previsao teorica para o TDD,

segundo o desenvolvimento da Secao 3.2. A velocidade da fonte, sua distancia ate

o microfone e o instante t0 foram utilizados como parametros a serem ajustados,

enquanto a altura dos microfones e a distancia d entre eles foram mantidas constan-

tes. Para os testes representados nessa imagem, por exemplo, os coeficientes obtidos

indicaram uma velocidade de 49,75 km/h e uma distancia entre fonte e sensor de

4,73 m nos instantes t0 = 1,36 s, para a fonte mais adiantada, e t0 = 1,43 s para a

atrasada. Sobrepondo o resultado do ajuste de curvas aos dados da funcao GCC da

Figura 4.10, observa-se que a nova estimativa para o TDD coincide com as regioes

de pico da correlacao, como indicado na Figura 4.12.

Para se adequar ao novo cenario, a previsao teorica das curvas da direcao de

chegada tambem e modificada. Isso e feito baseado no conhecimento da distancia

entre as rodas dos veıculos, que e utilizado para deslocar a curva teorica original e

gerar duas novas curvas. Os resultados previsto e estimado para a DOA apos a etapa

de pos-processamento sao apresentados na Figura 4.13, para diversas velocidades.

Os coeficientes de ajuste obtidos a partir das estimativas da Figura 4.13 encontram-

se na Tabela 4.1. O instante t0 previsto foi obtido atraves da busca pelo pico de

energia do sinal, nao havendo distincao entre as multiplas fontes geradoras do ruıdo.

33


1x

2

( ,t)

0 0.5 1 1.5 2 2.5

Tempo (s)

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

Atra

so

(ms)

-0.15

-0.1

-0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

TDD Estimado

Figura 4.12: Funcao Rx1x2 e TDD estimado com o metodo GCC-PHAT para vx =

60 km/h, Fs = 44 100 Hz e N = 256.

Esse valor e ainda utilizado na determinacao da curva teorica para a DOA, e quando

mal calculado gera os desajustes observados nas imagens 4.13(a) e 4.13(d).

Tabela 4.1: Coeficientes de ajuste obtidos ao estimar a direcao de chegada.

a b c d e

Velocidade (km/h) 35, 57 42, 47 54, 45 53, 30 68, 29

Valor previsto (30) (40) (50) (60) (70)

Distancia Fonte-Sensor (m) 3, 74 3, 56 3, 24 4, 41 3, 74

Valor previsto (3,60) (3,60) (3,60) (3,60) (3,60)

Distancia entre Fontes (m) 2, 83 2, 80 3, 18 2, 59 2, 61

Valor previsto (2,70) (2,70) (2,70) (2,45) (2,70)

Instante t0 (s)Fonte 1 1, 43 1, 33 1, 40 1, 38 1, 45

Fonte 2 1, 50 1, 40 1, 53 1, 40 1, 48

Valor previsto (1,76) (1,52) (1,49) (1,51) (1,51)

34

0 0.5 1 1.5 2 2.5 3

Tempo (s)

0

20

40

60

80

100

120

140

160

180

Âng

ulo

(º)


EstimadoTeórico

(a) 30 km/h

0 0.5 1 1.5 2 2.5 3

Tempo (s)

0

20

40

60

80

100

120

140

160

180

Âng

ulo

(º)


EstimadoTeórico

(b) 40 km/h

0 0.5 1 1.5 2 2.5 3

Tempo (s)

0

20

40

60

80

100

120

140

160

180

Âng

ulo

(º)


EstimadoTeórico

(c) 50 km/h

0 0.5 1 1.5 2 2.5 3

Tempo (s)

0

20

40

60

80

100

120

140

160

180

Âng

ulo

(º)


EstimadoTeórico

(d) 60 km/h

0 0.5 1 1.5 2 2.5 3

Tempo (s)

0

20

40

60

80

100

120

140

160

180

Âng

ulo

(º)


EstimadoTeórico

(e) 70 km/h

Figura 4.13: Estimativa da direcao de chegada obtida com o metodo GCC-PHAT

para Fs = 44 100 Hz e N = 256, seguido da etapa de pos-processamento.

35

Capıtulo 5

Conclusao

Este trabalho buscou, atraves da implementacao de quatro algoritmos diferentes,

encontrar um metodo capaz de localizar fontes de ruıdo em um ambiente urbano.

A aplicacao dos metodos na qual este trabalho se baseou [7] tratava de sinais de

voz em um cenario onde era esperado apenas um falante por vez, podendo ele estar

em movimento. Assim, os algoritmos chegaram a resultados satisfatorios para a

estimativa da direcao de chegada. No entanto, os sinais de audio utilizados neste

trabalho exibiram um comportamento diferente, sendo possıvel distinguir mais de

uma fonte para cada instante de tempo. Os metodos foram entao ajustados para

que a estimativa da DOA se tornasse condizente com a real.

Apos efetuar as modificacoes foi entao possıvel estimar a direcao de chegada para

as duas fontes principais observadas. Apesar da etapa de pos-processamento intro-

duzida poder utilizar o resultado de qualquer um dos metodos, deu-se preferencia

ao algoritmo baseado na funcao correlacao cruzada por ter sido observado que as

duas regioes de pico, referentes as duas fontes, encontram-se mais evidentes nesse

metodo, facilitando a etapa do ajuste das curvas.

Das curvas encontradas foi tambem possıvel extrair os parametros inicialmente

estimados para a velocidade, para o instante da passagem do veıculo em frente ao

arranjo e para a distancia entre fonte e sensor medida nesse instante. Dado que

o objetivo e a utilizacao do arranjo de sensores para captar o ruıdo de carros dos

quais nao se tem nenhuma informacao, os coeficientes resultantes do ajuste tornam-

se importantes na categorizacao dos sinais obtidos.

36

Capıtulo 6

Trabalhos Futuros

Para a continuacao deste trabalho, as curvas encontradas da direcao de chegada

podem ser utilizadas para extrair, atraves da tecnica de beamforming, a contribuicao

individual de cada componente. A ideia e direcionar o lobulo principal do beamfor-

mer para uma das fontes de ruıdo, enquanto um nulo e imposto a posicao da outra,

assim separando-as. Alem disso, faixas de frequencia do espectro podem ser filtra-

das a fim de se distinguir outras fontes alem das rodas, como o ruıdo emitido pelo

motor, por exemplo.

Outra tarefa sugerida e a avaliacao da direcao de chegada estimada a partir de

dois microfones posicionados no eixo vertical do arranjo. O angulo resultante dessa

analise indica a posicao da fonte com relacao ao eixo z e pode auxiliar na separacao

de fontes que se encontram em alturas diferentes.

37

Referencias Bibliograficas

[1] KNAPP, C., CARTER, G., “The generalized correlation method for estimation

of time delay”, IEEE Transactions on Acoustics, Speech, and Signal Processing,

v. 24, n. 4, pp. 320–327, 1976.

[2] LIU, C., WHEELER, B. C., O?BRIEN JR, W. D., et al., “Localization of

multiple sound sources with two microphones”, The Journal of the Acoustical

Society of America, v. 108, n. 4, pp. 1888–1905, 2000.

[3] BENESTY, J., “Adaptive eigenvalue decomposition algorithm for passive

acoustic source localization”, The Journal of the Acoustical Society of Ame-

rica, v. 107, n. 1, pp. 384–391, 2000.

[4] ORGANIZATION, W. H., OTHERS, “Burden of disease from environmental

noise: Quantification of healthy life years lost in Europe”. In: Burden of disease

from environmental noise: quantification of healthy life years lost in Europe, pp.

126–126, 2011.

[5] BRAMBILLA, G., GALLO, V., ASDRUBALI, F., et al., “The perceived quality

of soundscape in three urban parks in Rome”, The Journal of the Acoustical

Society of America, v. 134, n. 1, pp. 832–839, 2013.

[6] PINTO, F. A. D. N. C., MARDONES, M. D. M., “Noise mapping of densely

populated neighborhoods: example of Copacabana, Rio de Janeiro, Brazil”,

Environmental monitoring and assessment, v. 155, n. 1-4, pp. 309–318, 2009.

[7] DOBLINGER, G., “Localization and tracking of acoustical sources”, Topics in

acoustic echo and noise control, pp. 91–122, 2006.

38

[8] HAYES, M. H., Statistical digital signal processing and modeling. John Wiley

& Sons, 2009.

[9] FERRARA, E., “Fast implementations of LMS adaptive filters”, IEEE Tran-

sactions on Acoustics, Speech, and Signal Processing, v. 28, n. 4, pp. 474–475,

1980.

[10] WELCH, P., “The use of fast Fourier transform for the estimation of power

spectra: a method based on time averaging over short, modified periodograms”,

IEEE Transactions on audio and electroacoustics, v. 15, n. 2, pp. 70–73, 1967.

39

estimac˘ao das direc˘~ oes de chegada de...

Documents