algoritmo para audibilização de salas retangulares com paredes

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO Departamento de Engenharia Mecânica

DEM/POLI/UFRJ

ALGORITMO PARA AUDIBILIZAÇÃO DE SALAS RETANGULARES COM

PAREDES REVESTIDAS INDIVIDUALMENTE DE FORMA HOMOGÊNEA

Luis Eduardo Marcanth Barros da Silva

PROJETO FINAL SUBMETIDO AO CORPO DOCENTE DO DEPARTAMENTO

DE ENGENHARIA MECÂNICA DA ESCOLA POLITÉCNICA DA

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS

REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE

ENGENHEIRO MECÂNICO.

Aprovado por:

________________________________________________ Prof. Ricardo E. Musafir, D.Sc. (Orientador)

________________________________________________ Prof. Jules Ghislain Slama, D.Sc.

________________________________________________ Prof. Thiago Gamboa Ritto, D.Sc.

RIO DE JANEIRO, RJ - BRASIL

DEZEMBRO DE 2013

!!!!!!!!!!!!!!!!!!!!!!!!

!!

!!

“Every champion was once a contender that refused to give up.” !Sylvester Stallone

i

Agradecimentos ! Gostaria de agradecer, primeiramente, à minha mãe, Cláudia Marcanth Barros da

Silva, e a meu pai, Eduardo Antônio Barros da Silva, por toda a ajuda e apoio que me

deram durante esses 5 anos de curso e também nos anos anteriores a esses, sem os quais

minha formação e carreira não seriam as mesmas. Sou igualmente grato a toda a minha

família, que, em diversos momentos, me supriu com os conhecimentos, conselhos e

sabedoria necessários para vencer não só neste, como também em muitos outros

momentos da minha vida. À minha querida namorada Bruna Lofrano, gostaria de

agradecer por todo o apoio que me deu durante todos os meus 5 anos de engenharia

mecânica e também nos anos anteriores a esses, sem o qual essa jornada certamente

seria mais difícil.

Aos meus amigos e colegas de engenharia mecânica, eu gostaria de agradecer

pelo companheirismo, pela paciência, pelas inúmeras noites em claro e pelos

incontáveis momentos de desespero coletivo em que se achava que não havia saída, para

que pudéssemos juntos descobrir que, na verdade, para tudo existe uma solução. Aos

amigos e técnicos de natação que tive, obrigado pela disciplina e pelo desenvolvimento

de um pensamento focado em objetivos de longo prazo, que me permitiram planejar

com cuidado toda a minha trajetória profissional.

Ao meu orientador, Prof. Ricardo Musafir, muito obrigado pela oportunidade de

realizar este projeto, mas, principalmente, pela imensa ajuda e cooperação durante todo

o processo. Gostaria, também, de agradecer aos professores da COPPE/Elétrica Sérgio

Lima Neto e Amaro Lima, cuja ajuda prestada foi essencial para o desenvolvimento

deste projeto.

Por último, gostaria de agradecer ao povo brasileiro, que me permitiu estudar

sem custos numa das melhores escolas de engenharia do país, e espero poder retribuir o

favor gerando o conhecimento que possa, no futuro, permitir que o Brasil siga

caminhando para frente.

ii

Resumo !!Já há algumas décadas, estudos relacionados à geração de realidade virtual acústica vem

sendo feitos com cada vez mais detalhes, acompanhando a evolução da potência dos

processadores de computador. Com isso, vão sendo criados modelos cada vez mais

eficientes e mais condizentes com a realidade. Neste projeto, procuramos criar um

algoritmo que seja capaz de processar um arquivo de áudio comum, preferencialmente

gravado em câmara anecóica, a fim de simular como seria ouvir essa gravação num

espaço real, com paredes refletindo as ondas sonoras de maneira diferente de acordo

com a faixa de frequência do som emitido. Foram estudados aqui dois métodos para isso

- um originalmente proposto em 1979 (o método das imagens especulares) que, neste

trabalho, teve a adição de alguns detalhes originalmente não considerados, e um outro

método, alternativo ao método das imagens, visando uma maior eficiência

computacional, de modo a não sacrificar a qualidade do som produzido.

!!

iii

Índice !1. Introdução 1

1.1. Motivação 1 2. A reposta impulsiva da sala 3

2.1. O impulso 3 2.2. A transformada de Fourier 5 2.3. A convolução 5 2.4. A equação de onda 7 2.5. A reposta impulsiva discreta 7

3. O Método das Imagens 9 3.1. Disposição espacial das imagens 11 3.2. Atenuações da amplitude do sinal emitido por cada imagem 16 3.3. Construindo a resposta impulsiva pelo método das imagens 19 3.4. Problemas inerentes à implementação computacional do método das

imagens 23 3.4.1. Tempo de processamento 23 3.4.2. Limitações causadas pela discretização da resposta impulsiva 25

4. O método híbrido 28 4.1. O ruído branco 30 4.2. Envelope de decaimento exponencial do ruído branco 31

5. Algoritmo utilizado na implementação computacional do cálculo da resposta impulsiva 37 5.1. Coeficientes de absorção α como funções da frequência 37 5.2. O algoritmo utilizado para o cálculo da resposta completa 39 5.3. Projeto dos filtros passa-faixa - “filtron” 41

5.3.1. Filtros passa-faixa digitais 42 5.3.2. Projeto dos filtros passa-faixa 44 5.3.3. Transições entre faixas 45 5.3.4. Faixas de oitava centradas em fc ≤ 125 Hz 46 5.3.5. Faixas de oitava centradas de 250 Hz a 8 kHz 47 5.3.6. Faixa de oitava centrada em 16 kHz 47 5.3.7. Critérios de projeto dos filtros 47

6. Critérios de comparação 53 6.1. Comportamentos ideais para teste 53 6.2. Resultados obtidos através da utilização de materiais de paredes com

comportamentos hipotéticos 55 6.3. Busca pelo valor ótimo da ordem de reflexão máxima da parte da resposta

impulsiva híbrida calculada pelo método das imagens 60 6.4. Simulação de ambientes reais 64

6.4.1. Caracterização das salas simuladas e localização das fontes 66 6.4.2. Localização dos receptores nos testes 68

6.5. Algoritmo final para a simulação de ambientes reais 69 6.6. Resultados dos testes simulando situações reais 70

6.6.1. Tempo de processamento 70

iv

6.6.2.Método das Imagens vs. Método Híbrido - Qualidade 70 6.6.3. Diferenças entre a sala bem projetada e a mal projetada 71 6.6.4. A piscina fechada 71

7. Conclusões e sugestões de implementações futuras 72 7.1. Conclusões 72 7.2. Sugestões para implementações futuras 73

8. Bibliografia 75 !Apêndice A 77

v

1. Introdução ! A acústica de salas se preocupa em estudar o campo de pressão gerado por

fontes acústicas dentro de ambientes fechados, e como certas variações desses

ambientes (suas dimensões, a forma e o material das paredes, etc.) influenciam esse

campo e a percepção humana dele. Através destes estudos, desenvolveram-se uma base

teórica e uma base de informações para que se pudesse prever, de antemão, como certas

modificações no ambiente afetariam a percepção sonora nele, baseando-se apenas em

modelos físico-matemáticos, sem que fosse necessário aplicar, de fato, essas

modificações aos ambientes reais. Com isso, tornou-se possível escolher o material mais

apropriado para, por exemplo, se instalar nas paredes de um estúdio de gravação

musical, sem que se precisasse investir na compra de diferentes materiais para depois

testar, um a um, qual deles soaria melhor para aquele propósito.

Uma das maneiras que existem para prever estes efeitos é calcular, em

computadores, a chamada “resposta impulsiva da sala”. A resposta impulsiva da sala é,

de maneira resumida, a maneira que um sinal (no caso, um impulso) emitido por uma

fonte acústica num dado ponto sala é recebido em outro ponto desta sala, tanto no

domínio do tempo como no da frequência. De posse da resposta impulsiva da sala,

podemos então aplicá-la (através de convolução) em uma gravação qualquer

(preferencialmente realizada em ambiente anecóico) para simular como seria ouvir

aquela gravação em um outro ambiente, um processo chamado de “audibilização” da

gravação (do inglês “auralization”), que seria o equivalente auditivo da “visualização”

de um ambiente através de uma imagem.

!1.1. Motivação !

Em 1979, foi proposta, por ALLEN e BERKELEY [1], a utilização do método

das imagens especulares para o cálculo em computadores das respostas impulsivas de

salas retangulares (em formato de “caixa”), simulando as ondas sonoras refletidas pelas

paredes como se fossem ondas provenientes de imagens virtuais da fonte original,

supostamente situadas de forma simétrica em relação às paredes. Este método parte do

1

princípio de que cada parede se comporta como um espelho, sendo que, a cada reflexão,

apenas uma fração da energia incidente na parede é refletida por ela (fração essa que

varia com o material que reveste cada parede). As limitações de poder computacional

em 1979, no entanto, não permitiam cálculos muito sofisticados. Sendo assim, no

trabalho apresentado por Allen e Berkley, muitos aspectos do cálculo da resposta

impulsiva da sala são sacrificados em prol da redução no tempo de processamento - foi

necessário que adotassem, por exemplo, frequências de amostragem mais baixas (o que

prejudicava a fidelidade sonora da resposta), e também tiveram de assumir coeficientes

de absorção de energia de cada parede uniformes no domínio da frequência.

O objetivo deste projeto é testar diferentes métodos e implementações para

cálculos mais precisos de respostas impulsivas, uma vez que a capacidade de

processamento hoje disponível é várias ordens de grandeza superior àquela da década

de 1970. Pretende-se, aqui, realizar implementações adaptadas do método das imagens

proposto por Allen e Berkeley, levando em consideração alguns aspectos anteriormente

negligenciados no algoritmo original devido a limitações computacionais. Dentre esses

aspectos, temos o aumento da frequência de amostragem da resposta impulsiva e a

utilização dos coeficientes de absorção de energia das paredes não mais como

constantes, mas como funções dependentes da frequência. O objetivo desta

implementação é tentar verificar as particularidades de cada material de parede,

analisando se é possível distinguir qualitativamente diferentes materiais e ambientes.

Sabemos, por exemplo, que uma sala com paredes de carpete apresenta maior absorção

de energia nas frequências mais altas, enquanto que ocorre o contrário com uma sala de

paredes feitas de mármore, e a implementação adotada neste projeto deve prever essa

diferença de comportamento. Além de implementar estes detalhes, pretende-se também

estudar a viabilidade de implementação de um método alternativo ao método das

imagens para o cálculo da resposta impulsiva de uma sala, pois, como veremos mais à

frente, os mais de 30 anos que separam o trabalho de Allen e Berkeley dos dias atuais

não foram suficientes para resolver todas as limitações que surgem ao se implementar

este método em computadores. Feito isso, os resultados obtidos serão discutidos tanto

em termos de custo computacional quanto em termos de qualidade subjetiva de cada

2

método utilizado. Começaremos estabelecendo a base teórica para definir a resposta ao

impulso de uma sala.

!2. A reposta impulsiva da sala !

2.1. O impulso ! Um impulso ideal é definido como a função não-periódica, no domínio no tempo

(−∞,+∞), que é a resultante do somatório infinito de funções periódicas:

!# . (2.1.1)

!O resultado é uma função que, no domínio do tempo, é igual a zero em todos os pontos

em que t ≠ 0 e que tem a área sob a curva (definida pela eq. 2.1.2 abaixo) igual a 1.

!# (2.1.2)

!Por ser o somatório contínuo de todas as funções co-seno de amplitude igual a 1 dentro

do intervalo ω ∈ (−∞,+∞), o impulso tem distribuição uniforme de amplitudes no

domínio da frequência, sendo elas sempre constantes e iguais a 1. A função δ(t), assim

definida, permite deslocamentos de t0 na posição do impulso no tempo, sem que o seu

espectro de amplitudes seja alterado, de maneira que δ(t - t0) seja igual a zero em todos

os pontos em que t0 ≠ 0 e tenda a ∞ em t = t0:

!# . (2.1.3)

!Uma excitação δ(t - t0) é uma excitação deslocada de t0 no domínio do tempo, ainda

mantendo sua distribuição no domínio da frequência intacta.

!

δ (t) = 12π

cos(ωt)dω−∞

+∞

∫

δ (t)dt−∞

+∞

∫ = 1

δ (t − t0 ) =12π

cos(ω (t − t0 ))dω−∞

+∞

∫

3

! É importante definir o que é a uma reposta ao impulso. Quando há uma fonte

sonora dentro de uma sala, por exemplo, o que se ouve, na realidade, é a sobreposição

da onda sonora originada diretamente pela fonte com as ondas resultantes das reflexões

da onda original nas paredes da sala. A resposta impulsiva é uma função de

transferência de um sistema, que é definida como uma função g(t) que transforma um

dado sinal qualquer de entrada pe(t) num sinal de saída modificado ps(t).

!

#

Fig. 1 - Resposta impulsiva g(t) de um sinal

!A resposta impulsiva da sala, mais especificamente, é a função de transferência que

permite transformar, através da convolução, um dado sinal vindo de uma fonte sonora

(seja ela um instrumento musical, uma pessoa falando ou um alto-falante, por exemplo)

no sinal que é percebido pelo receptor quando aquela fonte é colocada dentro de uma

sala. Essa função de transferência dependerá, dentre outros fatores, das dimensões da

sala e do material das suas paredes.

Para o modelo físico implementado neste trabalho, é importante salientar que o

sistema descrito na Fig. 1 deve ter comportamento linear, o que significa dizer que

qualquer aumento proporcional a α em pe(t) causará um aumento igualmente

proporcional a α em ps(t), assim como que qualquer superposição de sinais pe(t) = p1e(t)

+ p2e(t) gerará uma resposta ps(t) = p1s(t) + p2s(t). O sistema é modelado, também, como

invariante no tempo, que equivale a afirmar que, se uma função pe(t) tem resposta ps(t),

então uma função pe(t + Δ) terá resposta ps(t + Δ) . Essas são propriedades

fundamentais para justificar o desenvolvimento do algoritmo utilizado neste trabalho,

como será visto mais à frente, no capítulo 5. Mas, antes de seguir em frente, devemos

primeiro estabelecer o que é um impulso e como calcular a função de transferência de

um sinal acústico.

!

4

2.2. A transformada de Fourier ! O Teorema de Fourier estabelece que todo sinal que é função do tempo (sendo

ele periódico ou não) pode, em última análise, ser considerado como a superposição de

vários sinais harmônicos distintos (sinais periódicos em forma de senos e co-senos).

Portanto, dado um sinal p(t) com domínio em que seja suficientemente estável (uma

condição que é satisfeita na totalidade dos casos práticos) [2] a transformada de Fourier

P(ω) do sinal p(t) é dada por:

!# , (2.2.1)

!e a transformada inversa p(t) do sinal P(ω) é:

!# . (2.2.2)

!P(ω) nada mais é que a representação da função p(t) no domínio da frequência, também

chamada de “espectro” da função p(t). P(ω) e p(t) são representações diferentes do

mesmo sinal, podendo sofrer tantas transformações e inversas quanto se queira sem que

o sinal seja modificado.

!2.3. A convolução !

No sistema que desejamos simular neste projeto, a resposta impulsiva da sala é o

equivalente à transformada de Fourier G(ω) da função g(t) da Fig. 1. O sinal de entrada

contínuo p(t) pode ser encarado como uma sequência de impulsos separados por um

intervalo infinitesimal de tempo, cada um com a sua dada amplitude [3], como segue:

!# . (2.3.1)

!

P(ω ) = p(t)e− iωt−∞

+∞

∫ dt

p(t) = 12π

P(ω )eiωt dω−∞

+∞

∫

p(t) = p(τ )δ (t −τ )dτ−∞

+∞

∫

5

O mesmo pode ser dito da função g(t), pois excitar um sinal com g(t) significa excitar o

sinal com a sequência de impulsos de duração infinitesimal, cada um com suas

respectivas amplitudes, correspondente a g(t). Sendo assim, define-se como

“convolução” a operação comutativa:

!# . (2.3.2)

!Com notação simplificada pelo operador "∗", temos :

!# . (2.3.3)

! A convolução no domínio do tempo corresponde a uma multiplicação no

domínio da frequência, de modo que, ao tomarmos as transformadas de Fourier P'(ω)

do sinal convoluído, P(ω) do sinal original e G(ω) da função de transferência, temos

que:

!# . (2.3.4)

!A operação de convolução de dois sinais p(t) e g(t) no domínio do tempo equivale a

multiplicar cada termo P(ω) e G(ω) no domínio da frequência. Filtrar um sinal p(t) com

um outro sinal g(t) equivale a realizar a convolução de p(t) com g(t).

A convolução conforme definida na eq. (2.3.2), no domínio discreto, se dá por:

!# (2.3.5)

É importante notar que a operação de convolução em um sinal é uma operação linear,

pois a convolução de uma soma de sinais é igual à soma de suas convoluções, uma

equivalência que será importante no desenvolvimento do algoritmo descrito no capítulo

5.

p '(t) = p(τ )g(t −−∞

∞

∫ τ )dτ = g(τ )p(t −−∞

∞

∫ τ )dτ

p '(t) = p(t)∗g(t) = g(t)∗ p(t)

P '(ω ) = P(ω ) ⋅G(ω ) = G(ω ) ⋅P(ω )

p '(n) = p(k)g(n − k) =k=−∞

∞

∑ g(k)p(n − k)k=−∞

∞

∑

6

2.4. A equação de onda ! A equação não-homogênea da onda é dada por:

!# , (2.4.1)

!onde c0 é a velocidade da onda no meio considerado. A função de Green em campo livre

dessa equação para um receptor em y, no domínio da frequência, se dá por

!# . (2.4.2)

!Tomando a transformada inversa de Fourier, tem-se, portanto, que a resposta impulsiva

(também conhecida como função de Green) que descreve o campo gerado por

Q(x, t) = Q0(t)δ(x − y) no domínio do tempo é:

!# , (2.4.3)

!que é a resposta ao impulso unitário no campo livre. Essa equação servirá para

descrever a resposta ao impulso resultante do método das imagens especulares, a ser

desenvolvido no próximo capítulo.

!2.5. A resposta impulsiva discreta !

Quando lidamos com sinais em computadores, não é possível trabalhar com

nenhum sinal contínuo. Pela maneira que os computadores funcionam e processam os

dados (a partir de combinações de sequências binárias finitas), qualquer tipo de

operação que se deseja fazer deve ser feita num domínio discreto. Isso significa que

todos os sinais (inclusive os de som, como neste trabalho) devem ser transformados em

1c02∂2

∂t 2p(x,t)−∇2p(x,t) =Q(x,t)

P(x,y,ω ) = eiω t− x−y( ) c0

4π x − y

p(x,y,t) =δ t − x − y c0( )4π x − y

7

séries discretas e finitas, o que, no caso de sinais sonoros, equivale a transformar um

sinal contínuo em uma sequência finita de números, separados de distâncias iguais à

frequência de amostragem do sinal, isto é, ao número de amostras por unidade de

tempo. Esta sequência de números com duração de, digamos, t segundos, é representada

no computador por um vetor (uma matriz uni-dimensional) de tamanho t.fs, onde fs é a

frequência de amostragem do sinal.

!

# #

Fig. 2 - Sinal contínuo vs. sinal amostrado [5]

(imagem utilizada sob autorização prévia dos autores)

! A audição humana é limitada, no domínio da frequência, pela faixa entre 20 Hz

~ 20 kHz [4], não sendo necessário, portanto, que o espectro de qualquer sinal sonoro

possua frequências acima de 20 kHz. O sinal sonoro que é amostrado com o propósito

servir à audição humana, portanto, tem o que se chama de largura de faixa limitada [5].

A discretização de um sinal exige alguns cuidados, tais como evitar o efeito

conhecido como Aliasing. Quando amostramos um sinal contínuo e de largura de faixa

limitada no tempo, a uma frequência de amostragem Ωs = 2πfs, sua distribuição no

domínio da frequência deixa de ser não-periódica centrada em 0 com frequência

limitadora de faixa Ωc e passa a ser repetida periodicamente, sempre deslocada de Ωs

em Ωs. Se a taxa de amostragem não for adequada, pode acontecer de parte do espectro

repetido e deslocado do sinal invadir o espectro centrado em zero perto da frequência

limitadora Ωc, prejudicando a representação digital do sinal contínuo.

O Teorema da Amostragem de Nyquist estabelece [5] que, se um sinal contínuo

no tempo tem largura de faixa limitada tal que seu espectro seja zero para qualquer | Ω |

> | Ωc |, então ele pode ser completamente recuperado a partir do sinal discreto desde

que a frequência de amostragem Ωs seja tal que Ωs > 2Ωc. Portanto, para se garantir que

35 1.6 Sampling of continuous-time signals

n1 2 3 4 5 6 7 8 90

(b)

x(n)

t

(a)

x (t )a

t

x (t )

2T 3T 4T 5T 6T 7T 8T 9T0

(c)

i

1T

Fig. 1.5. (a) Continuous-time signal xa(t); (b) discrete-time signal x(n); (c) auxiliary continuous-timesignal xi(t).

Since, from Equation (1.157), x(n) = xa(nT ), then Equation (1.163) becomes

xi(t) =∞!

n=−∞xa(nT )δ(t − nT ) = xa(t)

∞!

n=−∞δ(t − nT ) = xa(t)p(t), (1.164)

indicating that xi(t) can also be obtained by multiplying the continuous-time signal xa(t)by a train of impulses p(t) defined as

p(t) =∞!

n=−∞δ(t − nT ). (1.165)


n1 2 3 4 5 6 7 8 90

(b)

x(n)

t

(a)

x (t )a

t

x (t )

2T 3T 4T 5T 6T 7T 8T 9T0

(c)

i

1T

Fig. 1.5. (a) Continuous-time signal xa(t); (b) discrete-time signal x(n); (c) auxiliary continuous-timesignal xi(t).

Since, from Equation (1.157), x(n) = xa(nT ), then Equation (1.163) becomes

xi(t) =∞!

n=−∞xa(nT )δ(t − nT ) = xa(t)

∞!

n=−∞δ(t − nT ) = xa(t)p(t), (1.164)

indicating that xi(t) can also be obtained by multiplying the continuous-time signal xa(t)by a train of impulses p(t) defined as

p(t) =∞!

n=−∞δ(t − nT ). (1.165)

8

um sinal sonoro discreto pode ser fielmente convertido em um sinal contínuo, com fc =

Ωc/2π = 20 kHz, basta que fs > 40 kHz.

!!

% %

Fig. 3 - Espectro do sinal contínuo vs. espectro de sinal amostrado, com aliasing [5]

(imagens utilizadas sob autorização prévia dos autores)

! Para este trabalho, todos os arquivos de áudio de gravações anecóicas utilizados

estão no formato WAV, à frequência de amostragem de 48 kHz, e todas as respostas

impulsivas foram calculadas à mesma frequência de amostragem de 48 kHz, atendendo

ao Teorema da Amostragem de Nyquist com uma folga de cerca de 20%.

No capítulo a seguir, será descrito o raciocínio por trás do modelo utilizado neste

trabalho para o cálculo da resposta impulsiva através do método das imagens, incluindo

as considerações geométricas que compõem esse modelo, assim como as limitações de

sua aplicação em computadores.

!3. O Método das Imagens ! Conforme mencionado na seção 1.1, o método das imagens para a geração

computacional da resposta impulsiva de uma sala foi proposto pela primeira vez em

1979, para o caso específico de salas pequenas com formato retangular. Este caso

particular oferece grandes facilidades na modelagem física, pois é possível determinar

as posições de todas as imagens a partir de modelos vetoriais bastante simples. Este

capítulo se dedica a detalhar o método das imagens da maneira que foi sugerido por

Allen e Berkeley, porém fornecendo maiores detalhes (no que diz respeito à descrição

física do problema) que o trabalho originalmente publicado por esses autores.


X ( )

Ω

(a)

−

ja

Ωc cΩ

Ω

ΩjiX ( )

−2Ωs −Ωs−Ωc cΩ ΩΩs 2Ωs

(b)

Ω

−3Ωs

(c)

3ΩsΩ

Aliasingi jX ( )

−2Ωs −Ωs−Ωc cΩ Ωs 2Ωs

Ω

Ω

i jX ( )

−2Ωs

(d)

−Ωs−Ωc cΩ Ωs 2Ωs

Fig. 1.8. (a) Spectrum of the continuous-time signal. Spectra of xi(t) for: (b) !s = 2!c; (c) !s < 2!c; (d)!s > 2!c.

We have that when sampled with sampling frequency fs = 1/Ts it generates the followingdiscrete signal:

x(n) = xa(nTs)

= sin(2π fcnTs)

= sin!

2πfcfs

n"


X ( )

Ω

(a)

−

ja

Ωc cΩ

Ω

ΩjiX ( )

−2Ωs −Ωs−Ωc cΩ ΩΩs 2Ωs

(b)

Ω

−3Ωs

(c)

3ΩsΩ

Aliasingi jX ( )

−2Ωs −Ωs−Ωc cΩ Ωs 2Ωs

Ω

Ω

i jX ( )

−2Ωs

(d)

−Ωs−Ωc cΩ Ωs 2Ωs

Fig. 1.8. (a) Spectrum of the continuous-time signal. Spectra of xi(t) for: (b) !s = 2!c; (c) !s < 2!c; (d)!s > 2!c.

We have that when sampled with sampling frequency fs = 1/Ts it generates the followingdiscrete signal:

x(n) = xa(nTs)

= sin(2π fcnTs)

= sin!

2πfcfs

n"

9

A ideia principal do método das imagens, no lugar de calcular múltiplas

reflexões de diversas ordens, cada qual com seus respectivos ângulos de incidência e

atenuações, é simplesmente supor que todas as 6 paredes da sala se comportam como

espelhos que absorvem parte da energia das ondas nela incidentes antes de refleti-las.

Por “trás” de cada parede, supõe-se posicionada uma imagem virtual, a uma distância da

parede igual à distância que a fonte original (cuja reflexão especular gerou a imagem

em questão) está da mesma parede. A imagem gera um impulso atenuado de β (que é o

coeficiente de reflexão) em relação à amplitude do impulso gerado pela fonte original.

Este mesmo padrão se repete para reflexões de ordens superiores, com distâncias e

atenuações cada vez maiores conforme se vai afastando da fonte original. Após a

disposição completa de todas as imagens que se deseja calcular, as paredes não são mais

necessárias, pois o coeficiente de reflexão de cada parede já está contabilizado na

atenuação do impulso gerado pela imagem. Sendo assim, o problema deixa de ser uma

sala com inúmeras reflexões e passa a ser um problema de múltiplas fontes dispostas

em campo livre, das quais conhecemos as posições no espaço e as atenuações relativas

de amplitude com relação à amplitude da fonte original.

Uma onda que passa por n reflexões dentro da sala (que interage n vezes com as

paredes dessa sala) antes de chegar ao receptor é chamada reflexão de n-ésima ordem. A

mesma nomenclatura pode ser utilizada para imagens virtuais, sendo a imagem de n-

ésima ordem aquela que é uma reflexão especular da imagem de (n − 1)-ésima ordem,

com a fonte original sendo a imagem de ordem zero. Na Fig. 4 a seguir, o caminho

representado por setas com linhas cheias indica o caminho percorrido pelas reflexões da

onda nas paredes, enquanto que o caminho representado pela linha tracejada indica o o

caminho percorrido pela onda proveniente da imagem de ordem equivalente de

reflexão. É fácil, a partir das Figs. 4(a) e 4(b), concluir que as distâncias geométricas

percorridas nos dois modelos são iguais.

Neste método, supõe-se que a perda de energia por absorção do ar é desprezível

e pode ser negligenciada [1], sendo as únicas causas de atenuação do impulso emitido

por uma imagem virtual a sua distância até o receptor e o número de vezes que o

impulso original foi atenuado de β (que é proporcional à ordem de reflexão da imagem,

como será demonstrado mais à frente).

10

!

# #

(a) (b)

Figs. 4(a) e 4(b) - Representações geométricas dos caminhos percorridos por ondas

refletidas e dos percorridos pelas imagens virtuais equivalentes, para reflexões de 1a e 2a

ordem, respectivamente

! Apesar de, neste trabalho, parte do objetivo ser a construção de uma resposta

impulsiva considerando valores de α e β como funções da frequência, todo o raciocínio

do desenvolvimento da resposta impulsiva da sala pelo método das imagens, deste

ponto em diante, será feito considerando α e β constantes, o que será justificado na

seção 5.2, que trata do algoritmo utilizado para a geração da resposta completa.

!3.1. Disposição espacial das imagens !

Nesta seção, nos preocuparemos em descrever vetorialmente a disposição

espacial de cada imagem, seguindo a mesma convenção sugerida em 1979 por Allen e

Berkeley [1], que foi muitas vezes reproduzida desde então. O raciocínio demonstrado a

seguir é o mesmo que foi sugerido no trabalho de 1979, que, à época, foi explicado de

maneira bastante breve. Aqui, este raciocínio será explicado com maior detalhamento,

pois ele será utilizado como base para criar o algoritmo implementado neste trabalho.

Como foi visto na seção anterior, a ideia por trás do método das imagens é

substituir o problema que consiste de uma fonte dentro de uma sala e suas reflexões

pelo problema de solução bem conhecida de fontes dispostas em campo livre. Uma

outra interpretação para a disposição espacial das imagens neste método é que o espaço

11

se divide em várias “salas virtuais” dispostas lado a lado, cada uma com as mesmas

dimensões da sala original e contendo sempre uma imagem, apenas.

!

#

Fig. 5 - Disposição espacial em 2 dimensões de algumas “salas virtuais”, com a sala

original hachurada e imagens representadas por pontos cheios e o receptor representado

pelo ponto vazio.

! Apesar de o problema analisado neste projeto ser em 3 dimensões, o raciocínio

geométrico utilizado em grande parte das demonstrações deste capítulo e em algumas

demonstrações de capítulos posteriores serão representadas em 2 dimensões, pois, além

de o raciocínio ser análogo e inteiramente aplicável ao caso de 3 dimensões, os padrões

geométricos são muito mais facilmente reconhecidos em 2 dimensões.

É possível perceber que, no caso 2-D, existe um padrão de grupos de 4 imagens

que se repete ao longo do espaço das salas virtuais. Ao destacarmos a sala original, na

Fig. 6, as distâncias x e y, referentes às coordenadas do vetor posição da fonte original

com relação à origem, e p e q, referentes às coordenadas do vetor posição do receptor

com relação à origem. No caso 3-D, adicionam-se as dimensões z e r às 3as coordenadas

dos vetores posição da fonte e do receptor, respectivamente.

!

12

#

Fig. 6 - Disposição espacial em 2-D das imagens mais próximas à origem da sala.

! Analisando a Fig. 6, fica claro que o grupo de 4 imagens corresponde às 4

permutações possíveis (± x, ± y) do vetor posição de 2 coordenadas de cada imagem,

com 2 possíveis valores (1 positivo e 1 negativo) para cada coordenada. No caso 3-D,

analogamente, os grupos de imagens que se repetem serão compostos de 8 imagens,

resultantes das 8 permutações possíveis de (± x, ± y, ± z). Pode-se definir agora os

vetores 3-D das posições do receptor e da fonte, respectivamente, com relação à origem:

!# (3.1.1)

# (3.1.2a)

! Uma notação alternativa do vetor RS em (3.1.2a) será utilizada, a fim de remover

os termos “±”. A utilidade dessa notação será justificada na seção 3.2.

!# (3.1.2b)

!Na eq. (3.1.2b), a, b, c ∈ 0, 1, de modo que cada termo x, y, z do vetor da eq. (3.1.2b)

assuma valor positivo quando a, b, c = 0 e valor negativo quando a, b, c = 1.

RR = (p, q, r)

RS = (±x, ±y, ±z)

RS = 1− 2a( )x, 1− 2b( )y, 1− 2c( )z( )

13

O vetor RS , como definido na eq. (3.1.2b), é válido para o referencial na origem,

mas, como evidenciado pela Fig. 7, este vetor continuaria válido ao trazermos o

referencial para os “centros” de cada um dos grupos de imagens que se repetem.

!

#

Fig. 7 - Exemplos de vetores RC

!Podemos definir, então, o vetor RC que dá a posição do “centro” de cada grupo de

imagens com relação à origem, que, quando somado aos vetores RS, dá a posição exata

de cada imagem em torno desse centro com relação à origem

!# , (3.1.3)

!onde Lx, Ly e Lz são as dimensões da sala nas direções x, y e z e as grandezas l, m, n ∈

são tais que 2l, 2m, 2n indicam o número de vezes que cada dimensão Lν cabe dentro do

vetor RC na direção ν, uma vez que os centros se repetem a cada 2Lν em qualquer dada

direção ν.

!

RC = 2lLx , 2mLy , 2nLz( )

14

#

Fig. 8 - Exemplo de vetor RC em 2-D, explicitando o caso em que l =3 e m = 2

! De posse dos vetores RC que indicam a posição em relação à origem de cada

centro de 8 imagens descritas pelos vetores RS, é possível agora definir o vetor posição

de cada imagem com relação à origem RI :

! # (3.1.4a)

!# (3.1.4b)

Podemos então definir o vetor posição de cada imagem virtual com relação ao

receptor:

! # (3.1.5a)

!# (3.1.5b)

!Este vetor também é válido para representar a fonte original, que se dá quando l = m =

n = a = b = c = 0.

R I = RS +RC

R I = 2lLx + 1− 2a( )x, 2mLy + 1− 2b( )y, 2nLz + 1− 2c( )z( )

R I /R = R I −RR

R I /R = 2lLx + 1− 2a( )x − p, 2mLy + 1− 2b( )y − q, 2nLz + 1− 2c( )z − r( )

15

Agora que já definimos o vetor geral para a posição de uma imagem no espaço,

falta agora estabelecer, para cada uma dessas fontes, de quantas vezes o sinal é atenuado

em relação ao sinal original por conta do número de reflexões sofridas, e a notação e a

geometria utilizadas nessa seção permitem que isso seja calculado de maneira clara.

!3.2. Atenuações da amplitude do sinal emitido por cada

imagem ! Apesar de o raciocínio apresentado a seguir ter sido largamente utilizado desde a

sua introdução por Allen e Berkeley, na literatura pesquisada para a realização deste

trabalho não foi possível encontrar uma demonstração formal dele, portanto, a

demonstração que segue é original deste trabalho, e confirma os resultados alcançados

em trabalhos anteriores [1,9,10].

Até chegar ao receptor, os sinais de cada imagem sofrem 2 tipos de atenuação:

uma devido à distância da imagem ao receptor, que aumenta proporcionalmente a

distância−1 (vide eq. 2.4.3) e outra devido ao fato de o sinal recebido ter sofrido uma

atenuação a cada reflexão, por conta do modelo mais realista assumido neste problema

de paredes que não são perfeitamente rígidas, absorvendo parte da energia incidida

sobre elas.

Conforme ilustrado nas Figs. 4(a) e 4(b), o número de reflexões pela qual um

raio passa, em cada direção, é igual ao número de “paredes” de salas virtuais

atravessadas pelo raio da imagem naquela mesma direção. Para determinar o número

de paredes virtuais de cada tipo (cada sala tem 6 paredes, podendo-se assumir para cada

uma um coeficiente de absorção diferente) que são atravessadas pela onda emitida por

cada imagem, torna-se necessário estabelecer uma convenção para nomear cada parede.

Será chamada de “parede ν1” a parede contida no plano perpendicular à direção

ν que passa pela origem, e de “parede ν2” a parede paralelamente oposta à parede ν1. A

título de convenção, fica definido que o chão da sala é a parede z1, e o teto é a parede z2.

As Figs. 9(a) e 9(b) abaixo ilustram a sala da Fig. 6 em 3 dimensões, evidenciando cada

parede ν1 e ν2. Seguindo o padrão da Fig. 6, a esfera preta representa a fonte e a esfera

branca representa o receptor.

16

# #

Fig. 9(a) - Paredes ν1, em 3-D Fig. 9(b) - Paredes ν2,em 3-D

!Analisando uma componente qualquer ν do vetor posição de uma imagem RC descrito

na equação (3.1.4b), é possível perceber que o número de paredes virtuais atravessadas

pela onda emitida por essa imagem depende dos valores de l, m, n, a, b e c.

Na Fig. 10 é possível verificar que, para imagens com vetor posição RI cujo

valor de ε = [a, b ou c] nas direções [x, y ou z] seja igual a zero, o número de paredes

virtuais ν1 a serem atravessadas na direção ν é sempre igual ao valor assumido por N =

[l, m ou n] nas direções [x, y ou z], o que, neste caso, é equivalente a (N − 0), ou (N − ε),

e o número de paredes virtuais ν2 a serem atravessadas também é sempre igual ao valor

assumido por N.

#

Fig. 10 - Cálculo do número de paredes que a onda emitida por cada imagem atravessa

!

17

Já para imagens cujo valor de ε seja igual a 1, o número de paredes virtuais ν1 a

serem atravessadas é sempre igual ao valor assumido por (N − 1), que, neste caso, é

equivalente a (N − ε), e o número de paredes ν2 a serem atravessadas é sempre igual ao

valor assumido por N.

A partir desse raciocínio, é possível concluir que, para uma imagem numa dada posição

RI, o número de paredes ν2 que serão atravessadas pela onda emitida por essa imagem é

sempre igual a N, e o número de paredes ν1 que serão atravessadas por essa onda é

sempre igual a (N − ε), seja o valor assumido por ε igual a 0 ou a 1.

Considerando que cada parede ν1 e ν2 possui um respectivo coeficiente de

reflexão β específico βν1 e βν2, do material daquela parede (que pode ser um valor

constante ou uma função β(ω) dependente da frequência do sinal refletido), a redução

na amplitude (relativa àquela da fonte original) devido ao número de paredes ν1 e ν2

atravessadas será igual aos coeficientes βν1 e βν2, multiplicados por si mesmos tantas

vezes quanto o número de paredes ν1 e ν2 atravessadas, ou seja, igual a # . Pode-

se, então, calcular o fator de atenuação da amplitude da onda emitida por uma imagem

com vetor posição RI:

!# , (3.2.1)

!que também vale para l = m = n = a = b = c = 0, que, conforme enunciado ao final da

seção 3.1, corresponde à fonte original, e neste caso, o valor da eq. (3.2.1) é igual a 1.

Através de raciocínio análogo ao utilizado acima, é possível determinar, para

uma imagem com os parâmetros vetoriais l, m, n, a, b e c, a ordem total de reflexão

correspondente a essa imagem, isto é, o número total de paredes virtuais que ela

atravessa até atingir o receptor, que, como visto nas Figs. 4(a) e 4(b), é equivalente ao

número de reflexões sofridas pela onda até que ela atinja o receptor. A ordem de

reflexão se dá, simplesmente, por:

!# . (3.2.2)

βν1

N−ε ⋅βν 2

N

Fator deAtenuação

= βx1l−a ⋅βx2

l ⋅βy1m−b ⋅βy2

m ⋅βz1n−c ⋅βz2

n

Ordem = 2l − a + 2m − b + 2n − c

18

É válido observar que, na literatura, os valores do coeficiente de reflexão β

nunca são disponibilizados [6,7,8]; o valor que é oferecido em seu lugar é o valor do

coeficiente de absorção de energia α. A diferença entre α e β é que, enquanto β é a

relação entre as amplitudes dos sinais refletido e incidente, α se dá pela relação entre as

energias absorvida e incidente na parede, como segue:

!# ; # (3.2.3) ; (3.2.4)

!Como a energia de um sinal é diretamente proporcional ao quadrado da sua amplitude,

conclui-se que

# , (3.2.5)

!o que mostra que a relação entre α e β é direta e biunívoca.

!3.3. Construindo a resposta impulsiva pelo método das

imagens ! Já especificados os vetores posição do receptor e de cada fonte imagem (eqs.

3.1.1 e 3.1.4b) e a atenuação da amplitude do sinal emitido relativa ao número de

reflexões que aquela imagem representa (eq. 3.2.1), podemos, neste momento, calcular

a equação que descreve o campo gerado por uma fonte impulsiva Q(x, t) = Q0 δ(x − y,

t), onde, no caso aqui estudado, o vetor que dá a distância entre o receptor e a fonte (x −

y) equivale ao vetor RI/R descrito na eq. (3.1.5b). O campo gerado por um impulso δ(x

− y, t) será, então

! # , (3.3.1)

!onde τ corresponde ao atraso com que um sinal a uma distância de RI/R chega da fonte

ao receptor:

α =Eincidente − Erefletida

Eincidente

β =AmplituderefletidaAmplitudeincidente

β = 1−α

p(R I /R ,t) = βx1l−a ⋅βx2



n ⋅δ t −τR I /R( )4π R I /R

19

# , (3.3.2)

sendo c0 a velocidade do som no meio considerado. Sendo assim, a resposta impulsiva

completa da sala no ponto do receptor se dá pelo somatório das respostas dos impulsos

de todas as imagens dispostas em campo livre, como segue:

!# . (3.3.3)

Essa resposta impulsiva teria duração infinita, o que não tem utilidade prática.

Mas ao passo que τ se torna maior, o sinal emitido chega cada vez mais defasado e a

atenuação acumulada descrita na eq. (3.2.1) aumenta exponencialmente, ou seja, a

amplitude desse sinal é cada vez menor, demonstrando um decaimento exponencial em

função do tempo. Para ter alguma utilidade prática, a resposta impulsiva deve ter

duração finita, ou seja, devemos estabelecer um tempo limite de decaimento para a

resposta calculada. Experimentalmente, foi deduzida por W. C. Sabine uma fórmula

para o tempo de reverberação de uma sala [3] - a fórmula previa o tempo necessário

para, a partir do instante da interrupção de um sinal sonoro, esse som não ser mais

percebido pelo ouvido humano. Mais tarde, essa fórmula foi deduzida analiticamente, e

observou-se que o tempo de reverberação, da maneira que foi definido por Sabine, é

igual ao tempo necessário para a energia desse som decair a -60dB, que é chamado de

T60.

Dadas as dimensões de uma sala e os coeficientes de absorção α de cada

superfície, a fórmula para o T60 se dá por:

!# , (3.3.4)

onde Ai e αi são, respectivamente, a área da i-ésima superfície e o coeficiente de

absorção do material dessa superfície, dentre as N superfícies da sala; V é o volume da

τR I /R=R I /R

c0




n ⋅δ t −τR I /R( )4π R I /R( a, b, c )= 0, 1

∑( l , m, n )=−∞

∞

∑

T60 =24 ln(10)V

c0 Aiα ii=1

N

∑

20

sala e o produto Aiαi indica a “área de absorção” da i-ésima superfície. Neste trabalho,

estamos assumindo um caso particular em que todas as paredes são individualmente e

uniformemente compostas de apenas um material, o que significa que o valor de N na

eq. (3.3.4) é 6, e que cada superfície i é uma parede da sala.

Definido o T60, a resposta impulsiva da sala que desejamos representar no

computador fica definida da seguinte forma:

!# . (3.3.5)

! Como, num computador, estamos lidando com amostras discretas em vez de

uma função contínua, a eq. (3.3.5) necessita de ajustes para que seja representável no

domínio discreto. A posição discreta k do tempo t equivale à k-ésima amostra (k ∈), e

o número de amostras num tempo τ a uma frequência de amostragem fs é τfs. A posição

(k − τfs) da amostra relativa ao impulso δ(k − τfs) deve ser um número inteiro, pois,

como as amostras são finitas, elas são associáveis de maneira biunívoca a uma

sequência cardinal de números. Nem sempre o valor τ fs será um valor inteiro, por isso,

tomamos o valor δ(k − arred(τfs)), onde arred(τfs) significa o arredondamento ao valor

inteiro mais próximo de τfs. Sendo assim, a eq. (3.3.5) ajustada para o domínio discreto

fica:

! # (3.3.6)

!Esta resposta impulsiva corresponde exatamente à resposta calculada no trabalho

original de Allen e Berkeley.

É necessário, como parte deste projeto, procurar maneiras de reduzir o número

de cálculos desnecessários para não acarretar em grandes tempos de processamento. A

partir deste momento, será descrita e justificada uma das medidas que foram

desenvolvidas neste projeto para ajudar a alcançar este objetivo.




n ⋅δ t −τ( )4π R I /Rτ=0

T60

∑

p(R I /R ,k) = βx1l−a ⋅βx2



n ⋅δ k − arred(τR I /R

fs )( )4π R I /Rτ fs=0

T60 fs

∑

21

Na implementação computacional, queremos calcular somente os pontos que se

encontram dentro da esfera de raio c0T60, que são os pontos que, pela eq. (3.3.4), já

estão atenuados de até −60dB. O problema da implementação em coordenadas

cartesianas (que tornam a implementação computacional muito mais simples que em

coordenadas polares) é que, ao se limitar o alcance de variação dos parâmetros em

coordenadas cartesianas l, m e n, em (−Nx , Nx) , (−Ny , Ny) , (−Nz , Nz),

respectivamente calculados a partir da distância máxima c0T60 de imagens em cada

direção que se deseja calcular, estamos computando, na verdade, todos os pontos dentro

do paralelepípedo circunscrito à esfera de raio c0T60, centrada no receptor, formado por

todas as salas virtuais dentro desse intervalo.

Conforme descrito no início da seção 3.1, há sempre uma imagem dentro de

cada sala virtual. Podemos facilmente concluir, portanto, que o número de imagens

dentro de um dado volume do espaço das salas virtuais é diretamente proporcional a

esse volume, à razão (volume analisado)/(volume de 1 sala virtual). No caso limite em

que as dimensões da sala são muito menores que o raio da esfera inscrita no

paralelepípedo, esse paralelepípedo pode ser aproximado por um cubo. Nas Figs. 11(a)

e 11(b) estão ilustrados os casos 2-D com círculos de raios c0T60 pequeno e grande em

relação às dimensões da sala. Circunscritos a esses círculos, temos retângulos que se

aproximam de um quadrado conforme se aumenta o raio do círculo.

!

# #

Fig. 11(a) - Raio pequeno Fig. 11(b) - Raio grande

!22

Isso significa que estão sendo calculadas várias imagens fora do domínio

desejado. Este não seria um fator relevante se o número de imagens desnecessárias

calculadas a mais fosse suficientemente pequeno. O problema é que a diferença de

volume entre um cubo e a esfera inscrita nesse cubo em relação ao volume da esfera é

de aproximadamente 90%, ou seja, ao calcularmos todas as imagens dentro do cubo

circunscrito à esfera, estamos calculando perto do dobro do número necessário de

imagens:

# . (3.3.7)

! Como o tempo de processamento do computador varia com a quantidade de

informação processada, é de suma importância evitar desperdícios de processamento

deste tipo. A fim de minimizar o cálculo de imagens fora do domínio definido por τ ≤

T60, a implementação computacional do cálculo resposta impulsiva considera apenas as

repostas de impulsos vindos de fontes em que # .

!3.4. Problemas inerentes à implementação computacional do

método das imagens ! Apesar de a capacidade de processamento do computador ter evoluído

exponencialmente desde a sua origem, limitações ainda existem, e devem ser sempre

consideradas, por mais que elas sejam cada vez menos relevantes com o crescimento

exponencial da evolução na computação que temos presenciado nas últimas décadas. O

caso de gerar respostas impulsivas pelo método das imagens não é exceção, e duas

particularidades foram encontradas durante os testes de execução do programa

desenvolvido neste projeto que eram de grande relevância para o resultado final.

!3.4.1. Tempo de processamento !

Apesar de os processadores disponíveis hoje em dia não serem comparáveis, em

termos de desempenho, aos utilizados em 1979 por Allen e Berkeley, o tempo de

2R( )3 − 4πR3 34πR3

3= 6 −π

π≅ 91%

R I /R ≤ c0 ⋅T60

23

processamento continua sendo uma fonte de preocupação na hora de gerar a resposta

impulsiva. Foram realizados alguns testes, onde, fixando-se as dimensões da sala, os

valores de α eram iguais em todas as paredes, e variavam entre 0,38 e 0,02 em cada

teste, com isso, aumentando o T60 a ser calculado em cada teste. A frequência de

amostragem utilizada nesse caso foi de 48 kHz. Os resultados obtidos nesses testes

estão nos mostrados nas Figs. 12 e 13. Para o caso particular desses testes, o T60 tinha

relação direta com os valores de α, pois a área de absorção Aiαi definida na eq. (3.3.4)

dependia sempre de apenas um mesmo valor de α para cada A. Porém, a curva continua

válida para casos em que os valores de α são diferentes para cada parede, necessitando

apenas que a se compare o valor de α do gráfico com o valor médio de α ponderado

pelas áreas das paredes, que é igual à razão entre a área de absorção e área total das

paredes). ! ! !! ! ! T60 (amostras)!

# #

Fig. 12 - Tempo de processamento x T60 Fig. 13 Tempo de processamento x α

! Como podemos observar, os dados da Fig. 13 necessitaram de plotagem em

escala logarítmica para que fosse possível comparar os pontos obtidos, de tão custoso

que vai se tornando o cálculo da resposta impulsiva para valores de T60 cada vez

maiores. Faz-se necessária uma adaptação ao método das imagens para que não se

esteja limitado a calcular apenas resposta impulsivas para valores médios de α > 0,3 de

maneira eficiente.

!

Tem

po d

e pr

oces

sam

ento

(seg

undo

s)

0,01

1

100

10000

T60 (segundos)0 0,75 1,5 2,25 3

Tem

po d

e pr

oces

sam

ento

(seg

undo

s)

0,01

1

100

10000

α0,0 0,1 0,2 0,3 0,4

24

0 30000 60000 90000 120000

3.4.2. Limitações causadas pela discretização da resposta impulsiva

Como discutimos na seção 2.5, quando trabalhamos com sinais digitais,

precisamos amostrar o sinal, e se a frequência de amostragem respeita o Teorema da

Amostragem de Nyquist, eliminamos o que, caso contrário, seria um potencial

problema, que é a fidelidade do espectro do sinal contínuo que se deseja representar

digitalmente. Entretanto, essa fidelidade não é a única consideração a ser feita a respeito

da digitalização de sinais.

Foi demonstrado anteriormente, na eq. (3.3.6), que, ao criarmos a resposta

impulsiva a uma taxa de amostragem fs, precisamos arredondar o valor de τ fs ao inteiro

mais próximo, para que ele corresponda a uma posição cardinal do vetor de amostras

que é a resposta impulsiva. Isso significa que estamos somando a uma mesma posição

arred(τ fs) do vetor da resposta impulsos dentro do intervalo definido pela eq. (3.4.1).

!# . (3.4.1)

! Ou seja, corremos o risco de cometer o erro de somar impulsos que, no caso

contínuo, teriam defasagens ligeiramente diferentes, mas que, devido ao

arredondamento anteriormente mencionado, são aproximadas como chegando

simultaneamente ao receptor. A resolução do sinal é de 1/fs, ou seja, todos os impulsos

dentro de "janelas" de tempo iguais de tamanho 1/fs são somados como se chegassem ao

mesmo tempo ao receptor. Esta soma só não é considerada um erro no caso raro e

específico de imagens localizadas a pontos equidistantes do receptor, que

inevitavelmente chegam nele ao mesmo tempo, com as suas amplitudes, portanto, sendo

corretamente somadas. Em todos os outros casos, isso pode ser considerado como um

erro.

Podemos pensar nessa aproximação em janelas de tempo de tamanho 1/fs através

de uma abordagem espacial-geométrica: somar os impulsos de imagens dentro de uma

mesma janela de tempo 1/fs equivale a somar os impulsos originados de imagens

compreendidos dentro da mesma casca esférica de espessura c0/fs, como ilustrado na

Fig. 15.

arred(τ fs )− 0,5 ≤ τ fs < arred(τ fs )+ 0,5

25

!

#

Fig. 14 - Impulsos dentro de janelas de tamanho 1/fs sendo somados nas amostras

correspondentes

!Conforme já discutido nas seções 3.1 e 3.3, o número de imagens num dado volume do

espaço tende a ser proporcional ao número de salas virtuais compreendidas neste

volume, que por sua vez é proporcional à razão volume considerado/volume da sala

virtual, sendo possível concluir, portanto, que o número de imagens num dado volume

no espaço cresce proporcionalmente às dimensões deste volume. Sendo assim, o

número de imagens compreendidas na casca esférica ilustrada na Fig. 15 tende a ser

maior quanto maior for o volume dessa casca esférica, ou seja, quanto mais longe do

receptor, mais provável é que o fenômeno descrito na Fig. 14 ocorra. Dados dois vetores

# e # diferentes entre si, este fenômeno ocorre sempre que a equação (3.4.2) for

verdadeira. Para calcular a menor ordem de reflexão em que este fenômeno ocorre,

basta encontrar o menor vetor dentre cada par de vetores # e # que satisfaz a

equação (3.4.2).

!# (3.4.2)

!

R I /R1R I /R2

R I /R1R I /R2

R I /R1−R I /R2

< c0fs

26

#

Fig. 15 - Duas imagens arbitrariamente dispostas no espaço, compreendidas numa

mesma casca esférica de espessura c0/fs

! Testes feitos durante o desenvolvimento deste projeto mostraram que, para

valores de α suficientemente grandes (em geral, para α ≥ 0,2 ~ 0,3), este erro não é

identificável, podendo, portanto, ser negligenciado. Isso significa que, à ordem de

reflexão em que este fenômeno ocorre, as amplitudes dos impulsos emitidos pelas

imagens que se encontram na mesma casca esférica já estão atenuadas o suficiente ao

ponto de a soma de suas amplitudes ir convergindo para valores cada vez menores. O

problema é que, para valores de α < 0,2 ~ 0,3, a atenuação dos impulsos à ordem de

reflexão na qual ocorre o dito fenômeno não é suficiente para que a soma deles seja

desprezível. A Fig. 16 ilustra o caso de α = 0,01 (nas mesmas condições utilizadas para

a obtenção das Figs. 12(a), 12(b) e 13). É evidente que a amplitude rapidamente deixa

de decair exponencialmente, e se mantém constante na faixa de −20dB até o final da

resposta impulsiva, onde deveria estar em torno de −60dB, como previsto pela eq.

(3.3.4).

É possível, então, concluir que uso exclusivo do método das imagens para a

construção da resposta impulsiva inteira da sala não é recomendável em alguns casos

específicos, que, contudo, não são tão raros quanto se gostaria. Há muitos materiais

altamente refletores, como a madeira compensada, que recorrentemente apresentam

valores baixos de α (< 0,2 ~ 0,3) para altas frequências [6,7,8], o que evidencia a

27

necessidade de um método alternativo para a construção da resposta impulsiva da sala,

um método que minimize os dois problemas descritos nas seções 3.4.1 e 3.4.2 (tempo

excessivo de processamento e decrescimento da amplitude do sinal a uma taxa

inesperada conforme se aproxima de T60).

!

#

Fig. 16 - Resposta impulsiva calculada inteiramente pelo método das imagens para α =

0,01

!!4. O método híbrido ! Pelo fato de os problemas descritos nas seções imediatamente anteriores a este

capítulo serem inerentes à implementação discreta do método das imagens, muitas

alternativas a esse método já foram estudadas, a fim de que estes problemas fossem

contornados de maneira satisfatória [9,10,11,12,13]. A quase totalidade delas envolve a

divisão da resposta impulsiva da sala em 2 partes, cada uma calculada pelo método que

se julga mais apropriado para simular o efeito que é atribuído àquela parte da resposta

impulsiva, criando um método híbrido. A divisão da resposta é geralmente feita segundo

a divisão didática da reverberação [2] entre as chamadas “reflexões iniciais” (“early

0 0.1 0.2 0.3 0.4 0.5 0.6 0.70

0.05

0.1

0.15

0.2

0.25

0.3

0.35

tempo (segundos)

Am

plitu

de

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7−50

−45

−40

−35

−30

−25

−20

−15

−10

tempo (segundos)

Am

plitu

de (d

B)

28

reflections”) e a “reverberação tardia” ou “cauda de reverberação” (“late

reverberation” ou “reverberation tail”). As reflexões iniciais são definidas como as

reflexões de ordem mais baixa, que são mais espaçadas entre si no domínio do tempo (o

que está de acordo com o que foi deduzido nas seções 3.1, 3.3 e 3.4), em geral

responsáveis pela composição dos primeiros 80~100 ms da resposta [4], enquanto que a

reverberação tardia é o restante da resposta até o tempo de reverberação T60, composta

das reflexões de ordem mais elevada que são mais densas no domínio do tempo.

!

%

Fig. 17 - Exemplo de uma resposta impulsiva de uma sala dividida entre “reflexões

iniciais” e “reverberação tardia”

! O ponto de transição entre esses 2 métodos é um dos aspectos a serem

analisados neste projeto, não havendo um consenso geral quanto à definição desse ponto

na literatura disponível. Neste projeto, será adotado que, para o método híbrido, a maior

ordem de reflexão tolerável para a parte das reflexões iniciais será a ordem definida pela

eq. (3.4.2), que é a menor ordem a partir da qual imagens a distâncias diferentes são

calculadas dentro do mesmo intervalo de tempo definido pela frequência de

amostragem. O padrão de quase todos os estudos disponíveis é de sempre calcular as

reflexões iniciais através do método das imagens, ao passo de que os métodos utilizados

para o cálculo da reverberação tardia variam bastante de pesquisa para pesquisa

[9,10,11,12].

As reflexões iniciais são bastante espaçadas e muito bem definidas, e a

distribuição de energia do campo de pressão resultante delas é de natureza

29

predominantemente especular, enquanto que a distribuição de energia da parte da

resposta impulsiva que corresponde à reverberação tardia, por acumular cada vez mais

sobreposições de campos de pressão em intervalos cada vez menores de tempo, tem

natureza predominantemente difusa [2]. Testes realizados em pesquisas de psico-

acústica [13] demonstraram que a percepção humana do campo sonoro difuso é, em

última análise, indistinguível daquela de um campo resultante de uma resposta com

distribuição aleatória de impulsos no tempo. Os mesmos testes indicam que, para a

percepção humana, basta que a distribuição de energia da reverberação tardia no tempo

esteja correta, sendo de pouca importância a exatidão da densidade de reflexões.

Assim sendo, neste trabalho, optou-se por calcular a parte da resposta impulsiva

que corresponde à reverberação tardia usando ruído branco gaussiano, com a aplicação

de um envelope de decaimento exponencial, determinado pela amplitude de −60dB

esperada em T60.

!4.1. O ruído branco !

O Teorema Central do Limite estabelece que, dada uma amostra aleatória

simples de tamanho n de uma população com média µ e variância σ2, quanto maior o

tamanho dessa a amostra, mais sua distribuição se aproxima de uma distribuição normal

com média µ e variância σ2/n [14]. Iremos assumir, para este projeto, que a distribuição

amostral da média das amplitudes do trecho final das reflexões iniciais (calculadas pelo

método das imagens) já é suficientemente semelhante à distribuição gaussiana que irá

compor a parte da reverberação tardia.

O valor esperado para a média de uma amostra com distribuição normal

gaussiana se aproxima de zero conforme aumenta o tamanho da amostra. Devemos usar,

no lugar do ruído branco de distribuição normal, os valores em módulo do ruído branco,

pois só desejamos ter impulsos com amplitudes positivas. Com isso, o parâmetro de

escala por quem vamos multiplicar o vetor de ruído branco é a raiz do valor médio

quadrático (conhecida como RMS, do inglês “Root Mean Square”), que tem dimensão

de variância da amostra. O ajuste pelo RMS é adequado principalmente porque ele tem

relação com a energia do ruído (que é proporcional ao valor quadrático), e a nossa

30

suposição é, justamente, que a distribuição de energia da parte final das reflexões

iniciais se assemelha à do ruído branco.

O próximo passo é definir o envelope de decaimento exponencial a ser aplicado no

ruído branco definido nesta seção.

!4.2. Envelope de decaimento exponencial do ruído branco !

Na seção 3.3, deduzimos uma equação para o fator de atenuação de um impulso

devido ao numero de reflexões sofridas por ele. O fator de atenuação depende de seis

valores menores que 1 multiplicados tantas vezes quanto há reflexões, portanto, sendo

uma função de decaimento caracteristicamente exponencial. Este comportamento é

confirmado ao gerarmos os gráficos em escala logarítmica (dB) de amplitude das

respostas impulsivas calculadas pelo método das imagens. Esses gráficos indicam, para

a reverberação tardia, uma tendência retilínea com inclinação negativa (linha menos

inclinada, em vermelho na Fig. 18), o que mostra que, em escala linear, o decaimento da

reverberação tardia é, de fato, exponencial.

É importante notar que a tendência de decaimento exponencial só fica bem

definida a partir da reverberação tardia, passadas as primeiras reflexões. Nas reflexões

iniciais, apesar de podermos afirmar que nelas há, de fato, uma tendência de redução de

amplitudes no tempo (linha mais inclinada, em preto na Fig. 18), essa tendência ainda

não é muito bem definida, por haver ainda poucos impulsos, muito espaçados entre si.

Isso fica claro ao analisarmos a diferença de inclinação entre a linha preta (mais

inclinada) na Fig. 18, que traça a tendência de queda dos picos das reflexões iniciais, e a

linha vermelha (menos inclinada), que traça a tendência de queda dos picos da

reverberação tardia. A tendência que rege o decaimento exponencial da reverberação

tardia, portanto, não é a mesma que rege o decaimento das reflexões iniciais.

O que se deseja calcular neste momento é a função exponencial que, quando

multiplicada ponto-a-ponto pelo vetor de ruído branco RB(t), resulta num vetor de ruído

branco com decaimento exponencial, ou seja, o vetor RB(t).Env(t). Ajustar uma curva

exponencial é equivalente a ajustar a reta correspondente a essa curva na escala

logarítmica. Como o ajuste de uma reta pode ser feito com apenas 2 pontos, isso

significa que, para ajustar uma curva exponencial, basta que se tenha os valores de 2

31

pontos desta curva. Há diversas maneiras de se escolher os pontos de ajuste do

decaimento exponencial.

!

#

Fig. 18 - Exemplo de decaimento exponencial da reverberação tardia

evidenciado pelo comportamento retilíneo da amplitude no gráfico em dB

! Uma primeira opção, que foi sugerida por GARDNER [11] e amplamente usada

desde então, seria ajustar o envelope a partir da amplitude e posição da 1a reflexão

calculada pelo método das imagens e da amplitude de aproximadamente −60dB prevista

em T60 pela fórmula de Sabine-Franklin (eq. 3.3.4). O problema desta aplicação é que

ela sugere que a tendência exponencial de decaimento característica das reflexões

iniciais é a mesma que aquela da reverberação tardia, o que verificamos anteriormente

que não é verdade. Realizar este ajuste seria equivalente a dizer que a tendência de

decaimento da reverberação tardia segue a reta verde do gráfico da Fig. 17, o que seria

0 0.05 0.1 0.15 0.2 0.25 0.3 0.350

0.05

0.1

0.15

0.2

0.25

0.3

0.35

tempo (segundos)

(a)

Am

plitu

de

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35−100

−90

−80

−70

−60

−50

−40

−30

−20

−10

tempo (segundos)

(b)

Am

plitu

de (d

B)

32

um equívoco. Isso resultaria num aumento de energia (uma descontinuidade) da

resposta impulsiva perto do instante de transição entre as reflexões iniciais e a

reverberação tardia, como mostra a Fig. 19(a). [10].

O ajuste adotado neste trabalho foi um ajuste modificado [10] tal que se

garantisse, ao mesmo tempo, as continuidades de tendência e de amplitude para a

reverberação tardia perto do instante de transição e a atenuação de 60dB em t = T60.

!

# #

(a) (b)

Fig. 19 - (a) Ajuste do decaimento exponencial sugerido por Gardner [11]

(b) Ajuste modificado utilizado neste trabalho, sugerido em [10]

!

#

Fig. 20 - Esquema de funcionamento do envelope

33

Desejamos, portanto, calcular o envelope mais adequado para que a resposta

impulsiva atenda aos requisitos pré-estabelecidos no parágrafo anterior, tais como a

amplitude da resposta no ponto de transição do método das imagens para o método do

ruído branco, a continuidade de tendência neste ponto e a amplitude da resposta

impulsiva em t = T60.

Como queremos que no tempo (T60 − ttransição) o valor do envelope seja igual a 1

(para que, justamente, o valor do ruído branco neste ponto, após a aplicação do

envelope, permaneça igual ao que era antes, a fim de garantir uma transição suave), o

envelope deve ter a forma:

!# . (4.2.1)

!Partindo da suposição de que o menor valor de Env(t).RB(t) se dá em T60, com valor de

Env(T60) igual a 10-3 (pois −60dB equivale a uma amplitude de 10-3) e o valor de

RB(T60) = RMS(RB), (pois RMS(RB) é o valor esperado para a média do vetor RB(t))

chegamos no valor de λ que satisfaz a eq. (4.2.1):

!# . (4.2.2)

! Como mencionado, para este projeto, foi adotada a suposição de que a

distribuição amostral dos últimos valores da parte da resposta impulsiva calculada pelo

método das imagens já segue a distribuição normal que se atribuirá à reverberação

tardia. Mais especificamente, se supôs que o RMS dos 20% últimos valores calculados

pelo método das imagens é igual ao RMS do ruído branco que será utilizado para

calcular a reverberação tardia, como ilustra a Fig. 21.

Ao compararmos a resposta impulsiva mostrada na Fig. 22 com a resposta

impulsiva gerada somente pelo método das imagens (Fig. 18), percebemos que há uma

nítida descontinuidade de tendência entre as retas azul (mais inclinada) e vermelha

(menos inclinada) da Fig. 22(b) (em escala logarítmica). A reta menos inclinada traça a

Env(t) = eλ t−ttransição( )

λ =ln 10−3 RMS(RB)( )

T60 − ttransição

34

tendência das reverberações tardias, enquanto a reta mais inclinada traça a tendência dos

valores finais das reflexões iniciais.

#

Fig. 21 - Convenção utilizada para o valor de RMS do ruído branco [10]

#

Fig. 22 - Perda de continuidade da tendência de decaimento perto do ponto de transição

entre os métodos (azul: parcela calculada pelo método das imagens;

vermelho: parcela calculada por ruído branco com decaimento exponencial)

0 0.05 0.1 0.15 0.2 0.25 0.3 0.350

0.05

0.1

0.15

0.2

0.25

0.3

0.35

tempo (segundos)

(a)

Am

plitu

de

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35−100

−90

−80

−70

−60

−50

−40

−30

−20

−10

tempo (segundos)

(b)

Am

plitu

de (d

B)

35

Este problema surge do fato de que o valor RMS(RB) assumido para a última

amostra do vetor RB(t), RB(T60) = RMS(RB), a partir do qual o valor de λ foi calculado,

não necessariamente coincidirá com o último pico relevante desse ruído. Na verdade,

pela natureza aleatória do ruído branco, a maior probabilidade é de que isso nunca

aconteça. Por esse motivo, a função Env(t) deve sofrer um ajuste, de modo a garantir

que os picos do ruído branco sigam a mesma tendência imposta pela linha mais

inclinada (azul) da Fig. 22. A maneira de fazer isso, em vez de supor que o menor valor

de Env(t) x RB(t) se dá em T60, é forçar que o maior valor de RB(t), quando multiplicado

por Env(T60), valha 10-3. Isso equivale a se proteger para que, mesmo no pior caso

(aquele em que o maior pico de RB(t) se dá em t = T60), o valor de Env(T60).RB(T60)

ainda seja igual a 10-3. O valor de λ, portanto, passa a ser:

!# (4.2.3)

#

Fig. 23 - Resposta impulsiva utilizando Env(t) com o valor ajustado de λ previsto pela

eq. (4.2.3)

λ =ln 10−3 max RB(t)( )( )

T60 − ttransição

0 0.05 0.1 0.15 0.2 0.25 0.3 0.350

0.05

0.1

0.15

0.2

0.25

0.3

0.35

tempo (segundos)

Am

plitu

de

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35−100

−90

−80

−70

−60

−50

−40

−30

−20

−10

tempo (segundos)

Am

plitu

de (d

B)

36

Os resultados obtidos com esse ajuste são muito mais satisfatórios (Fig. 23),

aproximando-se muito mais da tendência prevista pela linha mais inclinada, em azul, da

Fig. 22.

Como podemos observar, o decaimento respeita completamente a tendência de

decaimento estabelecida pelos últimos pontos das reflexões iniciais, com uma transição

suave em torno do ponto que separa os dois métodos, com o nosso envelope, portanto,

atendendo a todos os requisitos de projeto. Com os parâmetros de ajuste método híbrido

definidos, se faz necessário definir qual o algoritmo que será utilizado para a geração da

resposta impulsiva completa.

!5. Algoritmo utilizado na implementação

computacional do cálculo da resposta impulsiva !

5.1. Coeficientes de absorção α como funções da frequência !Como já foi dito na introdução deste trabalho, um dos aspectos da resposta impulsiva

que o programa desenvolvido procura simular é o comportamento que cada

revestimento de parede apresenta de acordo com a frequência do sinal emitido. Há

materiais de paredes que, por exemplo, refletem melhor frequências mais altas, e outros

que refletem melhor frequências mais baixas. Existe uma base de dados disponível na

literatura [6,7,8] de valores de coeficientes de absorção α em função da frequência,

divididos em faixas de oitavas, que foram obtidos experimentalmente. As faixas de

oitavas são, em todas as tabelas encontradas, as oitavas-padrão a partir da faixa centrada

em 125 Hz até a centrada em 4 kHz.

Em nenhuma das referências, no entanto, foi possível encontrar valores para

faixas além da faixa de oitava centrada em 4 kHz. Ainda assim, ao dispor graficamente

os valores que se tem para as faixas entre 125~4000 Hz, é possível perceber uma

tendência para a quase totalidade dos materiais listados. Para não limitarmos a variação

em frequência nossa resposta impulsiva apenas até a oitava centrada em 4 kHz, uma vez

que a audição humana tem limite superior apenas em 20 kHz, supôs-se que, para os

37

materiais nos quais se identifica uma tendência de α em função da frequência, os

valores de α para as faixas de oitavas centradas em 8 kHz e 16 kHz seguem esta

tendência. Para cada material utilizado nos testes do programa foi feita a extrapolação

gráfica dos dados para se obter a curva que melhor representasse o comportamento de α

entre os valores existentes. Não foram encontradas informações na literatura sobre a

validade da suposição de que as tendências continuam para as frequências mais altas,

sendo essa uma imposição arbitrária deste projeto. Supôs-se, também, que os valores

para a faixa centrada em 125Hz valem para as frequências abaixo desta faixa até 20 Hz.

Alguns exemplos encontram-se na Fig. 24 e na Tabela 1, apenas a título de ilustração.

!!

# #

Fig. 24 - Extrapolação de α para o carpete e para a madeira compensada

!Tabela 1 - Valores de α para o carpete e para a madeira compensada.

! As tabelas com os valores de α de todos os materiais presentes no programa se

encontram no Apêndice A. O tipo de ajuste de curva para cada material foi escolhido

através de inspeção visual da mesma, pois cada material mostra um tipo de tendência

diferente. O critério principal utilizado foi adotar o ajuste que gerasse a melhor curva de

tendência em cada caso, desde que mantivesse os dados extrapolados dentro do

Carpete

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9

y = 0,0213x2 - 0,0636x + 0,057

Dados tabelados Dados extrapolados

Madeira Compensada

0

0,1

0,2

0,3

0,4

0,5

1 2 3 4 5 6 7 8 9

y = 0,5479e-0,3991x

Dados tabelados Dados extrapolados

Frequência central da faixa de oitava 125 Hz 250 Hz 500 Hz 1 kHz 2 kHz 4 kHz 8 kHz 16 kHz

Abcissa correspondente 1 2 3 4 5 6 7 8

Carpete 0,01 0,02 0,06 0,15 0,25 0,45 0,66 0,91

Madeira Compensada 0,38 0,24 0,17 0,1 0,08 0,05 0,03 0,02

38

intervalo 0 < α < 1. Nos casos em que nenhum ajuste entre linear, polinomial,

exponencial e logarítmico gerou dados satisfatórios, a extrapolação foi feita através de

estimativa visual da tendência da curva.

Na parte de testes dos modelos, na seção 6.2, não serão utilizados coeficientes

de absorção de materiais reais, pois nesta seção tentaremos verificar comportamentos

muito específicos de α x f (Hz), a fim de atestar a precisão de cada modelo com mais

clareza. Os materiais do Apêndice I somente serão utilizados na seção 6.3, a fim de

simular situações mais próximas de situações reais, para que se verifique se é, de fato,

possível reconhecer os diferentes tipos de ambientes.

!5.2. O algoritmo utilizado para o cálculo da resposta completa !

De posse de todos os valores de α para as faixas de frequência que desejamos, podemos,

a partir da relação entre α e β da eq (3.2.5), obter todos os valores de β necessários para

a geração da resposta impulsiva pelo método das imagens descrito no capítulo 3.

Aplicar à resposta impulsiva os valores de β correspondentes aos valores de α das

tabelas fornecidas significa multiplicar, para cada f, a eq. (2.4.2) por uma função β(f)

constante dentro de cada faixa de oitava definida pelas tabelas de α, variando

simetricamente de 0 a f e de −f a 0:

!

%

Fig. 25 - Função β(f)

!Esta função β(f) pode ser considerada como a soma de funções janela βn(f), onde cada

βn(f) tem amplitude constante An de fn−1 a fn e amplitude igual a zero fora desse

39

intervalo, conforme ilustrado na Fig. 26. No caso deste trabalho, a função β(f) é a soma

de 8 funções βn(f), uma para cada faixa de oitava centrada desde 125 Hz até 16 kHz.

!

#

Fig. 26 - Função janela βn(f)

Multiplicar os termos de um sinal pelos termos de outro, no domínio da frequência,

equivale a realizar a convolução desses sinais no domínio do tempo, conforme previsto

nas eqs. (2.3.3) e (2.3.4). Portanto, podemos dizer que a função β(f) é um filtro, assim

como cada função βn(f) também o é. Como vimos no início do capítulo 2, a convolução

de dois sinais compõe um sistema linear, o que significa que o resultado de uma soma

de convoluções é igual à convolução da soma.

Como o valor β(f) é constante dentro de uma dada faixa de oitava, podemos

calcular uma resposta impulsiva à maneira descrita no capítulo 3 (que considera valores

constantes de β) para cada uma dessas faixa, ou seja, 8 respostas impulsivas ao todo, no

caso deste trabalho. Em cada uma dessas respostas impulsivas, os coeficientes β de uma

mesma parede serão constantes, pois, afinal, β varia, em cada parede, de acordo com a

faixa de frequência. Cada uma das oito Respostas Impulsivas da Sala calculadas dessa

maneira, (RISn), na verdade, corresponde à resposta impulsiva da sala que é válida

somente na faixa de frequências onde βn(f) tem valores não-nulos; para todas as outras

faixas de frequência, RISn não é válida.

Surge, então, a necessidade de filtrar cada RISn de modo que ela somente seja

válida na faixa de frequência onde βn(f) tem valores não-nulos. Para alcançar isto, basta

passar em cada RISn um filtro passa-faixa que limite o espectro de RISn à faixa de

oitava onde RISn é válida. Ao somar todas essas respostas impulsivas filtradas, teremos

40

obtido, finalmente, a resposta impulsiva final, que será convoluída com a gravação

anecóica a fim de simular a sensação auditiva de se ouvir aquela gravação dentro de

uma sala com as características iguais às especificadas pelo programa. Um esquema

deste algoritmo está ilustrado na Fig. 27.

No caso do método híbrido, o algoritmo usado é exatamente o mesmo; a

diferença entre os métodos está no cálculo de cada RISn conforme desenvolvido no

capítulo 4, não havendo, portanto, nenhuma diferença na implementação do esquema

detalhado na Fig. 26. O programa foi desenvolvido de maneira que, ao se usar o método

híbrido, pudéssemos escolher a ordem máxima de reflexões iniciais a partir a qual se

passaria a usar o ruído branco com decaimento exponencial. Precisamos, agora, definir

como será cada filtron e estabelecer os critérios de projeto desses filtros.

!

%

Fig. 27 - Esquema do algoritmo utilizado para o cálculo da resposta impulsiva

!!

5.3. Projeto dos filtros passa-faixa - “filtron” !Para o algoritmo desenvolvido na seção 5.2, é necessário criar uma série de filtros para

aplicar em cada uma das RISn . Devemos começar, primeiramente, definindo como

funciona, em linhas gerais, um filtro digital, e quais são as peculiaridades que ele

apresenta.

!!!

41

5.3.1. Filtros passa-faixa digitais !Conforme já mencionado anteriormente, aplicar um filtro a um sinal equivale a realizar

uma convolução entre os dois. Sendo assim, um filtro passa-faixa digital é, na verdade,

um vetor no domínio do tempo discreto que, quando convoluído com um sinal no

tempo, resulta numa nova versão deste mesmo sinal composta, no domínio da

frequência, apenas pelas frequências da faixa que se deseja limitar. Ou seja, um filtro

digital é um vetor h(n) com dimensão N que, quando convoluído com um sinal X(n),

resulta no vetor filtrado Y(n).

O filtro h(n) é projetado para que sua transformada de Fourier H(ω) se aproxime

tanto quanto se queira da reposta ideal desejada D(ω). A aproximação h(n) do filtro

d(n), que tem duração infinita no tempo, é um truncamento desse filtro até um valor de

amostras n = N − 1. Este truncamento é inevitável, pois, num computador, lidamos com

vetores de tamanhos finitos. A transformada discreta de Fourier H(ω) de um filtro h(n)

se dá por:

# . (5.3.1)

Computando H(ω), nas frequências ωk = 2πk/N, para k = 0, 1, …, N − 1 ,

! # , (5.3.2)

enquanto a resposta ideal que se deseja alcançar é dada por

!# . (5.3.3)

!O truncamento desse vetor de infinitas amostras em M amostras gera as chamadas

“oscilações de Gibbs”, que se dão devido à lenta convergência da transformada de

Fourier perto de descontinuidades [5]. O valor M − 1 também é o que se chama de

“ordem do filtro”.

H (ω ) = h(n)e− iωnn=0

N−1

∑

H (2πk N ) = h(n)e− i2πkn/Nn=0

N−1

∑

D(2πk N ) = d(n)e− i2πkn/Nn=−∞

∞

∑

42

#

Fig. 28 - Oscilações de Gibbs [5]

imagem utilizada sob autorização prévia dos autores

! A implementação mais simples e direta de um filtro passa-faixa digital é a de um

filtro do tipo “janela retangular”, cujo único critério de projeto é fixar que h(n) seja

igual a d(n) para todos os valores de n entre 0 e M − 1 [5]. As oscilações de Gibbs dos

filtros tipo janela tem a propriedade de, mesmo aumentando-se a ordem M − 1 do filtro,

suas amplitudes não diminuírem.

Faz-se necessário, portanto, projetar filtros otimizados, de modo a reduzir ao

máximo possível essas oscilações. Essa otimização se dá considerando H(ω) uma

função não-linear de M números reais h(n) (n = 0, 1, …, M − 1). Sendo assim, dado um

comportamento ideal D(ω), cada método de projeto de filtros procura aproximar esta

função não-linear de modo a respeitar, da melhor maneira possível, alguns critérios, que

são diferentes para cada método. O que todos os métodos tem em comum é tentar

minimizar, à sua maneira, o erro de aproximação E(ω) = |D(ω) − H(ω)|, que dá a

discrepância entre o comportamento na frequência do filtro que se obteve e o filtro que

se deseja obter.

Existem dois métodos principais de otimização de filtros digitais FIR (do inglês

“Finite Impulse Response”, ou “Resposta ao Impulso Finita”, que é o caso dos filtros

usados neste trabalho), e os critérios de otimização de ambos giram em torno do

comportamento da função erro.

289 5.3 FIR filter approximation by frequency sampling

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

–40

–30

–20

–10

0

10

Frequency (rad/s)

Mag

nitu

de r

espo

sne

(dB

)

Fig. 5.4. Magnitude response of the lowpass filter designed with the frequency sampling method.

M + 1

2!

D(")

"

#

!

0

H(ej")

Fig. 5.5. The desired magnitude response and the Fourier transform of h(n) coincide only at thefrequencies 2πk/(M + 1), when using the frequency sampling approximation method.

d(n), of h(n) given by

d(n) = 12π

N−1!

n=0

D"

2πkN

#e− j2πkn/N 2π

N= 1

N

N−1!

n=0

D"

2πkN

#e− j2πkn/N . (5.42)

Frequência (rad/s)

dB

43

O primeiro é o método dos mínimos quadrados ponderados, ou WLS (do inglês

“Weighted Least Squares”). Neste método, procura-se minimizar o erro quadrático, ou

seja, a energia total dos erros, cada um ponderado por uma função peso W(ω).

!# (5.3.4)

!Esta ponderação serve para dar maior importância aos erros em certas faixas de

frequência que em outras, o que pode ser útil em muitas aplicações.

O segundo método é o método de Chebyshev, que, por sua vez, visa minimizar o

erro máximo, também podendo ser ponderado por uma função peso W(ω).

!# (5.3.4)

! Pelo fato de o método de Chebyshev minimizar o erro máximo, ele acaba por

deixar as oscilações das amplitudes dos erros exatamente iguais, o que pode ser provado

analiticamente [5]. Isso não é desejável para os filtros deste projeto, pois estamos

projetando 8 filtros passa-faixa que, quando somados, devem ter a amplitude em todas

as faixas praticamente constante e aproximadamente igual a 1. Isso significa que, na

faixa de rejeição de cada filtro, a amplitude das oscilações do erro deve ser pequena o

suficiente para que a influência dele na soma de todos os filtros seja a menor possível.

Por esse motivo, foi escolhido o método WLS para projetar os filtros de faixa deste

trabalho, que tende a ter erros diminuindo à medida que nos afastamos das faixas de

transição [5].

!5.3.2. Projeto dos filtros passa-faixa !

Estabelecido o uso do método WLS para o projeto dos filtros, devemos agora

definir tanto os critérios para a otimização de cada filtro quanto os limites de faixa de

cada filtro. A maneira que se consegue implementar estas otimizações é definindo como

será o comportamento desejado do filtro em faixas diferentes. Em algumas delas,

WLS→ minh(n), n=0,…,N

W (ω ) D(ω )− H (ω ) 2 dω−π

π

∫( )

Chebyshev→ minh(n), n=0,…,N−1

maxω

W (ω ) D(ω )− H (ω )( )( )

44

dependendo do que se pretende alcançar com o filtro, é importante que o

comportamento de H(ω) se aproxime de D(ω), enquanto, em outras, o comportamento

de H(ω) é pouco relevante. Para implementar a otimização do filtro, é preciso definir

bem essas áreas, assim como deixar um espaço e de comportamento não-especificado

para as faixas de transição entre as áreas de comportamento definido.

As faixas de transição com comportamento não-especificado existem para que o

algoritmo de otimização do filtro permita que H(ω) possa assumir qualquer valor nessas

áreas, de forma que o erro nelas fique livre, potencialmente ajudando a minimizar o erro

nas áreas em que se deseja um comportamento mais restrito. Sabendo disso, podemos

agora definir, na seção 5.3.3 a seguir, como será o projeto de cada filtro.

!5.3.3. Transições entre faixas !

Todos os filtros deste projeto foram projetados de forma a evitar deixar faixas de

transição com descontinuidades, pois, como vimos ao final da seção 5.1,

descontinuidades no espectro levam a oscilações de Gibbs, e quanto maior a diferença

de amplitude perto da descontinuidade, maiores podem ser as oscilações.

Uma solução encontrada para diminuir essas descontinuidades foi definir parte

do que seriam as áreas de transição através de retas com inclinação 1/γ (com o valor de

γ sendo um parâmetro ajustável de projeto) cujos pontos médios (amplitude = 0,5) se

encontram nas frequências-limite inferior f1 e superior f2 definidos em cada oitava

centrada em fc, como na Fig. 29.

!

#

Fig. 29 - Projeto geral dos filtros

45

Este mecanismo, quando aplicado a todos os filtros passa-faixa, não só ajuda a

minimizar o problema de oscilações na faixa de transição, como também ajuda a

garantir que se evitem oscilações na soma dos filtros perto das áreas de transição. Os

valores de e e γ, quando implementados, foram fixos para todas as faixas de oitavas.

!5.3.4. Faixas de oitava centradas em fc ≤ 125 Hz !

O filtro projetado para as faixas de oitava centradas em fc ≤ 125 Hz foi uma versão

adaptada de um filtro passa-baixa. Em vez de se usar o filtro passa-faixa, com a

frequência-limite mais baixa f1 em aproximadamente 88 Hz, optou-se por assumir que

os valores de α que servem para essa faixa de frequência servem também para todas as

outras frequências abaixo dessa faixa. O filtro não foi projetado como um passa baixa

convencional, até a frequência de 0 Hz, simplesmente pelo fato (já introduzido

anteriormente neste trabalho) de a audição humana não ser capaz de perceber

frequências abaixo de 20 Hz. Essa limitação humana se alia à possibilidade de deixar a

faixa de 0~20 Hz como uma faixa não-definida no projeto de otimização de filtros (já

que o comportamento nela não é relevante para nós), o que, como vimos na seção

anterior, ajuda a minimizar os erros nas faixas onde o comportamento é, de fato,

importante. Sendo assim, o projeto do filtro passa-faixa para a oitava centrada em 125

Hz ficou como ilustrado na Fig. 30.

!

#

Fig. 30 - Projeto do filtro passa-faixa das oitavas centradas em fc ≤ 125 Hz

!!

46

5.3.5. Faixas de oitava centradas de 250 Hz a 8 kHz !O projeto dos filtros passa-faixa das faixas de oitava centradas de 250 Hz a 8 kHz foi

feito de maneira análoga à que foi descrita na seção 5.3.3, ilustrada na Fig. 29, com os

valores de fc , f1 e f2 variando com cada fc = 250, 500, 1k, 2k, 4k, 8k.

!5.3.6. Faixa de oitava centrada em 16 kHz !

Da mesma maneira que o filtro projetado para a faixa centrada em 125 Hz foi

considerado um passa-baixa, o filtro da faixa de oitava centrada em 16 kHz será

projetado como um filtro passa-alta. O raciocínio é análogo ao usado na faixa de 125

Hz, com a diferença de que este filtro não será limitado na frequência de audição

humana, pois, ao contrário do caso do filtro de 125 Hz, não há grandes vantagens em

realizar esta limitação, pois a largura da faixa de 16 kHz é tão grande que o ganho

prático de redução de erro devido ao aumento da faixa não-definida é quase nulo. Será,

portanto, um filtro passa-alta com a frequência limitadora em fs/2 (no caso, 24 kHz).

!

#

Fig. 31 - Projeto do filtro passa-faixa da oitava centrada em 16 kHz

!5.3.7. Critérios de projeto dos filtros !

Como já foi dito ao final da seção 5.3.2.1, os valores de e e γ são os mesmos na

implementação de todos os filtros, a fim de reduzir a complexidade do programa e,

também, de manter o propósito da criação da reta com inclinação γ, que é fazer o

máximo possível para que a soma dos filtros seja estável em torno de 1.

47

O valor de e, por desígnio, deve ser um valor pequeno, pois as áreas de transição

foram projetadas justamente de modo a não introduzir descontinuidades, permitindo que

elas sejam tão pequenas quanto se queira. Este valor, quando variado nos testes

realizados, mostrou pouca ou nenhuma influência nas amplitudes dos erros ou no tempo

de processamento a partir de e < 1. O valor de e foi, portanto, fixado em 0.001, que é

um valor propositalmente muito pequeno, de modo a forçar uma continuidade na faixa

de transição.

Como o valor de γ é o mesmo para todas as faixas de frequência (uma

característica proposital), escolheu-se um valor que, na faixa de 125 Hz (que é a de

menor largura), tivesse valor não muito representativo. Após testes, valores próximos de

γ = 20 mostraram-se suficientes para obter consistentemente bons resultados,

permitindo que se variassem os demais critérios de projeto com mais clareza de seus

efeitos.

Ao projetarmos um filtro, visamos encontrar a melhor relação compromisso-

ganho, no sentido de que buscamos um filtro que, ao mesmo tempo, se aproxime de

maneira razoável do comportamento desejado e não tenha uma ordem muito elevada,

pois o tempo necessário para a operação de convolução entre o filtro e a resposta

impulsiva cresce conforme aumentam os tamanhos destes vetores. O objetivo da

otimização pretendida neste capítulo é aumentar a ordem do filtro até que se atenda a

um critério específico do comportamento deste filtro no domínio da frequência.

!

#

Fig. 34 - Critério da amplitude e critério da energia

!48

Foram pensados dois critérios para definir a ordem do filtro: a variação máxima

da amplitude do erro de cada faixa e o percentual máximo de energia de cada filtro fora

da faixa para a qual ele foi projetado, que chamaremos, respectivamente, de “critério da

amplitude máxima” e “critério da energia fora da faixa”. A rotina implementada para

definir a ordem do filtro parte de filtros de ordem 100, valor que vai sofrendo

incrementos de 100 enquanto se verifica que o critério estabelecido não foi alcançado.

Numa primeira implementação da rotina para definir a ordem de cada filtro,

optou-se por deixar que cada filtro atendesse, isoladamente, ao critério testado (energia

fora da faixa ou amplitude máxima), de modo a minimizar a ordem de cada filtro

separadamente. O problema é que, ao se tomar a soma dos filtros, que deveria oscilar

suavemente em torno de 1, verificou-se que, mesmo quando os parâmetros

estabelecidos por cada critério eram exageradamente altos, a soma dos filtros não

convergia para a oscilação suave que se pretendia alcançar.

#

Fig. 35 - Exemplos de oscilações da soma dos filtros na 1a implementação da rotina de

otimização do filtro

!Como exemplo, houve casos em que a ordem que atendia aos critérios estabelecidos em

cada filtro variava de 100 a 2700. A soma de filtros de ordens diferentes pode gerar

batimento (Fig. 35). Verificou-se que este efeito ocorre cada vez mais intensamente

quanto maior for a diferença entre as ordens de cada filtro, pois projetos de filtros de

ordens diferentes (com poucas descontinuidades) geram oscilações diferentes de

amplitudes em frequências diferentes.

100 101 102 103 104 105−2.5

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

freq (Hz)

dB

49

Definiu-se, portanto, que todos os filtros devem ter a mesma ordem. Com isso,

em vez de variarmos cada critério separadamente para então encontrar uma ordem para

cada filtro, foi feito um levantamento dos valores dos critérios estabelecidos para cada

conjunto de filtros de ordens iguais, para que, ao final, pudéssemos comparar cada

critério e encontrar um ponto ótimo.

Para todos os valores testados mantendo a ordem dos filtros sempre igual entre

eles, a variação máxima da amplitude do erro da soma dos filtros nunca era maior que

1% em amplitude, portanto, esse parâmetro não gerou preocupação.

Primeiramente, a partir da Tabela 2 e da Fig. 36. podemos ver que os valores de

cada critério para os filtros de ordem igual a 100 fogem completamente do objetivo

pretendido, sendo esse ponto desconsiderado na representação gráfica dos dados da

Tabela 2, a fim de evitar distorções de escala que prejudicassem a observação dos

demais pontos. Podemos ver, também, que o tempo de processamento cresce

proporcionalmente ao aumento da ordem do filtros, apesar de o tempo máximo de 3,43

segundos correspondente aos filtros de ordem 2000 ainda ser de uma ordem de grandeza

bastante tolerável. Já a porcentagem máxima de energia fora da faixa, isto é, o valor

máximo de porcentagem de energia fora de cada faixa dentre todos os filtros passa-faixa

de mesma ordem, tem um valor altamente insatisfatório de 66,7% para a ordem 100,

que decresce rapidamente para abaixo de 10% a partir da ordem 400, e, a partir daí,

passa a decrescer em incrementos cada vez menores.

No caso da variação máxima de amplitude do erro, uma coluna auxiliar com as

flutuações equivalentes em dB foi criada na tabela, pois a percepção humana da pressão

sonora varia em escala logarítmica [3]. A base de comparação, portanto, será a coluna

com os valores de amplitude em dB.

A amplitude do erro tem valor máximo nos filtros de ordem 100, e decai

rapidamente até estabilizar numa faixa em torno de 0,25 dB de amplitude a partir dos

filtros de ordem 400~500; a partir daí, o comportamento é errático dentro dessa faixa.

Variações de amplitude de 0,25 dB entre faixas de frequência são variações muito

pequenas, sendo quase imperceptíveis à maioria das pessoas, o que significa que o

comportamento errático dentro dessa faixa evidenciado na Tabela 2 é perfeitamente

aceitável para o filtro que desejamos usar neste projeto.

50

Tabela 2 - Ordem N do filtro para cada valor utilizado pelo critério da energia fora da

faixa

! É válido lembrar que, apesar de o tempo de cálculo de cada filtro apresentar

valores relativamente baixos para os filtros de ordem até 2000 (representados na tabela

2), quanto maior o tamanho do filtro, mais demorada será a posterior convolução dele

com cada uma das 8 respostas impulsivas a serem calculadas. Ou seja, qualquer redução

ou aumento no tamanho de cada filtro terá um impacto 8 vezes proporcional no tempo

total de convolução dos filtros com as RIS.

Sendo assim, pela interpretação gráfica dos dados da Tabela 2, a ordem 500 para

os filtros produz resultados tão bons quanto os de filtros de maior ordem, pois se

verifica que a partir daí a ordem do filtro influencia cada vez menos na melhora dos

Ordem M − 1 do filtro

Porcentagem máxima de energia fora da faixa

Variação máxima da amplitude do erro em torno de 1"(em módulo)

Variação máxima da amplitude do erro (dB) em torno de 0 (em módulo)

Tempo de processamento (segundos)

100 66,70% 0,586 3,006 0,06

200 31,62% 0,258 0,993 0,11

300 19,83% 0,221 0,734 0,13

400 6,04% 0,128 0,046 0,17

500 4,47% 0,160 0,288 0,30

600 4,46% 0,157 0,267 0,27

700 4,82% 0,126 0,028 0,44

800 4,49% 0,142 0,151 0,55

900 3,50% 0,095 0,213 0,79

1000 2,37% 0,103 0,146 0,88

1100 2,21% 0,108 0,106 1,13

1200 2,33% 0,102 0,160 1,44

1300 2,42% 0,110 0,094 1,52

1400 2,30% 0,150 0,216 1,74

1500 1,62% 0,080 0,333 2,04

1600 1,53% 0,085 0,294 2,28

1700 1,56% 0,083 0,311 2,54

1800 1,61% 0,073 0,391 2,88

1900 1,56% 0,194 0,540 3,12

2000 1,34% 0,113 0,072 3,43

51

parâmetros de cada critério. A ordem 500 para os filtros, tem, portanto, a melhor relação

compromisso-ganho dentre os dados da tabela, com porcentagem máxima de energia

fora de faixa abaixo de 5% e amplitude máxima da oscilação do erro abaixo de 0,3 dB,

com um tempo de cálculo quase instantâneo de 0,3 segundos. Os gráficos da Fig. 38

abaixo ilustram a diferença entre os filtros de ordem 100, 500 e 2000. Vê-se claramente

que a diferença entre os filtros de ordens 100 e 500 é bastante significativa, inclusive

com as 3 primeiras faixas se sobrepondo excessivamente, enquanto a diferença entre os

filtros de ordens 500 e 2000 é bem mais sutil.

!

# #

!

# #

Fig. 36 - Representações gráficas dos dados da Tabela 2

! É válido observar que, apesar de cada linha da Tabela 2 referir-se aos valores

máximos de cada critério em todas as faixa de frequência, sem qualquer tipo de viés,

esses valores sempre se davam para as faixas de 125 e 250 Hz, que são as faixas mais

estreitas que se deseja controlar. Quanto menores são as faixas para as quais, através da

otimização de filtros, estipulamos um comportamento desejado, menor é o controle do

algoritmo de otimização sobre as oscilações de Gibbs desse filtro. Pelo fato de termos

definido a faixa de 125 Hz como passa-baixa até 20 Hz, e não passa-oitava como as

demais, as larguras das faixas de 125Hz e 250Hz definidas neste projeto são as menores

e tem tamanhos parecidos, sendo, portanto, as que geram maior erro.

0

1

2

3

4

0 500 1000 1500 2000

Tempo de processamento (segundos)

0

0,1

0,2

0,3

0,4

0 500 1000 1500 2000

Porcentagem máxima de energia fora da faixa

0

0,25

0,5

0,75

1

0 500 1000 1500 2000

Variação máxima da amplitude do erro (dB) em torno de zero

0

0,05

0,1

0,15

0,2

0,25

0,3

0 500 1000 1500 2000

Variação máxima da amplitude do erro em torno de 1

52

!

% %

%

Fig 37 - (a) Filtro de ordem 100; (b) Filtro de ordem 500; (c) Filtro de ordem 2000

!6. Critérios de comparação !

6.1. Comportamentos ideais para teste ! Agora que já sabemos como produzir uma resposta impulsiva da sala por cada

método, podemos variar os parâmetros de projeto e verificar a relevância que cada um

tem no resultado final. Vamos comparar, para cada critério, as respostas geradas:

• Somente pelo método das imagens;

• Pelo método híbrido, usando o método das imagens somente até a ordem de

reflexão máxima definida pelo limite onde o erro descrito na seção 3.4.2

começa a acontecer;

• Pelo método híbrido, porém usando o método das imagens até ordens baixas

de reflexão, calculando a maior parte da resposta através do ruído branco.

100 101 102 103 104−100

−90

−80

−70

−60

−50

−40

−30

−20

−10

0

freq (Hz)

(a)

dB

125 Hz250 Hz500 Hz1 kHz2 kHz4 kHz8 kHz16 kHzsoma

100 101 102 103 104−100

−90

−80

−70

−60

−50

−40

−30

−20

−10

0

freq (Hz)

(b)

dB

100 101 102 103 104−100

−90

−80

−70

−60

−50

−40

−30

−20

−10

0

freq (Hz)

(c)

dB

53

Para cada forma de gerar a resposta impulsiva, dentre as descritas acima, vamos

comparar o tempo de processamento e a diferença de qualidade percebida entre elas,

através de testes informais, para que se encontre uma faixa ótima de compromisso-

ganho entre esses dois critérios. A avaliação da qualidade percebida é feita, obviamente,

de maneira qualitativa, pois não há quantificadores para comparar a qualidade percebida

entre trechos de áudio. Em última análise, o que se busca é atingir o ponto onde as

inexatidões físicas dos modelos (essas, sim, quantificáveis) não influenciam a percepção

sonora.

Para os testes, foram usados um trecho de música pop e 2 gravações anecóicas

de alta qualidade (a uma taxa de amostragem de 48kHz), disponibilizadas gratuitamente

na base aberta de gravações anecóicas da organização OpenAIRLib [15], sob a licença

de uso “Creative Commons”, que permite o uso de informações, desde que os créditos

autorais delas sejam devidamente providos pelo usuário e que elas não sejam utilizadas

para geração de lucros. As gravações anecóicas utilizadas eram de curta duração, sendo

um trecho de fala (em inglês) e um de voz cantada.

A variação dos coeficientes de absorção para os testes foi restrita a apenas 4

tipos de curvas de α x f, cada qual representativa de um comportamento distinto. Esses 4

comportamentos são:

!• Absorção cada vez maior em frequências cada vez mais altas (Comportamento

1);

• Absorção cada vez maior em frequências cada vez mais baixas

(Comportamento 2);

• Alta absorção para frequências médias e baixa absorção para frequências mais

distantes do centro espectral (Comportamento 3);

• Baixa absorção para frequências médias e alta absorção para frequências mais

distantes do centro espectral (Comportamento 4).

! Para que a variação de valores de α em cada comportamento seja

suficientemente distinguível, iremos estabelecer que o valor mínimo que pode ser

assumido para α seja 0,01 e o valor máximo seja 0,90. Sendo assim, para definirmos os

54

valores de α dessas curvas hipotéticas, podemos imaginar o 1o e 2o comportamentos

como funções exponenciais, o 3o e 4o comportamentos como representações de funções

sen(ρx + φ) para valores diferentes de ρ e φ, onde os valores x = 1, 2, 3, 4, 5, 6, 7, 8

representam os valores de fC = 125 Hz, 250 Hz, 500 Hz, 1 kHz, 2 kHz, 4 kHz, 8 kHz,

16 kHz, respectivamente. Desta forma, temos os comportamentos acima definidos

pelas curvas da tabela 3, representadas na Fig. 39.

!Tabela 3 - Valores das curvas representativas de cada tipo de comportamento

!

#

Fig. 38 - Comportamentos 1 a 4 das curvas de α x fC

!6.2. Resultados obtidos através da utilização de materiais de

paredes com comportamentos hipotéticos ! Em todos os testes realizados com cada um dos 4 comportamentos foi utilizado

o mesmo modelo de sala, com dimensões Lx = 5m, Ly = 4m e Lz = 3m, com a fonte no

Ponto no gráfico 1 2 3 4 5 6 7 8

Faixa centrada em 125 Hz 250 Hz 500 Hz 1 kHz 2 kHz 4 kHz 8 kHz 16 kHz

Comportamento 1 0,90 0,66 0,48 0,35 0,26 0,19 0,14 0,10

Comportamento 2 0,10 0,14 0,19 0,26 0,35 0,48 0,66 0,90

Comportamento 3 0,90 0,75 0,41 0,14 0,14 0,41 0,75 0,90

Comportamento 4 0,10 0,25 0,59 0,86 0,86 0,59 0,25 0,10

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1 2 3 4 5 6 7 8

Comportamento 1 Comportamento 2 Comportamento 3 Comportamento 4

55

centro da sala (x = 2.5m e y = 2.0m) a uma altura z = 1m, e receptor a uma distância de

0.5m da fonte no eixo x, com p = 2m, com coordenadas q e r iguais às coordenadas da

fonte y e z. Foram calculadas, para cada comportamento, 3 repostas impulsivas de

maneiras diferentes: uma pelo método híbrido, usando o método das imagens até a

ordem mínima de reflexões que o erro previsto pela eq. (3.4.2) passa a acontecer; uma

também pelo método híbrido, mas com ordem máxima de reflexões fixa e igual 3 (valor

arbitrariamente baixo, visando testar os limites da qualidade do método híbrido); e, por

fim, uma somente pelo método das imagens, que servirá como base de comparação para

as 2 maneiras de cálculo da resposta impulsiva da sala anteriormente citadas. Em todos

os casos analisados, a ordem que gera erros prevista na eq. (3.4.2) foi a mesma e igual a

27, pois a eq. (3.4.2) é uma função que depende exclusivamente das dimensões da sala e

das posições da fonte e do receptor, que, conforme mencionado, foram as mesmas em

todos os testes. Essa foi a ordem máxima para a qual foram calculados pontos da

resposta impulsiva da sala pelo método das imagens, antes de ser feita a transição para o

ruído branco com decaimento.

Apesar de o custo computacional ser um fator importante de comparação, a

prioridade neste projeto é definir um método híbrido de cálculo da resposta impulsiva

que seja, em termos de qualidade, um substituto suficientemente bom do método das

imagens, mas que seja também uma alternativa cujo tempo de processamento compense

a possível diferença de qualidade entre os métodos. Dessa maneira seria possível, se

fosse o caso, chegar à conclusão de que nenhuma variação do método híbrido produz

resultados bons o suficiente para compensar os ganhos obtidos em velocidade de

processamento, sendo, nesse caso, uma alternativa ruim ao método das imagens.

Dito isso, as Tabelas 4, 5, 6 e 7 mostram os tempos de processamento de

algumas etapas de cada um dos 3 métodos utilizados, cada tabela correspondendo à

resposta calculada com as paredes previstas pelos comportamentos 1, 2, 3 e 4,

respectivamente.

!!!!

56

Tabela 4 - Paredes com materiais hipotéticos seguindo o comportamento 1

!Tabela 5 - Paredes com materiais hipotéticos seguindo o comportamento 2

!Tabela 6 - Paredes com materiais hipotéticos seguindo o comportamento 3

!!

Tempos (segundos)

Cálculo da ordem máxima

Partes das respostas pelo método das imagens

Partes das respostas por ruído branco com decaimento

Soma e filtragem das respostas

Total

Ordem máxima = 27 5,9889 2,059 0,0264 0,0264 8,1007

% 73,9% 25,4% 0,3% 0,3% 100,0%

Ordem máxima = 3 0 0,0279 0,0325 0,0133 0,0737

% 0,0% 37,9% 44,1% 18,0% 100,0%

Método das imagens (Ordem = 282)

0 48,1651 0 0,0144 48,1795

% 0,0% 100,0% 0,0% 0,0% 100,0%

Tempos (segundos)





Total

Ordem máxima = 27 6,0551 2,0295 0,0229 0,0090 8,1165

% 74,6% 25,0% 0,3% 0,1% 100,0%

Ordem máxima = 3 0 0,0278 0,0328 0,0112 0,0718

% 0,0% 38,7% 45,7% 15,6% 100,0%


0 48,2007 0 0,0120 48,2127

% 0,0% 100,0% 0,0% 0,0% 100,0%

Tempos (segundos)





Total

Ordem máxima = 27 6,1405 1,9670 0,0245 0,0137 8,1457

% 75,4% 24,1% 0,3% 0,2% 100,0%

Ordem máxima = 3 0 0,0294 0,0288 0,0108 0,069

% 0,0% 42,6% 41,7% 15,7% 100,0%


0 23,9023 0 0,0114 23,9137

% 0,0% 100,0% 0,0% 0,0% 100,0%

57

Tabela 7 - Paredes com materiais hipotéticos seguindo o comportamento 4

! Primeiramente, a qualidade sonora de cada método deve ser analisada. Não só

foi possível identificar com bastante clareza as diferenças entre os 4 comportamentos

sugeridos para os testes, como também foi possível identificar corretamente que

comportamento realça que parte do espectro da resposta impulsiva, mostrando que o

algoritmo utilizado, junto aos filtros utilizados, mostraram boa eficiência. As diferenças

nas qualidades dos resultados entre os 3 métodos testados foram consistentes em todos

os comportamentos’ o que sugere que a percepção das diferenças de qualidade não

depende do comportamento do material. Isso é fundamental para justificar uma

implementação que será feita mais à frente.

A primeira coisa que podemos notar pelas tabelas é que, em todos os casos, tanto

os tempos de cálculo das partes das respostas calculadas por ruído branco com

decaimento quanto os tempos de filtragem e soma de todas as respostas (que irá gerar a

resposta que será convoluída posteriormente com o sinal desejado) são insignificantes,

sendo da ordem de, no máximo, centésimos de segundo. Isso significa que, em última

análise, o tempo de processamento depende quase que exclusivamente do tempo

necessário para calcular a parte das respostas que usam o método das imagens.

Para todos os 4 comportamentos analisados, a diferença de qualidade entre a

resposta gerada somente pelo método das imagens e a resposta gerada pelo método

híbrido com transição na 27a ordem de reflexão foi imperceptível. As partes das

respostas impulsivas calculadas pelo método das imagens até a 27a ordem de reflexão

levaram cerca de 2 segundos para serem computadas. Mesmo ao compararmos esse

Tempos (segundos)





Total

Ordem máxima = 27 6,1405 1,9670 0,0245 0,0137 8,1457

% 75,4% 24,1% 0,3% 0,2% 100,0%

Ordem máxima = 3 0 0,0294 0,0288 0,0108 0,069

% 0,0% 42,6% 41,7% 15,7% 100,0%


0 23,9023 0 0,0114 23,9137

% 0,0% 100,0% 0,0% 0,0% 100,0%

58

valor com o menor tempo de cálculo da resposta impulsiva feita exclusivamente pelo

método das imagens nos testes realizados, que foi de cerca de 23.9, vemos que a

redução em tempo de processamento ainda é superior a 90%. Isso mostra que, mesmo a

essa ordem máxima de reflexão elevada, o método híbrido leva consideravelmente

menos tempo para calcular uma resposta com qualidade tão boa quanto aquela calculada

somente pelo método das imagens.

Quando comparados aos poucos centésimos de segundo necessários para

calcular a resposta impulsiva completa pelo método híbrido com transição na 3a ordem,

porém, esses 2 segundos parecem ser um desperdício de processamento. No entanto, os

testes mostraram que, ao contrário do que acontece com a resposta híbrida com

transição na 27a ordem de reflexão, a qualidade dessa resposta é perceptivelmente muito

inferior à qualidade daquela calculada somente pelo método das imagens. Para os fins

deste trabalho, concluiu-se que o ganho em processamento de uma resposta impulsiva

híbrida com transição na 3a ordem de reflexão não compensa as perdas de qualidade

sonora.

O tempo relativo do cálculo da ordem que gera erros (no caso, a 27a) prevista

pela eq. (3.4.2) foi, em todos os casos, de cerca de 75% do tempo de processamento, o

que é uma parcela muito alta, e, no caso desses testes, um valor de tempo absoluto

também alto, de cerca de 6 segundos. Isso se deve ao fato de que a rotina de

implementação desse cálculo envolve testar inúmeras combinações de ordens de

reflexão em cada direção, de modo que a eq. (3.2.2), quando verdadeira, tenha valor

mínimo, o que tem alto custo computacional. Apesar de o tempo de 2 segundos

necessário para calcular uma resposta impulsiva pelo método das imagens até a 27a

ordem de reflexão não ser um tempo muito alto, vale investigar até que ordem mínima

de reflexão podemos calcular a parte da resposta impulsiva híbrida pelo método das

imagens sem sacrificar a qualidade, pois desejamos, ao mesmo tempo, eliminar o tempo

de cálculo da ordem de reflexão que gera os erros prevista na eq. (3.4.2) e diminuir o

tempo necessário para calcular a parcela da resposta impulsiva correspondente ao

método das imagens.

Queremos buscar uma ordem de reflexão máxima da parte da resposta impulsiva

do método híbrido que é calculada pelo método das imagens que seja válida para

59

qualquer caso, sem perdas perceptíveis de qualidade. Para isso, partimos de 2 princípios

fundamentais. Primeiramente, do princípio (sugerido pelos resultados da avaliação das

qualidades percebidas nos testes) de que a percepção das diferenças de qualidade não

depende do comportamento do material. Em segundo lugar, partimos do princípio de

que a ordem máxima de reflexão da parte da resposta impulsiva híbrida gerada pelo

método das imagens independe das dimensões da sala ou das posições da fonte e do

receptor. Podemos assumir isso pois o número de reflexões calculadas cresce de acordo

com o aumento da ordem total dessas reflexões; e, como vimos ao final da seção 3.3, a

densidade temporal das reflexões também aumenta proporcionalmente à ordem delas.

Juntando isso ao que foi assumido no início do capítulo 4 (que a reverberação tardia,

que se deseja simular com ruído branco, se dá quando há maior sobreposição de

reflexões no tempo), podemos adotar com segurança um valor universal de ordem

máxima para a parte da resposta impusliva híbrida que é calculada pelo método das

imagens.

!6.3. Busca pelo valor ótimo da ordem de reflexão máxima da

parte da resposta impulsiva híbrida calculada pelo método das imagens !

Utilizando 27 como o valor da ordem máxima de reflexão da parcela calculada

pelo método das imagens da resposta impulsiva híbrida, como verificado na seção

anterior, temos um resultado com qualidade a princípio indistinguível daquela de uma

resposta impulsiva ideal, ou seja, uma resposta impulsiva calculada inteiramente pelo

método das imagens. A fim de procurar a menor ordem de reflexão (a partir de 27) para

a qual essa diferença de qualidade ainda é imperceptível, podemos imaginar uma

abordagem binária de comparação, feita da seguinte maneira:

!i. Primeiramente, dividimos a ordem N em questão (no caso, 27) por 2;

ii. Comparamos a qualidade obtida com essa ordem com a qualidade obtida

pela resposta impulsiva ideal; se for pior, aumentamos essa ordem de

metade do seu valor, se for igual, reduzimos essa ordem de metade de

seu valor.

60

Evidentemente, no caso de valores de ordem fracionários em cada iteração, utilizaremos

o arredondamento para o inteiro mais próximo. Realizamos esses passos

progressivamente até chegarmos ao valor ótimo (uma ilustração deste algoritmo

encontra-se na Fig. 39). Para o caso específico desta implementação com N = 27, a

maior ordem de iteração a ser testada será a 3a, onde o incremento (ou decremento)

dessa iteração é de N/16 = 1.68 ≅ 2. Portanto, os valores evidenciados na última coluna

da Fig. 39 são as únicas ordens possíveis resultantes dessa comparação binária.

!

#

Fig. 39 - Algoritmo binário de comparação para determinação da ordem mínima a ser

utilizada no método híbrido

! Como temos poucos valores nessa coluna (6 ao todo, se desconsiderarmos a

ordem 2, que é menor que a ordem 3, para a qual já se verificou que a qualidade não é

boa na seção 6.2), podemos comparar diretamente as respostas correspondentes uma a

uma com a da resposta impulsiva inteiramente calculada pelo método das imagens,

tanto em qualidade quanto em tempo de processamento. A comparação entre a

qualidade dessas respostas com a qualidade da resposta impulsiva ideal será feita

variando a ordem máxima de reflexão do método híbrido do menor ao maior valor dessa

coluna; quando a diferença de qualidade entre a reposta ideal e a de um dos termos

consecutivos da coluna for imperceptível, adotaremos esse valor como a ordem máxima

ótima.

61

A Tabela 8 e a Fig. 40 mostram os tempos de processamento para as respostas

impulsivas híbridas geradas por cada um desses valores de ordem, para o

comportamento 1, que demonstrou maior tempo de processamento da parte da resposta

impulsiva híbrida calculada pelo método das imagens. Para a ordem N = 26, o tempo de

processamento dessa parte da resposta impulsiva foi exatamente igual ao tempo levado

para a ordem N = 27 calculada anteriormente, não justificando, portanto, a utilização

desse valor como substituto da ordem 27.

!Tabela 8 - Tempos de processamento das parcelas das respostas impulsivas híbridas

calculadas pelo método das imagens até valores diferentes de ordem máxima

!!

#

Figura 40 - Representação gráfica dos dados da Tabela 8

! Feitos os testes, foi possível verificar que somente para os valores de ordem

máxima a partir de 20 é que a diferença de qualidade passou a se tornar imperceptível.

Isso significa duas grandes reduções no tempo de processamento do programa: o

cálculo da ordem a partir da qual o erro previsto na eq. (3.4.2) não é mais necessário, o

que já reduz cerca de 6 segundos do tempo de processamento total, e o tempo de cálculo

da parte da resposta impulsiva pelo método das imagens cai de 2,059 segundos para

1,0332 segundos, ou seja, uma redução local de quase 50% sem comprometer a

Ordem máxima 6 8 12 16 20 22 26

Tempo (segundos) 0,0566 0,1211 0,2388 0,6846 1,0332 1,5147 2,059

Tem

po d

e pr

oces

sam

ento

(s)

0

0,5

1

1,5

2

2,5

Ordem máxima6 12 18 24 30

62

qualidade percebida. Se reproduzirmos a Tabela 4, mas retirando a linha referente ao

cálculo da resposta híbrida com transição na ordem N = 3 e acrescentando uma nova

linha, referente ao tempo total de processamento da resposta impulsiva híbrida com

transição na ordem N = 20, poderemos comparar os tempos de processamento do

cálculo de 3 respostas impulsivas das salas cujas qualidades sonoras são equivalentes,

dispostos na Tabela 9.

!Tabela 9 - Valores para diferentes respostas impulsivas do comportamento 1, incluindo

agora a ordem máxima de reflexão N = 20 das partes das respostas impulsivas

calculadas pelo método das imagens

! Podemos ver que, sem a necessidade do tempo de cálculo da ordem máxima e

com a diminuição do tempo de cálculo da parte da resposta impulsiva calculada pelo

método das imagens, temos uma redução de tempo de processamento do método híbrido

de pouco mais de 7 segundos, numa implementação que anteriormente levava pouco

mais de 8 segundos para processar e atingir resultados praticamente iguais. O tempo de

cálculo de cerca de 1 segundo para a resposta inteira atingido com a ordem máxima de

20 é bastante satisfatório, principalmente considerando que a resposta calculada

inteiramente pelo método das imagens pode chegar a levar 48 vezes este tempo

atingindo resultados bastante parecidos.

Tempos (segundos)


Partes das respostas impulsivas pelo método das imagens

Partes das respostas impulsivas por ruído branco com decaimento

Soma e filtragem das respostas" impulsivas

Total

Ordem máxima = 27 5,9889 2,059 0,0264 0,0264 8,1007

% 73,9% 25,4% 0,3% 0,3% 100,0%


0 48,1651 0 0,0144 48,1795

% 0,0% 100,0% 0,0% 0,0% 100,0%

Ordem máxima ótima = 20

0 1,0332 0,0412 0,0205 1,0949

% 0,0% 94,4% 3,8% 1,9% 100,0%

63

Já estabelecido o valor ótimo de ordem máxima igual a 20, podemos agora

realizar alguns testes simulando materiais reais, com curvas de α x fC conhecidas, e

verificar se é possível reconhecer o comportamento que se pretende simular.

!6.4. Simulação de ambientes reais !

Agora que já conseguimos estabelecer um método único e otimizado para

calcular a resposta impulsiva, podemos, finalmente, testar essa otimização com

aplicações reais. Para fazer isso, foram simulados 3 ambientes fechados retangulares

distintos, de forma que qualquer pessoa, ao ouvir uma gravação feita em qualquer um

desses 3 ambientes, deveria ser capaz de dizer de qual deles se trata a gravação ouvida.

Esses 3 ambientes tem tamanhos e materiais de parede bastante característicos, para que

a distinção entre eles seja óbvia o suficiente.

Os 3 ambientes que pretendemos simular são uma sala de aula mal projetada,

uma sala de aula bem projetada e uma piscina semi-olímpica fechada. Em cada um

desses 3 casos, conforme já mencionado na seção 6.1, iremos simular 3 fontes

diferentes: um trecho de fala em inglês, um solfejo curto e um trecho de música pop.

Para as salas de aula, suporemos que a fonte sonora, quando estivermos utilizando as

gravações de voz humana, será a voz direta (não-amplificada) de uma pessoa falando ou

cantando, de pé na sala. Quando utilizarmos a música pop, no entanto, suporemos que a

fonte é um alto-falante reproduzindo aquela música. Essa diferenciação é essencial para

a simulação correta do problema. A partir da eq. (3.3.6), temos a expressão (6.4.1) que

dá o campo sonoro dentro da sala devido a uma fonte pontual Q(x,t) = Q0(t)δ(x−y):

! # . (6.4.1)

!Esta expressão depende de um valor Q0 na fonte, que não conhecemos. No computador,

no entanto, não estamos simulando diretamente a função de pressão. O sinal gerado em

computador é, na verdade, uma matriz de números adimensionais, que podem ser vistas

como instruções dadas pelo transdutor de pressão dos alto-falantes conectados a esse

p(R I /R ,k) = βx1l−a ⋅βx2



n ⋅Q0 k − arred(τR I /R

fs )( )4π R I /Rτ fs=0

T60 fs

∑

64

computador ao diafragma desses alto-falantes, indicando como eles devem oscilar para,

então, gerar o campo de pressão de fato. Sendo assim, o valor de Q0 varia com cada

alto-falante, e é relativo à fonte pontual.

Como estamos processando gravações anecóicas já existentes, podemos supor,

com certa segurança, que essas gravações foram feitas em câmaras anecóicas por

microfones posicionados a uma certa distância R0 do interlocutor. Podemos, portanto,

concluir que o nosso sinal original a ser processado no programa (nossa matriz de

números adimensionais original) contém as instruções para os alto-falantes do

computador reproduzirem um som que foi gravado à distância de R0 do interlocutor

numa câmara anecóica. Ou seja, nosso sinal original reproduz, na verdade, o efeito de

Q0(k − arred(τfs)) à distância R0. O nosso programa irá simular, então, o efeito de

Q0(k − arred(τfs)) a distâncias RI/R diferentes de R0, que será função exclusivamente de

R0, não mais de Q0, como segue:

O campo de pressão p0 numa câmara anecóica gravado por um microfone a uma

distância R0, da gravação original, se dá por:

!# (6.4.2)

!Enquanto o campo de pressão p a uma distância R, simulado no programa, se dá por:

!# (6.4.3)

!Dessa forma, temos que:

!# , (6.4.4)

que é a equação que será implementada nas simulações dos ambientes que serão feitas

mais à frente.

p0 (R0,k) =Q0 k − arred(τR I /R

fs )( )4πR0τ fs=0

T60 fs

∑

p(R,k) = βx1l−a ⋅βx2



n ⋅Q0 k − arred(τR I /R

fs )( )4πRτ fs=0

T60 fs

∑

p(R,k) = βx1l−a ⋅βx2



n ⋅ p0 R0,k( )τ fs=0

T60 fs

∑ ⋅ R0R

65

Voltando à discussão do início desta seção, o valor assumido de R0 no programa

dependerá do tipo de fonte que queremos simular. Nas salas de aula, para as fontes

simuladas como voz humana não-amplificada, iremos supor que a gravação original foi

feita numa câmara anecóica com microfone à distância R0 = 20cm, que é normalmente

empregada na gravação de voz em estúdios profissionais de produção musical [16]. Para

a potência sonora da voz humana e para a sensibilidade dos microfones comumente

utilizados na gravação dela, esta distância geralmente é a distância mínima em que se

consegue captar o sinal sem provocar as distorções que são causadas pelas limitações

de captação do sensor do microfone. Já para a música pop na sala de aula, suporemos

que a fonte sendo simulada é um alto-falante reproduzindo aquela música, com uma

potência maior que a potência da voz humana. Teremos que supor, então, que a

gravação original (o trecho de música original) foi feita colocando o microfone a uma

distância R0 = 1m de um alto-falante regulado a uma potência sonora que condiz

corretamente com as dimensões da sala de aula, pois supomos que esse mesmo

microfone, antes utilizado para a gravação da voz humana, distorceria a música se a

gravação fosse feita a uma distância menor que 1m.

No caso da piscina, diferentemente das salas de aula, a fonte simulada será, em

todos os casos, um alto-falante de potência supostamente maior que a do alto-falante

colocado nas salas de aula para a reprodução da música. Isso se deve ao fato de que

queremos simular um alto-falante com o propósito de reproduzir avisos importantes aos

banhistas, que também pode servir para a reprodução de músicas em eventos realizados

na área da piscina. Sendo assim, suporemos que a gravação original anecóica foi feita

com o microfone localizado a uma distância R0 = 1,5m.

!6.4.1. Caracterização das salas simuladas e localização das

fontes ! As duas salas de aula terão área de 80m2 (Lx = 10m x Ly = 8m), com pé direito Lz

de 3m. O material para o chão da sala de aula bem projetada será carpete fino (espessura

de 5mm), enquanto o teto desta sala será composto de uma telha absorvente suspensa, e

as suas paredes, de tijolo rebocado. A sala mal projetada consistirá de chão de piso

envernizado, teto de concreto e paredes de tijolo rebocado. Simularemos duas fontes

66

diferentes: a primeira seria a voz de uma pessoa, numa posição que seria equivalente à

do professor numa sala de aula, na coordenada central do eixo x (x = 5m) e perto da

parede y2 (perto de onde estaria o quadro negro da sala), a uma distância de 1m dela

(y = 7m), supondo z = 1,7m, correspondente à distância da cabeça do professor, que

está de pé, ao chão (Fig. 41). A outra fonte seria o alto falante, colocado numa posição

correspondente à mesa do professor, a uma altura de z = 1,1m, com as mesmas

coordenadas x e y de onde estaria o suposto professor no caso anterior (Fig. 42).

A piscina terá área de 300m2 (Lx = 12m x Ly = 25m), com pé direito Lz de 5m.

Como estamos supondo a fonte sempre como um alto-falante de avisos, iremos

posicioná-la próximo à parede x1, a uma distância de 50cm dela (x = 0,5m), a uma altura

z = 2m, e com y = 12,5m, correspondente ao comprimento intermediário da dimensão

Ly da sala (Fig. 43).

!6.4.2. Localizações dos receptores nos testes !

Queremos, nesta parte do trabalho, simular situações reais, portanto, é coerente

supor também posições realistas para os receptores na sala, sejam eles microfones ou

ouvidos humanos. No caso das salas de aula, testaremos apenas uma posição, que seria

a posição de um aluno assistindo uma aula nesta sala. Não faz sentido testar posições

muito próximas à fonte, pois numa sala de aula o comum é o professor e os alunos

manterem uma distância considerável entre si. A não ser, talvez, em casos muito

atípicos, não teremos um aluno ouvindo o que o professor tem a dizer com seu ouvido

muito próximo da boca desse professor, ou ouvindo um trecho de música muito perto do

alto-falante (por “perto” queremos dizer R < R0). Em geral, os alunos não mudarão sua

posição na sala durante a aula. Portanto, foi adotada a posição fixa do aluno a uma

altura de r = 1,1m, que equivale à altura dos ouvidos de uma pessoa sentada numa

cadeira, estando posicionada no centro geométrico do plano z1, com coordenadas

p = 5m e q = 4m (Figs. 41 e 42).

No caso da piscina, consideraremos um banhista de pé à beira dessa piscina,

próximo da parede x2 do ambiente, a uma distância de 0.5m dela (p = 11,5m), situado na

coordenada média da dimensão Ly (q = 12,5m) e com a altura dos ouvidos a 1,7m do

nível da água (r = 1,7m) (Fig. 43).

67

As curvas de α x fC utilizadas, assim como suas extrapolações, encontram-se no

Apêndice A. Vale observar que, para todas as extrapolações que resultaram em valores

de α > 1, assumiu-se α = 1, como normalmente se faz nesses casos [4]. Os pontos

resultantes de extrapolações com valores de α < 0 foram considerados neste projeto

como α = 0,01.

!

#

Fig. 41 - Sala de aula com a fonte simulando o professor de pé e o receptor simulando

um aluno sentado

!!

#

Fig. 42 - Sala de aula com a fonte simulando um alto-falante na mesa e o receptor

simulando um aluno sentado

!

68

#

Fig. 43 - Piscina com a fonte simulando um alto-falante e o receptor simulando um

banhista

!6.5. Algoritmo final para a simulação de ambientes reais !

Com os filtros, os ambientes, os materiais de cada parede, e as posições da fonte

e do receptor já estabelecidos, é possível definir a estrutura geral do algoritmo a ser

implementado, representado na Fig. 44. As entradas do programa são as dimensões da

sala, a posição da fonte, a posição do receptor, o material de cada parede e o arquivo

em WAV que se deseja audibilizar. As saídas são a resposta impulsiva da sala (RIS) e o

arquivo em WAV audibilizado.

!

#

Fig. 44 - Algoritmo final do programa desenvolvido para a simulação de ambientes reais

!69

6.6. Resultados dos testes simulando situações reais !6.6.1.Tempo de processamento !

Abaixo, podemos ver a tabela comparativa entre os tempos de processamento de cada

uma das situações descritas na seção 6.4:

!Tabela 10 - Comparativo de tempos de processamento das respostas impulsivas

calculadas para as situações descritas na seção 6.4

! Como podemos ver, o método híbrido representa uma redução significativa no

tempo de processamento, com essa redução crescendo com o tempo de reverberação da

sala.

!6.6.2. Método das Imagens vs. Método Híbrido - Qualidade !

A partir da tabela 10, podemos tirar conclusões mais completas sobre a relação

custo/benefício de cada método. Sem dúvida, quanto maior o T60 da sala, mais se faz

necessário utilizar o método híbrido, e maior é a tolerância de compromisso de

qualidade entre os 2 métodos. Dito isso, observou-se, através de testes subjetivos

informais, um fenômeno interessante: quanto maior o T60 da sala, melhor era a

qualidade da resposta calculada pelo método híbrido em relação àquela calculada

somente pelo método das imagens. Essa qualidade superior se verificou na melhor

percepção do decaimento nas respostas calculadas pelo método híbrido que nas

respostas calculadas pelo método das imagens. Conforme já discutido na seção 3.4.2,

para coeficientes de absorção pequenos (e, consequentemente, para valores de T60

altos), existe um erro inerente à discretização do sinal calculado, que pode resultar numa

Tempos de processamento (segundos)

Método das Imagens

Método Híbrido T60 (segundos)

Sala de aula bem projetada

5,8 1,1 0,6

Sala de aula mal projetada

81,1 1,3 1,4

Piscina 90,6 1,2 1,4

70

desaceleração anormal do decaimento da resposta, e foi a esse tipo de erro que se

atribuiu, neste projeto, o decaimento menos evidente na resposta calculada pelo método

das imagens.

Mesmo no caso da sala de aula bem projetada, é preferível utilizar o método

híbrido, pois, neste caso, a diferença de qualidade percebida é muito pequena (se não

inexistente), não justificando o tempo extra despendido com o cálculo da resposta

somente pelo método das imagens.

Sendo assim, os resultados obtidos levam a crer que, em geral, a utilização do

método híbrido será preferível, e quanto maior for o valor do T60 da sala, mais

recomendável é que se use o método híbrido, tanto por questões de economia de

processamento quanto em termos de qualidade de simulação.

!6.6.3. Diferenças entre a sala bem projetada e a mal

projetada ! Simulamos neste programa duas configurações diferentes de salas de aula: uma

sala com um tratamento acústico mais atencioso e outra com um projeto mais simples e

menos cuidadoso no que se refere ao propósito de construção dela, que é, priorizar a

inteligibilidade da fala.

As diferenças entre as respostas da sala bem projetada e da sala mal projetada

são bastante contundentes: percebe-se claramente uma grande diferença no tempo de

reverberação, além de uma absorção muito melhor das frequências mais altas na sala

bem projetada. Foi possível identificar as vantagens da sala bem projetada para todos os

3 tipos de som testados (fala, solfejo e música), dando maior inteligibilidade a todos

eles, permitindo que essa sala fosse adequada para múltiplos propósitos.

!6.6.4. A piscina fechada !

A simulação da piscina fechada foi a que obteve os resultados mais próximos da

realidade, segundo a maioria das pessoas que avaliaram a qualidade dos trechos de

áudio produzidos neste trabalho. Apesar de as salas de aula fazerem parte do dia-a-dia

da maioria das pessoas, muitos não se dão conta da reverberação que existe nelas, a

71

menos que esta lhes seja diretamente evidenciada. A piscina fechada, por outro lado, é

um ambiente que sabidamente gera ecos que não são fáceis de se ignorar, sendo

conhecidos pela maioria das pessoas que já estiveram num ambiente como esse.

Diferente das salas de aula, a piscina é um ambiente com volume muito maior, portanto,

os ecos são mais distinguíveis entre si, ainda que muito próximos para identificá-los um

a um. Apesar de o método das imagens ter sido suposto para salas pequenas [1], para os

ambientes testados neste trabalho, a piscina com área de 300m2 teve resultados bastante

satisfatórios.

!7. Conclusões e sugestões de implementações

futuras !7.1. Conclusões !

O objetivo deste trabalho era estudar pequenas modificações no método das

imagens para o cálculo de respostas impulsivas de salas fechadas, proposto

originalmente em 1979. Foi possível identificar, com sucesso, as diferenças de

comportamentos de diferentes materiais de paredes implementadas no domínio da

frequência. A implementação do método híbrido de cálculo da reposta impulsiva pode

ser considerada um sucesso, pois produziu resultados com alto nível de qualidade,

algumas vezes até superior aos produzidos através do método tradicional das imagens

especulares.

Se considerarmos todas as limitações e suposições feitas a título de

simplicidade, a implementação realizada neste trabalho produz resultados muito

satisfatórios, se aproximando suficientemente bem dos casos que pretendíamos simular.

A otimização do tempo de processamento através do método híbrido viabiliza

diversas possibilidades de utilização deste algoritmo. Algumas aplicações possíveis

seriam:

• A adoção, por parte de uma empresa que comercializa materiais acústicos para

estúdios e salas, de um software destinado aos clientes que desejam tomar uma

decisão a respeito de quais materiais utilizar na sua sala, permitindo que se

72

escolha virtualmente os materiais desejados, as dimensões da sala na qual eles

serão empregados, e um arquivo de áudio que represente a finalidade acústica

daquele ambiente;

• Utilização por produtores musicais e de filmes, tanto para a simulação de

ambientes para efeitos musicais quanto para a implementação de efeitos

especiais sonoros em filmes.

!7.2. Sugestões para implementações futuras !

Mesmo sendo um algoritmo eficiente para os objetivos pretendidos deste

trabalho, ainda há diversas maneiras em que se poderia alcançar resultados ainda mais

realistas. Muitas aproximações foram feitas neste trabalho, e, além disso, ele envolve

uma diversidade bastante limitada de ambientes. Primeiramente, a geometria pode ser

menos restrita - seria interessante pesquisar maneiras de calcular respostas impulsivas

de ambientes não-retangulares pelo método das imagens. A aproximação utilizada neste

trabalho de apenas um material para toda a extensão da parede pode ser contornada, de

modo a conseguir simular corretamente uma janela de vidro em uma parede de

concreto, por exemplo.

Além da geometria bastante simplificada, este projeto trata apenas de arquivos

de áudio mono, com somente um canal. Seria interessante explorar implementações em

stereo (em 2 canais), de maneira a simular as diferenças percebidas em cada ouvido,

uma vez que uma mesma onda sonora chega em tempos ligeiramente diferentes em cada

ouvido, além do efeito difrator que o próprio corpo humano tem sobre a onda que cruza

seu caminho, afetando sua percepção [13]. É possível, também, implementar

direcionalidade ao tratamento em 2 canais da resposta ao impulso, tentando evidenciar,

pela audição, de que direção estaria vindo o som simulando.

Ademais, para os objetivos pretendidos neste trabalho, a implementação aqui

realizada do cálculo da reposta impulsiva da sala gera resultados bastante animadores,

considerando todas as simplificações envolvidas. Com melhorias na capacidade de

processamento e no algoritmo propriamente dito, é possível chegar em níveis de

simulação acústica cada vez mais elevados, podendo atender cada vez mais pessoas,

73

sejam elas consumidores de produtos de isolamento acústico ou meramente

espectadores dos efeitos especiais de um filme.

!!

74

8. Bibliografia ![1] ALLEN, J., BERKELEY, D., “Image Method for Efficiently Simulating Small

Room Acoustics”, Journal of the Acoustical Society of America, v. 65, n. 4, pp.

943-950, Apr. 1979.

[2] KUTRUFF, H., Room Acoustics. 4 ed., London, Spon Press, 2000.

[3] KUTRUFF, H., Acoustics - An Introduction. 1 ed., London, Taylor & Francis, 2006.

[4] PIERCE, A. D., Acoustics: An Introduction to Its Physical Principles and

Applications, 2 ed., Melville, Acoustical Society of America, 1989.

[5] DINIZ, P. S. R., DA SILVA, E. A. B, NETTO, S. L., Digital Signal Processing -

System Analysis and Design, 2 ed., New York, Cambridge University Press, 2010.

[6] CROCKER, M. J., PRICE, A. J., Noise and Noise Control Volume I, 1 ed.,

Cleveland, CRC Press, 1975.

[7] CROCKER, M. J., PRICE, A. J., Noise and Noise Control Volume II, 1 ed.,

Cleveland, CRC Press, 1985.

[8] DOELLE, L. J., Environmental Acoustics, 1 ed., New York, McGraw-Hill, 1972.

[9] KARJALAINEN, M., JÄRVELÄINEN, H., “Reverberation Modeling Using Velvet

Noise,” AES International Conference, Saariselkä, Finland, 15-17 March 2007.

[10] DE LIMA, A. A., FREELAND, F. P., ESQUEF, P. A. A., et al., “Reverberation

Assessment in Audioband Speech Signals for Telepresence Systems, International

Conference on Signal Processing and Multimedia Applications, pp. 257-262, Porto,

Portugal, 26-29 July 2008.

[11] GARDNER, W. G., The Virtual Acoustic Room, Master’s Thesis, School of

Architecture and Planning, MIT, Cambridge, USA, 1992.

[12] SCHROEDER, M., R., “Natural Sounding Artificial Reverberation”, Journal of the

Audio Engineering Society, v. 10, n. 3, pp. 219-223, 1962

[13] VORLÄNDER, M., Auralization - Fundamentals of Acoustics, Modelling,

Simulation, Algorithms and Acoustic Virtual Reality, 2 ed., New York, Springer, 2008.

[14] BUSSAB, W. O., MORETTIN, P. A., Estatística Básica, 5 ed., São Paulo, Saraiva,

2002.

75

[15] “Browse Anechoic Sound Files - The Open Acoustic Impulse Response Library”,

Disponível em: <http://www.openairlib.net/anechoicdb>. Acesso em: 15/11/2013.

[16] “Recording Lead Vocals - Sound on Sound Magazine”, Disponível em <http://

www.soundonsound.com/sos/jun01/articles/vocalsfaq.asp#Anchor-52236>. Acesso em:

01/12/2013.

76

Apêndice A - Valores de α x fC tabelados e extrapolações

77

Abcissa correspondente nos gráficos 1 2 3 4 5 6 7 8

Frequência central da faixa de oitava

125 Hz 250 Hz 500 Hz 1 kHz 2 kHz 4 kHz 8 kHz 16 kHz

Tijolo rebocado 0,02 0,02 0,03 0,03 0,04 0,05 0,06 0,07

Carpete fino (5mm) 0,02 0,03 0,05 0,10 0,30 0,50 0,77 1,00

Telha absorvente suspensa 0,76 0,93 0,83 0,99 0,99 0,94 0,98 0,99

Piso envernizado 0,15 0,12 0,10 0,07 0,06 0,07 0,06 0,05

Concreto 0,15 0,12 0,10 0,07 0,06 0,07 0,35 0,20

Superfície d’água 0,01 0,01 0,01 0,02 0,02 0,03 0,04 0,05

Tijolo rebocado

0

0,018

0,035

0,053

0,07

1 2 3 4 5 6 7 8

y = 0,0009x2 - 0,0003x + 0,019

Dados tabelados Extrapolações

Carpete fino (5mm)

0

0,25

0,5

0,75

1

1 2 3 4 5 6 7 8

y = 0,0298x2 - 0,1156x + 0,119


Telha absorvente suspensa

0

0,25

0,5

0,75

1

1 2 3 4 5 6 7 8


Piso envernizado

0

0,038

0,075

0,113

0,15

1 2 3 4 5 6 7 8


Concreto

0

0,125

0,25

0,375

0,5

1 2 3 4 5 6 7 8


Superfície d'água

0

0,013

0,025

0,038

0,05

1 2 3 4 5 6 7 8

y = 0,0009x2 - 0,0023x + 0,011


algoritmo para audibilização de salas retangulares com paredes

Documents