estudo e construção de uma cabeça artificial com audição e ... · ... para que os universos...

71
i Faculdade de Engenharia da Universidade do Porto Estudo e construção de uma cabeça artificial com audição e fala Catarina Mendes Cruz VERSÃO II Dissertação realizada no âmbito do Mestrado Integrado em Engenharia Electrotécnica e de Computadores Major Telecomunicações Orientador: Prof. Diamantino Freitas Abril 2018

Upload: phungcong

Post on 19-Dec-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

i

Faculdade de Engenharia da Universidade do Porto

Estudo e construção de uma cabeça artificial com audição e fala

Catarina Mendes Cruz

VERSÃO II

Dissertação realizada no âmbito do Mestrado Integrado em Engenharia Electrotécnica e de Computadores

Major Telecomunicações

Orientador: Prof. Diamantino Freitas

Abril 2018

ii

© Catarina Mendes Cruz, 2018

iii

Resumo

Os seres humanos têm a capacidade de identificar com alguma precisão as

características de um evento sonoro, desde o reconhecimento da fonte, o volume

sonoro, a sua direção, etc. A criação de tecnologias de realidade virtual cada vez mais

realistas, obriga a que o universo da acústica estude mais profundamente o som

binaural, para que os universos visuais virtuais se tornem imersivos também do ponto

de vista sonoro. Com este objetivo em mente têm vindo a ser estudados simuladores

de audição e fala humana que possam ser utilizados em situações de captura de sons

posteriormente usados para os fins acima mencionados. Contudo a audição humana é

bastante complexa, o que levanta a questão se será uma cabeça artificial capaz de nos

substituir a todos nesta situação? Ou será necessário que cada um de nós tenha uma

réplica da sua cabeça?

Até ao momento não foi encontrada uma forma fiável de realizar este processo

e garantir a generalização das funções de transferência da cabeça, este documento

apresenta o trabalho desenvolvido como contributo para responder às questões

colocadas, avaliando as diferenças encontradas entre a audição humana natural e a

audição mediada por uma cabeça artificial na tarefa de localização espacial da fonte

sonora, em particular no plano azimutal.

iv

v

Abstract

Humans have the ability to identify with some precision the characteristics of a sound

event, since the recognition of the source volume, direction, etc. The development of virtual

reality technologies is forcing the universe of acoustics to study in depth binaural hearing, so

that visual virtual universes become more immersive from an audio point of view. With this in

mind, there have been studies in human hearing and speech simulators that can be used in

sound acquisition, however human hearing is very complex and raises the question can one

artificial head replace all humans in this situations? Or should we all have a replica of our

head?

So far we haven’t found a way to accomplish this process in a reliable way and ensure the

generalization of the head related transfer functions. This document presents the work

developed as a contribution to respond to the questions asked, evaluating the differences

found between the natural human hearing and the hearing of an artificial head while

performing the task of spatial location of a sound source, particularly in the azimuthal plane.

vi

vii

Agradecimentos

Com a conclusão desta etapa da minha vida só tenho que agradecer a minha família, que

se manteve inamovível ao meu lado e que eu tenho confiança que isso nunca vai mudar.

viii

ix

Índice

Resumo ....................................................................................... iii

Abstract ....................................................................................... v

Agradecimentos ............................................................................ vii

Índice ......................................................................................... ix

Lista de figuras .............................................................................. xi

Lista de tabelas ........................................................................... xiv

Abreviaturas e Símbolos .................................................................. xv

Introdução ................................................................................... 1

1.1 Motivações para a dissertação .................................................................. 2

1.2 Objetivos da dissertação ......................................................................... 2

2 Audição Humana ....................................................................... 4

2.1 O som e as fontes sonoras ....................................................................... 5

2.2 O ouvido humano .................................................................................. 7

2.3 Fenómenos da audição humana ................................................................. 9

2.4 Audição Binaural .............................................. Error! Bookmark not defined.

2.5 Localização de uma fonte sonora ............................................................ 10

2.6 HRTF ............................................................................................... 14

3 Fala Humana ........................................................................... 16

3.1 Orgãos de produção da fala humana ......................................................... 16

3.2 A fisicalidade da fala humana ................................................................. 18

4 Simuladores com manequins e o manequim “Madalena” ..................... 20

4.1 K.E.M.A.R ......................................................................................... 20

4.2 Head and Torso Simulator (HTS) .............................................................. 21

4.3 O Manequim “Madalena” ....................................................................... 22

5 Opções binaurais já existentes ..................................................... 24

5.1 C.I.P.I.C Interface Laboratory ................................................................ 24

5.2 IRCAM Database .................................................................................. 25

5.3 ARI HRTF Database .............................................................................. 26

5.4 ATK for Reaper ................................................................................... 28

5.5 Oculus (Facebook) ............................................................................... 30

x

5.6 Daydream e Cardboard (Google) ............................................................. 31

6 Processos Eletroacústicos ........................................................... 32

6.1 Audição ........................................................................................... 32

7 Processo Experimental ............................................................... 35

7.1 Pistas Espectrais ................................................................................. 36

7.2 ITD ................................................................................................. 38

7.3 ILD ................................................................................................. 39

7.4 Interface .......................................................................................... 47

7.5 Testes e conclusões preliminares ............................................................ 49

8 Trabalhos Futuros..................................................................... 51

8.1 Realização de uma API ......................................................................... 51

8.2 Produção de fala ................................................................................ 51

8.3 User Interface / Experience ................................................................... 52

Referências ................................................................................. 54

xi

Lista de figuras

Figura 1: Onda sinusoidal com período 2*pi com 4 repetições ........................................ 6

Figura 2: Ilustração da capacidade de deslocamento de uma onda sonora através das ações de compressão e rarefação das partículas do meio. .............................................. 6

Figura 3: Divisão tripartida do ouvido nas partes relevantes e que influenciam acusticamente o sinal sonoro, assim como os elementos influenciadores da forma como um som é codificado [4] ........................................................................ 7

Figura 4: Sensibilidade do ouvido humano a sons [9].................................................... 9

Figura 5: Planos responsáveis por criar o espaço onde se localiza a fonte sonora e a cabeça do ouvinte. ............................................................................................. 11

Figura 6: Sistema de coordenadas para localização de uma fonte sonora, com origem no centro da cabeça e localizado no espaço definido na Figura 5. .............................. 11

Figura 7: Sinais recebidos por cada um dos ouvidos quando a fonte se encontra a 40º para a direita no plano mediano. ......................................................................... 13

Figura 8: (de cima para baixo e da esquerda para a direita) Sinal capturado à entrada de dos canais auditivos, as HRIR; Sinal capturado no canal direito após o uso de uma janela suficientemente pequena para não ser influenciada pela chegada do primeiro eco; Sinal do ouvido direito após uso da transformada de Fourier; Sinal capturado no canal esquerdo de forma idêntica); Sinal do ouvido esquerdo após uso da transformada de Fourier. ............................................................................................. 14

Figura 9: Representação do trato vocal [11] ............................................................ 17

Figura 10: Produção da fala humana [9] ................................................................. 18

Figura 11: Área de frequências da fala humana [9]. .................................................. 19

Figura 12: Exemplo do manequim KEMAR produzido pela G.R.A.S. visto de varias perspetivas, podem ainda ser observados os vários conectores e simuladores existentes. .............................................................................................. 21

Figura 13: Modelo 4128-C da Bruel&Kjaer com simuladores auditivos e bucal, este modelo é composto por dois microfones com pré-amplificador e um altifalante. .................. 22

Figura 14: Manequim "Madalena" visto de frente e de perfil ......................................... 23

Figura 15: Imagens do perfil do simulador "Madalena" e o pormenor do canal auditivo com o microfone utilizado na aquisição dos sons utilizados no estudo apresentado. .......... 23

Figura 16: Interface desenvolvida no laboratório C.I.P.I.C; permite escolher o sujeito o azimute e a elevação e são mostradas as HRTF e HRIR correspondentes. .................. 25

Figura 17: HRTFs para a experiência com o microfone montado por cima da pinna para o ouvido esquerdo [18] ................................................................................. 27

xii

Figura 18: HRTFs para a experiência com o microfone montado a entrada do canal auditivo para ambos os ouvidos [18].......................................................................... 28

Figura 19: Resultado das várias transformadas do ATK mencionadas. ............................. 29

Figura 20: Uma das cabeças disponíveis para realizar a descodificação binaural do ATK for Reaper .................................................................................................. 29

Figura 21: Imagem dos óculos de realidade virtual a serem desenvolvidos pelo Facebook. ... 30

Figura 22: Tecnologias de realidade virtual a serem desenvolvidas pelo Google. Do lado esquerdo a Cardboard e do lado direito os óculos Daydream. ................................ 31

Figura 23: Diagrama de blocos dos processos eletroacústicos constituintes do simulador ..... 32

Figura 24: Processo de aquisição dos sinais sonoros ................................................... 33

Figura 25: Resultados da primeira fase de processamento de sinal a) Visiveis as três ocorrências do sinal capturado pelos canais auditivos; b) Apenas uma ocorrência do sinal capturado onde se observam os efeitos combinados da ILD e da ITD. ................ 34

Figura 26: Interface criada para validar o uso do manequim ........................................ 36

Figura 27: HRIR e HRFT onde são visíveis as pistas espectrais de uma fonte colocada a 70° .. 37

Figura 28: Ilustração do espaço que contêm uma cabeça e uma fonte sonora a uma distância que tende para infinito. ............................................................................. 38

Figura 29: HRTFs dos sinais que chegam ao ouvido direito, após algum processamento de sinal. .................................................................................................... 39

Figura 30: HRTFs dos sinais adquiridos pelo ouvido esquerdo após algum processamento de sinal. .................................................................................................... 39

Figura 31: Diagrama de blocos do script de Matlab capaz de desenhar os gráficos das HRTFs ........................................................................................................... 41

Figura 32: Resultado da transposição do gráfico waterfall apresentado anteriormente para as HRTFs do ouvido direito .......................................................................... 42

Figura 33: Resultado da transposição do gráfico waterfall apresentado anteriormente para as HRTFs do ouvido esquerdo ....................................................................... 43

Figura 34: Dados da amplitude dependente apenas da posição da fonte sonora para podermos observar como esse comportamento altera quando a frequência for alterada. ................................................................................................ 43

Figura 35: Dados para a frequência de 6336 Hz Vs. Aproximação A*sen(θ) ....................... 45

Figura 36: Resultados da aproximação feita para os dados do canal do ouvido direito ......... 45

Figura 37: Resultado da aproximação A*sen(θ) feita para os dados do ouvido esquerdo ....... 46

Figura 38: Diagrama de blocos do banco de filtros desenhado para implementação das funções ILD artificiais. ............................................................................... 47

Figura 39: Diagrama de blocos da interface criada para a experiência ............................ 47

xiii

Figura 40: Diagrama de blocos do funcionamento da interface criado para a realização de experiência de validação dos simuladores ........................................................ 48

Figura 41: Resultados dos testes. ......................................................................... 50

Figura 42: Sugestão para a montagem do canal de saída do manequim [1] ....................... 52

xiv

Lista de tabelas

Tabela 1: Relação entre as variáveis utilizadas na criação do eixo que indica o ângulo da posição da fonte sonora .............................................................................. 40

Tabela 2: Correção da relação entre as variáveis utilizadas na criação do eixo que indica o ângulo da posição da fonte sonora ................................................................. 40

xv

Abreviaturas e Símbolos

Lista de abreviaturas (por ordem alfabética)

API Application Programming Interface

ARI Acoustics Research Institute

C.I.P.I.C Center for Image Processing and Integrated Computing

DEEC Departamento de Engenharia Electrotécnica e de Computadores

DFT Discrete Fourier Transform

FEUP Faculdade de Engenharia da Universidade do Porto

GUI Guide User Interface

HRIR Head Related Impulse Response

HRTF Head Related Transfer Functions

HTS Head and Torso Simulator

ILD Diferença Interaural de Nível

IRCAM Institut de Recherch et de Coordination Acoustique/Musique

ITD Diferença Interaural de Tempo

SDMD Sound Design para Medias Digitais

Lista de símbolos

θ Ângulo que representa o deslocamento horizontal de uma fonte sonora

Φ Ângulo que representa o deslocamento vertical de uma fonte sonora

r Distância entre o centro da cabeça e a fonte sonora

1

Introdução

O corpo humano tem vindo a ser motivo de estudo há muitos séculos, mas o que tem de

fácil e fascinante tem de difícil e complexo. A fala e a audição são dois exemplos perfeitos

deste equilíbrio. A capacidade humana em comunicação oral está bem documentada e há pouco

do seu funcionamento que não seja conhecido, facilmente compreendido e recriado. No verso

desta moeda, está a capacidade de ouvir, apesar de o funcionamento mecânico não ser difícil

de estudar e entender, reproduzir a audição humana é mais complexo e até ao momento desta

dissertação verifica-se que há muito por ser documentado. Mas do que já se conhece é que a

forma do corpo humano ser diferente para cada um de nós provoca diferenças na forma como

ouvimos um mesmo som.

Será então válido esperar que seja possível generalizar a audição humana com apenas um

simulador (na forma de um manequim) equipado com um sistema de audição? Ou as diferenças

serão de tal grandeza que tornam inválido substituir um ser humano por um manequim, em

certas situações?

Na área da comunicação acústica este tipo de simuladores têm bastante utilidade, uma vez

que se trata de um sistema autónomo e objetivo na captação e produção de sinais sonoros,

libertando desta forma o ser humano de tarefas que ocupam bastante tempo, como fazer testes

a aparelhos auditivos, auriculares e sistemas de comunicação (Bruel&Kjear 2014). Além disso

os manequins têm ainda a potencialidade de estabilizar a atividade de afinação de microfones,

pois é necessário que o som seja emitido sempre com o mesmo espectro de frequências, no

mesmo ponto do espaço e com a mesma intensidade, algo que um ser humano não é capaz de

fazer, mas atualmente estes manequins já se encontram no mercado, oferecidos por algumas

empresas com este propósito, mas o futuro poderá levar os simuladores a outras atividades.

Com o desenvolvimento das tecnologias de comunicação multimédia verifica-se a crescente

necessidade de registar a origem, simultaneamente, sonora e visual de um evento, colocando

assim os manequins no centro da captação binaural e 3D. Para que estas captações e futuras

utilizações das mesmas sejam fiáveis é necessário conhecer as funções de transferência da

cabeça (HRTF) e formas de manipulação, de maneira a fazer coincidir a posição aparente da

fonte sonora com a da fonte visual.

2

Com estas possibilidades em mente já existem alguns desenvolvimentos neste tipo de

simuladores. Algumas empresas já criaram os seus próprios manequins que são atualmente

utilizados para atividades como as acima indicadas, por exemplo em automóveis. Estes

desenvolvimentos serão abordados em detalhe mais a frente.

Este documento apresenta todo o processo realizado no estudo da audição e fala humana,

assim como o trabalho desenvolvido para estudar a utilização de um manequim capaz de

libertar o ser humano durante a realização de algumas atividades exaustivas, longas e

repetitivas nomeadamente na concretização da audição espacial humana.

1.1 Motivações para a dissertação

O mundo da realidade virtual é cada vez mais realista e a componente do som tem que

acompanhar a evolução da imagem. Os simuladores abordados nesta dissertação, quando

revelados todos os seus segredos, podem ser utilizados para tornar universos de realidade

virtual ainda melhores e mais precisos. Quanto mais este simuladores forem desenvolvidos mais

pormenores se vão descobrir sobre o sistema auditivo humano, até ao ponto em que seremos

capazes de recriar a audição humana sem necessidade de recorrer a sinais capturados por

simuladores.

Em preparação para este trabalho foi concluída uma unidade curricular de Sound Design

para Media Digitais, o contacto com os materiais desta UC permitiu abrir uma linha de trabalho:

APIs e plugins para software utilizado no mundo da multimédia e entretenimento, como cinema

e jogos. No desenrolar da UC foram desenvolvidos vários trabalhos que me colocaram em

contacto com alguns plugins já em funcionamento, mas todos eles estão de alguma forma

dependentes do uso de uma cabeça humana, o processo proposto por esta dissertação para a

construção da audição binaural poderá ser o inicio para o melhoramento de APIs e plugins já

existentes.

1.2 Objetivos da dissertação

Partindo de um manequim já existente, constituído por cabeça e torso, será necessário

dotá-lo das capacidades humanas de audição e fala, integrando um subsistema de captação

3

binaural com dois microfones colocados à entrada de ambos os canais auditivos e um subsistema

de reprodução sonora através de um altifalante colocado na cavidade atrás da boca.

O primeiro objetivo será obter um manequim completamente funcional e independente,

isto é, com um canal duplo de entrada e um de saída adaptados para ligação a um computador

com uma interface analógica-digital de áudio apta a controlar o manequim de uma forma

simples e flexível em qualquer altura e por qualquer pessoa é o produto ideal que orienta o

presente estudo, contudo dada a dimensão do estudo possível na presente dissertação limitou-

se o tratamento do problema à audição direcional e ao estudo da produção da fala.

Para validar a utilização de ambos os subsistemas com a finalidade de libertar o ser humano

em certas funções de comunicação, é necessário utilizar algum processamento de sinal, sendo

desta forma fundamental criar o objetivo de uma formação mais profunda na área de

tratamento de sinais auditivos, com principal foco no estudo das pistas contidas no seu espectro

para determinação da direção de proveniência de um som e na relação complexa entre os sons

recebidos pelos dois ouvidos.

Com o domínio do conhecimento espectral e da audição binaural, é criado assim o segundo

objetivo que consiste em avaliar até que ponto o som ouvido por uma pessoa através das HRTF

de outra pessoa é indistinguível do som que é recebido pelas próprias HRTF, de tal forma, que

a pessoa possa conseguir uma boa noção da direccionalidade desse som.

O terceiro objetivo será o de produzir sons de fala com a mesma intensidade, espetro e

distribuição espacial da fala humana, para o que será necessário utilizar um processo de

equalização do som a reproduzir pelo altifalante colocado por trás da abertura da boca do

simulador para minimizar as influências da cavidade.

4

2 Audição Humana

A complexidade da audição torna-a de tão fascinante quanto robusta pois os seres humanos

são capazes de identificar com muita precisão a fonte sonora e muitas das suas características,

como por exemplo a diferença de timbre em notas musicais, instrumentos musicais

desafinados, presença de ruído, a direção de onde originou o som, etc..

Sons conhecidos são mais facilmente reconhecidos, quando ouvimos o nosso nome somos

capazes de identificar a sua direção e ficar a prestar atenção, mesmo que não seja uma voz

conhecida, e desta forma responder adequadamente na direção da fonte emissora. Mas como

é que esta capacidade funciona? Para dar resposta a esta pergunta é necessário compreender

o sistema auditivo humano e de que forma o cérebro processa a informação que lhe chega, pois

o som emitido e o som analisado no cérebro não são coincidentes.

Para darmos inicio ao estudo da audição humano temos primeiro que compreender em que

estado chega o evento sonoro ao sistema auditivo. A física é capaz de explicar as ações que

levam as alterações sofridas por um evento sonoro emitido por uma fonte durante o seu

percurso, desde o momento em que é produzido e o momento em que é captado pelo aparelho

auditivo para ser alvo de um processamento. Cada alteração que acontece é adicionada ao

sinal e transportada ao longo de toda a viagem, fornecendo ao cérebro toda a informação

necessária para a sua descodificação e, desta forma sermos capazes de reconhecer as várias

características tanto do som como da fonte, entre elas a sua posição no espaço. As deformações

da onda sonora que acontecem são devido a reflexões nos limites do meio onde viaja, refrações

e difrações em obstáculos e paredes, espalhamento do sinal. A estes fenómenos físicos

acrescentam-se ainda os fenómenos de modificação acústica que são causados pelo tronco e

cabeça do corpo humano, com o seus tamanhos e formas, que são diferentes de pessoa para

pessoa. Estes verificam-se principalmente para frequências mais elevadas, e as diferenças

levam a que cada pessoa ouça o mesmo som de forma diferente.

5

2.1 O som e as fontes sonoras

A física define o som como a propagação de uma frente de compressão mecânica em forma

de uma esfera, apenas em meios materiais. Todos os materiais têm massa e elasticidade

específicas o que vai limitar a velocidade de propagação, no entanto esta propagação não

acontece de forma espontânea, é sempre necessário existir uma quantidade de energia que dê

inicio a esta ação, a isto chamamos a ação da fonte sonora. O fenómeno físico do som está

sempre associado a uma sensação auditiva contudo os termos infrassons e ultrassons não nos

são estranhos e sabemos que querem dizer que se trata de sons que se encontram a frequências

impercetíveis ao ouvido humano (Mateus, Andrade et al. 1990).

Uma onda sonora tem algumas características que são importantes de nomear e relembrar,

comecemos pelo período, T (𝑠), o tempo que uma onda sonora demora a repetir valores

anteriores das características da forma de onda é o seu período. Algumas ondas sonoras

repetem-se de forma cíclica, se contabilizarmos o número de ciclos numa unidade tempo

falamos então de frequência, f (𝐻𝑧), que é inversamente proporcional ao período. Falemos

agora da amplitude, outra característica importante nos sistemas acústicos, numa

representação gráfica, a amplitude é o desvio máximo do valor em relação à linha do zero

convencionado. Nas ondas sonoras, a quantidade de maior interesse e para a qual se mede a

amplitude é a pressão, que é definida pela força que é exercida pelas moléculas de ar por

unidade de superfície, sendo o pascal (Pa) a unidade de medida usada em geral, embora por

vezes nos estudos de fala se possa encontrar o barye 𝑑𝑖𝑛𝑒 𝑐𝑚2⁄ .

É ainda importante fazer a distinção entre as terminologias altura e volume de um som.

Através da frequência pode definir-se uma escala de graves a agudos. Uma posição nesta escala

está associada à característica de um som que nos causa uma sensação que nós associamos à

altura de um som, quanto maior for a altura mais agudo é o som e a sua frequência. A variação

de pressão permite estabelecer uma escala entre fraco e forte. Uma posição nesta escala está

associada à característica que o ser humano chama volume (ou sonoridade), que aumenta com

a amplitude da variação da pressão (Mateus, Andrade et al. 1990).

Podem definir-se mais algumas quantidades acústicas que não estão relacionadas com a

psicologia humana, como a intensidade sonora (𝑤𝑎𝑡𝑡 𝑚2⁄ ) que se traduz na quantidade de

energia transmitida por unidade de tempo por unidade de superfície. O ouvido humano tem a

capacidade de ouvir uma gama de amplitudes com grandes variações e para podermos lidar

computacionalmente como esta gama dinâmica do ouvido humano foi criado o deciBel, dB,

uma décima parte do Bell, uma notação logarítmica utilizada para exprimir relações de

potências (Mateus, Andrade et al. 1990).

Uma onda sonora propaga-se no tempo mas também no espaço a uma velocidade

dependente do meio (𝑐 = 340𝑚/𝑠 no ar) e da sua temperatura, se a onda for periódica terá

6

periocidade temporal e espacial, a distância percorrida pela onda durante o espaço de tempo

de um período T à velocidade de propagação denomina-se comprimento de onda, 𝜆 = 𝑐 ∗ 𝑇 =

𝑐/𝑓, sendo o meio de propagação constante e mantendo-se as suas características inalteradas,

existe uma relação direta de proporcionalidade entre o período e o comprimento de onde e a

constante de proporcionalidade dessa relação é a velocidade c, quanto maior for o período

maior será o comprimento de onda.

Figura 1: Onda sinusoidal com período 𝟐 ∗ 𝒑𝒊 com 4 repetições

Infelizmente, a grande parte dos sons a que estamos expostos, incluindo a fala humana,

não apresenta estas características de uma forma explicita como as ondas sinusoidais, pois na

realidade sons como a fala são sons complexos, compostos pela combinação de várias ondas

sonoras com timbres, frequências, volumes e sensações sonoras diferentes.

Como referido acima, um sinal sonoro precisa de um meio de transporte para se propagar,

seja esse meio sólido, gasoso ou líquido. Para que a onda se possa propagar ela causa

compressão e rarefação sucessivas das partículas que constituem o meio onde o som está a ser

emitido, Figura 2, estas ações podem ocorrer mais próximas ou afastadas umas das outras

dependendo da densidade do material que constrói o meio de transporte.

Figura 2: Ilustração da capacidade de deslocamento de uma onda sonora através das ações

de compressão e rarefação das partículas do meio.

T

A

7

Após a emissão o som segue um caminho direto ao recetor, mas também segue em milhares

de caminhos diferentes em várias direções até chegar ao recetor através de reflexões nas

superfícies delimitadores do espaço, estas ondas chegam com atraso e com menor intensidade

em comparação ao som direto. A entrada do ouvido o som direto e todas as reflexões

combinam-se naturalmente.

2.2 O ouvido humano

O ouvido humano e todo o sistema auditivo influenciam a percepção da onda sonora

recebida, de tal forma que é necessário compreender o seu funcionamento antes de avançar.

A energia acústica do sinal é captada pelo ouvido externo e convertida para energia mecânica

que sofre uma transformação ao transitar no ouvido médio durante o percurso para o ouvido

interno onde é transformada em impulsos bioelétricos que são enviados para o sistema nervoso

auditivo central para serem processados e interpretados pelo córtex auditivo, Figura 3 (Nazaré

2009).

Figura 3: Divisão tripartida do ouvido nas partes relevantes e que processam

acusticamente o sinal sonoro, assim como os elementos influenciadores da forma como um som é codificado (Rowden 1992)

De forma mais detalhada, na chegada à pinna e concha o sinal sofre alterações influenciadas

pelas ressonâncias provocadas pela forma em concha do ouvido e ainda pela chegada das

reflexões vindas das várias direções o que provoca variações de pressão no tímpano.

8

Entre a concha e o tímpano situa-se o canal auditivo, que pode ser considerado um tubo

com comprimento constante, aberto numa ponta e fechado na outra pelo tímpano e as suas

paredes têm uma impedância elevada, desta forma pode ser interpretado como uma guia de

ondas unidimensional (Blauert 1983, Streicher and Everest 1998), o som que chega ao tímpano

já sofreu duas amplificações, a primeira ocorre devido a difração do sinal em torno da cabeça,

a segunda acontece devido a uma ressonância à frequência correspondente ao quádruplo do

comprimento do canal auditivo, o que provoca um aumento da pressão acústica. Juntos estes

fenómenos podem levar a um aumento de 20dB da pressão sonora junto ao tímpano (Streicher

and Everest 1998).

No ouvido médio encontramos três ossículos responsáveis pela transformação da energia

mecânica; ao serem excitados pelo tímpano, o movimento dos ossículos provoca, por sua vez,

a transmissão do movimento através da janela oval para o fluido no ouvido interno com

eficiência máxima (Streicher and Everest 1998).

No ouvido interno encontramos a cóclea que é um tubo em forma de espiral que vai

diminuindo de espessura, a base mais larga encontra-se junto a janela oval e é mais sensível

ás altas frequências, a outra extremidade termina de forma pontiaguda e é sensível ás baixas

frequências. Quando o sinal sonoro chega a esta fase do sistema auditivo provoca o movimento

do fluído no interior, que por consequência transporta esse movimento a duas membranas que

possuem de forma distribuída células ciliadas que estão ligadas a fibras do nervo auditivo por

sua vez ligado ao cérebro (Streicher and Everest 1998, Nazaré 2009).

Todas as alterações que o som sofre no seu trajeto acrescentam informação importante ao

sinal para que o cérebro possa realizar o processamento de toda a informação recebida, para

tal existem quatro mecanismos indispensáveis para a descodificação da localização de uma

fonte sonora, sendo o primeiro o tempo de atraso do sinal direto que existe entre as chegadas

do som aos dois ouvidos e é conhecido como ITD (Interaural time difference), o segundo, a

diferença de nível de pressão sonora entre os sinais que chegam a cada um dos ouvidos,

denominada ILD (Interaural level difference), o terceiro, o espetro do sinal recebido e, quarto,

os micro-movimentos da cabeça que ajudam em casos de ambiguidades (Blauert 1983, Zhong

and Xie 2014). Com a exceção da última pista que não é possível analisar matematicamente,

toda a informação apresentada está presente nas HRTF de uma pessoa.

A audição humana tem capacidades limitadas tanto no espetro das frequências como no

volume de um som que é capaz de ouvir. Começando pelas frequências, o ser humano é capaz

de ouvir sons que se estendam dos 20 Hz aos 20kHz. Contudo iremos limitar inferiormente a

banda de frequências aos 250Hz pois abaixo deste limite a literatura não é precisa sobre a

relevância dos conteúdos sonoros para a localização da fonte sonora. Este limite foi também

utilizado nas recolhas de sinais de respostas impulsionais binaurais da cabeça realizadas no

âmbito de um trabalho de dissertação anterior (Martinho 2015) que será mencionado adiante

quando for tratado o caso do manequim “Madalena”. A perceção da intensidade tem como

9

limite inferior de pico a pico uma vibração da ordem de grandeza de duas moléculas de ar, já

o limite superior será o que causar dor ao ser humano uma vez que o limiar da dor é um dos

mecanismos de proteção da audição humana, Figura 4 (Everest 2001).

Figura 4: Sensibilidade do ouvido humano a sons (Everest 2001)

2.3 Fenómenos da audição humana

Quantas vezes não dissemos ou ouvimos a frase “Baixa o som da televisão que não te consigo

ouvir!”, isto deve-se ao mascaramento de sons, quando o som da televisão se sobrepõe ao som

do falante. Situações como estas repetem-se em ambientes diversos, como com ferramentas

elétricas em funcionamento, ruído de um carro em andamento ou até mesmo água a correr.

Este fenómeno é definido de duas formas, primeiro como o processo que eleva o limiar de

audibilidade de um som pela presença de um som mascarador que força o desaparecimento

aparente do primeiro, a segunda forma é a quantidade pela qual o limiar de audibilidade é

elevado pela presença do som máscara(Streicher and Everest 1998).

Quando vamos a um bar com um grupo de amigos e mesmo assim somos capazes de manter

uma conversa sem termos de gritar ou sermos distraídos pelas conversas das mesas ao lado,

isto acontece porque o nosso cérebro é capaz de se concentrar nos sons coerentes, os que vêm

diretamente de frente e ao mesmo tempo desligar a atenção dos sons não coerentes, os que

10

vêm de múltiplas direções e com níveis mais baixos, a esta capacidade chamamos o efeito

Cocktail Party.

Quando não temos deficiências no sistema auditivo somos todos capazes de reconhecer a

direção de um som que está a ser emitido por uma fonte, mas esta realidade torna-se mais

fácil quando o sinal sonoro a ser emitido já nos é conhecido, como a voz da nossa mãe ou o

nosso nome. Nestes casos, o erro de localização de uma fonte sonora é mais baixo quando

comparado com o de fontes que estão a emitir sons desconhecidos ou que estamos a ouvir pela

primeira vez. O volume e distância de uma fonte sonora não são quantidades lineares entre si

e desta forma podem influenciar de forma errada a nossa decisão em relação à localização de

uma fonte emissora, quando alguém está a falar muito alto a nossa interpretação é de que se

encontra a uma maior distância do que aquela a que poderá estar (Blauert 1983).

2.4 Localização de uma fonte sonora

Visualmente somos capazes de dizer ou apontar para a localização da fonte sem ser

necessário indicar as coordenadas geográficas no espaço, mas para trabalharmos e

compreendermos matematicamente as posições de uma fonte sonora é necessário definirmos

um sistema de três coordenadas no espaço centrado na cabeça do ouvinte, são elas um ângulo

no plano azimutal (θ), um ângulo de elevação (Φ) e a distância ao centro da cabeça (r), são

então criados três planos importantes que colocam a cabeça no centro dos eixos do sistema e

a fonte sonora num ponto no espaço bem definido, o plano horizontal composto pelos eixos x

e y, o plano frontal formado pelos eixos x e z e o plano medial criado pelos eixos y e z, como

é apresentado na Figura 5.

11

Figura 5: Planos estruturantes do espaço onde se localiza a fonte sonora e a cabeça do

ouvinte.

Para o cérebro esta informação passa na forma das HRTF que podem ser analisadas

matematicamente após a sua captura, juntamente com o valor do atraso Interaural (ITD) e

diferença de nível Interaural (ILD).

A Figura 6 mostra a localização de uma fonte no espaço tridimensional e como se posiciona

em relação a cabeça e órgãos auditivos.

Figura 6: Sistema de coordenadas para localização de uma fonte sonora, com origem no

centro da cabeça e localizado no espaço definido na Figura 5.

Estamos agora em condições de continuar o estudo da audição humana com as análises das HRTFs (head related transfer functions).

y

Plano Horizontal/Azimutal

Plano Medial/Sagital z

X

Y

z

X

Percurso entre fonte

e ouvidos

θ

Φ

Y

Fonte sonora

𝑆𝑧

𝑆𝑦 𝑆𝑥 𝑆

r – Distância entre o

centro de cabeça e a fonte

sonora

12

2.5 Audição Binaural

Os seres humanos devido a possuírem normalmente dois ouvidos funcionais são capazes de

ter uma audição binaural, pois esta é descrita como o resultado da existência de dois órgãos

sensíveis a sons separados e com um mecanismo de processamento neuronal com a capacidade

de combinar toda a informação acústica recebida e desta forma recolher a informação espacial

auditiva.

A audição binaural tem vindo a ser elemento de fascínio em várias áreas e durante muitos

anos. Inicialmente acreditava-se que a única pista ou, pelo menos, a mais importante no

fornecimento de informação direcional era a diferença de nível entre os dois ouvidos, a ILD,

com o decorrer do tempo e os estudos já realizados sabemos agora que isto não se verifica. A

ILD, apesar de ser uma das pistas direcionais mais complexas é também das mais estudadas e

por isso já existem algumas conclusões retiradas, por exemplo para provocar uma sensação de

lateralização é necessária uma ILD menor para frequências perto dos 2kHz, embora na

literatura seja também indicado o valore de 1,5 kHz, para a mesma diferença o grau de

deslocamento é maior para frequência mais baixas e mais pequeno para as altas frequências,

chegamos assim a conclusão que a ILD é dependente da frequência (Blauert 1983). Quanto

maior for a frequência do sinal maior será o obstáculo criado pela cabeça, por consequência

da diminuição do comprimento de onda, a este fenómeno dá-se o nome de Head Shadow. O

obstáculo criado pela cabeça e tronco é a razão da existência do fenómeno físico de difração

em torno da parte superior do corpo que por sua vez é a causa da diferença do nível de pressão

de sinal entre os dois ouvidos.

A ILD não é a única responsável por fornecer pistas espaciais ao cérebro, existe ainda a

diferença do tempo de chegada do sinal aos ouvidos direito e esquerdo. Para o ser humano, a

distância que separa externamente os dois órgãos é de aproximadamente 15 centímetros e é

responsável pela diferença no tempo de chegada do sinal acústico aos ouvidos, denominada

por ITD, contudo esta diferença não nos é percetível no momento de receção do sinal, mas o

nosso cérebro é capaz de a analisar, sendo as baixas frequências as mais afetadas pela ITD, isto

porque a diferença de fase não ultrapassa um período do sinal entre os dois ouvidos sendo, no

entanto, da mesma ordem de grandeza as amplitudes. A 7 mostra a diferença entre o sinal

recebido pelo ouvido esquerdo e o recebido pelo ouvido direito para uma fonte sonora frontal

deslocada de 40º para a direita no plano horizontal, pode ser observada tanto uma diferença

nos tempos de chegada como no nível de pressão acústica entre os dois ouvidos, o som direto

chega primeiro ao órgão direito, e com maior amplitude também, uma vez que a fonte se

encontra mais próxima deste lado, pois para chegar ao lado esquerdo o sinal acústico encontra

a cabeça como obstáculo o que quer dizer que tem uma maior distância para percorrer e vai

13

sofrer ainda alguma atenuação. Mais adiante será explicado o procedimento levado a cabo para

obter este resultado.

Figura 7: Sinais recebidos por cada um dos ouvidos quando a fonte se encontra a 40º para

a direita no plano mediano.

Blauert mencionou em 1983, que é necessário ter em atenção o tempo de exposição a um

som, pois um sistema estimulado por um longo período de tempo leva a que haja uma

habituação por parte do ser humano e, por consequência, uma diminuição da sensibilidade,

este fenómeno está dependente do tipo de som, do nível e do comprimento do sinal. Existem

dois motivos que provocam a dessensibilização, são eles a adaptação e a fadiga, contudo, psico-

-acusticamente estes fenómenos são difíceis de distinguir, mas influenciam a capacidade de

lateralização de uma fonte sonora. A primeira razão para a dessensibilização do sistema de

audição atua de forma rápida e inicia-se ao fim de alguns segundos, a readaptação demora

cerca de 1 a 2 minutos a acontecer, a segunda razão deve-se a sinais mais longos e intensos, o

regresso ao normal leva mais tempo nesta situação.

Com isto em mente é a altura de abordar um conceito introduzido por Cremer, a Lei da

primeira frente de onda (Streicher and Everest 1998), ou seja, o som que chega aos ouvidos é

composto pelo sinal que viaja da fonte para o individuo de forma direta e todas as reflexões

que chegam depois, vindas de várias direções, esta diferença nas chegadas é especialmente

importante em espaços pequenos que oferecem um grande número de reflexões, a primeira

frente de onda é o sinal direto e é este que será o ponto de interesse para a dissertação

apresentada. Como existem dois órgãos de audição vão existir duas frentes de onda quando

uma das fontes emissoras sofre um atraso superior a 1 ms o ouvinte sente que a localização do

som se deslocou no sentido da fonte que não sofreu atraso, este fenómeno mantém-se até aos

30 ms a partir daqui começam a ouvir-se ecos. Algo que vale a pena mencionar, quanto maior

for o atraso entre os sinais nos dois ouvidos mais baixo vai parecer o volume do sinal mais

atrasado, de tal forma que com um atraso de 15 ms é necessário um aumento de 10 dB do nível

14

do sinal no ouvido em atraso para que a diferença de volume seja contrariada (Streicher and

Everest 1998).

Nem todos os seres humanos têm os dois órgãos auditivos totalmente funcionais e como tal

o seu sistema auditivo não pode ser analisado da mesma forma como o de outra pessoa com

audição perfeita. Já têm sido realizadas algumas investigações sobre a audição binaural onde

participam indivíduos com os dois órgãos auditivos funcionais e indivíduos com funcionalidade

em apenas um dos órgãos sendo os resultados indicadores de que dispondo de apenas um ouvido

torna-se mais difícil focar a atenção numa só fonte sonora.

2.6 HRTF

Ao realizar uma experiência de captura de um sinal acústico a entrada dos canais auditivos

é rica em informação, para o trabalho realizado focamo-nos apenas na informação necessária

para indicar a localização da fonte sonora. Esta informação apresenta-se como uma função

recebida pelo cérebro com vários picos e vales criados pelas reflexões, refrações e difrações

que acontecem na viagem entre origem e destino, a transformada de Fourier é a ferramenta

usada para esta análise e, desta forma, obter os espectros dos sinais capturados, como pode

ser visto na Figura 8.

Figura 8: (de cima para baixo e da esquerda para a direita) Sinal capturado à entrada de

dos canais auditivos, as HRIR; Sinal capturado no canal direito após o uso de uma janela suficientemente pequena para não ser influenciada pela chegada do primeiro eco; Sinal do ouvido direito após uso da transformada de Fourier; Sinal capturado no canal esquerdo de forma idêntica); Sinal do ouvido esquerdo após uso da transformada de Fourier.

A partir dos gráficos da Figura 8 somos capazes de observar que a fonte se encontra do lado

direito, conclusão que pode ser obtida porque o sinal adquirido no canal auditivo direito está

15

adiantado em relação ao sinal capturado do lado esquerdo, existindo concomitantemente uma

diferença no nível entre os dois sinais; o sinal do lado direito (denominado ipsilateral) tem

maior energia do que o do lado esquerdo (denominado contra lateral). Em seguida são

analisados os espectros de ambos os sinais auditivos com o objetivo de encontrar os picos e

vales que fornecem informação ao cérebro, que, juntamente com o atraso e diferença de nível

de pressão entre os ouvidos, permitem a localização da fonte sonora, no que alcança bastante

precisão.

Os dados apresentados nos quatro gráficos inferiores da Figura 8 são os mesmos do gráfico

superior. O que distingue a coluna com os gráficos do lado esquerdo é serem as HRIR (head

related impulse response) enquanto que a coluna com os gráficos do lado direito apresenta as

respetivas HRTF (head related transfer functions) obtidas através da transformada de Fourier

(Zhong and Xie 2014).

16

3 Fala Humana

O corpo humano funciona como a combinação de vários sistemas em simultâneo e o

processo da fala humana é o exemplo perfeito do funcionamento em relativa harmonia de

funções com atividade simultânea, como comer e respirar, através do funcionamento dos

músculos e válvulas sem que ocorram erros, quando estamos com pressa e tentamos fazer tudo

ao mesmo tempo o resultado é que comida poderá seguir o percurso errado e entalamo-nos

demorando o sistema alguns segundos a recuperar. A capacidade de falar é o meio de

comunicação mais básico e eficaz de transmissão de informação e é ainda o mais rápido e

expressivo em comparação com outras formas de comunicação, como a língua gestual. Se

fizermos uma comparação rápida entre comunicação falada e a comunicação mediada pelo

telégrafo vemos que são dois métodos diferentes de transmitir a mesma mensagem, têm ainda

o mesmo débito de informação, contudo o que a mensagem falada transmite a mais é emoção,

personalidade, etc.(Gold and Morgan 2000).

3.1 Órgãos de produção da fala humana

O ser humano tem a aptidão de produzir fala de uma forma muito variável e momentânea,

sendo composta por energia distribuída em frequência, pressão sonora e tempo. Existem três

órgãos responsáveis pela produção da fala: (1) os pulmões e a traqueia, que podemos considerar

como sendo as fontes geradoras de energia, a traqueia é responsável por fazer chegar ao resto

do sistema o ar fornecido pelos pulmões, por norma não contribuem de forma audível para a

fala mas são responsáveis pela sua intensidade, (2) a laringe que é o mecanismo principal para

a geração de sons, é um sistema complexo de músculos e cartilagens, incluindo as cordas

vocais, que realizam, além de funções biológicas e acústicas entre as quais proteção de

processo respiratório e permitir a acumulação de pressão no tórax e abdómen, vibrações que

são o principal método de excitação da fonte sonora da fala e, (3) o trato vocal, representado

na figura 9, que engloba tudo acima das corda vocais e é composto por uma série de estruturas

e regiões que realizam várias funções biológicas e acústicas, à semelhança da laringe e pode

ser considerado um sistema acusticamente ressonante, com cerca de 17 cm desde as cordas

vocais até aos lábios. O trato vocal, Figura 9, é capaz de modular o som resultante, uma vez

que não é um tubo linear mas sim um tubo que vai mudando de forma ao longo do seu percurso

por causa da presença da língua e as suas ressonâncias são dependentes das várias formas que

este toma, o que torna a resposta em frequência dependente da sua forma. Algo que também

17

deve ser levado em consideração, é que a língua é um músculo com movimento, que provoca

não só alterações de forma da cavidade oral e da faringe mas também constrições quase

completas que produzem efeitos acústicos importantes e até oclusões temporárias (Parsons

1987, Everest 2001).

Figura 9: Representação do trato vocal (Parsons 1987)

O início do processo da fala reside no cérebro que, após ser decidido o que vai ser falado,

comanda os músculos do tórax e o diafragma para pressionarem os pulmões e desta forma dar

inicio aos processos mecânicos de produção da fala (Trujillo). A descrição mais básica deste

processo é que o ar forçado pelos pulmões, no momento de expiração, é a causa da vibração

das cordas vocais e o som emitido por este movimento viaja pelos tratos vocal e nasal, até sair

pela boca e/ou nariz, dependendo do tipo de som a produzir.

É possível identificamos três tipos de fontes sonoras para sons da fala, um deles são as

cordas vocais, responsáveis pelos sons vocálicos e vocálicos nasalados produzidos pela vibração

criado pela passagem do ar. São sons que têm normalmente uma duração elevada,

foneticamente são vogais orais e/ou nasaladas. Outro tipo de fontes de produção de sons de

fala são criadas pela língua, dentes ou lábios que pelo movimento que têm forçam o ar sob

pressão a passar pelos constrangimentos formados pelos elementos mencionados produzindo

turbulências na passagem do ar com produção associada de ruído, criando os sons de fonemas

denominados fricativos, que são representados pelas letras f, s, ch, v, z e j. Para completar a

18

lista de tipos de fontes sonoras da fala humana é possível identificar ainda os sons produzidos

pela paragem completa do fluxo de ar por oclusão do trato vocal seguida de libertação

completa do ar de uma forma repentina formando os fonemas representados pelas letras p, t,

k, b, d e g a que chamamos os sons plosivos (Mateus, Andrade et al. 1990, Everest 2001). A

vibração das cordas vocais ou ausência da mesma divide ainda a fala em dois tipos de sons, os

vozeados, quando existe vibração, e os não-vozeados, no caso contrário. Para finalizar, ambos

os grupos exemplificados acima enquadram-se numa terceira categoria de sons, as consoantes

que contêm ainda as consoantes nasais, as líquidas, as rolantes e as africadas, mas estes sons

são muito dependentes da forma como a língua portuguesa é falada. Concluímos assim os vários

tipos de sons da fala humana e as suas respetivas fontes (Mateus, Andrade et al. 1990, Everest

2001).

Figura 10: Produção da fala humana (Everest 2001)

A Figura 10 resume então a produção da fala humana desde a fonte até a emissão pela

boca, mas este processo não é feito num só passo, vamos agora ver quais os mecanismos

necessários para que haja discurso audível a sair da nossa boca.

3.2 A fisicalidade da fala humana

Existem quatro mecanismos físicos que o corpo humano realiza para proceder a produção

do discurso: iniciação, fonação, processo oro-nasal e articulação.

O processo de iniciação é o momento em que o ar é expelido pelos pulmões passando pela

laringe através das cordas vocais, que se encontram com uma abertura pequena no caso de ser

um som vozeado. Se se encontrarem completamente abertas a vibração é mínima e temos

então os sons não-vozeados.

O comprimento das cordas vocais é maior para os homens em comparação com as mulheres,

sendo as frequências de vibração inversamente relacionadas. A este processo chama-se fonação

Sons Vocálicos

Sons Plosivos

Sons Fricativos

Trato Vocal Emissão da fala pela boca

19

de um som. Depois da laringe o ar passa pela faringe e daqui pode seguir pela cavidade oral ou

nasal. O palato identificado na figura 9, bloqueia a passagem do ar para o nariz direcionando-

o assim para a boca, sendo este o terceiro processo na fala identificado como o processo ora-

nasal. A fase de articulação acontece na boca e é o que nos permite produzir a maior parte dos

sons utilizados na fala humana, devido à contribuição de todos os elementos constituintes da

cavidade oral que juntamente com a garganta e a cavidade nasal criam os vários tipos de

ressonâncias. A língua é a maior responsável pela variedade de volume e forma que a cavidade

oral pode assumir (Trujillo). Esta combinação de formas e efeitos é capaz de alterar o som a

ser produzido através de uma filtragem dos seus harmónicos e desta forma modificar o timbre

produzido (Kinsler, Frey et al. 1982).

A vibração das cordas vocais produz uma sequência de frequências, chamados harmónicos

naturais, cada um com frequência múltipla da frequência fundamental. É nos nossos ouvidos

que o timbre de um som e a sua frequência fundamental são avaliados. Quanto às frequências

harmónicas, que têm amplitudes de valores inferiores à fundamental, não é possível ouvir

algumas frequências por impedimento das antirressonâncias e outras frequências são

privilegiadas porque ressoam bem na sua passagem pelo trato vocal (Rowden 1992).

Figura 11: Área de frequências da fala humana (Everest 2001).

A Figura 11 mostra a área de frequências que o ser humano produz no processo de produção

de fala (sombreado) em comparação com as frequências que é capaz de ouvir (tracejado), o

ouvido humano é sensível a uma quantidade muito superior de frequências aquelas que é capaz

de produzir.

A frequência fundamental da fala depende do orador, do seu estado de espirito, da ênfase

e da emoção que atribuir à mensagem que está a ser produzida e é a magnitude e a relação

entre as ressonâncias que faz com que os sons de discurso sejam facilmente reconhecidos

(Rowden 1992).

20

4 Simuladores com manequins e o manequim “Madalena”

Quando a audição humana começou a ser estudada era necessária a colaboração de seres

humanos no processo de captação, colocando microfones à entrada dos canais auditivos dos

indivíduos, mas era preciso que a cabeça se mantivesse imóvel durante todo o processo, algo

que o ser humano tem dificuldade de conseguir durante um período de tempo prolongado,

levando assim a alguns erros e incerteza em todo o processo e seus resultados. Com o tempo e

os desenvolvimentos alcançados na área, foram criados alguns substitutos artificiais para estas

tarefas, sob a forma de manequins, para utilizar, nomeadamente em testes de sistemas,

equipamentos e dispositivos de comunicação acústica.

A produção da fala por um simulador como o Madalena tem a grande vantagem de ter

características uniformes e bem controladas, emitidas pelo período de tempo necessário sem

alterações, algo que o ser humano não é capaz de fazer com a mesma qualidade.

4.1 K.E.M.A.R

Knowles Eletronic, atualmente pertencente á G.R.A.S., foi a primeira empresa em 1972 a

comercializar um manequim antropométrico, chamado Knowles Eletronics Manikin for Acoustic

Research, que permitiu realizar testes extensivos e repetitivos a aparelhos auditivos

minimizando desta forma o erro humano. Este manequim tem as dimensões de um adulto de

estatura média respeitando as normas ANSI S3.36/ASA58-2012 e IEC 60318-7:2011.

A Figura 12 mostra algumas perspetivas do K.E.M.A.R, do lado mais a esquerda pode ser

observado que todas as ligações por cabos, a amplificadores ou sound devices, ao simulador

são feitas na parte traseira. As duas perspetivas mais a direita do manequim mostram o canal

de saída pronto a ser utilizado, existe, contudo uma versão com a boca fechado caso o

utilizador esteja apenas interessado em utilizar o canal de entrada. A quando da aquisição de

um destes manequins o utilizador pode escolher a pinna que quiser de todas disponibilizadas

pela G.R.A.S, a empresa tem a disposição vários conjuntos de acessórios que se adaptam a

necessidade do utilizador (G.R.A.S 2017).

21

Figura 12: Exemplo do manequim KEMAR produzido pela G.R.A.S. visto de varias

perspetivas, podem ainda ser observados os vários conectores e simuladores existentes.

Nos últimos 45 anos foram desenvolvidos vários modelas do K.E.M.A.R, todos eles

completamente adaptáveis a situações desejadas. A G.R.A.S permite ainda que após a compra

inicial haja espaço para evolução do conjunto de acessórios adquiridos inicialmente, ou seja o

utilizador pode sempre comprar novos acessórios para modificar o manequim de base que

adquiriu readaptando-o assim as suas necessidades

Este produto é utilizado principalmente em teste de aparelhos auditivos, auriculares,

microfones e todo o tipo de aparelhos de comunicação que contenham um ou mais destes

elementos (G.R.A.S 2017).

4.2 Head and Torso Simulator (HTS)

A empresa Bruel&Kjaer, produtora de equipamentos acústicos, foi a criadora de manequim

mais famoso entre os vários simuladores que existem no mercado. Os modelos 4128-C e 4128-

D representam um adulto de estatura média, com pescoço ajustável de forma a melhorar

posição da cabeça e otimizar a situação para a qual está a ser utilizada, contêm ainda um

simulador bocal e dois simuladores dos órgãos auditivos que consistem em moldes de borracha

da pinna consistentes com a norma IEC 60318–4/ITU‐T Rec. P.57 Type 3.3 (Bruel&Kjear

2014).

A Figura 13 apresenta estes simuladores estilizados com o canal de entrada embutido no

interior da cabeça, não havendo uma solução sem produção de fala. Quanto ao canal de

entrada, possível ver do lado direito da figura, cada simulador auditivo consiste de uma pinna

de silicone em conjunto com um canal auditivo dentro das normas IEC 60318.

22

Figura 13: Modelo 4128-C da Bruel&Kjaer com simuladores auditivos e bucal, este modelo

é composto por dois microfones com pré-amplificador e um altifalante.

De acordo com a data sheet do manequim as suas aplicações variam entre testes precisos

a telefones, aparelhos mãos-livres, auriculares, aparelhos auditivos, análises de situações que

possam ocorrer em locais pequenos como o interior de um carro e calibração de microfones e

protetores auditivos.

4.3 O Manequim “Madalena”

O manequim utilizado como apoio ao estudo desta dissertação é o molde de uma dadora,

ex-aluna de Bioengenharia da FEUP, no decorrer de uma unidade curricular. O molde negativo

foi feito com silicone e o manequim realizado, posteriormente, com silicone e fibra de vidro

em seguida preenchido localizadamente por espuma de poliuretano. Ambos os canais auditivos

estão equipados com um microfone de eletrete de 6 mm colocado à entrada. As orelhas são

removíveis, o que permite fazer experiências que envolvam a comparação entre vários

tamanhos de ouvidos ou tipos de microfones. Para facilitar o transporte, foi colocada uma placa

de madeira na parte inferior do manequim com quatro espaçadores de plástico de alguns

centímetros de altura para permitir a inserção de uma mão.

Em comparação com os manequins apresentados anteriormente, o manequim tem a

particularidade de ser um molde de uma pessoa o que ainda não tinha sido feito entre nós,

como pode ser observado na Figura 14. Este processo tem a vantagem de aproximar o simulador

das medidas e formas do corpo humano o que por sua vez melhora o estudo das HRTFs. O

material com que são construídos estes manequins também vai influenciar o estudo da audição

23

binaural, não pode ser demasiado absorvente da energia sonora pois as reflexões do sinal no

corpo humano também são importantes para o cérebro processar a localização de uma fonte

sonora.

Na Figura 15 podemos observar o manequim de perfil e o microfone utilizado na captura

dos sinais alvos de análise durante dota esta dissertação.

Figura 15: Imagens do perfil do simulador "Madalena" e o pormenor do canal auditivo com

o microfone utilizado na aquisição dos sons utilizados no estudo apresentado.

Ambos os canais auditivos são removíveis no caso de se querer mudar os microfones ou até

mesmo estudar a influência da forma da concha para a audição binaural, nesse caso há a

possibilidade de fazer o molde dos ouvidos de outra pessoa e colocar no manequim e fazer um

novo estudo.

Figura 14: Manequim "Madalena" visto de frente e de perfil

24

5 Opções binaurais já existentes

O corpo humano é alvo de interesse há muitos anos e a audição humana não tem passado

despercebida, mas até recentemente não havia interesse por parte dos consumidores e o

resultado é que havia estudos e trabalhos fechados em gavetas. Alguns dos trabalhos sobre

audição binaural são agora apresentados. Desde bases de dados de HRTFs bastantes completas,

a API a serem desenvolvidas por empresas como a Google e plugins para software de sound

design, atualmente qualquer pessoa pode entrar em contacto com estas tecnologias.

5.1 C.I.P.I.C Interface Laboratory

Formado originalmente no Centro de Processamento de Imagem e Computação Integrada,

o laboratório de interface do C.I.P.I.C pesquisa a relação da perceção humana com as interfaces

entre humanos e máquinas e é constituído por especialistas de várias áreas da engenharia,

processamento de sinal e psicofísica. O trabalho de pesquisa encontra-se focado no som

espacial e síntese acústica 3D (Algazi 2001).

Usando 45 sujeitos e, duas cabeças KEMAR uma com pinna pequena e outra com pinna

grande, foram realizadas 25 capturas azimutais entre os −90° e 90°, 50 capturas em elevação

entre −90° e 270°, em 200 instantes no tempo e a partir destes sinais foram calculadas as HRIR.

A base de dados contém ainda aquisições adicionais com o manequim KEMAR nos planos

frontal e horizontal. Para a realização de uma captura foram levados em consideração dois

aspetos principais: a sua influência para as HRTF e se a sua realização era fiável e razoável.

Para completar a base de dados são ainda disponibilizados os dados antropométricos dos

indivíduos colaborantes para a experiência das aquisições, estes dados foram obtidos por

fotografias de alta resolução, medições e ferramentas digitais 3D. A interface foi desenvolvida

pela equipa do Professor V. R. Algazi (Algazi 1998, Algazi 2001) .

Um dos trabalhos de pesquisa desenvolvidos neste laboratório pelo Professor V. R. Algazi

foi uma interface que mostra as respetivas HRTF e HRIR para cada um dos indivíduos do grupo

participante na captura de sinais, a Figura 16 mostra interface deste trabalho.

25

Figura 16: Interface desenvolvida no laboratório C.I.P.I.C; permite escolher o sujeito o

azimute e a elevação e são mostradas as HRTF e HRIR correspondentes.

Qualquer um dos parâmetros pode ser alterado, o utilizador pode escolher uma cabeça

diferente e as HRFT serão calculadas de novo, pode ainda escolher qualquer uma das posições

captadas e os gráficos apresentados serão alterados para apresentar o resultado do novo

cálculo, correspondente as novas escolhas do utilizador.

5.2 IRCAM Database

Localizado no coração de Paris, o centro do IRCAM tem como principal objetivo desde a sua

abertura em 1977 aliar a investigação científica, o desenvolvimento tecnológico e a música

numa só criação artística.

Com o progresso em mente, não é então de estranhar que tenham realizado uma

investigação própria sobre aquisição de HRIR e composto uma base de dados pronta para

download e de utilização livre.

A experiência realizada para a captura dos sons foi realizada numa câmara anecoica de

324𝑚3, revestida por cunhas de lã de vidro de 1,1m de comprimento, capazes de absorver o

som com frequência acima dos 75 Hz. O equipamento de aquisição foi colocado num tabuleiro

metálico configurável.

A coluna de som emissora é montada numa grua com forma de “U”, os braços da grua são

cobertos por painéis de espuma de melanina para diminuir as reflexões e o motor que provoca

a elevação é controlado por um computador que escolhe o ângulo do passo da grua que suporta

a coluna.

26

O sujeito que servirá de base de aquisição encontra-se sentado numa cadeira rotativa, com

apoio para os pés e cabeça para ajudar o individuo a manter uma posição estável durante todo

o processo, o ângulo de azimute é escolhido pelo software e o feedback é enviado por um

sensor ótico. Para confirmação da posição da cabeça é utilizado um aparelho de controlo de

posição da cabeça ligado ao software e colocado no topo da cabeça do sujeito, o sinal é apenas

enviado quando a cabeça estiver na posição correta e é guardada a posição correta da

aquisição.

O par de microfones utilizado foi da Knowles o modelo miniatura FG3329, condensador de

eletrete omnidirecional, a cápsula do microfone foi colocada numa proteção de silicone

ajustável ao sujeito, inserida à entrada o canal auditivo impedindo desta forma ressonâncias

indesejadas, foi ainda desenhado um pré-amplificador com um ganho de 40 dB, o altifalante

usado foi da Tannoy modelo 600 com um amplificador da Yamaha. Todo o processo foi

controlado pela interface de áudio I/O box RME Multiface com 36 canais 24 bits/96 kHz.

Atualmente a base de dados é composta por medições feitas com 51 sujeitos em 187 pontos

de captura para cada um deles, mas a primeira vez que esta base de dados foi compilada

continha apenas 46 indivíduos. Em elevação são sempre usados os mesmos 10 ângulos a começar

nos −45° até 90° com um passo de 15° para cada valor de elevação o sujeito sofre também uma

rotação de 15°, daí os 187 pontos de captura para cada sujeito.

É possível fazer duas coisas com a base de dados: a primeira é uma experimentação online,

o IRCAM tem disponíveis demos das capturas azimutais, assim quem tiver curiosidade sobre

audição binaural pode ouvir um som modulado em movimento em torno da sua cabeça. A

segunda possibilidade é fazer o download dos ficheiros de todas as capturas da base de dados

no formato WAV e ainda, para cada sujeito, há apenas um ficheiro Matlab que contém uma

estrutura capaz de armazenar toda a informação relevante sobre o sujeito em causa. Junto

com o download são também disponibilizados dados equalizados de forma a garantir que os

dados possam ser alterados em alturas diferentes e por aparelhos diferentes (Warusfel 2003).

5.3 ARI HRTF Database

O Instituto de Investigação Acústica é um braço da Academia de Ciências Austríaca,

multidisciplinar e dedicado a aplicação de investigação acústica baseada em fundamentação

matemática. Integra as áreas da fonética, psico-acústica, física computacional e matemática

com o objetivo de cobrir todas as questões que possam surgir no processo de estudo da acústica

que envolve sempre vários passos desde a produção até à perceção do som. Contudo o instituto

27

mantém-se aberto a outras áreas de trabalho desde que estas sejam colaborativas com as já

existentes no espaço.

A experiência levada a cabo pelo ARI foi realizada numa sala semi-anecoica com 22

altifalantes colocados em posições de elevações fixas entre −30° e 80° ao longo de um arco

móvel, os altifalantes foram ligados a uma interface de áudio MA-5D da Edirol. Todo o

equipamento e suportes foram cobertos por materiais absorventes de som para reduzir as

reflexões. O par de microfones escolhidos para a captação foram Sennheiser KE-4-221-2. O

sujeito foi sentado no centro do arco com os microfones colocados a entrada dos canais

auditivos e ligados a pré-amplificadores que por sua vez foram ligados à interface de áudio

mencionada. O sinal sonoro utilizado foi um varrimento de frequências entre os 50Hz e os 20kHz

com uma duração de 1728,8ms.

As HRTFs foram recolhidas para cada valor de azimute com as suas várias elevações.

Concluídas todas as capturas para um ângulo de azimute o sujeito foi rodado com um passo de

2,5° para o próximo valor dentro da gama de valores ±45°. Para todos os outros valores de

ângulos de azimute o passo foi de 5°, totalizando assim 1550 HRTF para cada sujeito. Esta base

de dados contém informação de 150 sujeitos. Durante toda a experiência foi ainda controlado

o movimento da cabeça com um dispositivo próprio para este objetivo, de modo que se a

posição da cabeça não se encontrasse dentro dos parâmetros aceites a medição era repetida

de imediato. O procedimento de aquisição das HRTFs foi repetido mas desta vez com

microfones montados por cima da pinna no suporte de um aparelho auditivo. Os resultados são

apresentados para comparação e as grandes diferenças a olho nu entre os dois métodos de

aquisição das HRTF está na atenuação que o sinal sofre pelo forma da concha, como podemos

ver nas Figura 17 e Figura 18.

Figura 17: HRTFs para a experiência com o microfone montado por cima da pinna para o

ouvido esquerdo (INSTITUTE)

28

Figura 18: HRTFs para a experiência com o microfone montado a entrada do canal

auditivo para ambos os ouvidos (INSTITUTE)

Para finalizar, é possível fazer o download de toda a base de dados do ARI para análise mais

profunda e futuros desenvolvimentos a completar ou aprofundar o assunto iniciado pelo

Instituto de Investigação Acústica, estes downloads incluem informação antropométrica de 60

dos 150 sujeitos utilizados do desenrolar do estudo e ainda os ficheiros capturados e atualizados

ao longo dos anos pelo ARI (INSTITUTE).

5.4 ATK for Reaper

Na produção de áudio e sound design o Reaper é dos softwares mais usados, tem a

possibilidade de gravar ou importar áudio e trabalhar sobre a faixa ao nosso do utilizador, é

distribuído pela empresa Cockos Incorporated, tanto para PC como para Mac. Na sua forma

mais básica o Reaper oferece uma gama enorme de efeitos e transformadas quem se quiser

iniciar no mundo da produção do som, mas a grande vantagem é que existem plugins de

download livre que podem ser acrescentados ao software base.

Entre esses plugins, o que eu utilizei na unidade curricular de SDMD (Sound Design para

Medias Digitais), denomina-se ATK for Reaper, The Ambisonics Toolkit. O ATK é composto por

um conjunto de plugins que codificam o sinal que entra mono, stereo ou multicanal. Depois de

codificado o som pode então ser transformado, o conjunto de plugins aqui apresentado na

Figura 19 permite dar a ideia de movimento, algumas das transformadas são

FocusPressPushZoom, primeira imagem, esta transformada pode ser dividida em duas foco e

zoom levando enfâse a direção desejada e pressionar ou empurrar a atenção na direção

desejada, Direct ajusta o espaço sonoro ao longo de um plano indicado pelo utilizador,

RotateTiltTumble rotações feitas em vários eixos (Toolkit 2016).

29

Figura 19: Resultado das várias transformadas do ATK mencionadas.

Falta agora ver como o ATK faz a descodificação para a saída; para isso tem disponíveis os

descodificadores convencionais para mono, stereo e multicanal mas para que as transformadas

mencionadas possam ser aproveitadas, quando usados headphones, o Toolkit tem ainda um

descodificador binaural, que coloca a disposição do utilizador um conjunto de 1059 HRTF, como

por exemplo a da Figura 20.

Figura 20: Uma das cabeças disponíveis para realizar a descodificação binaural do ATK for

Reaper

30

O plugins acede a base de dados disponível pelo CIPIC e utiliza as HRTF para fazer a

descodificação do trabalho realizado pelo utilizador.

5.5 Oculus (Facebook)

A serem desenvolvidos pelo Facebook os Oculus são uns óculos de realidade virtual

completamente imersivos com suporte para PC, mobile e até estações de jogos. Mas como tudo

o que o Facebook faz a ideia é ser partilhado e, por isso, qualquer pessoa que queira

desenvolver uma aplicação ou software e utilizar o sistema de realidade virtual do Oculus pode,

pois disponibilizam o SDK (software development kit) com toda a documentação e plugins

necessários para incorporar um sistema de realidade virtual no projeto, Figura 21 (Oculus

2018).

Figura 21: Imagem dos óculos de realidade virtual a serem desenvolvidos pelo Facebook.

No caso de ser um técnico de som que queira espacializar um projeto os programadores

tem disponíveis um software de produção de áudio, idêntico ao Reaper, mas focado na criação

de vídeos com áudio interativo denominado Facebook 360 Spatial Workstation.

31

5.6 Daydream e Cardboard (Google)

Tal como o Facebook o Google também tem tecnologias de realidade virtual disponíveis, a

Daydream idêntica aos Oculus, torna a experiência completamente imersiva, no caso da

Carboard é um acessório barato que pode ser montado junto ao telemóvel tornando a realidade

virtual simples e acessível, Figura 22.

Figura 22: Tecnologias de realidade virtual a serem desenvolvidas pelo Google. Do lado

esquerdo a Cardboard e do lado direito os óculos Daydream.

Esteja um programador a trabalhar em Android, Unity, IOS, ou outro sistema qualquer a

Google tem disponível tanto os SDK como os API para que o utilizador possa construir o seu

projeto com um mundo de realidade virtual. Um elemento importante será então o áudio, de

modo que a empresa disponibiliza um plugins de áudio para várias plataformas; é cabe ao

utilizador escolher qual a que prefere, Android Studio, Reaper e outros softwares do género,

Unity, IOS, WEB, etc..

32

6 Processos Eletroacústicos

Para dar início à parte prática deste trabalho foi necessário desenhar um diagrama de

blocos onde se define a cadeia dos processos objectivo, Figura 23.

O sistema de entrada do manequim são os dois microfones colocados nos canais auditivos,

responsáveis pela captura dos sons produzidos por uma fonte sonora próxima do simulador. O

sistema de saída é concretizado por um altifalante colocado numa cavidade aberta na boca do

manequim capaz de reproduzir voz humana de uma forma fiável, a realizar em trabalhos

futuros.

6.1 Audição

Em média uma cabeça humana tem um diâmetro de cerca de 15 centímetros, é possível

fazer capturas estéreo se colocarmos dois microfones isolados a 15 cm de distância, mas desta

forma não temos a riqueza de informação binaural proveniente da forma da cabeça e do tronco

humano. No âmbito de uma dissertação anterior (Martinho 2015) foi realizado um processo de

aquisição de HRIR usando o manequim Madalena, no qual foram utilizados varrimentos de

frequências e impulsos, á frequência de amostragem de 96 kHz. O simulador (manequim) foi

utilizado na captura dos varrimentos de frequências ou impulsos produzidos por um altifalante

colocado numa posição fixa, com o eixo principal horizontal e o manequim foi colocado num

suporte rotativo com motor. O suporte foi rodado até que o manequim completasse uma volta,

o passo do movimento causado pelo motor foi de 2º, como representa a Figura 24. O sinal foi

repetido três vezes em cada posição e o processamento foi realizado por Adobe Audition para

Amplificador Software Manequim

Fala

Manequim

Audição Pré-Amplificador Interface Áudio PC

Figura 23: Diagrama de blocos dos processos eletroacústicos constituintes do simulador

33

estimular, recolher as respostas e desconvolucionar as HRIR (head related impulse responses).

Foi utilizado um plugins do Audacity para gerar os estímulos(Martinho 2015).

Já no âmbito da presente dissertação o processamento foi principalmente realizado com o

objetivo de estudar as HRTF do manequim e colocar a questão: até que ponto são capazes de

ser generalizadas para todos os seres humanos?

Os sinais gerados (chirps logarítmicos) percorrem as frequências desde os 250 Hz até 20kHz

no intervalo de 2 segundos. A literatura é escassa no que diz respeito á relevância das

frequências abaixo dos 250 Hz para a espacialização e por isso não se deu valor a frequências

nesta gama. Por consequência o processo de aquisição foi acelerado devido a diminuição de

reverberações nas paredes da sala por eventuais sinais de baixa frequências (Martinho 2015).

Para que as HRTF possam ser analisadas corretamente é necessário realizar o subsequente

processamento de sinal, que consiste em convoluir e filtrar os sinais sonoros capturados. Os

resultados destas operações fornecem-nos as primeiras versões utilizáveis das funções

desejadas. A Figura 25 mostra o resultados obtidos para uma orientação do manequim

correspondente a 70° (portanto do lado direito do manequim).

Madalena

Figura 24: Processo de aquisição dos sinais sonoros

34

Figura 25: Resultados da primeira fase de processamento de sinal a) Visiveis as três

ocorrências do sinal capturado pelos canais auditivos; b) Apenas uma ocorrência do sinal capturado onde se observam os efeitos combinados da ILD e da ITD.

Uma vez que há duas repetições do sinal o primeiro passo a dar em seguida em termos de

processamento de sinal é sincronizar e fazer uma média das três ocorrências, para obter um

melhoramento da relação sinal/ruído total.

35

7 Processo Experimental

Para dar inicio ao trabalho desta dissertação foi desenhada uma experiência de localização

de uma fonte sonora. Para tal, foram consideradas algumas ideias para tornar mensurável ou

observável, a direção aparente da fonte sonora tal como é sentida pelo sujeito em teste. Uma

das idéias iniciais era colocar o sujeito sentado numa cadeira, com os olhos vendados,

auscultadores do tipo in-ear, para a reprodução da fonte sonora, e apontar com a mão na

direção aparente da fonte sonora, se esta metodologia de teste tivesse sido a selecionada seria

posteriormente desenvolvido um método de medição do ângulo apontado pelo individuo talvez

uma régua circular que circundasse a cabeça. A grande desvantagem deste teste seriam os

olhos vendados do sujeito que levariam a grandes incertezas da posição do corpo, isto levou à

exclusão da utilização deste método para a fase de testes. Uma segunda ideia foi pedir ao

sujeito que orientasse a cabeça para a fonte, o problema neste caso é que como são utilizados

auscultadores in-ear a fonte sonora não muda de posição com o movimento da cabeça no plano

azimutal. Outra idéia foi apontar para o som reproduzido pela fonte sonora com um segundo

som de direção ajustável, as vantagens deste método é que o sujeito consegue concentrar-se

mais na análise dos sons que está a ouvir e menos nos movimentos físicos que tem que realizar,

diminuindo assim o erro humano relativo à capacidade de interpretação espacial de cada

sujeito em testes. Revendo todas as idéias, a última apresentada é a que revela melhores

hipóteses de obter resultados rigorosos.

O conceito assenta na reprodução repetida do som de referência, cuja orientação espacial

aparente se pretende encontrar. Um segundo som, diferente, com a direção aparente

sintetizado com o modelo composto por processamento de ITD e ILD, é também reproduzido

mediante ação temporal do sujeito. O sujeito ouvinte recrutado com a condição de não ter

deficiências auditivas significativas, ouvirá os dois sons através de auscultadores do tipo in-ear.

Foi criada, em sequência desta escolha, uma interface em Matlab que permitisse ao

utilizador perseguir o sinal áudio de referência com o segundo som digital até que ambos fossem

coincidentes. A interface, representada na Figura 26, tem um botão de play que dá inicio à

reprodução de um dos sinais adquiridos pelo simulador, tem dois botões com setas responsáveis

por deslocar o som digital no sentido escolhido pelo utilizador. Quando este estiver satisfeito

com o resultado, este é guardado após ser pressionado o botão de stop.

Mediante a imagem mental recebida, o sujeito é convidado a utilizar os botões com as setas

de forma a deslocar o som sintetizado até este coincidir em direção aparente com o som de

referência. Os sons sintetizados assumem assim um carácter de perseguidores, sendo o som de

referência, o som perseguido.

36

Figura 26: Interface criada para validar o uso generalizado do manequim

Uma vez que o sinal perseguidor não é produzido por uma fonte sonora física, mas é, sim,

um sinal criado por um script Matlab, é necessário atribuir-lhe as características de um sinal

sonoro como se fosse reproduzido por uma fonte existente no espaço físico colocada numa

certa posição arbitrária e ajustável do espaço. Foram estudadas quais as características que o

sinal perseguidor deveria ter para que se verificasse uma correspondência de orientações física

e sensorial. Numa primeira versão da interface as setas de deslocação apenas atrasavam um

dos sinais enviados aos ouvidos um certo número de amostras, mas desta forma só era possível

gerar sinais com orientações aparentes entre os 90° e −90°, tornando-se por isso necessário

observar os espetros dos sinais capturados e alterar os espectros dos sinais perseguidores de

forma a conterem as pistas de orientação suficientes para criar uma imagem mental correta.

Foram observadas as pistas espectrais, a ITD e a ILD para dar a ilusão de movimento do sinal

perseguidor numa gama de 0° e 360°.

7.1 Pistas Espectrais

Para a análise mais detalhada dos sinais capturados são utilizados os espectros (HRTFs),

que contêm vales e picos ao longo de toda a gama de frequências que são fornecedores de

informação para o cérebro, dependendo da posição o número de vales e picos varia.

Processando as HRIR de um dos sinais por aplicação da Transformada de Fourier vamos

poder observar as HRTF. Analisando atentamente o resultado gráfico destas funções observam-

37

se os vales e picos ao longo do espetro das frequências, como pode ver-se na Figura 27 nos

gráficos do lado direito. Os sinais HRIR extraídos são transformados após janelamento Hamming

com extensão de 501 amostras.

Para se obterem resultados corretos o comprimentos da janela atrás definido teve em

consideração que é necessário excluir dos sinais o primeiro eco e seguintes captados pelos

microfones, pois tratando-se de repetições do sinal causam interferências problemáticas para

a análise desejada.

Figura 27: HRIR e HRFT onde são visíveis as pistas espectrais de uma fonte colocada a 70°

É por este processo que é segundo a literatura (Streicher, 1998) transportada alguma

informação espectral para o cérebro e estes vales e picos podem ser sintetizados por filtros

rejeita banda ou passa banda, respetivamente. Mas nem todos terão a mesma importância

quando descodificados pelo cérebro, os vales mais abertos, com maior largura de banda

rejeitada, serão os de maior relevância, pois acontecimentos de pequena largura de banda,

eventos visíveis por vales muito estreitos são registados pelo cérebro humano como eventos de

menor importância.

Propõe-se começar por replicar os vales mais abertos e com mais atenuação, criando uma

cascata de filtros rejeita banda para cada vale e aplicando o resultado ao sinal perseguidor.

Desta forma foi possível observar e ouvir que o sinal digital sofreu uma deslocação, mas ainda

não fica coincidente com a posição da fonte sonora.

38

7.2 ITD

Um passo essencial a dar na criação do sinal perseguidor é criar o atraso de chegada entre

os sinais que chegam aos dois ouvidos, para tal foi deduzida uma fórmula capaz de calcular a

ITD dependendo de θ, como mostra a Figura 28.

Figura 28: Ilustração do espaço que contêm uma cabeça e uma fonte sonora a uma

distância que tende para infinito.

Dedução da fórmula da ITD:

A distância percorrida pelo sinal entre a fonte e o ouvido direito:

𝐿𝑅 = 𝐿𝑅1 + 𝐿𝑅2

O comprimento do arco 𝐿𝑅2:

𝐿𝑅2 =𝑑

2∗ 𝜃

O comprimento do segmento de reta 𝐿𝑅3:

𝐿𝑅3 = 𝑑

2∗ sen (𝜃)

A ITD é a diferença do tempo de chegada do sinal aos ouvidos, logo podemos dizer,

tal como em (Rossi 1970, Viste and Evangelista 2004), é:

𝐼𝑇𝐷 = |𝐿𝑅 − 𝐿𝐿

𝑐| =

𝑑2 ∗ (sen(𝜃) + 𝜃)

𝑐

Sendo c a velocidade do som no ar de 340 m/s. Será então usada esta fórmula da

ITD para atrasar os sinais digitalmente gerados que chegam a cada um dos ouvidos.

θ

𝐿𝐿

𝐿𝑅1 = 𝐿𝑅3 + 𝐿𝐿

𝐿𝑅2

𝑑/2

𝐿𝑅3

𝐿𝑅3

𝑟 → ∞

y

x

39

7.3 ILD

O cálculo da ILD é mais complexo e não é possível ser feito com uma simples

dedução matemática como se fez para a ITD. As imagens waterfall obtidas por um

script Matlab mostram a complexidade desta pista acústica através da visualização das

HRTFs dos 180 ficheiros para cada um dos ouvidos do manequim como observamos nas

Figura 29 e Figura 30.

Figura 29: HRTFs dos sinais que chegam ao ouvido direito, após algum processamento de

sinal.

Figura 30: HRTFs dos sinais adquiridos pelo ouvido esquerdo após algum processamento de

sinal.

40

A lista original dos ficheiros dos sinais adquiridos encontra-se organizada pela ordem na

qual os sinais foram adquiridos [0° a 358°], mas por uma questão de apresentação e

conveniência de leitura de dados foi necessário reorganizar os ficheiros [-180°a 180°]. Para tal,

foram criadas duas variáveis que se relacionam entre si de forma a construir o eixo das posições

desejado. Enquanto k indexa do número ficheiro que está a ler na ordem desejada e não na

ordem em que a lista foi guardada, k_2 guardará o valor do ângulo correspondente ao ficheiro

que está a ser lido e é este valor que será apresentado no eixo do gráfico. A variável k_1 será

a responsável por calcular o valor do ângulo de k_2, a fórmula usada foi:

𝑘2 = (1 − 𝑘1)𝑥2 + 180

Tabela 1: Relação entre as variáveis utilizadas na criação do eixo que indica o ângulo da

posição da fonte sonora

k k_2 k_1

90 180° 1

180 2° 90

1 0° 91

91 -178° 180

Mais à frente a fórmula teve que ser corrigida pois na realidade a tabela de equivalência

devia mostrar que para k_1 = 90 k_2 deviria ser 2°, mas como já tinha sido realizada uma

grande porção do processamento até este erro ser detetado e como não influencia os dados

apenas a apresentação, a correção apenas foi feita para a geração dos sinais perseguidores.

Tabela 2: Correção da relação entre as variáveis utilizadas na criação do eixo que indica o

ângulo da posição da fonte sonora

k k_2 k_1

90 -180° 1

180 -2 90

1 0° 91

91 178° 180

A fórmula corrigida passa a ser 𝑘2 = (𝑘1 − 1)𝑥2 − 180, os valores são todos simétricos dos

valores da primeira tabela.

41

for k=[91:180 1:90]

Figura 31: Diagrama de blocos do script de Matlab capaz de desenhar os gráficos das HRTFs

Sobrepor janela ao sinal: ylinha_esq e ylinha_dir, respetivamente

Calibrar alterações de amplitude

Lado esquerdo: y_esq

Lado direito: y_dir

Separar os componentes do sinal y

Ler Ficheiro e guardar sinal numa variável: y

Encontrar o máximo de y (max_y)

Usar posição do máximo para definir o centro da janela retangular

Definir os limites inferior e superior da janela

Definir janela de Hamming

Aplicar transformada de Hilbert

Aplicar transformada de Fourier

Definir eixos dos gráficos

end

Desenhar os gráficos

42

Encontrado o máximo do sinal capturado são localizados todos os picos superiores a metade

desse valor, o vetor resultante é ordenado de ordem crescente, desta forma garantindo que a

posição do máximo é facilmente conhecida pois será necessária para definir o centro da janela

retangular usada para evitar que o primeiro eco influencie o processamento de sinal que será

feito, apenas o sinal direto nos interessa. A janela menciona tem uma limite inferior, 𝑛1, e um

limite superior, 𝑛2, definidos de forma que, sendo 𝑛0 o centro da janela:

𝑛1 = 𝑛0 − 250

𝑛2 = 𝑛0 + 250

𝑛2 − 𝑛1 = 500 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑠

Após uma primeira versão dos gráficos waterfall foi observado que de 60 em 60 ficheiros

exista um salto de alguns dB, durante o processamento atual foi feito o oposto, encontrando o

multiplicador que contrariasse a ação realizada inicialmente. Este processo foi feito

encontrando a diferença de nível entre dois ficheiros consecutivos que apresentassem um

desnível diferente a outros ficheiros consecutivos, localizando a outra extremidade do bloco

de ficheiros com necessidade de calibração foi inserido no código um pequeno if que elimina o

fenómeno adicionado durante o primeiro processamento de sinal, este processo foi repetido

até que os gráfico fossem os das Figura 29 e Figura 30.

Ainda no mesmo script do Matlab, foi feita uma análise de comportamento dos dados para

um valor dado de frequência e sendo a variável independente a posição da fonte sonora (𝜃),

de forma a tentar caracterizar como varia a ILD em função da orientação. O primeiro passo foi

transpor os gráficos waterfall, como se pode observer nas Figura 32 e Figura 33 e a opção

seguinte foi fazer uma observação individual dos dados.

Figura 32: Resultado da transposição do gráfico waterfall apresentado anteriormente para

as HRTFs do ouvido direito

43

Figura 33: Resultado da transposição do gráfico waterfall apresentado anteriormente para

as HRTFs do ouvido esquerdo

O eixo das frequências é um vetor com 124 elementos linearmente espaçados, para cada

uma destas frequências os dados apresentam um comportamento para todas as posições da

fonte sonora toma, que pode ser observado na Figura 34.

A ILD é dependente das frequências, observando-se que quanto mais alta é a frequência

maior é a ILD. Vejamos então o que acontece para uma só frequência e todos os valores de

teta.

Figura 34: Dados da amplitude dependente apenas da posição da fonte sonora para

podermos observar como esse comportamento altera quando a frequência for alterada.

44

Fazendo uma análise idêntica para as várias frequências podemos concluir que os dados se

comportam de uma maneira idêntica em torno dos 0°, com uma forma que se aproxima, a olho

nu, de um seno, tal como é sugerido na Figura 34 e segue o que consta da literatura (Viste,

2004). Vamos então tentar validar esta observação aproximando os dados de amplitude 𝑥(𝜃)

pela função 𝐴 ∗ 𝑠𝑒𝑛(𝜃), recorrendo ao método dos mínimos quadrados para calcular o valor de

A.

Com esta representação a observação e análise dos dados torna-se mais simples e estes

apresentam-se como uma onda sinusoidal, um seno na realidade centrado nos 0°.

Como a média de 𝑥(𝜃) é não-nula, removeu-se o seu valor

𝐴0 =1

𝑙𝑒𝑛𝑔𝑡ℎ(𝑒𝑖𝑥𝑜 Â𝑛𝑔𝑢𝑙𝑜𝑠)∑ 𝑥(𝜃)

𝜃

dos dados, antes do cálculo da aproximação, obtendo-se 𝑥′(𝜃) = 𝑥(𝜃) − 𝐴0. Aplicando-se o

método dos mínimos quadrados foi então realizado sobre 𝑥′(𝜃).

min𝐴 [∑[𝑥′(𝜃) − 𝐴𝑠𝑒𝑛(𝜃)]2

𝜃

] = min𝐴 𝐸

Para E ser mínimo então temos:

𝑑𝐸

𝑑𝐴= 0 ⇔ ∑

𝑑([𝑥′(𝜃)−𝐴𝑠𝑒𝑛(𝜃)]2)

𝑑𝐴𝜃 = ∑ 0 + 2𝐴𝑠𝑒𝑛2(𝜃) − 2𝑥′(𝜃)sen (𝜃)𝜃 = 0

𝑑2𝐸

𝑑𝐴2 > 0

Uma vez que podemos garantir que:

𝐴 > 0

𝑠𝑒𝑛2(𝜃) ≥ 0

2𝐴𝑠𝑒𝑛2(𝜃) ≥ 0

Estamos agora em condições para deduzir a amplitude necessária para a onda sinusoidal de

aproximação aos dados, 𝐴 ∗ 𝑠𝑒𝑛(𝜃), os resultados são apresentados na Figura 35.

∑ 2𝐴𝑠𝑒𝑛2(𝜃)

𝜃

− ∑ 2𝑥′(𝜃)sen (𝜃)

𝜃

= 0

𝐴 =∑ (𝑥(𝜃) − 𝐴0)sen (𝜃)𝜃

∑ 𝑠𝑒𝑛2𝜃 (𝜃)

45

Figura 35: Dados para a frequência de 6336 Hz Vs. Aproximação 𝑨 ∗ 𝒔𝒆𝒏(𝜽)

Com a sobreposição das duas funções podemos observar a aproximação que foi feita é

bastante válida. Os vales e ondulações que aparecem e não obedecem ao modelo são pistas

espectrais, não aparecem na mesma posição para todas as frequências nem têm sempre a

mesma abertura. As Figura 36 e Figura 37 mostram as HRTFs aproximadas pela função 𝐴 ∗

𝑠𝑒𝑛(𝜃).

Podemos agora utilizar os valores aproximados para construir as funções de ILD dos sons

gerados digitalmente, o objetivo principal da realização do processo de aproximação realizado

para esta dissertação.

Figura 36: Resultados da aproximação feita para os dados do canal do ouvido direito

46

Figura 37: Resultado da aproximação A*sen(θ) feita para os dados do ouvido esquerdo

O passo seguinte na criação das funções ILD envolve a criação de um banco de filtros para

a sua implementação prática. Como a audição humana está limitada aos 20 kHz vamos apenas

utilizar os valores do eixo das frequências que se mantêm abaixo deste valor, temos então uma

gama de valores [192, 19968] Hz. A orientação da organização das sub-bandas foi inspirada na

distribuição das larguras de banda críticas da audição humana, começando por uma primeira

sub-banda até a gama de 500Hz, seguida de várias sub-bandas proporcionais daí para mais

elevadas frequências. Temos então um primeiro filtro entre as frequências 192 Hz e 576 Hz que

será então um filtro de 576

192= 3 ⟹ 𝑙𝑜𝑔2(3) = 1,6 𝑜𝑖𝑡𝑎𝑣𝑎𝑠. Já o resto do eixo tem

19968

576=

34,67 ⟹ 𝑙𝑜𝑔2(34,67) = 5,11 𝑜𝑖𝑡𝑎𝑣𝑎𝑠, podendo ser dividido em 5 filtros de 5,115⁄ = 1,022

oitavas cada um. No total teremos 6 sub-bandas.

Cada um destes filtros é responsável por filtrar apenas uma parte da função de aproximação

e terá como ganho a média de valores da função de aproximação dentro da sua banda, como

está ilustrado na Figura 38.

47

Figura 38: Diagrama de blocos do banco de filtros desenhado para implementação das funções ILD artificiais.

Os 6 filtros são sempre idênticos para cada valor de θ desejado, em termos de banda

normalizada, o que vai mudar serão as frequências e os ganhos dados pelas suas médias

correspondentes, o que fará com que, para cada o valor de θ seja produzido uma função de

ILD específica para o ouvido esquerdo e outra para o ouvido direito.

Os sinais perseguidores são sinais estéreo, compostos por um canal direito e um canal

esquerdo, criados utilizando um sinal monaural, tal como por exemplo, um impulso de ruído

branco. Cada canal foi filtrado pelo banco de filtros apresentado correspondente e combinado

com a ITD calculada pela fórmula matemática apresentada, resultando assim uma combinação

única de ILD e ITD para cada posição criando uma base de dados de 180 ficheiros perseguidores

estéreo.

7.4 Interface

Para podermos validar experimentalmente a generalização do uso destes simuladores para

todas as pessoas foi desenvolvida uma experiência com recurso a uma interface criada no GUIDE

(Graphic User Interface Design Environment) Matlab, que permite iniciar uma rotina de

perseguição do som adquirido pelo manequim, Figura 40.

+ Y(z)

𝐻𝑑1(𝑧)

𝐻𝑑2(𝑧)

𝐻𝑑3(𝑧)

𝐻𝑑4(𝑧)

𝐻𝑑5(𝑧)

𝐻𝑑6(𝑧)

𝐺1

𝐺2

𝐺3

𝐺4

𝐺5

𝐺6

X(z)

48

Figura 40: Diagrama de blocos do funcionamento da interface criado para a realização de

experiência de validação dos simuladores

Para dar início ao teste o individuo questionado terá que carregar no botão PLAY, Figura

26, que de uma forma aleatória irá ler e manter em reprodução um dos ficheiros perseguidos,

o seu cérebro gerará uma imagem virtual a posição da fonte sonora. O sujeito terá agora que

fazer coincidir o som perseguidor com o perseguido. Os botões com as setas são responsáveis

por ler um a um os ficheiros criados pelo processo de modulação explicado acima, existindo

portanto 180 sons perseguidores. Quando o utilizador estiver satisfeito com a coincidência das

duas fontes basta carregar no STOP e todos os dados dos testes, ficheiros escutados, , número

de vezes que as setas foram pressionadas são guardados num ficheiros .mat para serem

analisados posteriormente e todas as variáveis são limpas para dar inicio ao próximo teste. É

considerado um teste o conjunto de todas as ações realizadas desde que o botão PLAY é

pressionado até que o STOP é ativado.

Pressionar botão PLAY

Lê a lista dos ficheiros a serem perseguidos e reproduz aleatoriamente um deles

em repetição

Pressionar a seta da

esquerda para ler a lista dos

sons perseguidores do fim

para o inicio e reproduzir

um a um

Pressionar a seta da

direita para ler a lista dos

sons perseguidores do inicio

para o fim e reproduzir um

a um

Perseguido = Perseguidor

Carregar no botão STOP

Parar reprodução do som a ser perseguido;

Armazenamento de dados;

49

7.5 Testes e conclusões preliminares

A amostra de indivíduos utilizada para os testes foi 8 pessoas, todas sem dificuldades

auditivas conhecidas, 2 do sexo masculino e 6 do sexo feminino, com média de idades de 25

anos, todos estudantes ou investigadores, mas apenas 3 estavam familiarizados com a área da

acústica, os restantes têm áreas de estudo bastante variadas, entre artes, design gráfico,

relações internacionais, enfermagem e engenharia. Cada elemento da amostra realizou 4

testes.

A metodologia para a realização dos testes foi explicada de igual forma para toda a amostra

usando a metáfora do som perseguido, para o som capturado pelo manequim, e do som

perseguidor, para o som manipulado artificialmente pelo processamento de sinal desenvolvido.

Chegados ao fim dos testes podemos concluir que a metáfora foi correta, pois foi facilmente

compreendida por todos os indivíduos da amostra.

Para os sinais perseguidores foram utilizados impulsos de ruído branco com 20000 amostras

processados pelo método de ILD e ITD abordados atrás, ficando para ser implementado em

trabalhos futuros o processo de introdução das pistas espectrais estudadas que irão eliminar

ambiguidades existentes entre sinais localizados nos hemisférios frontal e traseiro, por

exemplo, mas mesmo sem a informação espectral é possível ouvir a circunvolução da cabeça

realizada pela reprodução dos sinais perseguidores de forma consecutiva.

Os sinais perseguidos utilizados foram as próprias HRIR, contudo o plano inicial foi construir

uma base de dados de sinais de várias fontes sonoras convoluidas com as respostas impulsionais

do manequim utilizando a riqueza de informação das HRTF criadas digitalmente no decorrer

desta dissertação, contudo ao calcular a convolução entre as HRIR e as outras fontes sonoras,

os ficheiros originais de captura revelaram alguns problemas de consistência a nível de análise

de frequências, causando inconsistências nos sinais, o que impediu o uso eficaz do resultado

da operação nos testes.

Ficando a base de dados dos testes limitada as HRIR foram escolhidos com um passo de 30°

em 30°, todos os dados foram guardados em ficheiros .mat para serem analisados a posteriori.

Ainda foi realizada uma tentativa de utilizar ficheiros convoluidos, mas os resultados

desencadearam uma análise mais profunda da base de dados e por isso todos os testes

realizados com estes ficheiros foram eliminados da fase de interpretação dos dados.

50

Figura 41: Resultados dos testes.

Com os dados todos representados no gráfico da Figura 41, podemos observar que para os

ângulos localizados no hemisfério frontal os erros são os mais pequenos, quanto mais nos

movemos na direção ipsilateral maior é a diferença angular detetada entre o som perseguido

e o som perseguidor. Temos como exemplo os testes “Maria” e “Teresa” ao ficheiro de 240°,

em que se observa que os erros são completamente opostos. É necessário fazer a ressalva que

a causa provável pode ser a existência de incongruências encontradas na base de dados, para

as quais ainda não se encontrou a explicação. Deve portanto a base de dados ser revista em

trabalhos futuros.

A realização dos testes subjetivos com um painel de sujeitos permitiu concluir que a

metáfora concebida para a funcionalidade da experiência teve um funcionamento adequado.

A deteção da direção aparente da fonte sonora sintetizada foi bastante eficaz permitindo

detetar com clareza a deslocação de circunvolução dessa fonte sonora pela ação dos controlos

da interface.

Os resultados obtidos em termos de deteção da direção aparente da fonte sonora permitem

concluir que nos quadrantes frontais é possível realizar a localização e que nos quadrantes

traseiros os erros detetados nos testes não permitem afirmar o mesmo, sendo a explicação

provável que a base de dados revelou inconsistências que importa resolver para melhorar a sua

qualidade.

-100

-50

0

50

100

150

200

0 30 60 90 120 150 180 210 240 270 300 330

Desvio dos ângulos dos testes realizados

Joana José Leonor Maria Renato Rita Teresa

51

8 Trabalhos Futuros

Chegados agora ao fim do trabalho vemos que é um ponto intermédio e não o fim, fica

assim a porta aberta para a realização de projetos que tenham a presente dissertação como

ponto de arranque.

8.1 Realização de uma API

Atualmente, vivemos num mundo onde gostamos de ter toda a informação disponível onde

quer que estejamos e em várias aplicações sem ser preciso estar a passar os dados a mão, é

aqui que os API entre em jogo. De uma forma geral, APIs são as regras que permitem duas

aplicações comunicarem e transmitem dados entre si, tornando públicas algumas e partes das

suas funções internas.

Seguindo a linha de trabalho da Google, será possível que com as conclusões retiradas do

trabalho realizado e apresentado neste documento levem á concretização de uma API a ser

utlizado por qualquer pessoa a desenvolver uma aplicação multimédia que necessite de recriar

a audição binaural humana.

8.2 Produção de fala

O manequim não tem trato vocal, para a produção de fala ser realizada seria colocado um

altifalante no interior da boca, a artista que realizou o manequim foi contactada para dar a

sua opinião de aula melhor maneira proceder, a sua sugestão foi fazer um corte transversal

como mostra a Figura 42 e colocar o sistema de produção numa posição idêntica ao HTS da

Bruel&Kjaer.

52

Foi feito ainda algum trabalho de pesquisa sobre o tipo de altifalante a ser utilizado, terá

que ter uma resposta em frequência boa para a fala humana, ou seja, entre os 100Hz e os 5kHz,

as dimensões do altifalante não devem ultrapassar 8cm, dado que esse é o comprimento

permitido pelas dimensões do manequim.

8.3 User Interface / Experience

Com o objetivo de tornar este manequim completamente independente e funcional pode

ser desenvolvida uma User Interface simples de ser utilizada por qualquer pessoa, que incluirá

uma fonte de alimentação e um sound device. Os microfones deverão ter uma fonte de

alimentação de 9V, o altifalante vai depender da tecnologia escolhida, a fonte deverá ainda

ter um pré-amplificador para ambos os sinais. Deverão ainda ser feitas as ligações necessárias

a um sound device que controlará os sinais a entrar e a sair do manequim, o que está disponível

no momento no laboratório é da Edirol e foi utilizada na aquisição dos sons perseguidos

(Martinho 2015).

A aliar-se à interface a ser desenvolvida pode ainda ser criada uma User Experience, onde

o utilizador tem a sua disposição uma base de dados de sons perseguidos e perseguidores e

pode fazer vários testes, são-lhe apresentados as HRIR e HRTFs respetivas dos sons escolhidos

e ainda ouvir os sons a circundar a cabeça.

Figura 42: Sugestão para a montagem do canal de saída do manequim (Bruel&Kjear 2014)

53

8.4 Pistas espectrais

O estudo das pistas espectrais realizado nesta dissertação, onde se analisaram os vales e

os picos das HRTF e se propôs construir filtros rejeita banda ou passa banda, respetivamente,

com a ferramenta de desenho de filtros do Matlab, fica para implementar no futuro para cada

uma das orientações dos sons perseguidores e combinar com a ITD e o banco de filtros

construído para a ILD já implementados.

54

Referências

Algazi, P. V. R. (1998). Documentation for the UCD HRIR FIles. University of California at

Davis.

Algazi, P. V. R. (2001). "The CIPIC HRTF Database." from

http://www.ece.ucdavis.edu/cipic/.

Blauert, J. (1983). Spatial Hearing. Cambridge, MIT Press.

Bruel&Kjear (2014). Head and Torso Simulator Types 4128‐C and 4128‐D. B. K. S. V. M. A/S.

Denmark, Brüel & Kjær Sound & Vibration Measurement A/S.

Everest, F. A. (2001). Master Handbook of Acoustics. United States of America, McGraw-

Hill.

G.R.A.S (2017). G.R.A.S. 45BB KEMAR Head and Torso. G.R.A.S, G.R.A.S.

Gold, B. and N. Morgan (2000). Speech and Audio Signal Processing: Processing and

Perception of Speech and Music. United States of America, Jonh Wiley & Sons.

INSTITUTE, A. R. "ARI HRTF Database." from

https://www.kfs.oeaw.ac.at/index.php?option=com_content&view=article&id=608:ari-

hrtf-database&catid=158:resources-items&Itemid=606&lang=en.

Kinsler, L. E., A. R. Frey, A. B. Coppens and J. V. Sanders (1982). Fundamentals of

Acoustics. United States of America

Canada, John Wiley & Sons, Inc.

Martinho, J. (2015). Optimizing Head Related Impulse Responses for High Order Ambisonics

Decoding in Virtual Immersive Environments., Faculdade de Engenharia da Universidade do

Porto.

Mateus, M. H. M., A. Andrade, M. d. C. Viana and A. Villalva (1990). Fonética, Fonologia e

Morfologia do Português. Lisboa, Universidade Aberta.

Nazaré, C. J. (2009). Testes Temporais para Estudo do Processamento Auditivo Central.

Master, Faculdade de Engenharia da Universidade do Porto.

Oculus. (2018). "Oculus VR." from https://developer.oculus.com/.

Parsons, T. (1987). Voice and Speech Processing, McGraw-Hill Book Company.

Rossi, M. (1970). Acoustics and Eletroaoustics, Artech House.

Rowden, C. (1992). Speech Processing, McGraw-Hill Book Company Europe.

Streicher, R. and F. A. Everest (1998). The New Stereo Sound Book. United States of

America, Audio Engineering Associates.

55

Toolkit, T. A. (2016). "ATK for Reaper." from

http://www.ambisonictoolkit.net/documentation/reaper/.

Trujillo, F. The Production of Speech. English Phonetics and Phonology.

Viste, H. and G. Evangelista (2004). BINAURAL SOURCE LOCALIZATION. 7th th Int.

Conference on Digital Audio Effects (DAFx’04), Naples, Italy.

Warusfel, O. (2003, 25/05/2003). "LISTEN HRTF DATABASE." from

http://recherche.ircam.fr/equipes/salles/listen/index.html.

Zhong, X.-l. and B.-s. Xie (2014). Head-Related Transfer Functions and Virtual Auditory

Display. Soundscape Semiotics - Localization and Categorization. D. H. Glotin, InTech.