psicoacústica e codificação perceptual -...

44
Psicoacústica e Codificação Perceptual Prof. Dr. Carlos Alberto Ynoguti

Upload: dangbao

Post on 09-Nov-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

Psicoacústica eCodificação Perceptual

Prof. Dr. Carlos Alberto Ynoguti

Psicoacústica

Estuda como as pessoas percebem os sons. Tenta explicar a resposta subjetiva de tudo o que ouvimos.

Relaciona as propriedades físicas dos sons (que podem ser medidas cientificamente de forma objetiva) com as respostas fisiológicas e psicológicas evocadas por elas.

Para isto, utiliza conhecimentos sobre a anatomia do ouvido humano, os processos neurológicos de transporte de informações, e até a interpretação da informação aural pelo cérebro.

Características do ouvido humano

Os dois ouvidos são fisiologicamente semelhantes, mas percebem os sons de formas diferentes devido ao seu acoplamento com hemisférios diferentes do cérebro.

Resposta em frequência logaritmica.

Frequência (objetiva) vs pitch (subjetivo)

Faixa dinâmica extremamente larga (120 dB SPL) aproximadamente 1000000000000 vezes.

Características do ouvido humano (cont.)

Capacidade de localização espacial da fonte sonora por meio de diferenças de intensidade, complexidade da forma de onda, e atraso.

A sensibilidade do ouvido é dependente da frequência.

Curvas “equal­loudness”

[K. C. Pohlmann, Principles of Digital Audio, (McGraw­Hill, New York, 1995), pp. 360, 11­3.]

Entropia perceptual

O ouvido percebe apenas uma porção da informação de um sinal de áudio ⇒ entropia perceptual.

Sinais de baixa entropia perceptual podem ser reduzidos de forma eficiente, sinais de alta entropia, não.

Codificador deve ter taxa de bits variável para aproveitar estas características. Neste ponto entra a psico­acústica.

O sinal é codificado de forma a manter a sua entropia perceptual e não a sua forma de onda.

Preserva a sensação auditiva causada no ouvinte.

Ouvido humano

http://www.if.ufrj.br/teaching/fis2/ondas2/ouvido/ouvido.html

Funções de cada parte do ouvido

Ouvido externo: coleta o som. Suas dobras ajudam na direcionalidade.

Canal: tem frequência de ressonância em torno de 3kHz. Ajuda na percepção da voz.

Ossículos: transformam a energia acústica em energia mecânica. Alcançam a máxima excursão por volta de 120 dB SPL. Casadores de impedância para maximizar a transferência dos sons do ar para o ouvido interno cheio de líquido.

Funções de cada parte do ouvido (cont.)

Canais vestibulares: não influenciam na audição, mas são importantes no equilíbrio.

Membrana basilar: detecta a amplitude e frequência dos sons, convertendo­os em impulsos elétricos.

A cóclea

Preenchida por um fluido, e sua superfície interna tem cerca de 20.000 células nervosas em forma de cabelos em uma membrana, chamada de membrana basilar.

Estas células nervosas possuem comprimentos diferentes, por diferenças minúsculas, e também possuem diferentes graus de elasticidade.

À medida que uma onda de compressão se move através do líquido da cóclea, as células nervosas entram em movimento.

Membrana Basilar

Cada célula capilar possui uma sensibilidade natural a uma vibração de frequência particular . Quando a frequência da onda de compressão casa com a frequência natural da célula nervosa, a célula irá ressoar com uma grande amplitude de vibração.

Esta vibração ressonante induz a célula a liberar um impulso elétrico que passa ao longo do nervo auditivo para o cérebro.

As frequências nas quais as células vibram com mais intensidade são chamadas de bandas críticas, um conceito introduzido por Harvey Fletcher.

Resposta em frequência da membrana basilar

F. Winckel, Music,Sound and Sensation, Dover, 1967, p. 90, used by permission; after L.A. deRosa, J.A.S.A, 1947, p. 623

Bandas críticas

O sistema auditivo humano processa os sons em subbandas, chamadas de bandas críticas.

Cada banda corresponde a uma seção de aproximadamente 1,3 mm da cóclea.

A largura de cada banda crítica difere de acordo com a faixa de frequência: abaixo de 500 Hz as bandas são constantes e iguais a 100 Hz. Acima de 500 Hz a largura da próxima banda crítica é 20% maior que a da anterior.

Criada uma unidade psico­acústica especial: o bark. Um bark corresponde à largura de uma banda crítica.

Escala Bark

Bark=13atan 0 . 76 f1000 3.5atan f 2

7500 2

101

102

103

104

1050

5

10

15

20

25

30

freq u ên cia (H z)

Tax

a de

ban

da c

rític

a (B

ark)

Mascaramento

Mascaramento de tons baixos por tons altos

Mascaramento simultâneo (ou em frequência)Um instrumento pode ser mascarado por outro se um produz um som alto (mascarante) e o outro permanece fraco (mascarado).

Mascaramento Temporal Pré­mascaramento: antes do sinal mascarante acontecerPós­mascaramento: depois que o sinal mascarante terminou

Limiar Absoluto

Um tom ou ruído é inaudível se cai abaixo do Limiar Absoluto

0.05 0.1 0.2 0.5 1 .0 2 .0 5 .0 10 20

Frequência de m ascaram ento

N íve l deÁ ud io

L im ia r des ilêncio

kH z

Mascaramento em amplitude

Um tom que ocorre em determinada frequência deforma a curva de mascaramento em sua vizinhança.A ocorrência de um tom de menor intensidade nesta região não é audível (mascaramento em amplitude).

N íve l deÁud io

L im ia r dem ascaram ento

S ina l m ascaran tede 500 H z

0.05 0.1 0.2 0 .5 1 .0 2 .0 5 .0 10 20

Frequênc ia de m ascaram ento

kH z

Porque ocorre o mascaramento?

Na membrana basilar, Uma resposta alta em uma região da membrana irá mascarar respostas mais suaves na banda crítica ao redor dela.

http://www3.labc.usb.ve/EC4514/AUDIO/Sistema%20Auditivo/LA_COCLEA.html

Canal semicircular

Vestíbulo

Membrana basilar

Escala vestibular

Cóclea “desenrolada”

Altas frequências Baixas frequências

Curvas de mascaramento

As curvas de mascaramento não são simétricas.

Quando ocorre um tom mascarante, a curva é mais inclinada no lado de baixo do que no lado de cima.

É mais fácil um tom mais baixo mascarar um tom mais alto do que o contrário.

Sinal mascarante

­20 a ­5 dB/Bark

frequência

amplitude

27 dB/Bark

Mascaramento e intensidade sonora

Sinais de baixa intensidade apresentam uma curva de mascaramento mais estreita do que sinais de maior intensidade.

0,05 0,1 0,2 0,5 1 2 5 10 200,02

0

20

40

60

80

100

frequência (kHz)

Níve

l de

inte

nsida

de s

onor

a (d

B SP

L) 100 dB

80 dB

60 dB

40 dB

20 dB

Mascaramento temporal

Ocorre quando os tons são ouvidos em instantes de tempo bastante próximos.

mascaramentosimultâneo

~20ms ~200ms ~150ms

sinal mascaranteativo

pós­mascaramentopré­mascaramento

tempo

dB

Considerações sobre o mascaramento temporal

H1: o cérebro integra o som sobre um período de tempo, e processa a informação em rajadas.

H2: o cérebro processa os sons mais intensos mais rapidamente.

O mascaramento temporal é importante para os codificadores no domínio da frequência pois estes operam sobre blocos de amostras, e portanto possuem baixa resolução temporal.

Quantificação dos efeitos de mascaramento

Limiar de mascaramentoNível de pressão sonora de um som de teste, necessário para ser audível na presença de um tom mascarante.

Sons de testeTom senoidal para mascaramento em frequênciaRajada curta ou som impulsivo para mascaramento temporal

Ação conjunta dos mascaramentos temporal e em frequência

[K. C. Pohlmann, Principles of Digital Audio 4th Ed. (McGraw­Hill, New York, 2000), p. 314.]

Mascaramento em sistemas multicanal

Os canais compartilham uma parte das informações, e estas redundâncias inter­canal são utilizadas para aumentar a eficiência da codificação.

Usando os modelos psicoacústicos, as componentes inaudíveis podem ser codificadas com menos bits. Por exemplo, um tom de alta intensidade em um canal pode mascarar tons mais suaves em outros canais.

De forma geral, o número de bits para codificar um sistema multicanal com estes princípios é proporcional à raiz quadrada do número de canais.

Exemplo: para 5.1 canais, seriam necessários 2,26 vezes o número de bits para codificar um único canal.

Codificação Perceptual

Sistema de redução de dados: diminuir a taxa de bits (fs x comprimento de palavra).

redução de fs: redução da banda do sinal.

redução do comprimento de palavra: aumento do ruído de quantização.

Codificação perceptual: uso de modelos psico­acústicos para redução da taxa de bits.

Mantém­se fs e muda­se dinamicamente o número de bits de acordo com o limiar de mascaramento.

Estratégias de alocação de bits

Alocação adaptativa direta (Forward Adaptive allocation).

Alocação adaptativa reversa (Backward Adaptive allocation).

Alocação adaptativa direta

Toda o esquema de alocação é realizado no codificador.

Informação de codificação é também transmitida.

Vantagens:O modelo psicoacústico está apenas no codificador. O receptor não precisa ter acesso a ele.

Permite um aprimoramento constante do modelo psico­acústico, sem alterar o decodificador.

Desvantagemuma parte dos bits disponíveis deve ser reservada para transmitir o esquema de alocação.

Alocação adaptativa reversa

A informação para alocação de bits é derivada a partir do áudio codificado, sem informação explícita fornecida pelo codificador.

Vantagem:Não há necessidade de reservar bits para transmitir o esquema de alocação de bits.

Desvantagens:Como a taxa de vits é determinada a partir do áudio codificado, a precisão pode ser reduzida.

O decodificador é mais complexo, e deve ser modificado toda vez que houver uma melhoria no codificador

Aplicação em cascata

Ruídos de codificação vão se acumulando com as sucessivas codificações e decodificações.

Quando o ruído passa a ser audível, o codificador passará a alocar bits para este, roubando­os de outras partes.

Podem gerar pré­ecos audíveis.

Quando os codificadores são colocados em cascata é importante começar com o de mais alta qualidade, pois a qualidade final será sempre a do pior codificador.

música(mp3)

mixagem c/ voz do locutor

transmissão(via rádio p. ex.)

reproduçãogravaçãocaseira

codificaçãodecodificação

Codificação para redução de dados

Objetivo: representar o sinal de áudio a uma taxa de bits reduzida, enquanto tenta minimizar o erro de quantização.

Codificadores no domínio do tempomodulação delta, NICAM, etc.

não são muito eficientes (2,5:1).

Codificadores no domínio da frequênciacodificadores de subbanda e por transformada

conseguem taxas de 4:1 a 12:1

Codificadores no domínio da frequência

mapeamentotempo/frequência

Quantizadore codificador

Empacotamentode frames

Modelopsico­acústico

sinal de aúdiodigital (PCM)

feixe de bitsa baixas taxas

Desempacotamentode frames

Reconstruçãomapeamento

frequência/tempofeixe de bitsa baixas taxas

sinal de aúdiodigital (PCM)

Codificador

Decodificador

Codificação de subbanda

Blocos consecutivos de amostras no domínio do tempo são coletados durante um curto período de tempo.

Estes blocos são aplicados a um banco de filtros digitais, que divide o sinal em mútiplos canais para aproximar a resposta do ouvido humano (bandas críticas).

As amostras em cada subbanda são analisadas e comparadas com um modelo psico­acústico.

O codificador quantiza as amostras de forma adaptativa, baseado no limiar de mascaramento daquela subbanda.

Codificação das amostras no domínio do tempo.

Diagrama de Blocos (SBC)

C od 1

C od 2

C od M

Mul

tiple

xado

r

Dem

ultip

lexa

dor

D ecod 1

D ecod 2

D ecod M

Σx (t)

fSM =2∆W M

fS2=2∆W 2

fS1=2∆W 1

x 1(t)

x 2(t)

xM (t)

x'1(n )

x'2(n )

x'M (n )

u 1(n )

u 2(n )

u M (n )

v1(n )

v2(n )

vM (n )

y 1(n )

y 2(n )

yM (n )

y 1(t)

y 2(t)

yM (t)

y (t)

T ransm issor C ana l R ecep to r

Largura dos filtros

1,,2,1 ,1 −=∆>∆ + MkWW kk

1 2 3 41234

)(ΩXXS

WΩWΩ−

42 WW

Ω=∆π=∆Ω

1 2 3 41234

)(ΩXXS

WΩWΩ−

33 2 W∆π=∆Ω

W k=W=WM

, k=1,2 , , M

Resposta em amplitude dos bancos de filtros

1 2 3 4

M = 4

4WΩ

2WΩ

43 WΩ

|)(| ΩjH

0

1 2 3 4

|)(| ΩjH

0

Considerações

Os filtros podem ter larguras iguais ou variáveis.

Podem ter respostas que se sobrepõem ou não contíguas.

As respostas do tipo do segundo banco requerem filtros com roll­offs extremamente rápidos, que minimizam os gaps entre as bandas.

Possibilitam uma diminuição nas taxas de amostragem (fsk) e consequentemente uma taxa de codificação (I) menor.

Na prática, os gaps inter bandas não tem energia nula. o que causa um efeito de reverberação no sinal reconstruído para SBCs de biaxa taxa de bits.

Taxa de Transmissão

Cada sub banda xk(t) é amostrada a uma frequência fsk e codificada usando Rk bits por amostra.

Taxa de transmissão total: soma das taxas necessárias para codificar cada uma das sub bandas

∑=

=M

kksk RfI

1

b/s

Para o caso de sub bandas de larguras iguais:

MW

WfkMW

W kskk 22 , =∆=∀=∆

Taxa de Transmissão

Desde que cada sub banda k pode ser amostrada à freqüência 2∆Wk , podemos reescrever I como

b/s 2

1∑

=

=M

kkR

MW

I

Esquema de alocação de bits

Saída de um banco de 24 subbandas

Cálculo do nível médio de cada subbanda

Cálculo do limiar de mascaramento para cada subbanda

Bandas abaixo do limiar não são codificadas

Alocação de bits de acordo com o nível de picoacima do limiar de mascaramento

[K. C. Pohlmann, Principles of Digital Audio 4th Ed. (McGraw­Hill, New York, 2000), p. 321.]

Exemplo

A: inaudível

B: tom mascarante

C: inaudível devido a B

D: audível

AA B C

Limiar de audibilidade Efeito de

mascaramento

Sinais audíveis

Sinais inaudíveis

10 b

its

4 bi

ts

frequência

Nív

el S

PL

C D

Relação sinal/máscara

O sinal B precisa ser codificado.

Entretanto sua presença criou uma curva de mascaramento.

A porção do sinal B entre a curva mínima e a curva de mascaramento corresponde aos bits que podem ser economizados na codificação.

Desta forma, ao invés de usar a relação sinal/ruído, usa­se a relação sinal/máscara (Signal­to­Mask Ratio, SMR).

A SMR é recalculada para cada subbanda, e é utilizada para decidir quantos bits serão alocados para a codificação.

Codificação por transformada

Um bloco de amostras no domínio do tempo é convertido para o domínio da frequência (via DFT, FFT ou MDCT).

Esta transformação aproxima o comportamento de como a membrana basilar analisa o conteúdo de frequências das vibrações ao longo de seu comprimento

Os coeficientes espectrais são quantizados de acordo com um modelo psico­acústico:

Eliminação de componentes inaudíveis.

Alocação dinâmica de bits baseada em audibilidade.

Quantiza os sinais no domínio da frequência.

Considerações sobre a codificação por transformada

Blocos grandes de amostras no domínio do tempo fornecem uma boa resolução espectral, mas levam a uma perda na resolução temporal.

Problema: pré­ecos em regiões de transientes.

Soluções:Sobreposição de blocos sucessivos em 50% para melhorar a resolução temporal.

Comprimento do bloco muda adaptativamente de acordo com as condições do sinal.