fundamentos de Áudio - marco.uminho.ptmarco.uminho.pt/disciplinas/st/st0203/aula-audio.pdf · ......

1

Fundamentos de Áudio

Sistemas Telemáticos

Ano Lectivo 2002/2003

LESI

Grupo de Comunicações por Computador

Sumário

• Sistema de Audição Humana

• Física do Som

• Gravação e Reprodução Analógica

• Sim Digital

• Compressão Áudio– Métodosde compressão simples

– MPEG

Materias utilizados

• Dr. Ze-Nian Li’s course material at:http://www.cs.sfu.ca/CourseCentral/365/li /

• MPEG Audio:http://www.mpeg.org/MPEG/audio.html

Audição Humana

• Mecanismo deveras complexo!• Através dos ouvidos é realizada a captação

das mais diversas formas de som• Os nossos ouvidos transformam o som em

sinais que são processados pelo nosso cérebro

• Vamos fazer uma descrição ligeira do nosso sistema de audição

A física do Som

• Audição Humana • O nosso sistema auditivo converte energia sonora em energia mecânica para um impulso nevorso que é transmitido para o cerébro.

• O ouvido tem trêspartes: externa, média e interna.

A física do Som

• Audição humana O O ouvido externoouvido externo� ��

2

A física do som

• Audição humana Ouvido internoOuvido interno

• Serve para transformar a energia sonora em vibrações internas do estrutura óssea da orelha média

• As vibrações são transformadas em ondas de compressão

A física do somAudição Humana

� ��

� �� !�� !��

A física do som

• Audição HumanaO O ouvido internoouvido interno

• Serve para transformar a energia da onda de compressão num fluído interno do ouvido em implusos do nervo no fluído interno que podem ser transmitido ao cérebro

" ��#�

• Quando um som forte numa determinada frequência estimula os pelos da cóclea– As frequências próximas não são ouvidas caso

sejam menos significativas (de menor amplitude)

– Apesar do nosso ouvido captar uma certa amplitude de frequências, parte delas não são processados por causa do processo de masking

Termos e Conceitos básicosNo âmbito do nosso sistema de audição

• Sensibilidade às frequências – Mais sensíveis de 1-3 KHz

• Directividade– De onde nos chega determinado som?

• 0.2-3kHz

• Dissimulação (masking) temporal– Também acontece no domínio dos tempos

A física do som

• Ondas sonoras– Uma onda mecânica é uma perturbação que

viaja atravésdum meio transportando energiadum local para outro.

3

A física do som

• Ondas sonoras– Uma ondaproduz áreasde alta e baixa pressão

– Quando a onda de alta pressão atinge o timpano elemove-se para dentro

– Quando a onda de baixa pressão atinge o timpano elemove-se para fora.

A física do som • Ondas sonoras

– A amplitude é o máximo deslocamento positivo.

– Quanto maior a amplitude mais alto é som

– É medido em decibéis (db)

A física do som

• Ondas sonoras– O comprimento de onda (wavelength) é a

distância entre dois pontos adjacentes na onda

A física do som

• Ondas sonoras– A frequência da onda é o número de comprimentos

de ondapor ciclo (normalmente um segundo)

– É medida em Hertz (ondaspor segundo)

– Quanto maior a frequência maior é o tom

0 secs time 1 sec

1 wave 2 waves

2 Hz

t

Representação do som

• Domínio do tempo– Representação da variação da amplitude do

sinal ao longo do tempo

• Domínio da frequência– Representação da amplitude das diferentes

frequências do sinal num determinado instante

A física do somA forma como os humanos se apercebem do som como forte ou fraco dependenão só da frequênciamas tambémdaamplitude (intensidade).

Limiar da audição(1% dos humanos)

Maioria dos humanos(Limiar)

Limiar da dor

Voz Humana

FrequênciaFundamental

4

A física do som

• A gama normal de audição humana é entre 20Hz e 20000Hz.

• Aqui estão várias frequências (0 dB)– 60 Hz

– 440 Hz

– 4000 Hz (-6dB: half power) (+6dB: double power)

– 13000Hz

– 20000Hz

A físicado som

• A percepção do som inclui três aspectos:– Intensidade(amplitude);

– Tom (frequência); e,

– Timbre• Porquê que o violino e o piano a tocar a mesma

nota são tão diferentes?

A física do som

• Timbre– Definido vagamentecomo tom, cor, texturado

som quepermiteao cérebro distinguir um tom de outro

– Afectado pelaspropriedadesacústicasdo instrumento e dasala

Timbre

• Formas de onda complexa são construídascombinando um certo número de formas de onda maissimples de diferentes amplitudes e frequências

• É por esta razão queconseguimos percebertons altos e baixos simultaneamente.

Timbre

• O som característico duma forma de onda(produzido por um piano ou um violino) é chamado o seu timbre.

• O timbre, também designado como a cor dum tom, é considerado rico ou cheio se o som incluir muitas frequências.

• Um som duma onda sinusoidal é considerado monótono por incluir apenas uma frequência

Timbre

• As diferentes frequências dum som, combinadas com as suas amplitudes variáveis, constituem o conteúdo espectral da forma de onda.

• O conteúdo espectral (um termo mais científico para timbre) varia normalmente com o tempo.

5

Timbre

A variação das características espectrais com o tempo para umaforma de onda é a assinatura dum tom quepermitea sua descrição com uma string.

Gravação e Reprodução Analógica

• Um microfoneconverteas mudanças de pressão no ar em mudanças na tensão eléctrica.

• Produz-se um sinal analógico.

• Se se comparar as mudanças de pressão do ar e as mudanças de tensão eléctrica são bastante similares .


• Para gravar um som com um microfone, podemos enviá-lo parauma fita magnética quepodeguardar uma réplica do sinalanalógico.


• Para reproduzir a sua gravação necessita de algo que crie as diferenças de pressão no ar de forma ao nosso ouvido poder interpretá-lo como um som, isto é um altifalante áudio.

• Os altifalantes funcionam movendo um cone de uma posição para outra de forma consistente..


• Para mover o cone para frentee para trás o altifalante tem queser alimentado por uma corrente eléctrica

• Durante a reprodução, o gravador ou o gira-discos geram a corrente que alimenta um amplificador

• Quando ligada ao altifalante a corrente permite reproduzir as mudanças de pressão sentidas pelo microfone durante a gravação.


• Até recentemente o som era gravado emcomo um sinal analógico numa cassete de fita magnética ou num disco de vinil.

• Um problema com este tipo de gravação é a dificuldade de gravar o sinal analógico sem adicionar ruído.

6


• Quando se copia gravações analógicas tem quese converter a gravação magnéticanum sinal eléctrico e tornar a gravar o queadiciona aindamais ruído.

• A edição de som em fita é linear.

Digitalização do Som

• Quando se trabalha com audio digital háduasquestões que precisam de resposta:– Que qualidadeé necessária?– Que débito de dados podeser tolerado?

• Há 3 categoriais de áudio digital :– Alta fidelidade – Comunicação telefónica– Voz compactada

Digitalização do Som

• Áudio Digital é baseado em dois aspectos:– Amostragem (tempo)

– Quantificação (nível)

Amostragem

– O som natural é analógico

– O som digital é digital

– Para conversão de analógico paradigital é necessáriaa amostragem

Amostragem

– Uma gravação analógica (ie f ita magnética) é baseada no registo da voltagem como padrõesde magnetizaçãonas partículas óxidasda fita.

– Uma gravação digital converte as voltagensem númerosbinários

Amostragem

– Uma ondaanalógicapodeser amostrada com um número de bits pré-determinado

– Isto é chamado a resolução em bits do sistema

– Quanto maisbits maior a clareza.

• 8 bits correspondem a 256 níveis

• 16 bits correspondem a 65,536 níveis, etc..

• Ganham-se 6db por cada bit• 8 bits 256 níveis = 48 dB, 16 bits 65,536

níveis = 96 dB. Para determinar a gama dinâmica de um sistema, multiplique a taxa de bits por 6.

7

Frequência de amostragem

– A o ritmo deobtenção de amostrasdum onda analógica é designada por frequência de amostragem

– É o número de amostras obtidaspor segundo.

– A frequência de amostragem determina a largurade bandado sistema.

Frequênciadeamostragem– Quanto maior for a frequênciade amostragem

maior é a possibilidadede capturar as altasfrequências.

Frequênciadeamostragem– Uma onda deve ser amostrada duas vezes para se obter

uma verdadeira representação (Teoria de Nyquist)

– A frequência de amostragem deve ser pelos menoso dobro da mais alta frequência do sinal

– Como a gama de audição humana varia de 20 Hz a 20 kHz, uma frequência de amostragem de 44.1 Khz satisfaz teoricamente as necessidades de audio.

Frequênciade amostragem versus armazenamento

• Quando aumenta a frequência de amostragem melhora a qualidade da amostra .

• Com o aumento da qualidadeaumentaa quantidadede espaço de armazenamentonecessário. – Uma velocidade de amostragem de 44.1 kHz com

gravação de 16 bit usa aproximadamente 5Mb porminuto. (10Mb parastereo). NOTA: norma CD.

• A 22.05 kHz é metade.

Exemplos de amostragem

– 44.1kHz

– 22.05kHz

– 16kHz

– 8kHz

– 6Hz

Música de 35 Segundos

Onda sonora gerada para estes 35 segundos.

Áudio de alta fidelidade

• O Áudio Digital apareceu com o CD (Compact Laser Disc)

• A superfíciedum CD virgem reflecte (espelhada) • A informação digital é armazenada como buracos

na superfície.• Os dados são armazenados com umaúnicapista

em espiral desde o interior para fora. Leituraa 1.2 m/s.

• Dados armazenadosa 1 Mbit/mm2

8

Áudio de alta fidelidade

• SistemasAudio com maisde um canal chamam-se estereofónicos. .

• 4 canaisde som em video chama-se Dolby Stereo.

• A versão cinema em casa é Dolby Surround Pro Logic.

• Os sinaisdos canaisde ambientesão atrasados15-20 millisegundos para dar a impressão ao ouvinte que vêm do ecrâe não dos altifalantes.

Métodos Simples de Compressão

• Compressão de silêncios

• Adaptative Diferential Pulse Code Modulation (ADPCM)– CTTITT G.721 --- 16 or 32 Kbits/sec.

• Linear Predictive Coding (LPC)• Code Excited Linear Predictor (CELP)

Modelo Psico-Acústico

• Audição e Voz Humana

• Sensibilidade da Audição humana– Limiar da Audição

– Dissimulação na Frequência

– Dissimulação no Tempo

Limiar daFrequência

Experiência :Uma pessoa num quarto emsilêncio. Aumentea intensidade

dum tom de 1 Khz atéele se tornar audível. Varia a frequência e vá registando

� � � � ��

�

��

��

��

��

�

��

Dissimulação na Frequência

Experiência: Coloque um tom a 1 kHz (tom para dissimulação) com uma

amplitude fixa (60 dB). Coloqueo tom de testenumafrequência (1.1 kHz) e aumente a sua intensidade atése poder distinguir. Varia a frequência do tom de teste e coloque o valor de limiar de audição.

Frequency Masking (Contd.)• Repeat previous experiment for various frequencies of

masking tones

9

Temporal Masking• Se ouvirmosum some o pararmosdemora tempo

atépodermosouvir um tom próximo na frequência.

• Enuncie a experiência a realizar

Efeito total da dissimulação:

MPEG Audio

• As duas técnicas avançadas de codificação áudio são baseadas em – Codif icação de sub-banda (SBC)– Codif icação de Transformada Adaptativa

• A codificação MPEG de Audio– Tem três camadas independentes de compressão áudio

• Cada um tem o seu codificador SBC• Correspondência entre Tempo e Frequência• Modelo Psico-Acústico• Quatificador

MPEG Audio

• Camada 1– usa codificação de sub-banda

• Camada 2– usa codificação de sub-banda com quadros

maiores e maior nível de compressão

• Camada 3 – Usa tanto codificação de sub-banda como de

transformada

MPEG• MPEG-1 Audio

– Está concebido para tomar um sinal áudio de entrada em PCM e dependendo da camada

• Amostrá-lo a 32, 44.1 ou 48 kHz

• Codificá-lo de 32 a 192 Kbps por canal áudio

• MPEG-1– débito 1.5 Mbit/seg para áudio e vídeo

– 1.2 para vídeo e 0.3 para áudio• Audio CD não compactado tem 44,100 amostras por

segundo*16 bits/amostra * 2 canais > 1.4 Mbits/seg

– Factor de Compressão 2,7 a 24

MPEG• Com compressão 6:1

– Amostragem a 48 KHz de 16 bits stereo reduzidas a 256 Kbits/seg• Sob condições ótptimas de audição, ouvintes experimentados não

conseguem distinguir o clip original e codificado

• Suportaum ou dois canais de áudio num dos seguintes modos1. Monofónico – um simples canal de áudio

2. Monofónico dual – 2 canais independentes por ex. Português e Inglês

3. Stereo – para 2 canais stereo que partilham bits mas não usam uma codificação stereo conjunta

4. Junção stereo- tira partido da correlação entre os dois canais

10

Algoritmo de Codificação MPEG

��

� ��!��"��#

��$ %��& ��'��#

�(��)��& ��

* ��+ ��

��$ �� $

,�%��- ��%��

Exemplo de Masking e Quantificação

13532152035601026101280Nível

16151413121110987654321Banda

MPEG Coding Specifics

* �� $ %��

��!��"��

��!��"��

��!��"��

��!��"��

�

�

�

��$ %��

��$ %��

��$ %��

��$ %��

��$ %��

��$ %��

.��,��$ �

.��,,/�,,,��$ �

�

�

�

�

�

�

Especificidades da codificação MPEG

• Camada 1 do MPEG – O filtro aplicado é um quadro (12x32 = 384 amostras) de cadavez.

A 48 kHz, cada quadro contém 8ms de som.

– Usaa FFT com 512 pontos paraobter umainformação espectral detalhadado sinal (f iltro de sub-banda). Usa uma faixa de frequência igual em cada banda.

– Modelo psico-acústico usa apenas o masking na frequência.

– Aplicações típicas• Gravação digi tal em tapes, discos que podem suportar um débito alto.

– Melhor qualidadeconseguidacom débito de 384kbps.


• Camada 2 do MPEG– Usa3 quadros no filtro (anterior, actual e seguinte com um total

de 1152 amostras). A 48 kHz, cada quadro transporta 24 ms de som.

– Modela um pouco o masking temporal.

– Usa a FTT com 1024-pontos para uma melhor resolução na frequência. Usa uma faixa de frequência idêntica em cada banda.

– Maior qualidadeconseguidacom um débito de 256 k bps.

– Aplicações típicas• Difusão áudio, TV, Gravação profissional e Multimedia


• MPEG Layer III– Usa melhores filtros nas bandas críticas

– Não usasub-bandas iguais Uses non-equal frequency bands

– O modelo psico-acústico• Inclui efeitos de dissimulação temporal

• Tira partido da redundância steero

• Codificador de Huffman

11


MPEG Camada 3Codificação da Redundância Stereo

– Codificação da intensidade stereo --- nos canais de frequência superior codificar a soma dos sinais da direita e esquerda em vez de os considerar de forma independente.

– Codificação Stereo Middle/Side – codificar a soma e a subtração dos sinais da esquerda e da direita

fundamentos de Áudio - marco.uminho.ptmarco.uminho.pt/disciplinas/st/st0203/aula-audio.pdf · ......

Documents