fundamentos de Áudio - marco.uminho.ptmarco.uminho.pt/disciplinas/st/st0203/aula-audio.pdf · ......
TRANSCRIPT
1
Fundamentos de Áudio
Sistemas Telemáticos
Ano Lectivo 2002/2003
LESI
Grupo de Comunicações por Computador
Sumário
• Sistema de Audição Humana
• Física do Som
• Gravação e Reprodução Analógica
• Sim Digital
• Compressão Áudio– Métodosde compressão simples
– MPEG
Materias utilizados
• Dr. Ze-Nian Li’s course material at:http://www.cs.sfu.ca/CourseCentral/365/li /
• MPEG Audio:http://www.mpeg.org/MPEG/audio.html
Audição Humana
• Mecanismo deveras complexo!• Através dos ouvidos é realizada a captação
das mais diversas formas de som• Os nossos ouvidos transformam o som em
sinais que são processados pelo nosso cérebro
• Vamos fazer uma descrição ligeira do nosso sistema de audição
A física do Som
• Audição Humana • O nosso sistema auditivo converte energia sonora em energia mecânica para um impulso nevorso que é transmitido para o cerébro.
• O ouvido tem trêspartes: externa, média e interna.
A física do Som
• Audição humana O O ouvido externoouvido externo� ��������������� ������������������������� ��������������� ��� �������������������� �������������������������������������� ������������� ����������������������������������������������������������������������������������� ��� �������� ���������������������������������� ���
2
A física do som
• Audição humana Ouvido internoOuvido interno
• Serve para transformar a energia sonora em vibrações internas do estrutura óssea da orelha média
• As vibrações são transformadas em ondas de compressão
A física do somAudição Humana
� ���������������� ���������� ������������������������������������� ���������� �������� ������������������� ���������������� ������ ������ ���������� �����������������������������������������
� �������������������������������������� ��� � ��� ��!������������� ��������� ������������������ ����������� ������������������� ������������!���������� ���� ����� ��������� �����
A física do som
• Audição HumanaO O ouvido internoouvido interno
• Serve para transformar a energia da onda de compressão num fluído interno do ouvido em implusos do nervo no fluído interno que podem ser transmitido ao cérebro
" �����������������#�
• Quando um som forte numa determinada frequência estimula os pelos da cóclea– As frequências próximas não são ouvidas caso
sejam menos significativas (de menor amplitude)
– Apesar do nosso ouvido captar uma certa amplitude de frequências, parte delas não são processados por causa do processo de masking
Termos e Conceitos básicosNo âmbito do nosso sistema de audição
• Sensibilidade às frequências – Mais sensíveis de 1-3 KHz
• Directividade– De onde nos chega determinado som?
• 0.2-3kHz
• Dissimulação (masking) temporal– Também acontece no domínio dos tempos
A física do som
• Ondas sonoras– Uma onda mecânica é uma perturbação que
viaja atravésdum meio transportando energiadum local para outro.
3
A física do som
• Ondas sonoras– Uma ondaproduz áreasde alta e baixa pressão
– Quando a onda de alta pressão atinge o timpano elemove-se para dentro
– Quando a onda de baixa pressão atinge o timpano elemove-se para fora.
A física do som • Ondas sonoras
– A amplitude é o máximo deslocamento positivo.
– Quanto maior a amplitude mais alto é som
– É medido em decibéis (db)
A física do som
• Ondas sonoras– O comprimento de onda (wavelength) é a
distância entre dois pontos adjacentes na onda
A física do som
• Ondas sonoras– A frequência da onda é o número de comprimentos
de ondapor ciclo (normalmente um segundo)
– É medida em Hertz (ondaspor segundo)
– Quanto maior a frequência maior é o tom
0 secs time 1 sec
1 wave 2 waves
2 Hz
t
Representação do som
• Domínio do tempo– Representação da variação da amplitude do
sinal ao longo do tempo
• Domínio da frequência– Representação da amplitude das diferentes
frequências do sinal num determinado instante
A física do somA forma como os humanos se apercebem do som como forte ou fraco dependenão só da frequênciamas tambémdaamplitude (intensidade).
Limiar da audição(1% dos humanos)
Maioria dos humanos(Limiar)
Limiar da dor
Voz Humana
FrequênciaFundamental
4
A física do som
• A gama normal de audição humana é entre 20Hz e 20000Hz.
• Aqui estão várias frequências (0 dB)– 60 Hz
– 440 Hz
– 4000 Hz (-6dB: half power) (+6dB: double power)
– 13000Hz
– 20000Hz
A físicado som
• A percepção do som inclui três aspectos:– Intensidade(amplitude);
– Tom (frequência); e,
– Timbre• Porquê que o violino e o piano a tocar a mesma
nota são tão diferentes?
A física do som
• Timbre– Definido vagamentecomo tom, cor, texturado
som quepermiteao cérebro distinguir um tom de outro
– Afectado pelaspropriedadesacústicasdo instrumento e dasala
Timbre
• Formas de onda complexa são construídascombinando um certo número de formas de onda maissimples de diferentes amplitudes e frequências
• É por esta razão queconseguimos percebertons altos e baixos simultaneamente.
Timbre
• O som característico duma forma de onda(produzido por um piano ou um violino) é chamado o seu timbre.
• O timbre, também designado como a cor dum tom, é considerado rico ou cheio se o som incluir muitas frequências.
• Um som duma onda sinusoidal é considerado monótono por incluir apenas uma frequência
Timbre
• As diferentes frequências dum som, combinadas com as suas amplitudes variáveis, constituem o conteúdo espectral da forma de onda.
• O conteúdo espectral (um termo mais científico para timbre) varia normalmente com o tempo.
5
Timbre
A variação das características espectrais com o tempo para umaforma de onda é a assinatura dum tom quepermitea sua descrição com uma string.
Gravação e Reprodução Analógica
• Um microfoneconverteas mudanças de pressão no ar em mudanças na tensão eléctrica.
• Produz-se um sinal analógico.
• Se se comparar as mudanças de pressão do ar e as mudanças de tensão eléctrica são bastante similares .
Gravação e Reprodução Analógica
• Para gravar um som com um microfone, podemos enviá-lo parauma fita magnética quepodeguardar uma réplica do sinalanalógico.
Gravação e Reprodução Analógica
• Para reproduzir a sua gravação necessita de algo que crie as diferenças de pressão no ar de forma ao nosso ouvido poder interpretá-lo como um som, isto é um altifalante áudio.
• Os altifalantes funcionam movendo um cone de uma posição para outra de forma consistente..
Gravação e Reprodução Analógica
• Para mover o cone para frentee para trás o altifalante tem queser alimentado por uma corrente eléctrica
• Durante a reprodução, o gravador ou o gira-discos geram a corrente que alimenta um amplificador
• Quando ligada ao altifalante a corrente permite reproduzir as mudanças de pressão sentidas pelo microfone durante a gravação.
Gravação e Reprodução Analógica
• Até recentemente o som era gravado emcomo um sinal analógico numa cassete de fita magnética ou num disco de vinil.
• Um problema com este tipo de gravação é a dificuldade de gravar o sinal analógico sem adicionar ruído.
6
Gravação e Reprodução Analógica
• Quando se copia gravações analógicas tem quese converter a gravação magnéticanum sinal eléctrico e tornar a gravar o queadiciona aindamais ruído.
• A edição de som em fita é linear.
Digitalização do Som
• Quando se trabalha com audio digital háduasquestões que precisam de resposta:– Que qualidadeé necessária?– Que débito de dados podeser tolerado?
• Há 3 categoriais de áudio digital :– Alta fidelidade – Comunicação telefónica– Voz compactada
Digitalização do Som
• Áudio Digital é baseado em dois aspectos:– Amostragem (tempo)
– Quantificação (nível)
Amostragem
– O som natural é analógico
– O som digital é digital
– Para conversão de analógico paradigital é necessáriaa amostragem
Amostragem
– Uma gravação analógica (ie f ita magnética) é baseada no registo da voltagem como padrõesde magnetizaçãonas partículas óxidasda fita.
– Uma gravação digital converte as voltagensem númerosbinários
Amostragem
– Uma ondaanalógicapodeser amostrada com um número de bits pré-determinado
– Isto é chamado a resolução em bits do sistema
– Quanto maisbits maior a clareza.
• 8 bits correspondem a 256 níveis
• 16 bits correspondem a 65,536 níveis, etc..
• Ganham-se 6db por cada bit• 8 bits 256 níveis = 48 dB, 16 bits 65,536
níveis = 96 dB. Para determinar a gama dinâmica de um sistema, multiplique a taxa de bits por 6.
7
Frequência de amostragem
– A o ritmo deobtenção de amostrasdum onda analógica é designada por frequência de amostragem
– É o número de amostras obtidaspor segundo.
– A frequência de amostragem determina a largurade bandado sistema.
Frequênciadeamostragem– Quanto maior for a frequênciade amostragem
maior é a possibilidadede capturar as altasfrequências.
Frequênciadeamostragem– Uma onda deve ser amostrada duas vezes para se obter
uma verdadeira representação (Teoria de Nyquist)
– A frequência de amostragem deve ser pelos menoso dobro da mais alta frequência do sinal
– Como a gama de audição humana varia de 20 Hz a 20 kHz, uma frequência de amostragem de 44.1 Khz satisfaz teoricamente as necessidades de audio.
Frequênciade amostragem versus armazenamento
• Quando aumenta a frequência de amostragem melhora a qualidade da amostra .
• Com o aumento da qualidadeaumentaa quantidadede espaço de armazenamentonecessário. – Uma velocidade de amostragem de 44.1 kHz com
gravação de 16 bit usa aproximadamente 5Mb porminuto. (10Mb parastereo). NOTA: norma CD.
• A 22.05 kHz é metade.
Exemplos de amostragem
– 44.1kHz
– 22.05kHz
– 16kHz
– 8kHz
– 6Hz
Música de 35 Segundos
Onda sonora gerada para estes 35 segundos.
Áudio de alta fidelidade
• O Áudio Digital apareceu com o CD (Compact Laser Disc)
• A superfíciedum CD virgem reflecte (espelhada) • A informação digital é armazenada como buracos
na superfície.• Os dados são armazenados com umaúnicapista
em espiral desde o interior para fora. Leituraa 1.2 m/s.
• Dados armazenadosa 1 Mbit/mm2
8
Áudio de alta fidelidade
• SistemasAudio com maisde um canal chamam-se estereofónicos. .
• 4 canaisde som em video chama-se Dolby Stereo.
• A versão cinema em casa é Dolby Surround Pro Logic.
• Os sinaisdos canaisde ambientesão atrasados15-20 millisegundos para dar a impressão ao ouvinte que vêm do ecrâe não dos altifalantes.
Métodos Simples de Compressão
• Compressão de silêncios
• Adaptative Diferential Pulse Code Modulation (ADPCM)– CTTITT G.721 --- 16 or 32 Kbits/sec.
• Linear Predictive Coding (LPC)• Code Excited Linear Predictor (CELP)
Modelo Psico-Acústico
• Audição e Voz Humana
• Sensibilidade da Audição humana– Limiar da Audição
– Dissimulação na Frequência
– Dissimulação no Tempo
Limiar daFrequência
Experiência :Uma pessoa num quarto emsilêncio. Aumentea intensidade
dum tom de 1 Khz atéele se tornar audível. Varia a frequência e vá registando
� � � � �� �� �� ��
�
��
��
��
��
�
�� ��������� ��
Dissimulação na Frequência
Experiência: Coloque um tom a 1 kHz (tom para dissimulação) com uma
amplitude fixa (60 dB). Coloqueo tom de testenumafrequência (1.1 kHz) e aumente a sua intensidade atése poder distinguir. Varia a frequência do tom de teste e coloque o valor de limiar de audição.
Frequency Masking (Contd.)• Repeat previous experiment for various frequencies of
masking tones
9
Temporal Masking• Se ouvirmosum some o pararmosdemora tempo
atépodermosouvir um tom próximo na frequência.
• Enuncie a experiência a realizar
Efeito total da dissimulação:
MPEG Audio
• As duas técnicas avançadas de codificação áudio são baseadas em – Codif icação de sub-banda (SBC)– Codif icação de Transformada Adaptativa
• A codificação MPEG de Audio– Tem três camadas independentes de compressão áudio
• Cada um tem o seu codificador SBC• Correspondência entre Tempo e Frequência• Modelo Psico-Acústico• Quatificador
MPEG Audio
• Camada 1– usa codificação de sub-banda
• Camada 2– usa codificação de sub-banda com quadros
maiores e maior nível de compressão
• Camada 3 – Usa tanto codificação de sub-banda como de
transformada
MPEG• MPEG-1 Audio
– Está concebido para tomar um sinal áudio de entrada em PCM e dependendo da camada
• Amostrá-lo a 32, 44.1 ou 48 kHz
• Codificá-lo de 32 a 192 Kbps por canal áudio
• MPEG-1– débito 1.5 Mbit/seg para áudio e vídeo
– 1.2 para vídeo e 0.3 para áudio• Audio CD não compactado tem 44,100 amostras por
segundo*16 bits/amostra * 2 canais > 1.4 Mbits/seg
– Factor de Compressão 2,7 a 24
MPEG• Com compressão 6:1
– Amostragem a 48 KHz de 16 bits stereo reduzidas a 256 Kbits/seg• Sob condições ótptimas de audição, ouvintes experimentados não
conseguem distinguir o clip original e codificado
• Suportaum ou dois canais de áudio num dos seguintes modos1. Monofónico – um simples canal de áudio
2. Monofónico dual – 2 canais independentes por ex. Português e Inglês
3. Stereo – para 2 canais stereo que partilham bits mas não usam uma codificação stereo conjunta
4. Junção stereo- tira partido da correlação entre os dois canais
10
Algoritmo de Codificação MPEG
������������������������
� ��!�����"�������#
��$ %����& ��'��#
�(���)���������& �����
* �������������+ ������������
��$ ����� ����$
,�%��- ��%��
Exemplo de Masking e Quantificação
13532152035601026101280Nível
16151413121110987654321Banda
MPEG Coding Specifics
* ���� �$ %���
��!�����"�������
��!�����"�������
��!�����"�������
��!�����"��������
�
�
�
�����$ %���
�����$ %���
�����$ %���
�����$ %���
�����$ %���
�����$ %���
.�����,��$ �
.�����,,/�,,,��$ �
�
�
�
�
�
�
Especificidades da codificação MPEG
• Camada 1 do MPEG – O filtro aplicado é um quadro (12x32 = 384 amostras) de cadavez.
A 48 kHz, cada quadro contém 8ms de som.
– Usaa FFT com 512 pontos paraobter umainformação espectral detalhadado sinal (f iltro de sub-banda). Usa uma faixa de frequência igual em cada banda.
– Modelo psico-acústico usa apenas o masking na frequência.
– Aplicações típicas• Gravação digi tal em tapes, discos que podem suportar um débito alto.
– Melhor qualidadeconseguidacom débito de 384kbps.
Especificidades da codificação MPEG
• Camada 2 do MPEG– Usa3 quadros no filtro (anterior, actual e seguinte com um total
de 1152 amostras). A 48 kHz, cada quadro transporta 24 ms de som.
– Modela um pouco o masking temporal.
– Usa a FTT com 1024-pontos para uma melhor resolução na frequência. Usa uma faixa de frequência idêntica em cada banda.
– Maior qualidadeconseguidacom um débito de 256 k bps.
– Aplicações típicas• Difusão áudio, TV, Gravação profissional e Multimedia
Especificidades da codificação MPEG
• MPEG Layer III– Usa melhores filtros nas bandas críticas
– Não usasub-bandas iguais Uses non-equal frequency bands
– O modelo psico-acústico• Inclui efeitos de dissimulação temporal
• Tira partido da redundância steero
• Codificador de Huffman
11
Especificidades da codificação MPEG
MPEG Camada 3Codificação da Redundância Stereo
– Codificação da intensidade stereo --- nos canais de frequência superior codificar a soma dos sinais da direita e esquerda em vez de os considerar de forma independente.
– Codificação Stereo Middle/Side – codificar a soma e a subtração dos sinais da esquerda e da direita