compressão de Áudio inf01124 – classificação e pesquisa de dados afonso comba de araújo...

41
Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto 0052/99-7 Francisco José Prates Alegretti 1433/99-1 Natália Nunes Pinto Lopes 2667/99-4

Upload: internet

Post on 17-Apr-2015

108 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Compressão de ÁudioINF01124 – Classificação e Pesquisa de Dados

Afonso Comba de Araújo Neto 0052/99-7

Francisco José Prates Alegretti 1433/99-1

Natália Nunes Pinto Lopes 2667/99-4

Rodrigo Gasparoni Santos 3072/99-8

Page 2: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Tópicos Analisados

Introdução Digitalização do Som Compressão de Sons Análise dos Formatos

MP3 TwinVQ AAC

Comparações entre os formatos Conclusões

Page 3: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Introdução

Formatos de Áudio não comprimido: Wave File - *.WAV (mais conhecido)

Formatos comprimidos MPEG Layer III - *.MP3; Windows Media Audio - *.WMA; Advanced Audio Coding - *.AAC; Real Audio - *.RA; TwinVQ - *.VQF; ... e muitos outros.

Page 4: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Digitalização do Som

Som = onda. Digitalização consiste em amostrar a

onda um de terminado número de vezes por unidade de tempo, codificando a sua amplitude.

Quanto mais amostras por unidade de tempo, e quanto maior a escala de quantização de amplitudes, melhor a fidelidade do som amostrado.

Page 5: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Digitalização do Som

Uma boa amostragem de som é definida como o dobro do período máximo de variação de sua amplitude.

Portanto, um som que possui uma variação de amplitude média de 10KHz deve ter sua amostragem feita a uma taxa de 20KHz.

Page 6: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Digitalização de Som

Portanto: Voz humana pode ser amostrada a

uma taxa de 11KHz; Uma música inteira deve ser

amostrada a uma taxa de 44KHz. 16 bits por amostra foi identificado

como a quantização ideal para um som fidedigno.

Page 7: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Digitalização de Som

Qualidade de CD então é definida como uma amostragem de 44KHz, 16 bits por amostra.

Page 8: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Compressão de Sons

A compressão de sons é um procedimento complexo, pois ondas amostradas raramente possuem padrões, que são utilizados nos métodos de compressão tradicionais.

Page 9: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Compressão de Sons

Existem então dois principais tipos de técnicas de compressão: Compressão dos dados propriamente

ditos (ex. Huffman coding); Eliminação de sons imperceptíveis ao

ouvido humano. As técnicas de eliminação de sons

imperceptíveis são as que realmente produzem resultados.

Page 10: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Compressão de Sons

Essa técnica é uma técnica de compressão com perdas, ou seja, o arquivo final é diferente do original.

De qualquer forma, qualquer método de compressão sem perdas, especificamente no caso de sons não consegue uma taxa de compressão maior do que 2:1 ou 3:1.

Page 11: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Compressão de Sons

Um arquivo em Qualidade de CD a esta taxa de compressão possui um tamanho inviável, chegando a uma média de 8 a 10 megabytes por minuto.

Sendo assim, as técnicas de compressão de som aqui vistas, entre outras, são sim de muita valia.

Page 12: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Análise dos formatos

Vamos fazer uma breve descrição de como funciona a compressão de alguns dos formatos mais comuns, sendo eles: MPEG-1 Layer III; TwinVQ; Advanced Audio Coding (AAC).

Page 13: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

MP3

MP3 é o formato mais conhecido e difundido no mundo.

Suas principais vantagens são: Pouco consumo de CPU para tocar

um arquivo; Tamanho de arquivo muito pequeno; Qualidade muito próxima à original.

Page 14: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

MP3

Utiliza, resumidamente, as seguintes técnicas para diminuir a quantidade de dados de um arquivo: The minimal audition threshold; The masking effect; The reservoir of bytes; The Joint Stereo; The Huffman coding.

Page 15: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

The minimal audition threshold Segundo a lei de Fletcher e Munson,

somente ondas na faixa de 2KHz até 5KHz são importantes para o som (em uma música, por exemplo), pois fora desta faixa são praticamente imperceptíveis, sendo então não codificadas.

Page 16: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

The masking effect

Esta etapa da compressão identifica sons muito fracos que ficam mascarados por outros muito mais fortes. Estes então são removidos do conjunto.

Nesta etapa é onde o conjunto de sons começa a realmente ficar menor.

Page 17: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

The reservoir of bytes A mp3 é na verdade codificada de modo

a utilizar uma taxa de amostragem que não garante o tempo todo a melhor qualidade de som. Ao invés disso, é utilizada uma amostragem que possibilita a codificação de uma parte considerável da música, e os trechos que necessitam de maior qualidade têm sua codificação estendida em uma área reservada de dados.

Page 18: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

The Joint Stereo

Esta parte faz dois procedimentos: Primeiro, identifica todas as partes do

conjunto onde ambos os canais são iguais ou muito parecidos e os codifica como um canal mono;

Depois, são identificadas todas as partes stereo que sobraram e, ao invés de codificar os canais R e L, codifica L+R e L-R, o que no final utiliza menos bits

Page 19: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

The Joint Stereo

Opcionalmente, ao primeiro procedimento são salvos dados extras que possibilitam a reconstrução dos canais R e L sem perdas.

Tanto essa reconstrução quanto a identificação dos canais R e L originais codificados pelo segundo passo são feitos em tempo de execução pelo Player.

Page 20: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

The Huffman coding

Finalmente, utiliza-se da técnica de codificação desenvolvida por Huffman para as amostras finais, que agora são muito mais padronizadas, tendo um ganho de até 20% no tamanho do arquivo.

Page 21: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

CD x MP3

Bitrate Qualidade Kbyte/Min Tamanho1411 CD 10584 41,3 MB

192 Perfeita 1440 5,6 MB

160 Perfeita 1200 4,7 MB

128 Excelente 960 3,8 MB

112 Quase CD 840 3,3 MB

96 Quase CD 720 2,8 MB

64 FM 480 1,9 MB

32 AM 240 0,9 MB

16 Reconhecível 120 0,5 MB

Page 22: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

TwinVQ

Formato relativamente novo, que até ganhou algum destaque devido a sua boa qualidade e ao seu tamanho de arquivo menor (25% menor que o MP3).

Entretanto necessita de um computador muito mais potente para rodar as músicas satisfatoriamente.

Page 23: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

TwinVQ

Outro fator decisivo para a sua queda é a sua necessidade que um tempo muito maior para codificação. Por exemplo, comparado com um compressor MP3 esse tempo é de 3 até 4 vezes maior.

Na verdade, isso é o que garante o tamanho de arquivo menor, como veremos a seguir.

Page 24: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

TwinVQ

A compressão para vqf utiliza-se de características de codificação perceptual assim como o mp3.

A principal diferença é a sua codificação. Os dados depois de comprimidos são organizados em vetores de segmentos de padrões, que são depois comparados com vetores já existentes.

Page 25: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

TwinVQ

São codificadas então somente a identificação destes vetores, diminuindo o tamanho do espaço necessário para a codificação.

Daí que surge a sua necessidade de mais poder de computação para sua codificação/decodificação.

O resultado é um som bem mais limpo, mas com uma perda um pouco maior de detalhes.

Page 26: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

TwinVQ

Mesmo assim, o som obtido no final é bastante parecido com o original.

Portanto, normalmente não se considera que a codificação vqf é melhor ou pior que a mp3, ela é simplesmente diferente.

A tecnologia TwinVQ faz parte do padrão MPEG 4 para codificação de sons.

Page 27: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Advanced Audio Coding

Formato com padronização MPEG-2.

É a mais nova padronização de codificação perceptiva de sons feita pela MPEG.

Utiliza um sistema complexo de codificação que envolve inúmeras técnicas.

Page 28: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Advanced Audio Coding Entre outras, algumas delas são:

Huffman coding; Quantization and scaling; M/S Matrixing; Intensity Stereo; Coupling channel; Backward adaptive prediction; Temporal noise shaping; Modified discrete cosine transform; Gain control and hybrid filter bank (polyphase

quadrature filter).

Page 29: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Advanced Audio Coding

Assim como o formato vqf, necessita de um computador mais rápido para codificação e para decodificação que o mp3.

Entretanto, dos 3 formatos é o que possui a melhor qualidade final (mais próximo do original).

Page 30: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Advanced Audio Coding

Possui um tamanho de arquivo aproximado ao do vqf.

Um dos seus maiores problemas é a existência de várias versões do padrão, incompatíveis diretamente entre si (possuem significativa diferença de codificação).

Faz parte, junto com o vqf, do padrão MPEG-4.

Page 31: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Comparações entre os formatos Tamanho do arquivo Disponibilidade de software Disponibilidade de músicas Consumo de CPU Qualidade do som O melhor formato Algumas conclusões

Page 32: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Tamanho do arquivo

Comparação com o wav original

Page 33: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Tamanho do arquivo

Comparação entre os formatos

Page 34: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Tamanho do Arquivo

Type Size Ratio Bitrate

Wav 44,1 MB 1:1 -

MP3 3,99 MB 1:11 128kbps

VQF 3,0 MB 1:14 96kbps

ISO AAC 3,14 MB 1:14 128kbps

Astrid/QuartexAAC

3,96 MB 1:11 128kbps

Page 35: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Disponibilidade de software

Formato Rank

MP3 1

VQF 2

ISO AAC 3

Astrid/Quartex AAC 4

Page 36: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Disponibilidade de músicas

Formato Rank

MP3 1

VQF 2

Astrid/Quartex AAC 3

ISO AAC 4

Page 37: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Formato % uso Programa Rank

MP3 35% Winamp 2.64 1

Astrid/Quartex AAC 40% K-Jofol .51 2

VQF 70% YamahaSounVQ Player

3

ISO AAC 73% Lorentz Istvan'sAAC Plugin forWinamp v. 1.1

4

Consumo de CPU

OBS.: Os testes foram feitos em um Pentium 133MHz

Page 38: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Qualidade do Som

Formato Rank

Astrid/Quartex AAC 1

MP3 2

VQF 3

ISO AAC 4

Page 39: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

O melhor formato

Formato Rank Motivos

MP3 1 Disponibilidade de software emúsica, qualidade e menor uso de

CPUVQF 2 Disponibilidade de música e

tamanho de arquivoAstrid/QuartexAAC

3 Boa qualidade, mas poucadisponibilidade de software e

músicasISO AAC 4 Baixa qualidade e alto consumo

de CPU

Page 40: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Conclusões

Vale lembrar que a escolha de um melhor formato é subjetiva. Pode-se chegar a resultados diferentes se considerarmos itens com pesos distintos.

Apesar da menor qualidade, a maior popularidade do mp3 está ligada a maior quantidade de músicas e softwares disponíveis. Certamente não sairá de cena tão cedo.

Page 41: Compressão de Áudio INF01124 – Classificação e Pesquisa de Dados Afonso Comba de Araújo Neto0052/99-7 Francisco José Prates Alegretti1433/99-1 Natália

Bibliografia

http://www.mp3-tech.org http://www.firstpr.com.au/

audiocomp/aac-mp3-vq.html http://www.math.auth.gr/~axonis/

studies/audio.htm http://cad-audio.fsn.net/