codificação de Áudio no padrão brasileiro de televisão digital

22
Codificação de Áudio no Padrão Brasileiro de Televisão Digital Leonardo Alfredo Forero Mendoza Departamento de Telecomunicações – Universidade Federal Fluminense (UFF) Rua Passo da Pátria, 156 – São Domingos – CEP 24.210-240 – Rio de Janeiro – RJ – Brasil [email protected] Resumo. Este trabalho tem como desafio descrever a codificação de áudio do padrão brasileiro centrando-se em MPEG4 camada três, analisando seu funcionamento e sua codificação de áudio feita por AAC (Advanced Audio Coding) e as vantagens e desvantagens frente aos outros padrões de televisão digital; além de mostrar as ferramentas adicionais que tem frente à AAC MPEG2 . 1. Introdução: A televisão digital foi criada para melhorar a qualidade da imagem, poder transmitir e recepcionar uma maior quantidade de conteúdo e poder ter interatividade com o telespectador alé m de incorporar novas ferramentas de acessibilidade. O padrão de televisão digital adotado no Brasil é o ISDB-TB uma adaptação do ISDB-T (Integrated Services Digitel Broadcasting Terrestrial), padrão japonês, acrescida de tecnologias desenvolvidas no Brasil. A principal diferença constatada inicialmente após a decisão de se adotar o padrão Japonês para ser utilizado na televisão digital brasileira, em junho de 2006, foi a substituição do formato de compressão MPEG-2 para o MPEG-4. O formato escolhido para áudio foi MPEG-4 com codificação AAC (Advanced Audio Coding) 2.0 , 5.1 canais [4]. O MPEG-4 tem como codificador AAC que foi desenvolvido para ser o sucessor do formato MP3. Sua qualidade é próxima a do CD. Mais adiante explicaremos detalhes técnicos. O AAC é usado atualmente como o formato padrão da APPLE e da Sony Play Station 3. Atualmente dois padrões internacionais de televisão digital que tem como codec principal AAC são o Japonês e o Brasileiro embora o padrão Japonês trabalhe com o formato MPEG2. O objetivo principal deste trabalho é mostrar as principais características do formato de codificação de áudio escolhido para o padrão Brasileiro de televisão e as características pelas quais foi escolhido. Neste trabalho mostraremos as vantagens da codificação de áudio do padrão brasileiro comparando-o com o padrão americano e europeu. O restante do texto esta apresentado da seguinte forma. A secção dois apresenta as características gerais de MPEG4 áudio e suas principais ferramentas.

Upload: dangnga

Post on 07-Jan-2017

218 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

Codificação de Áudio no Padrão Brasileiro de Televisão Digital

Leonardo Alfredo Forero Mendoza

Departamento de Telecomunicações – Universidade Federal Fluminense (UFF)

Rua Passo da Pátria, 156 – São Domingos – CEP 24.210-240 – Rio de Janeiro – RJ – Brasil

[email protected]

Resumo. Este trabalho tem como desafio descrever a codificação de áudio do padrão brasileiro centrando-se em MPEG4 camada três, analisando seu funcionamento e sua codificação de áudio feita por AAC (Advanced Audio Coding) e as vantagens e desvantagens frente aos outros padrões de televisão digital; além de mostrar as ferramentas adicionais que tem frente à AAC MPEG2 .

1. Introdução: A televisão digital foi criada para melhorar a qualidade da imagem, poder transmitir e recepcionar uma maior quantidade de conteúdo e poder ter interatividade com o telespectador além de incorporar novas ferramentas de acessibilidade. O padrão de televisão digital adotado no Brasil é o ISDB-TB uma adaptação do ISDB-T (Integrated Services Digitel Broadcasting Terrestrial), padrão japonês, acrescida de tecnologias desenvolvidas no Brasil. A principal diferença constatada inicialmente após a decisão de se adotar o padrão Japonês para ser utilizado na televisão digital brasileira, em junho de 2006, foi a substituição do formato de compressão MPEG-2 para o MPEG-4. O formato escolhido para áudio foi MPEG-4 com codificação AAC (Advanced Audio Coding) 2.0 , 5.1 canais [4]. O MPEG-4 tem como codificador AAC que foi desenvolvido para ser o sucessor do formato MP3. Sua qualidade é próxima a do CD. Mais adiante explicaremos detalhes técnicos. O AAC é usado atualmente como o formato padrão da APPLE e da Sony Play Station 3. Atualmente dois padrões internacionais de televisão digital que tem como codec principal AAC são o Japonês e o Brasileiro embora o padrão Japonês trabalhe com o formato MPEG2. O objetivo principal deste trabalho é mostrar as principais características do formato de codificação de áudio escolhido para o padrão Brasileiro de televisão e as características pelas quais foi escolhido. Neste trabalho mostraremos as vantagens da codificação de áudio do padrão brasileiro comparando-o com o padrão americano e europeu. O restante do texto esta apresentado da seguinte forma. A secção dois apresenta as características gerais de MPEG4 áudio e suas principais ferramentas.

Page 2: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

O capítulo três se dedica exclusivamente a AAC mostrando e explicando cada uma de seus componentes e características; já o capitulo 4 mostra as ferramentas adicionais que contem o padrão brasileiro de televisão digital, e mostra as principais características pelas quais foi escolhido. 2.MPEG4 Áudio O tradicional sistema de codificação MPEG1 camada 3 mais conhecido como MP3 tem múltiplas aplicações e grande aceitação na internet. MPG4 áudio foi projetado para entrar na mesma filosofia de MPEG4, é permitir novas funcionalidades, trabalhar com linguagem orientada a objetos e a mais inovadora é sua capacidade de trabalhar a baixas taxas de transmissão obtendo excelentes resultados. MPEG4 áudio é definido de tal forma que é completamente compatível com MPEG2 AAC, ele suporta todas as ferramentas definidas em MPEG2 AAC [1], e agrega novas ferramentas como PNS (Perceptual Noise Substitution) para diminuir os efeitos do ruído e LTP (Long Term Prediction) que uma ferramenta de predição e utilizam muito menos poder computacional que MPEG2 com melhores resultados. As ferramentas definidas por MPEG4 codificação de áudio natural podem ser misturadas para diferentes algoritmos de codificação de áudio, desde aplicações a baixas taxas de codificação de sinais de voz até codificação de áudio multicanal de alta qualidade. MPEG4 foi definido para fazer uma ótima codificação, eficiente, e que possa ter uma ampla gama de aplicações [1]. Ao contrário de outros codecs, o MPEG-4 áudio não se concentra apenas num tipo de aplicação bem definida, mas sim num vasto número de aplicações que vão desde a “simples” telefonia até ao áudio de alta qualidade [2]. As vantagens de MPEG4 são: é possível usá- lo em streaming com atrasos muito baixos, qualquer fabricante pode introduzir melhoramentos na codificação, logra um áudio de qualidade razoável a taxas de bits muito baixas como 32Kbits/s, tem ferramentas diferentes para objetos diferentes e codificação de voz de altíssima qualidade. A desvantagem principal que tem MPEG4 é sua complexidade, o que faz que seja lento. Uma das grandes novidades é a ferramenta que tem MPEG4 em áudio sintético e codificação paramétrica. Os padrões modernos para codificação de áudio natural usam modelos perceptivos para comprimir o som. Na codificação de som sintético, os modelos perceptivos não são usados. Em vez disso, modelos paramétricos muito específicos são usados para transmitir as descrições do som. As descrições são recebidas no decodificador e convertidas em som por síntese do som em tempo real. 2.1 Ferramentas de Áudio MPEG4

Page 3: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

Áudio Natural Áudio genérico Suporte para codificação do áudio genérico de taxa de transmissão muito baixa até alta qualidade é possível graças a análise do áudio como se este se tratasse de um conjunto de objetos (na realidade é mesmo isto que acontece). Com esta funcionalidade, um vasto número de taxas de transmissão de bits e larguras de banda é coberto. Qualidade elevada pode ser alcançada com atrasos mínimos. Fine Granularity Scalability (escalabilidade em pequenos saltos de taxa de transmissão) permite que a resolução de taxa de transmissão seja tão baixa como 1 kbit/s por canal). Fala A codificação de fala pode ser feita com taxa de transmissão de 2 kbit/s até 24 kbit/s usando as ferramentas de codificação de fala. Taxas de transmissão mais baixas, tal como uma média de 1.2 kbit/s, são também possíveis quando a codificação de taxa variável (VBR) é utilizada. A diminuição do atraso é também possível para aplicações de telecomunicações [1].

Áudio sintético Áudio Estruturado (SA- Structured Audio) É uma linguagem utilizada para descrever “instrumentos” (pequenos programas que geram som) e “scores” (entradas que geram esses sons). Estes objetos não são necessariamente instrumentos musicais, eles são na sua essência fórmulas matemáticas, que podem gerar o som de um piano, de uma queda de água – ou algo 'não ouvido' na natureza. Os formatos de áudio estruturado usam algoritmos de modelos de som de taxa de transmissão ultra baixo para codificar e transmitir som. MPEG-4 padroniza uma linguagem de som de algoritmos e várias ferramentas relacionadas para a codificação de estruturada de áudio objetos. As técnicas de áudio estruturado em MPEG-4 permitem a transmissão de música sintética e efeitos de som a taxas de transmissão 0.01 a 10 kbps, e também a descrição precisa da pós-produção de som paramétrico (relativo a um parâmetro já existente) para a mistura dos vários fluxos e adição de efeitos para as várias cenas de áudio. Fala Sintética Usam-se codificadores TTS (Text-to-Speech) em que a taxa de transmissão varia de 200 bit/s a 1.2 Kbit/s. O TTS gera fala quando introduzimos um texto na sua entrada. As ferramentas de codificação utilizadas por MPEG4 [1] são as seguintes:

• Codificação de Áudio Natural:

Page 4: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

– MPEG-2 AAC – SBR: Spectral Band Replication – CELP: Code Excited Linear Prediction

? Codificação paramétrica: – HVXC: Harmonic Vector Excitation Coding – HILN: Harmonic, Individual Line + Noise

? Áudio Sintético: – M-TTS: MPEG Text To Speech – SAOL: Structured Audio Orchestra Language – SASL: Structured Audio Score Language – SASBF: Structured Audio Sample Bank Format – MIDI: Musical Instruments Digital Interface.

.

2.2 Perfis de Áudio MPEG4 Os perfis de áudio definidos em MPEG4 são [1]: - Perfil de Fala utiliza HVXC, que é um codificador de fala de muito baixa taxa de transmissão e paramétrico, um codificador CELP de banda estreita ou banda larga, e uma interface Texto-para-Fala. - Perfil de Síntese utiliza uma síntese guiada por “scores” usando SAOL (Structured Audio Orchestra Language) mais wavetables, e, também uma interface Texto-para-Fala. Ambas servem para gerar som e fala a taxas de transmissão baixas. - Perfil Escalável é utilizado para codificação escalável de fala e música para redes como a Internet e transmissão digital de áudio de banda estreita. As taxas de transmissão variam entre 6 Kbit/s e 24 Kbit/s, com larguras de banda entre 3.5 e 9 kHz. -Perfil Principal é um conjunto de todos os outros perfis, que contém ferramentas para áudio sintético e natural. Outros quatro Perfis foram adicionados em MPEG-4 versão 2: -Perfil de áudio de alta qualidade contém o codificador de fala CELP e o AAC de Baixa Complexidade incluindo predição em longo prazo. A codificação escalável pode ser executada pelo tipo de objeto “Scalable AAC”. Opcionalmente, o minimizador de erros (ER-error resilient) que não é mais do que uma sintaxe de taxa de transmissão pode ser usado. - Perfil de baixo atraso (Low Delay) contém os codificadores HVXC e CELP (opcionalmente usa a sintaxe de bitstream de ER (error resiliance), o codificador AAC de baixo atraso e a interface Texto-para-Fala(TTSI). -Perfil de áudio natural contém todas ferramentas de codificação de áudio natural disponíve is em MPEG-4, mas não as sintéticas.

Page 5: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

-Perfil Móvel de áudio entre redes (MAUI- Mobile Audio Internetworking Profile) contém os tipos de objeto AAC escalável e de baixo atraso incluindo TwinVQ e BSAC. Nesta monografia daremos ênfase na codificação AAC que é a utilizada no padrão ISDB-TB, e faremos uma comparação com os métodos de codificação de áudio dos outros padrões de TV digital. 3. AAC (Advanced Audio Coding) O AAC é um codificador para áudio digital comprimido com perdas. Foi desenhada para substituir MP3. Foi desenvolvido com a cooperação e contribuição de Fraunhofer IIS, AT&T Bell Laboratories, Dolby, Sony Corporation e Nokia, esta oficialmente declarada e padronizada internacionalmente pelo Moving Pictures Experts Group (MPEG) para MPEG-2 fico padronizada como parte 7 e para MPEG-4 ficou padronizada como parte 3 [2]. O AAC explora duas principais estratégias para reduzir drasticamente a quantidade de dados necessários para representar áudio digital de alta qualidade. A primeira é que os componentes do sinal perceptualmente irrelevantes são descartados e a segunda é que as redundâncias na codificação de áudio são eliminadas. Foi inicialmente desenvolvido com o objetivo de atingir uma maior qualidade que o anteriormente criado MP3. O AAC segue essencialmente os mesmos padrões base de codificação que o MPEG-1 Layer III, mas usa novas ferramentas de codificação de forma a conseguir taxas de transmissão mais baixas mantendo a qualidade. A AAC tem uma abordagem modular para a codificação. O AAC oferece quatro perfis padronizado com ferramentas especificas dependendo da aplicação e o desempenho desejado: 1- Low Complexity (LC), 2-MAIN, 3-Scalable Sample Rate (SSR), 4-Long Term Prediction (LTM) [9]. A figura 1 mostra um diagrama de blocos do codificador MPEG-2 AAC. O codec é modular, ou seja, está dividido em módulos, que podem ser ativados ou desativados durante o processo de codificação/decodificação, dependendo da complexidade e do perfil a utilizar. O princípio básico da divisão de banda continua a ser aplicado, seguido pela introdução de compressão preditiva, que a nível temporal ou a nível espectral, são codificados por Huffman. É a mesma estrutura principal utilizada no MPEG-4. As ferramentas adicionais são explicadas neste capitulo.

Page 6: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

Figura 1 Diagrama do codificador AAC 3.1 Ferramentas do codificador AAC Nesta seção explicaremos as ferramentas que compõem a codificação AAC [2] 3.1.1Banco de filtros Uma das principais funções de cada codificador é transformar o sinal de áudio recebido no domínio do tempo para o domínio da freqüência. A transformação padrão utiliza Transformada Discreta do Co-seno Modificada (MDCT) que suporta blocos de 256 a 2048 amostras, as quais podem ser chaveadas dinamicamente como se mostra na figura 2, antes de aplicar na transformada o sinal é janelado pela técnica de Kaiser Bessel. A vantagem desta transformada é que todos os blocos são sobrepostos de 50% com o bloco anterior e com o bloco seguinte. Isso se mostra na figura 2 nas janelas temporais superpostas, o resultado desta sobreposição é evitar o efeito bloco isso significa que se perde a sincronia. Os blocos de saída são a metade dos de entrada, de 128 a 1024 coeficientes [3]. No perfil SSR que e um dos modos de codificação de AAC a MDCT é precedida por um bloco de 4 bandas uniformemente espaçadas, um filtro poli- fasico e um modulo de controle de ganho. O controle pode atenuar o ganho ou amplificar a potência.

Page 7: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

Figura 2 Banco de Filtros

3.1.2 Temporal Noise Shaping, (TNS): Temporal Noise Shaping (TNS) é uma novidade de MPEG4 AAC e uma inovação na codificação perceptual de áudio. Foi introduzido pela primeira vez em 1996. Ele é uma etapa básica de um codificador perceptual, neste caso de AAC, e se encontra entre a fase do banco de filtros e a fase da quantização isso se faz para aperfeiçoar o codec. A técnica é baseada em duas cons iderações: 1-consideração da dualidade de tempo e freqüência 2- modelar o espectro do ruído de quantização por meio de uma codificação preditiva de open- loop. TNS utiliza a dualidade tempo e o domínio da freqüência , ele faz uma previsão no domínio da freqüência e modela o ruído quantizado ao longo do tempo. Ele aplica um filtro ao espectro original e quantiza este sinal filtrado como se mostra na figura 3. Estes coeficientes quantizados são transmitidos no fluxo de bits. Eles são utilizados também no decodificador para fazer a transformada inversa.

Figura 3 Temporal Noise Shaping

Page 8: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

3.1.3 Prediction Ferramenta de predição adaptativa de coeficientes espectrais ao longo do tempo, que tem o objetivo de remover a correlação entre amostras, isto é, remover redundâncias contidas no áudio em amostras sucessivas, tendo uma maior eficiência em sinais estacionários. Tem dois estágios: -Módulo de codificação preditivo intra-bloco: Este módulo tenta reduzir a redundância entre os coeficientes das freqüências para um dado bloco através do uso de predições. Recebe cada coeficiente de freqüência por ordem e tenta prever o que vai acontecer nesse bloco. À predição é subtraído o valor real, enviando apenas o resíduo, que pode ser zero no caso de um sinal ser completamente previsível. No decodificador, um processo de predição análogo reconstrói o sinal. -Módulo de codificação preditivo inter-bloco:Este módulo está relacionado com o módulo de codificação preditivo intra-bloco, mas, adicionalmente, consegue encontrar redundância em sinais estacionários dos coeficientes de freqüência discretos sobre blocos sucessivos, usando predição baseada nos 2 blocos anteriores (após terem sido quantificados) e enviando apenas o resíduo. São criadas bandas de fatores de escala dos coeficientes para serem multiplicados posteriormente na re-quantificação, pelo mesmo fator de escala. Este módulo pode ser ativado ou desativado em cada banda de fator de escala, dependendo do ganho resultante ou não na codificação. Os dois processos de predição estão ligados e são ocasionalmente repostos de forma a evitar deslocamentos e erros em bits. 3.1.4 Intensity\Coupling Este é um módulo opcional e usado para ritmos binários muito baixos. Sua função é remover a informação espacial presente para manter a distorção baixa e enviar os códigos das amplitudes para a reconstrução do sinal na decodificação. Para isso trabalha com várias ferramentas. Insere-se na ferramenta Joint Channel Coding Tool para ritmos binários baixos, e faz uso da técnica “Intensity Stereo” (IS). Esta faz com que a codificação estéreo só seja transmitida num canal, obtendo assim um fluxo de áudio mono e uma posição estéreo, que por sua vez consiste em coeficientes espectrais divididos em blocos, tornando a codificação de informação estereo eficiente. O coupling permite que os dados de um canal sejam combinados com dados de outro. 3.1.5 Perceptual Noise Substitution É uma ferramenta exclusiva de AAC MPEG4. A ferramenta tem como função ter maior otimização e eficácia com taxas de transmissão baixa. É baseado no princípio “um ruído soa como os outros”, ou seja, que a estrutura do ruído não é tão importante como a percepção do sinal por issó em alternativa à transmissão de todas as componentes espectrais de um sinal com ruído, indica apenas a freqüência que tem ruído e dá a informação sobre a potência nessa banda. Na figura 4 é mostrada a estrutura desta ferramenta. .

Page 9: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

Figura 4 Perceptual Noise Substittution

3.1.6Codificação middle/side Ferramenta de codificação da soma e diferença de dois canais de áudio. Compressão obtida a partir do envio apenas da soma ou da diferença dos dois, isto é, os canais middle e side que são o resultado dessa soma e diferença respectivamente. Esta ferramenta mantém ainda inalterado o áudio não introduzindo qualquer tipo de artefato ao sinal, ao contrário do que acontece no Intensity Stereo. 3.1.7 Escalador e Quantizador Ferramenta que permite a quantização de coeficientes espectrais usando um procedimento de análise por síntese aproximada, para que o ruído quantizado seja pouco perceptível ou mascarado. A quantização adaptativa dos valores espectrais é a principal fonte de redução da taxa de bits em todos os codificadores. Ela dá uma quantidade de bits de acordo com a taxa de precisão exigida pelo modelo perceptual, uma de suas características é que é não linear, o que favorece que modele o ruído que também é não linear de uma forma mais fiel.

3.1.8 Codificação sem perdas

Ferramenta que faz uso do método de codificação de Huffman por ser mais flexível e utiliza os quádruplos das linhas de freqüência. É preferível em certos casos converter o sinal para midle\side antes de quantificar dada a sua informação espacial. Assim, é esta ferramenta que decide de que modo codifica para obter maior ganho de codificação. Em AAC, a codificação de Huffman opera com quádruplos das linhas de freqüência mais frequentemente. O uso das tabelas de codificação de Huffman para codificar partições pode ser muito mais flexível.

3.1.9 Scalefactors

Embora o sinal passe pelo módulo de noise shaping que modela o ruído isso não é suficiente para atingir uma qualidade de áudio aceitável.

Para melhorar a qualidade subjetiva do sinal codificado o ruído da sinal é modelado através de fatores de escala. Eles trabalham da seguinte forma, Scalefactors são

Page 10: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

utilizados para amplificar a sinal em determinadas regiões do espectro para aumentar a relação sinal ruído nestas bandas.

3.1.10 Bitstream Formatter

Bloco onde são agregados os coeficientes quantizados e codificados, e os parâmetros de controle para a transmissão.

3.2MODOS DE CODIFICAÇÃO

Dado que a codificação de áudio se faz de forma modular, dependendo da qualidade final desejada e da complexidade do fragmento de áudio a codificar, pode através de uma combinação das ferramentas, obter quatro modos de codificação áudio permitidos pelo AAC [1]:

-Main Profile: utiliza todas as ferramentas disponíveis, necessitando de muita memória e capacidade de processamento para atingir uma qualidade elevada;

-Low Complexity: Modo simples e muito utilizado para diminuir significativamente o uso da memória e do processamento, embora com menor qualidade final e taxa de compressão;

-Scaleable Sample Rate Profile: O áudio é dividido em 4 bandas de freqüência discreta, adaptando-se a diversas larguras de banda. Este modo tem menor complexidade;

-Long Term Prediction: Modo semelhante ao Main Profile, mas com baixa complexidade; utiliza forward predition.

Figura 5 Distribuição dos Recursos num Codificador Low Complexity

A Figura 5 ilustra a demanda computacional de um codificador Padrão de AAC a trabalhar no modo Low Complexity (que é o modo mais comum e mais usado), a codificar a 64 kbps com freqüência de amostragem de 44,1 kHz (qualidade CD). Observa-se que os dois módulos mais exigentes a nível computacional são o módulo psicoacústico e o módulo de quantização. Com efeito, são estes os dois módulos que

Page 11: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

têm sido mais estudados com vista a sua otimização e a conseqüente otimização do codificador.

4- Sistema Brasileiro de Televisão Digital ISDB-TB

Nesta parte da monografia nos centraremos no sistema de televisão mostrando suas normas atuais e explicando os componentes destas normas e mostrar as propostas feitas pelo SBTVD.

O padrão de televisão digital adotado no Brasil é o ISDB-TB uma adaptação do padrão japonês ISDB-T (Integrated Services Digitel Broadcasting Terrestre) acrescida de tecnologias desenvolvidas no Brasil.

Para a eleição do codificador de áudio se teve em conta o codificador MPEG4 AAC por varias razões, por seu bom desempenho, por suportar todas as ferramentas do MPEG2 AAC que é o codificador do sistema japonês e além de oferecer ferramentas adicionais para baixas taxas de transmissão.

A Associação Brasileira de Normas Técnicas (ABNT) elaborou 13 normas que regulam o sistema brasileiro de televisão digital. A norma que nos compete é ABNT NBR 15602-2:2007 onde se encontra a norma sobre a codificação de áudio. Esta norma estabelece que os perfis obrigatoriamente permitidos pelo padrão MPEG 4 AAC são [4]:

-LC (Low Complexity) perfil básico do padrão AAC níveis L2 e L4;

-HE (High efficiency), perfil avançado de alta eficiência, combinando o perfil LC com o uso da ferramenta SBR (Spectral Band Replication) para versão 1 deste perfil níveis L2 e L4.

-HE combinado a ferramenta PS (parametric stereo) para versão 2 deste perfil nível L2.

Vamos explicar estas ferramentas que estão inclusas no ISDB-TB.

4.1 Ferramentas e Perfis Adicionais de ISDB-TB

4.1.1 HE (High eficient):

É uma técnica de compressão de áudio com perdas feita para sistemas de áudio digital. É uma extensão do perfil Low Complexity (LC) já estudado na seção anterior.

Em resposta a um convite feito pelo MPEG a apresentação de propostas sobre novas ferramentas de codificação de áudio aumentando a eficiência para taxas baixas de bit 24 Kbit/s, dois projetos foram estudados. O primeiro utilizava a ferramenta SBR e o segundo tinha uma melhor qualidade de áudio com a ferramenta PS. O trabalho com SBR foi concluído no ano 2003 e especificada a primeira versão de HE AAC.

O trabalho que incluía PS com alta qualidade de áudio foi concluído em 2004 e se converteu na segunda versão de HE AAC e foi uma revolução por sua qualidade a 24kbits[10].

Page 12: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

As aplicações alvo de HE AAC são a televisão digital e a televisão móvel principalmente por suas taxas de transmissão baixas. O codificador tem sido adaptado a muitos padrões. Além do ISDB-TB, o codificador é de especial interes se em combinação com H264 vídeo e é obrigatória para a maioria de novas plataformas de áudio.

HE AAC suporta uma ampla gama de taxas de compressão e várias configurações variando de mono ao estéreo a uma taxa típica em HE AAC versão dois de 32Kbits/s e para 5.1 canais a taxas de 160Kbits/s[10].

A versão um utiliza SBR para aumentar a eficiência na compressão de freqüências de domínio e a versão dois usa PS para aumentar a eficiência de sinais estéreos. A figura 6 mostra a arquitetura típica do codificador HE AAC em suas duas versões.

Figura 6 Arquitetura HE AAC e limites de operação das tecnologias

4.1.2 Spectral Band Replication (SBR)

O SBR (Spectral Band Replication) é essencialmente um pós-processamento, embora algum pré-processamento seja executado no codificador para guiar o processo de decodificação [10]. Quando usado em conjunto com PS, o codec original só é responsável por transmitir a parte mais baixa do espectro. Em vez de transmitir todo o espectro, o SBR reconstrói as freqüências mais altas no decodificador baseado numa análise das freqüências mais baixas transmitidas pelo codec original como se vê na figura 7.

Page 13: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

Além disto, para assegurar uma reconstrução precisa, alguma informação de orientação é transmitida no bitstream codificado a uma taxa de transmissão muito baixa. Coding Technologies (empresa detentora da patente) anuncia ganhos de 30% em relação ao MPEG-4 AAC. Teoricamente, baixa a taxa para 48 kbit/s mantendo a qualidade anteriormente obtida a 64 kbit/s.

Fig 7 SBR

4.1.3 Parametric Stereo (PS)

É um recurso utilizado por AAC para reforçar a eficiência em larguras de banda baixas em mídia estéreo. PS é uma técnica eficiente que codifica um sinal estéreo em duas componentes: uma componente monofásica e outra com os parâmetros estéreo do sinal como vemos na figura7. A sinal monofásico é codificado usando um mono áudio encoder e os parâmetros estéreo são quantizados e codificados. Logo os dois são misturados e enviados por um fluxo de bits [10].

Page 14: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

Figura 8 Encoder PS

No decodificador o primeiro sinal decodificado é o monofásica depois o sinal estéreo é reconstruído com ajuda dos parâmetros estéreo como se mostra na figura 9.

Figura 9 Decoder PS

4.2 Proposta SBTVD

SBTVD foi um grupo especial criado para se responsabilizar pelos estudos que definiriam o padrão a ser adotado no país. Após estudos conduzidos juntamente com universidades e companhias de comunicação se chegou a conclusão de adaptar o sistema japonês como padrão para Brasil por sua portabilidade permitindo a difusão da televisão digital em celulares além de ter alta definição e interatividade.

Nesta seção veremos os pontos básicos discutidos pelo SBTVD na parte de codificação de áudio.

As alternativas de codecs de áudio estudadas para o padrão brasileiro de televisão digital foram MPEG1 camada I /II /III, MPEG2 camada I /II /III, MPEG 2 AAC LC / MAIN / HE, AC-3, DTS, Ogg Vorbis. Estas tecnologias foram estudadas por estarem presentes em muitos equipamentos de áudio, se fizeram testes para saber qual era o mais apropriado. Os dois melhor qualificados forem AC-3, MPEG AAC[7].

No informe final o grupo SBTVD recomendou MPEG2 AAC com perfil LC com freqüências de amostragem 32KHz, 44.1KHz e 48KHz; os canais de amostragem suportados tinham que ser 5.1 quer dizer três canais frontais, 2 canais traseiros e um canal de baixas freqüências: canal esquerdo frontal (LF), canal Direito (Rf), canal central (C), canal envolvente traseiro (Ls), canal direito envolvente traseiro (RS), canal de baixas freqüências (LFE).

Page 15: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

O MPEG AAC foi o segundo qualificado nos testes feitos. Ele foi escolhido por vários motivos, os mais influentes foram a quantidade de equipamentos de áudio que suportam AAC e outro que o padrão de televisão japonês que foi a base do ISDB-TB estava especificado com AAC. Na definição final teve uma mudança que foi a escolha do MPEG4 AAC que como vimos anteriormente suporta todas as ferramentas de MPEG2 AAC e inclui ferramentas novas que melhoram a codificação de áudio a taxas baixas.

4.3 Codificação de áudio para receptores Full-seg One seg

Para receptores de áudio forem padronizados dois tipos o full-seg one-seg [3]

4.3.1 Full-seg

Dispositivo capaz de decodificar informações de áudio, vídeo e dados contidas na camada do fluxo de transporte de 13 segmentos, destinada ao serviço fixo (indoor) e móvel. A classificação full-seg é aplicada aos conversores digitais, também conhecido por settop box, e aos receptores de 13 segmentos integrados com tela de exibição, mas não exclusivos a estes. Este tipo de receptor é capaz de receber e decodificar sinais de televisão digital terrestre de alta definição e, a critério do fabricante, também receber e decodificar informações transportadas na camada “A” do fluxo de transporte, aplicada para os serviços direcionados aos receptores portáteis, definidos como one-seg. 4.3.2 One-seg Dispositivo que decodifica exclusivamente informações de áud io, vídeo e dados contidas na camada “A” locada no segmento central dos treze segmentos. A classificação one-seg é destinada aos receptores do tipo portátil, também conhecidos por “handheld”, especialmente recomendados para telas de exibição de dimensões reduzidas, normalmente até 7 polegadas. Entre os produtos classificados como one-seg, estão os receptores integrados com telefone celular, PDA, dongle e televisores portáteis, os quais são energizados por uma bateria interna e, portanto, sem necessariamente demandar uma fonte externa de energia, bem como aqueles destinados a veículos automóveis. Este tipo de receptor é capaz de receber e decodificar apenas sinais de televisão digital terrestre transportado na camada “A” do fluxo de transporte e, conseqüentemente, apenas sinais de perfil básico, destinados aos dispositivos portáteis de recepção. 4.3.3 Diferenças de codificação Full seg One seg: Para serviços full-seg trabalha se com dois perfis LC e dois HE um para dois canais e um multicanal, como se mostra na tabela 1. A norma recomenda para transmissão de alta fidelidade perfil/nível AAC@L4. Para serviços one-seg a norma indica que versão 2 do MPEG-4 AAC-HE é obrigatória a transmissão para dispositivos portáteis e também é obrigatória para dispositivos fixos e móveis, se estes forem recuperar o serviço one-seg, como se mostra na tabela 2. A diferença principal entre os dois serviços é que o serviço one–seg recebe perfil HE, já que ele suporta uma ampla gama de taxas de compressão é esta feito para dispositivos moveis o receptor tem que ser capaz de processar as duas ferramentas PS e SBR. O serviço full-seg é menos complexo e precisa oferecer menos processamento que one-seg mais para alta fidelidade tem que suportar perfil HE e quando o serviço multicanal este disponível tem que ser capaz de processar o sinal através de downmixing.

Page 16: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

Tabela 1 Principais parâmetros do sistema de codificação de áudio

Serviços Full-seg

Tabela 2 Principais parâmetros do sistema de codificação de áudio

Serviços One-seg

4.4 Codificadores de Áudio Apresentados Pelos Padrões de Televisão Digital

Na Tabela 1 mostramos as diferentes opções que oferecem os sistemas de televisão digital em termos de qualidade, modulação, codificação de áudio e vídeo e interfaces com o middleware.

Tabela 3 Sistemas de codificação usados nos diferentes sistemas de televisão digital.

Page 17: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

Em codificação de áudio os padrões usados são o ATSC mais conhecido como padrão americano, o brasileiro que codifica em MPEG4 AAC que inclui umas ferramentas adicionais a MPEG2, o padrão europeu trabalha a codificação de áudio em MPEG2 BC e o japonês MPEG2 ACC.

O mais antigo de todos os padrões é o americano ao continuação se explicara o codificador AC-3 por ser o melhor qualificado nos testes prévios para a escolha do codificador para o padrão brasileiro.

4.4.1 Codificação de Áudio AC-3 Sistema de Televisão Digital ATSC

AC-3 também conhecido como Dolby Digital pela empresa encarregada de sua criação a Dolby Laboratories é o codificador de áudio usado pelo sistema de televisão digital americano e é um de seus pontos mais fortes em comparação com os outros formatos de televisão digital.

AC-3 é muito conhecido por ser o mais utilizado nos filmes de DVD. Destaca-se pelo sistema que permite armazenar áudio em múltiplos canais independentes, tem capacidade para 6 canais de áudio em sua versão 5.1. A seguir descreveremos brevemente o processo e codificação de áudio de AC-3[6].

Figura 10 codificador AC-3

AC-3 utiliza Pulse Code Modulation (PCM) e produz um fluxo de bits com este padrão. O codificador é definido como um codificador de alto ganho. O primeiro passo do algoritmo é a transformação da representação de áudio como se mostra na figura 10 para uma seqüência de amostras PCM e logo em uma seqüência de blocos de coeficientes de freqüência. Isso é feito no bloco de filtros. As superposições de blocos de 512 amostras de tempo se multiplicam por uma janela de tempo e se transformam no domínio da freqüência. A representação do domínio da freqüência pode ser reduzida por um fator de dois de maneira que cada bloco contenha 256 amostras. Os coeficientes de freqüência são representados em binário e com mantissa. O conjunto de expoentes é codificado em uma representação grossa do espectro do sinal. A isso faz referência o bloco do

Page 18: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

envelope espectral, este envelope espectral é usado pela rotina de alocação de bit, que determina quantos bits utilizasse para codificar cada mantissa; ela quantiza mantissas para 6 blocos (1536 amostras de áudio por canal). O codificador é muito mais complexo, mas isso é a parte principal do codificador. Estas são algumas das características do codificador [6]: - O decodificador tem um detector de erros que verifica se os blocos recebidos estão livres de erros. -No banco de filtros a resolução pode ser modificada dinamicamente ao fim de adaptar se melhor a freqüência de cada bloco de áudio recebido. -A função mais complexa do codificador é alocação de bits. Isso pode ser otimizado modificando os parâmetros dependendo das características dos blocos de áudio recebidos. -Os canais podem ser acoplados em conjunto em altas freqüências, a fim de alcançar um maior ganho de codificação para a operação em baixas taxas de bits. 4.4.2 Comparação entre AC-3 e AAC Para esta comparação se teve em conta só Brasil e os estudos e conclusões a que chegou o Ministério de Comunicações para não incluir AC-3 como padrão de codificação de áudio no Brasil [5]. Os pontos a favor do AC-3 é que ao uma grande base instalada, sobretudo nos DVD´s e apresenta um áudio superior que MPEG2 BC. Entre AC-3 e AAC, AAC com 5.1 canais é o que apresenta o melhor desempenho e a melhor eficiência de codificação. AAC tem base instalada pequena, mas está crescendo rapidamente [5]. Ao final se chegou à conclusão que indiferentemente das vantagens ou desvantagens que apresentavam os dois (que como se disse na seção 4.2 foram as duas melhores qualificadas pelo SBTVD) não são suficientes para justificar a adoção de um padrão de áudio separado do seu respectivo sistema de transmissão, isso significa que dependendo do sistema que fosse escolhido no Brasil dependeria a escolha do codificador de áudio. 4.4.3 MP3 MPEG I layer III mais conhecido como MP3 é um dos formatos de compressão de áudio mais usados atualmente devido a sua facilidade de uso, sobretudo na web. Isso se deve à necessidade da troca de pacotes através da internet o que era muito difícil com os formatos de codificação anteriores a MP3. Foi desenvolvido para reduzir significativamente a quantidade de informação necessária para representar um arquivo de áudio, tornando-o mais compacto, mantendo o mesmo nível de qualidade auditiva. O MP3 explora as propriedades perceptuais do sistema auditivo humano, tendo como base o modelo psicoacústico [9]. Esta tecnologia permite obter níveis de compressão de até 12 vezes com custo de maior complexidade tanto no processo de codificação como no de decodificação. A codificação de MP3 mais simples usa uma faixa de transmissão constante para todo o ficheiro, o que torna a codificação mais rápida. No entanto, é possível criar arquivos em que a taxa de transmissão é variável. Algumas partes do áudio são mais fáceis de comprimir, nomeadamente os momentos de silêncio ou música com apenas alguns

Page 19: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

instrumentos, enquanto que outras são mais difíceis de comprimir. Pode-se aumentar a qualidade do arquivo comprimido usando uma taxa de transmissão mais baixa no primeiro caso, enquanto que no segundo uma taxa de transmissão mais elevada.

Figura 11 Codificador MP3

O MP3 usa um algoritmo de compressão composto com perdas composto por Modelo psicoacústico, filtro com 32 sub-bandas, Transformada do co-seno modificada (MDCT), quantização e codificação de Huffman como se observa na figura 11. Apesar de todas as vantagens descritas anteriormente em relação à norma MP3 esta tem algumas limitações que restringem a eficiência do código quando comparada com outras normas. MP3 não pode permutar o modo Join Stereo entre as diversas bandas. Depois de especificado um modo (Intensity Stereo ou MS Stereo) para uma determinada banda, esse é mantido para todas as bandas, o que por vezes leva a uma codificação menos eficiente. Outro inconveniente é que não tem ferramentas adicionais . 4.4.4 Melhoras do AAC sobre MP3 AAC foi inicialmente desenvolvido com o objectivo de atingir uma maior qualidade que o anteriormente criado MP3. O AAC segue essencialmente os mesmos padrões base de codificação que o MPEG-1 Layer III, mas usa novas ferramentas de codificação de forma a conseguir taxas de transmissão mais baixas mantendo a qualidade [8]. Algumas das melhorias do AAC sobre MP3 são:

Page 20: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

? Mais frequências de amostragem (AAC: de 8 kHz a 96 kHz; MP3: de 16 kHz a 48 kHz);

?? Permite o uso de até 48 canais, enquanto o MP3 apenas suporta o uso de dois canais;

? Maior eficiência e um banco de filtros mais simples (híbrido ? MDCT pura);

? Maior eficiência na codificação quer de sinais estacionários, quer de sinais transitórios;

? Consegue codificar melhor áudio com frequências abaixo dos 16 kHz;

? Joint Stereo mais flexível;

? Novas ferramentas que aumentam a eficiência de compressão, como por exemplo, TNS, PNS, LTP, etc.

Outras das vantagens do AAC são permitir uma maior flexibilidade no que diz respeito ao design e à concepção dos codificadores de áudio. Este fato, muitas vezes, leva a uma maior concorrência nas estratégias de codificação e, como conseqüência, a uma compressão mais eficiente.

Apesar das suas limitações, o MP3 tem se mostrado extremamente robusto, sendo um dos métodos de codificação mais utilizados. Quando comparado com o AAC, a taxas superiores a 128 kbps, verifica-se que o MP3 apresenta uma qualidade semelhante ao AAC. A maior diferença entre eles regista-se para taxas binárias menores que 128 kbps, onde o AAC tem uma melhor performance que o MP3.

Page 21: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

5-Conclusões

O Brasil graças à data em que foi decidido o padrão de televisão brasileira teve a vantagem de poder escolher como codificador de áudio o MPEG4 AAC, que suporta o MPEG2 AAC, o codificador de áudio usado no padrão japonês (que foi a base do sistema brasileiro) e além disso oferece novas ferramentas que ajudam à transmissão de áudio em taxas baixas e a integração a objetos a novidade de MPEG4.

O sistema MPEG4 AAC é superior em desempenho que os outros codificadores do mercado sua grande vantagem tem sido o crescimento de sua plataforma a nível mundial nestes últimos anos e a maioria de equipamentos a suportam. Sua grande desvantagem é que por reunir grande quantidade de ferramentas exige mais poder computacional.

O AAC não só foi o escolhido por seu desempenho já que nas provas feitas o melhor qualificado AC-3. A razão mais forte foi fazer parte do padrão japonês o qual fazia mais fácil aplicar uma tecnologia ISDB no Brasil.

Page 22: Codificação de Áudio no Padrão Brasileiro de Televisão Digital

6- Referências

[1] Karlheinz Branderburg, Oliver Kunz, “MPEG-4 Natural Audio Coding”, 2000 Elsevier Science B.V. 0923-5965.

[2] Karlheinz Brandenburg, “MP3 and AAC explained” Fraunhofer Institute for Integrated Circuits FhG-IIS A, Erlanger, Germany, pp. 1 http://www.searchterms.com [3] ABNT NBR Televisão digital terrestre “Codificação de vídeo, áudio e multiplexação Parte 2: Codificação de áudio” 15602-2 30/11/2007. [4] ANATEL “Relatório Integrador dos Aspectos Técnicos e Mercadológicos da Televisão Digital (Versão 1.0)” recomendações Áudio 2001 http://sistemas.anatel.gov.br/SACP/DocSite/acontece_anatel/Consulta/2001/consulta_291/CM_CP291_DOLBY.pdf. [5] Advanced Television Systems Committee, Inc.” Digital Audio Compression Standard (AC-3, E-AC-3). Document A/52B, 14 June 2005. [6] SBTVD “Especificação técnica de referencia” Projeto Brasileiro de televisão digital OS 40544, http://sbtvd.cpqd.com.br/ 2006. [7] Ashish Aggarwal, Shankar L. Regunathan and Kenneth Rose “TRELLIS-BASED OPTIMIZATION OF MPEG-4 ADVANCED AUDIO CODING” University of California, Santa Barbara, 0-7803-6416-3/00/2000 IEEE [8] http://www.mpeg.org aceso 8 de novembro 2008

[9] Jürgen Herre and Martin Dietz “MPEG-4 High-Efficiency AAC Coding” IEEE SIGNAL PROCESSING MAGAZINE [142] MAY 2008