representação de Áudio e imagem

34
UNIVERSIDADE FEDERAL DE SANTA CATARINA CENTRO TECNOLÓGICO SISTEMAS DE INFORMAÇÃO REPRESENTAÇÃO DE ÁUDIO E IMAGEM FELIPE DE SOUZA DA COSTA FLORIANÓPOLIS 2013

Upload: fee-kosta

Post on 04-Jun-2015

532 views

Category:

Technology


7 download

DESCRIPTION

Este trabalho tem como intuito descrever como se dá a representação de um sinal de som ou de imagem na sua forma analógica para uma forma digital, que posteriormente será armazenada em um computador ou em dispositivos afim. Tais como características e processos para a digitalização de um arquivo. Abordando conceitos simples, como tipos de arquivos e suas características e alguns conceitos mais complexos como teorema de Nyquist, amostragem e quantização.

TRANSCRIPT

Page 1: Representação de Áudio e Imagem

UNIVERSIDADE FEDERAL DE SANTA CATARINA CENTRO TECNOLÓGICO

SISTEMAS DE INFORMAÇÃO

REPRESENTAÇÃO DE ÁUDIO E IMAGEM

FELIPE DE SOUZA DA COSTA

FLORIANÓPOLIS

2013

Page 2: Representação de Áudio e Imagem

RESUMO Este trabalho tem como intuito descrever como se dá a representação de um sinal de som ou de imagem na sua forma analógica para uma forma digital, que posteriormente será armazenada em um computador ou em dispositivos afim. Tais como características e processos para a digitalização de um arquivo. Abordando conceitos simples, como tipos de arquivos e suas características e alguns conceitos mais complexos como teorema de Nyquist, amostragem e quantização. Palavras-chave: Conversão Digital/Analógica, Amostragem, Quantização, Tipos de Áudio, Tipos de Imagem, Compressão.

Page 3: Representação de Áudio e Imagem

LISTA DE FIGURAS Figura 1 - Uma onda sonora, em cinza, representada digitalmente em vermelho.......7 Figura 2 - Sinal analógico de um som...........................................................................7

Figura 3 - Conversor Analógico/Digital..........................................................................8

Figura 4 - A onda de baixo é amostrada a uma taxa que é o dobro da da onda de cima. ............................................................................................................................ 9 Figura 5 - Onda contínua e amostragem .................................................................. 10 Figura 6 - Especto de modulação de amplitude..........................................................11

Figura 7 - Cabeçalho de um arquivo WAV..................................................................14

Figura 8 - Cabeçalho de um arquivo AIFF.................... ..............................................15

Figura 9 - Cabeçalho de um arquivo MP3...................................................................18

Figura 10 - Representação de uma imagem Bitmap ................................................. 20 Figura 11 - Representação de uma imagem ao nível de pixels................................. 21 Figura 12 - Imagem Raster (bitmap) ......................................................................... 22 Figura 13 - Imagem Vetorial ...................................................................................... 23 Figura 14 - Imagem Binária ....................................................................................... 24 Figura 15 - Representação de uma imagem monocromática digital ......................... 24 Figura 16 - Matriz de pixels ....................................................................................... 25 Figura 17 - 8 bpp ....................................................................................................... 25 Figura 18 - 16 bpp ..................................................................................................... 25 Figura 19 -24 bpp ...................................................................................................... 26 Figura 20 - Eixos X e Y em uma imagem monocromática. ....................................... 26 Figura 21 - Como um sensor de uma câmera divide a imagem em porções discretas e coleta uma cor (média) para cada uma delas. ....................................................... 27 Figura 22 - (a) uma imagem com n bytes por pixel. (b) n bandas com um byte por pixel. .......................................................................................................................... 28 Figura 23 - Niveis de Cores RGB .............................................................................. 28

Page 4: Representação de Áudio e Imagem

SUMÁRIO 1 INTRODUÇÃO ......................................................................................................... 5 2 ÁUDIO ...................................................................................................................... 5

2.1 O que é som ?.................................................................................................... 6 2.2 Conversão de Áudio ........................................................................................... 7

2.2.1 Conversão A/D ............................................................................................ 7 2.2.2 Taxa de Amostragem e Teorema de Nyquist .............................................. 8 2.2.3 Niveis de Quantização ................................................................................. 9 2.2.4 Conversão D/A .......................................................................................... 10 2.2.5 Número de Canais ..................................................................................... 10

2.3 Representação do som .................................................................................... 11 2.3.1 Digitalização do Som ................................................................................. 11 2.3.2 Parametros para digitalização do som ....................................................... 12

2.4 Compressão e Compactação ........................................................................... 13 2.5 Formatos de Áudio ........................................................................................... 13

2.5.1 Formtatos não-comprimidos ...................................................................... 13 2.5.1.1 WAV .................................................................................................... 14 2.5.1.2 AIFF ..................................................................................................... 15

2.5.2 Formatos Comprimidos .............................................................................. 16 2.5.2.1 FLAC ................................................................................................... 16 2.5.2.2 APE ..................................................................................................... 17 2.5.2.3 ALAC ................................................................................................... 17 2.5.2.4 MP3 ..................................................................................................... 17 2.5.2.5 OGG Vorbis ......................................................................................... 18 2.5.2.6 AAC ..................................................................................................... 19 2.5.2.7 WMA .................................................................................................... 19

3 IMAGEM ................................................................................................................. 20 3.1 Definição .......................................................................................................... 20 3.2 Pixel ................................................................................................................. 21 3.3 Imagem bitmap ................................................................................................ 22 3.4 Imagem Vetorial ............................................................................................... 23 3.5 Representação de imagem digital .................................................................... 24

3.5.1 Amostragem e Quantização ...................................................................... 24 3.5.2 Profundidade da Imagem ........................................................................... 25 3.5.3 Imagem Monocromática ............................................................................ 26 3.5.4 Resolução Espacial ................................................................................... 26

Page 5: Representação de Áudio e Imagem

3.5.5 Imagem Multibanda ................................................................................... 27 3.5.6 Imagem Colorida ....................................................................................... 28

3.6 Formatos de Imagens ...................................................................................... 29 3.6.1 Formatos não-comprimidos ....................................................................... 29

3.6.1.1 BMP ..................................................................................................... 29 3.6.2 Formatos comprimidos .............................................................................. 29

3.6.2.1 Com Perda de dados (lossy) ............................................................... 29 3.6.2.1.1 JPEG ........................................................................................................... 29

3.6.2.2 Sem perda de dados (lossless) ........................................................... 30 3.6.2.2.1 GIF .............................................................................................................. 30 3.6.2.2.2 PNG ............................................................................................................ 31 3.6.2.2.3 TIFF ............................................................................................................ 31

4 CONCLUSÃO ......................................................................................................... 32 REFERÊNCIAS ......................................................................................................... 33

Page 6: Representação de Áudio e Imagem

5

1 INTRODUÇÃO

Qualquer valor numérico, letra, carácter ou outro tipo de informação pode ser

codificado sob a forma de um conjunto de bits, no que se designa por “informação

digital”.

Se a informação é analógica, ou seja, possui um sinal contínuo que varia em

função do tempo, e queremos digitalizá-la, recolhemos alguns pontos deste sinal,

isto é, pegamos um conjunto discreto de valores deste sinal contínuo (analógico),

convertemos estes valores num conjunto reduzido de valores possíveis e

associamos a cada valor quantificado um código binário (0 e 1) e obtemos sua

representação digital que não vária continuamente em função do tempo. Tal

informação pode ser salva em formatos distintos, dependendo do que se quer obter

e dependendo do formato, perdemos qualidade e ganhamos menor tamanho de

arquivo e vice-versa.

Page 7: Representação de Áudio e Imagem

6

2 ÁUDIO

DICIONÁRIO: Informações sonoras sob variadas formas: elétrica, óptica, digital

etc. Quando manifestado no domínio acústico, gera ondas sonoras e é conhecido

como “som”.

2.1 O que é som ?

O som é um sinal analógico, porém computadores são sistemas digitais.

[1][2][3][7]

A forma mais rudimentar de se criar sons no computador é enviando sinais “0” e

“1” para o auto-falante, onde só é possível alterar a duração de cada “0” e cada “1”.

O resultado é um som típico “de computador”, tais com bipes. Atualmente, esta

técnica ainda é usada para gerar os sons que saem de um pequeno alto-falante que

pode ser instalado na placa-mãe.

Para a geração de sons mais complexos, há duas técnicas:

A primeira é o uso de um conversor analógico/digital (também chamado A/D ou

ADC, Analog-to-Digital Converter) para converter um som analógico em números

binários. Quando o computador precisa reproduzir o som, basta ele fazer o processo

inverso, remontar o som analógico a partir dos números binários coletados, através

de um conversor digital/analógico (também chamado de D/A ou DAC, Digital-to-

Analog Converter). Esta é a técnica usada em CDs e arquivos do tipo wav e mp3.

A segunda técnica é o uso de um sintetizador para tocar notas musicais. O

computador passa para o sintetizador quais notas precisam ser tocadas e qual

instrumento deve ser usado. Esta é a técnica usada em trilhas sonoras de jogos e é

usada por arquivos do tipo mid.

Para ter estas técnicas disponíveis em um computador, é necessário ter uma

“placa de som”. Antigamente, este componente era opcional. Atualmente, todas as

placas-mãe vêm com áudio integrado (“on board”), permitindo que o computador

possa efetuar essas tarefas sem a necessidade de um hardware adicional.

Page 8: Representação de Áudio e Imagem

7

2.2 Conversão de Áudio

Figura Erro! Indicador não definido. - Uma onda sonora, em cinza, representada digitalmente em vermelho.

Fonte: (http://pt.wikipedia.org/wiki/Som_digital).

2.2.1 Conversão A/D

Imagine o sinal analógico, que pode ser um pequeno pedaço de uma música ou

de um som qualquer (figura 2).[1]

Figura 2 - sinal analógico de um som Fonte: (http://www.clubedohardware.com.br/fullimage.php?image=16569).

Para converter este sinal analógico (que é uma grandeza) em uma série de

números binários que depois podem ser armazenados em um CD ou em um arquivo

Page 9: Representação de Áudio e Imagem

8

de computador, o conversor analógico/digital efetua um processo de amostragem,

também chamado modulação por código de pulso (PCM, Pulse-Code Modulation).

Neste processo, a amplitude do sinal será lida em intervalos fixos de tempo, e

convertida em um valor.

Figura 3 - Conversor Analógico/Digital Fonte: (http://www.clubedohardware.com.br/fullimage.php?image=16569).

2.2.2 Taxa de Amostragem e Teorema de Nyquist

A taxa de amostragem ideal é definida pelo Teorema de Nyquist-Shannon, que

diz que a taxa de amostragem dever ser, no mínimo, o dobro da frequência máxima

que queremos capturar. O processo de amostrar e guardar os valores dessas

amostras é conhecido como Pulse Amplitude Modulation (PAM). [2][3]

A partir dos pulsos PAM, podemos produzir os pulsos PCM através de um

processo conhecido como quantização, onde cada amostra PAM é aproximada a um

inteiro de n bits. A saída PCM corresponde ao resultado dessa quantização.

Podemos calcular, a partir desse processo, denominado conversão A/D, a taxa

gerada pela transmissão de informação analógica através de sinais digitais.

Como a faixa de frequências capturadas por um ouvido humano está entre 20Hz

e 20 kHz, qualquer som digitalizado com uma taxa de amostragem superior a 40kHz,

estaria com toda a sua riqueza de detalhes, com todos os harmônicos e

praticamente sem perdas, com uma qualidade final perfeita para os padrões da

audição humana. Assim chegou-se à frequência de 44kHz como padrão ideal, que

manteria toda a qualidade do áudio original digitalizado.

Existem taxas mais altas do que 44 kHz, como taxas de 48 kHz, 96 kHz ou 192

kHz que são usadas, normalmente, em estúdios de gravação. DVDs podem usar

Page 10: Representação de Áudio e Imagem

9

taxa de amostragem de até 96 kHz e discos Blu-Ray podem usar taxa de

amostragem de até 192 kHz.

Se uma taxa de amostragem menor for utilizada, frequências mais altas serão

cortadas, fazendo com que o som pareça “comprimido” por não possuir alta

fidelidade.

Figura 4 - A onda de baixo é amostrada a uma taxa que é o dobro da da onda de cima. Fonte: (http://anasoares1.wordpress.com/2011/01/31/audio-digital-frequencia-de-amostragem-

bits-por-amostra-e-criterio-de-nyquist/).

2.2.3 Níveis de Quantização

O processo de quantização, também chamado de tamanho do sample ou sample

size, é, basicamente, a conversão de valores de amostras contínuas em valores

discretos, ou seja, a medida discreta da intensidade do sinal. Essa discretização da

amplitude é usualmente definida em termos de números de bits. Uma conversão de

8 bits proporciona a representação de 28 estados, ou 256 níveis de quantização.

[1][3]

Supondo uma quantização de 256 níveis e uma amostragem de 6 Hertz (6 ciclos

por segundo) e uma faixa de tensão de 10 volts, de -5V a +5V. Cada segundo vai

ser divido por 6 amostras. Cada amostra é um valor discreto que foi quantizado de

forma a representar a tensão elétrica correspondente. A faixa de tensão foi

convertida em uma tabela de 256 estados (0 – 255) que vão representar toda a

variação possível. 128 estados para a faixa negativa do sinal e 128 estados para a

faixa positiva do sinal, ou seja, 0 a 128 ⇔ - 5V a 0V ∧ 129 a 255 ⇔ 0,1V a 5V.

Page 11: Representação de Áudio e Imagem

10

Figura 5 - Onda contínua e amostragem Fonte: (http://www.eps.ufsc.br/disserta96/tafner/cap5/cap5.htm).

2.2.4 Conversão D/A

Pode-se demonstrar que um trem de pulsos PCM, obtido pela amostragem de um

sinal em uma frequência maior ou igual à dada pelo teorema de Nyquist, tem o

mesmo espectro de frequência que o sinal amostrado, no intervalo de frequências

dado pela banda passante desse sinal. A conversão D/A se faz, então, pela simples

passagem do trem de pulsos PCM por um filtro na faixa passante (e, assim, com a

largura de banda) do sinal originalmente amostrado. [1][3]

Não fosse pelo erro de quantização, o sinal obtido da saída do filtro seria idêntico

ao sinal analógico original.

O sinal de saída é tão mais próximo do sinal original quanto menor for o erro de

quantização. O erro de quantização, por sua vez, é tão menor quanto maior o

número de níveis de quantização, ou seja, quanto maior o número de bits utilizados

na codificação.

2.2.5 Número de Canais

O número de canais é simplesmente definir se o som será mono ou estéreo.

Arquivos mono possuem apenas um canal de áudio, e quando são reproduzidos em

equipamento estéreo enviam o mesmo sinal para ambos os canais. Já arquivos

estéreos possuem dois canais de áudio e podem enviar sinais completamente

diferentes para os canais esquerdo e direito. Se dois arquivos (um mono e outro

estéreo) usam a mesma taxa de amostragem e a mesmo tamanho de amostragem,

é óbvio que o tamanho do arquivo estéreo será exatamente o dobro do mono.

Page 12: Representação de Áudio e Imagem

11

2.3 Representação do som

O som é comumente representado pela sua modulação de amplitude (eixo x) em

função do tempo (eixo y).

Figura 6 - Especto de modulação de amplitude. Fonte: (http://pt.kioskea.net/contents/50-o-som-digital).

2.3.1 Digitalização do Som

No processo de digitalização do som, este é capturado da “natureza” e

armazenado em dispositivos sob a forma de dados binários. A palavra capturar é

substituída muitas vezes pela palavra samplear, essa palavra deriva do inglês

sample, que significa amostra. Resumidamente, um sample é um número que

expressa a amplitude da onda sonora em determinado momento, ou seja, uma

amostra dessa onda. Quando falamos que um som foi sampleado, quer dizer que

várias amostras consecutivas foram convertidas em números. Esses números são

armazenados internamente na forma de bits. [1][2][3]

O processo de digitalização permite que absolutamente qualquer som do mundo

exterior seja transformado num arquivo de computador. Se por um lado ficou mais

fácil para o artista independente gravar sua música em um estúdio caseiro e

distribuí-la, por outro lado também ficou mais fácil infringir os direitos autorais e

distribuir música dos outros sem qualquer custo para quem consome.

Esta facilidade toda existe porque digitalizar áudio é um processo extremamente

fácil. Na captura do som não existe nada de novo, pois ela continua sendo feita

através de um microfone que transforma onda sonora em impulsos elétricos. Só que

em vez desses impulsos serem convertidos em sinais magnéticos e gravados numa

Page 13: Representação de Áudio e Imagem

12

fita, eles serão transformados numa longa sequência de dígitos binários, que irão

representar a forma de onda daquele som. No momento da reprodução, essa onda

será novamente reconstruída, transformada em impulsos elétricos e enviada para as

caixas acústicas. Entre essas duas etapas do processo, o som em sua forma binária

pode ser alterado, manipulado e tratado, podendo ter sua qualidade melhorada,

criando novos efeitos e até descaracterizando o som original.

2.3.2 Parâmetros para digitalização do som

No momento da digitalização do som alguns parâmetros importantes devem ser

definidos: taxa de sampleamento (sample rate) ou taxa de amostragem, tamanho do

sample (sample size) ou quantização, e o número de canais. A combinação de

valores desses parâmetros irá definir a qualidade do áudio digital e a quantidade de

memória necessária para armazená-lo. Existem diversos softwares que manipulam

esses parâmetros, mas o ideal é que eles sejam definidos no momento da gravação.

Um som gravado em baixa qualidade e melhorado depois não possui a mesma

qualidade de um já digitalizado com valores mais elevados, pois apesar do software

tentar elevar a qualidade do arquivo, ele não tem como adivinhar a informação que

foi omitida para o arquivo ficar menor.

A taxa de sampleamento define com que frequência amostras da onda sonora

são capturadas e digitalizadas. Por isso podemos chamá-la também de taxa de

amostragem. Um sample é uma pequena parte do som (muitas vezes com duração

menor que 1/44000 segundo), esta taxa define exatamente a duração dessa

pequena parte do som. Quanto maior esta duração, menor será a qualidade do

áudio, pois a taxa de amostragem seria muito baixa (geralmente esta taxa varia

entre 11kHz e 48 kHz, ou seja, de 11.000 a 48.000 amostras por segundo). Em

outras palavras, quanto maior for a taxa de amostragem, mais informações sobre a

onda serão capturadas num mesmo intervalo de tempo, e consequentemente o som

terá maior precisão e melhor qualidade.

A combinação entre a taxa de sampleamento e o tamanho do sample é que

define efetivamente a qualidade final do áudio digitalizado. Definiu-se a combinação

16 bits a 44,1KHz como a ideal, esta é utilizada na gravação de CDs, que utiliza a

mesma técnica descrita acima, chamada PCM, também usado para designar

Page 14: Representação de Áudio e Imagem

13

arquivos de som digitalizado em formato não comprimido, como o Wave. A única

diferença desses tipos de arquivos para os dados do CD é que estes não são

formatados (não estão divididos em blocos, não possuem cabeçalhos, informações

de versões e etc), mas sim gravados no seu formato puro (raw data).[1][2][3][7]

2.4 Compressão e Compactação

Um sinal digital, em geral, carrega muita informação redundante. Se eliminarmos

essa redundância conseguimos reduzir em muito a quantidade de bits gerados, que

em alguns casos pode ser muito grande.

Quando eliminamos apenas a redundância de um sinal, não há perda de

informação e dizemos que fizemos uma compactação, ou compressão sem perdas.

No entanto, podemos também diminuir a quantidade de bits com alguma perda de

informação. Dependendo de quem for o usuário da informação, parte dela pode ser

considerada pouco útil. Raramente é necessário manter o sinal original intacto no

caso das mídias vídeo, áudio e imagens estáticas, uma vez que o usuário final

perderia de qualquer forma parte da informação por limitações físicas; que é o caso

do ouvido e olho humano. Vemos assim que a quantidade de informação que

podemos perder pode ser dependente do usuário, mas ela também pode depender

da tarefa em desenvolvimento. Quando na redução dos dados gerados há perda de

informação, dizemos que fizemos uma compressão com perdas, ou simplesmente

compressão. [3]

2.5 Formatos de Áudio [4]

2.5.1 Formatos não-comprimidos

Formatos não comprimido garante qualidade máxima, pois não modifica nenhum

bit do original. Em contrapartida, exigem espaço. Um CD de áudio utiliza o CDDA

(Compact Disc Digital Audio) e suporta 80 minutos de música, por exemplo. WAV e

AIFF são exemplos de não comprimidos.

Page 15: Representação de Áudio e Imagem

14

2.5.1.1 WAV

WAV é a sigla para Waveform Audio File Format, e foi desenvolvido pela

Microsoft e IBM para armazenamento de áudio em PCs. É baseado em PCM e não

“sacrifica” dados, portanto exige bastante espaço. Em média, ocupa até 10 MB por

minuto. É compatível com praticamente qualquer tocador atual. Pela qualidade

máxima, é indicado para edições, mixagens e trabalhos profissionais.

Como limitação, arquivos nesse formato não podem ter mais que 4 GB. As

extensões comuns são WAV e WAVE.

Figura 7 - Cabeçalho de um arquivo WAV Fonte: (https://ccrma.stanford.edu/courses/422/projects/WaveFormat/).

Page 16: Representação de Áudio e Imagem

15

2.5.1.2 AIFF

AIFF é a sigla para Audio Interchangeable File Format, e pode-se dizer que é

para a Apple o que WAV é para a Microsoft. Também baseado em PCM, é um

formato não comprimido, portanto de qualidade, mas que demanda espaço. A

extensão comum é AIFF ou AIF, mas a lista de tocadores compatíveis é um pouco

menor que o formato WAV.

Figura 8 - Cabeçalho de um arquivo AIFF Fonte: (http://www.paulbourke.net/dataformats/audio/).

Page 17: Representação de Áudio e Imagem

16

2.5.2 Formatos Comprimidos

Os formatos comprimidos, como o nome sugere, comprimem dados com o

intuito de diminuir o tamanho deles. Formatos como APE, FLAC e M4A são

conhecidos como lossless e capazes de comprimir áudio sem perder qualidade.

Outros formatos comprimem ainda mais os arquivos, ganhando muito espaço.

No entanto, eles já utilizam o princípio de abrir mão da qualidade absoluta para

ganhar mais espaço e comodidade. Uma maneira de conseguir isso é remover

faixas de áudio teoricamente imperceptíveis pelo ouvido humano. Há perda de

qualidade, mas muitas vezes ela é realmente imperceptível. Por isso, formatos

comprimidos são mais populares para o usuário comum. Um exemplo é o MP3.

2.5.2.1 FLAC

É a sigla para Free Lossless Audio Codec, criado em 2003. Como afirmam os

desenvolvedores, é como se fosse um ZIP, porém feito especificamente para áudio e

com a vantagem de poder ser executado em vários players. Ele também é baseado

em PCM, e os dados têm uma espécie de assinatura que permitem a conferência da

integridade do arquivo.

Uma vantagem do formato é o cue sheet, ou seja, um arquivo com todas as

referências para a divisão de faixas de um álbum. Por exemplo, é possível ripar um

CD em um único arquivo e utilizar o cue sheet para dividir as faixas. O player ou

gravador, neste caso, precisa ser compatível com a extensão CUE.

A velocidade de codificação nesse formato é rápida e exige menos

processamento em comparação com outros codecs. Ele é não proprietário e pode

ser usado livremente. A popularidade do formato cresce com o aumento da

velocidade da conexão com a internet.

Arquivos FLAC ultrapassam a marca dos 1000 kbps, atestando a qualidade de

áudio.

Page 18: Representação de Áudio e Imagem

17

2.5.2.2 APE

Esta é a extensão do Monkey Lossless Audio File, outra maneira de comprimir

áudio sem perder qualidade, que também se descreve como um ZIP para músicas.

Tem código aberto disponível, e conta com sistema de detecção de erros e sistema

próprio de tags. Em comparação com FLAC, apresenta melhores índices de

compressão, porém requer mais recursos de processamento, de acordo com

resultados de benchmarks.

2.5.2.3 ALAC

Sigla para o formato Apple Lossless Encoder. O MP4 é um tipo de extensão que

utiliza esse formato, juntando áudio e vídeo em um container. M4A é uma extensão

com as faixas de áudio de filmes com codec MPEG-4. FLAC, APE e ALAC em média

digitalizam áudio com a metade do tamanho do arquivo original, podendo variar

entre 40% e 60%. Esses formatos são bons para edição e para usuários que prezam

pela qualidade máxima. Uma opção para um backup de sua coleção de CDs, por

exemplo. Imagine que você fez toda sua coleção em MP3, e aí percebe que surgiu

uma tecnologia melhor? Ao fazer o backup com uma tecnologia sem perda, as

cópias permanecem fiéis aos originais independentemente dos avanços.

2.5.2.4 MP3

MP3 é o formato mais popular, compatível com tudo o que é software e player de

mídia. Criado na Alemanha, o formato utiliza a codificação perceptual, ou seja,

codifica somente as frequências sonoras captadas pelo ouvido humano.

A razão do sucesso do MP3 é o fato de conseguir equilibrar bons índices de

compressão e qualidade. Há, sim, a perda de qualidade se comparado com o

original, mas em níveis praticamente imperceptíveis para a maioria dos usuários. O

MP3 chega a criar arquivos com 10% do tamanho de arquivos PCM.

Page 19: Representação de Áudio e Imagem

18

MP3 chega ao máximo de 320 kbps. Entre 192 kbps e 320 kbps, a qualidade é

comparável a um CD. Entre 128 kbps e 192 kbps, algumas pessoas já constatam

perda de qualidade, mas isso depende muito de quem ouve.

Figura 9 - Representação do Header de MP3 Fonte: (http://www.google.com/patents/EP1384230A1?cl=en).

2.5.2.5 OGG Vorbis

É um formato não proprietário e até mesmo com melhores taxas de compressão

que o MP3. Porém, a explosão do MP3 faz com que o suporte e a divulgação para

OGG encontre muitas dificuldades. Além disso, o fato de ser código aberto dificulta a

padronização do formato.

Os desenvolvedores afirmam que o formato foi desenvolvido para “substituir

completamente todos os formatos patenteados e proprietários”. O MP3 é uma

extensão proprietária, e esse é o atrativo que o OGG tenta chamar em artistas e

Page 20: Representação de Áudio e Imagem

19

gravadoras. De uns tempos para cá, o IGG vem sendo consideravelmente utilizado

em jogos.

2.5.2.6 AAC

Sigla para Advanced Audio Coding (Codificação Avançada de Áudio) é

considerado o mais forte concorrente do MP3. O formato é baseado no padrão

MPEG-4 e foi popularizado pela Apple, que aderiu ao formato no iPod e no iTunes,

até mesmo vendendo os arquivos de áudio da loja nesse formato, em detrimento ao

MP3. Testes mostram que o formato AAC têm mais flexibilidade do que o MP3,

como consequência maior qualidade de compressão. De maneira geral, o formato

AAC tem melhor qualidade em taxas de bit menores (128 kbps, por exemplo).

O AAC não é um formato proprietário, apesar do que aparenta. A confusão se dá

pela adoção da Apple, mas não se confirma. O AAC é suportado por dispositivos da

Sony, PSP, Nintendo DSi, Xbox 360, Zune, iPod, iPhone, Windows Mobile. Em

termos de software, Media Player Classic, BSPlayer, Foobar, AIMP e Winamp são

alguns compatíveis.

2.5.2.7 WMA

Formato da Microsoft, ele tem habilidades de cópias com proteção de conteúdo,

em resposta aos problemas de distribuição que polemizam o MP3. É uma tecnologia

proprietária com quatro codecs distintos: WMA como competidor do MP3; WMA Pro,

mais moderno e com suporte para áudio de alta definição; WMA Lossless, que

comprime sem perda de qualidade; e WMA Voice, destinado e conteúdos de voz

com codificação em baixas taxas de bit.

O WMA surgiu com a promessa de criar arquivos equivalentes a MP3 com

metade do tamanho, porém não vingou. No entanto, em taxas baixas, de 128 kbps,

a qualidade dos dois é comparável.

Page 21: Representação de Áudio e Imagem

20

3 IMAGEM

O termo "imagem" abrange um vasto leque de documentos iconográficos ou de

ilustrações, incluindo pinturas, gravuras, posters, cartões postais, fotografias, etc.

Uma imagem contém uma imensa quantidade de informações e que um

observador humano interpreta frequentemente globalmente e qualitivamente. [6]

Figura 10 - Representação de uma imagem Bitmap Fonte: (http://www.musci.com.br/multimidia/ImagensDesenhos3D.pdf).

3.1 Definição

Uma imagem é composta por um conjunto de pontos, denominados "Pixels"

(Picture Elements) ou "Dots". Estes "pixels" estão dispostos na tela do computador

formando uma matriz de pontos que é denominada de "Bit-Map" ou "Mapa de Bits".

[5][6]

Este mapa de bits é um reticulado onde cada elemento da matriz possui uma

informação referente a cor associada aquele ponto específico. Uma determinada

imagem possuirá também uma "resolução" associada a ela, que é o número de

elementos que esta imagem possui na horizontal e na vertical. Cada elemento da

imagem possuirá uma localização, que é definida pela suas coordenadas.

Page 22: Representação de Áudio e Imagem

21

3.2 Pixel

É o menor ponto que forma uma imagem digital, sendo que o conjunto de

milhares de pixels formam a imagem inteira. Cada pixel é composto por um conjunto

de 3 pontos: verde, vermelho e azul. E cada ponto é capaz de exibir 256 tonalidades

diferentes, que juntos podem exibir pouco mais de 16.7 milhões de cores diferentes.

Quanto mais pixels utilizados para representar uma imagem, mais real ela se

torna. Algumas vezes, o número de pixels em uma imagem é chamado de

resolução, embora a mesma tenha uma definição mais específica.

Os pixels que formam uma imagem digitalizada podem ou não estar em uma

correspondência de "um para um" com pixels da tela do computador, isso depende

como o monitor do computador está configurado para exibir uma imagem.

Existem vários outros termos que podem ser sinônimos de pixel, tais como

sample, byte, bit, dot, spot, etc.

Figura 11 - Representação de uma imagem ao nível de pixels. Fonte: (http://www.ogimp.com.br/wp-content/uploads/2009/09/pixel-mario.gif).

Page 23: Representação de Áudio e Imagem

22

3.3 Imagem bitmap

Também chamada de imagem "raster" ou matricial, é a representação em duas

dimensões de uma imagem como um conjunto finito de pontos definidos por valores

numéricos, formando uma matriz matemática ou malha de pontos, onde cada ponto

é um pixel. E cada pixel contem 3 cores, e cada cor contem 256 tons dessa mesma

cor. E juntas formam a cor do pixel.

Ao se aumentar (dar zoom) as dimensões da imagem, os pixels se distribuem por

uma área maior, tornando a imagem mais indefinida. Por isso a qualidade da

imagem se dá sobre dois aspectos: a quantidade de pixels por polegada (PPIs) e o

número de pixels na horizontal e na vertical (tamanho da imagem em centímetros).

Por exemplo: Se uma imagem que possui 1000 pixels x 1000 pixels, isso significa

dizer que ela possui 1 milhão de pixels ou que possui 1MP (mega pixel). Só essa

informação não basta para saber se a imagem é de boa definição. Para uma boa

definição é preciso que a imagem tenha 300 PPIs, permitindo assim que se faça

cópias de alta qualidade em papel fotográfico, por exemplo.[5]

Figura 12 - Imagem Raster (bitmap) Fonte: (http://edpexpression.wordpress.com/articulos/vectores-vs-bitmaps/).

Page 24: Representação de Áudio e Imagem

23

3.4 Imagem Vetorial

A imagem vetorial é criada recorrendo a entidades de desenhos como retas,

pontos, curvas, polígonos, entre outros elementos paramétricos, isto é, utilizam-se

vetores matemáticos para sua descrição, ou seja, ela é não é composta por pixels e

sim por linhas e curvas, nas quais combinando-se podem formar objetos

complexos.[5]

Cada linha descrita em um desenho vetorial possui nós, e cada nó possui alças

para manipular o segmento de reta ligado a ele.

Por serem baseados em vetores, essas imagens geralmente são mais leves e

não perdem qualidade ao serem ampliados, já que as funções matemáticas

adequam-se facilmente a escala, o que não ocorre com imagens raster que utilizam

métodos de interpolação na tentativa de preservar a qualidade.

Existe um tipo de imagem que mistura o calculo matemático e a imagem raster:

imagem fractais

Figura 13 - Imagem Vetorial Fonte: (http://coizaradas.blogspot.com.br/2011/07/o-que-sao-desenhos-vetoriais.html).

Page 25: Representação de Áudio e Imagem

24

3.5 Representação de imagem digital

Figura 14 - Imagem Binária Fonte: (http://pt.wikipedia.org/wiki/Imagem_binária).

3.5.1 Amostragem e Quantização

Para gerar uma imagem digital f (x,y) deve ser digitalizada ao longo de x e y, e na

amplitude z = f (x,y). Para tanto é feita uma amostragem de f (x,y) nas direções x e y,

gerando uma matriz N x M amostras, seguida de uma quantização do valor de f (x,y)

em L níveis inteiros de cinza. Nesta matriz, cada elemento p (x,y) é chamado de

pixel. Dizemos então que a imagem tem M pixels na horizontal (eixo x) e N pixels na

vertical (eixo y) ou que a imagem tem n dpi (pontos por polegadas) na qual pode ser

chamada de resolução da imagem. [5][7]

Figura 16 - Representação de uma imagem monocromática digital Fonte: (http://radiologiaeinovacao.files.wordpress.com/2010/06/imagem-digital-www-

radiologiaeinovacao-com-br.pdf).

Page 26: Representação de Áudio e Imagem

25

Figura 15 - Matriz de pixels Fonte: (http://radiologiaeinovacao.files.wordpress.com/2010/06/imagem-digital-www-

radiologiaeinovacao-com-br.pdf).

3.5.2 Profundidade da Imagem

O número L de níveis de quantização da função f (x,y) é normalmente uma

potência de 2.

Tomemos L como tendo um valor de 256, ou seja, cada pixel pode ter associado

um valor de cinza (no caso de imagem monocromática) entre 0 e 255, que requer no

máximo 8 bits para ser armazenado na memória do computador. Neste caso,

dizemos que a profundidade da imagem é 8 bits por pixel (bpp) (ou 1 byte por pixel).

Quando a profundidade da imagem é 1 bit por pixel (contém 2 níveis de cinza),

dizemos então que ela é uma imagem binária (preto e branco).[5]

Figura 17 - 8 bpp

Fonte: (http://www.cambridgeincolour.com/pt-br/tutorials/bit-depth.htm).

Figura 18 - 16 bpp

Fonte: (http://www.cambridgeincolour.com/pt-br/tutorials/bit-depth.htm).

Page 27: Representação de Áudio e Imagem

26

Figura 19 -24 bpp

Fonte: (http://www.cambridgeincolour.com/pt-br/tutorials/bit-depth.htm).

3.5.3 Imagem Monocromática

Uma imagem monocromática é uma função de intensidade de luz bidimensional

f(x,y), onde x e y denotam coordenadas espaciais e o f no ponto (x,y) é proporcional

ao brilho (ou nível de cinza) da imagem neste ponto. [6]

Figura 20 - Eixos X e Y em uma imagem monocromática. Fonte: (http://radiologiaeinovacao.files.wordpress.com/2010/06/imagem-digital-www-

radiologiaeinovacao-com-br.pdf).

3.5.4 Resolução Espacial

É a quantidade de pixels ao longo de cada eixo x,y, ou seja, está associado ao

espaçamento físico entre amostras. A formação da imagem é diretamente

proporcional a quantidade de pontos (pixels) amostrados.[6]

Page 28: Representação de Áudio e Imagem

27

Figura 21 - Como um sensor de uma câmera divide a imagem em porções discretas e coleta uma cor (média) para cada uma delas.

Fonte: (http://www.imagesurvey.com.br/2009/03/resolucao-espacial-ou-o-tamanho-do-pixel-em-imagens-digitais/).

A imagem forma-se no sensor da câmera fotográfica. Este sensor tem a tarefa de

dividir a imagem (que é contínua) em porções discretas, e capturar um valor de cor

(na verdade 3, um para cada canal RGB) para cada uma destas porções discretas,

chamadas de pixels. Quanto mais pixels tiver a imagem final, ou seja, quanto maior

for a resolução espacial, mais detalhes do objeto real podem ser observados na

imagem.

3.5.5 Imagem Multibanda

Em uma imagem digital monocromática, o valor do pixel é um escalar entre 0 e L.

Imagens multibandas podem ser vistas como imagens nas quais cada pixel tem

associado um valor vetorial - vários valores associados ao mesmo pixel.[6]

–P(x,y) = (l1,l2,...,ln) 0<=li<=Li-1, i=1,2,...,n. onde n é o numero de bandas. Uma

imagem multibanda pode também estar associada a uma sequência de imagens

monocromáticas.

Page 29: Representação de Áudio e Imagem

28

Figura 22 - (a) uma imagem com n bytes por pixel. (b) n bandas com um byte por pixel. Fonte: (http://www.dcc.unicamp.br/~cpg/material-didatico/mo815/9802/curso/node8.html).

3.5.6 Imagem Colorida

Uma imagem colorida é uma imagem multibanda, onde a cor em cada ponto (x,y)

é definida através de três grandezas luminância (brilho da luz), matiz (comprimento

da onda dominante) e saturação (grau de pureza da matiz).

Uma imagem colorida é representada por 3 bandas: Red, Green e Blue com

profundidade byte por pixel.[6]

Figura 2 - Niveis de Cores RGB Fonte: (http://davidnaylor.org/blog/2005/02/all-16777216-rgb-colours/).

Page 30: Representação de Áudio e Imagem

29

3.6 Formatos de Imagens [5][6][7]

3.6.1 Formatos não-comprimidos

3.6.1.1 BMP

As imagens neste formato podem suportar milhões de cores e preservam os

detalhes. No entanto, os arquivos neste padrão costumam serem muitos grandes, já

que não utilizam compressão. Isso até é possível em imagens com 256 cores ou

menos, mas não é comum. Imagens BMP podem variar de preto e branco (1 bit por

pixel) de até 24 bits de cores (16,7 milhões de cores). Por exemplo, uma imagem de

800×600 ocupa cerca de 1,5 megabytes. Porém, ele é livre de patentes e é bem

documentado. Por sua qualidade ser inferior, sempre é utilizada em menor tamanho

para fácil visualização.

Estas imagens são armazenadas em um formato dispositivo-independente

bitmap (DIB). O termo “independente de dispositivo” significa que o bitmap especifica

a cor do pixel em uma forma independente do método usado por um dispositivo de

exibição para representar a cor estes arquivos são encontrados em dois formatos: O

formato OS/2 não é comprimido (RGB codificado) e os arquivos Windows BMP e

de DIB podem ser salvados sem usar qualquer compressão (RGB codificado).

3.6.2 Formatos comprimidos

3.6.2.1 Com Perda de dados (lossy)

3.6.2.1.1 JPEG

O formato JPEG (Joint Photographic Experts Group), é sem dúvida o formato

mais popular para exibição de imagens fotográficas na Web.

JPEG usa um esquema de compressão de lossy, porém podemos definir a

Page 31: Representação de Áudio e Imagem

30

quantia de compressão e consequentemente trocamos tamanho de arquivo por

qualidade de imagem. Podemos até mesmo obter arquivos extremamente pequenos

com qualidade pobre. Vale ressaltar que cada vez que uma imagem JPEG é salva,

costuma-se perder qualidade, pois, geralmente o software utilizado para tratá-la

aplica compressão, toda vez que essa ação é realizada. JPEG apoia cor de 24-bit

enquanto que o GIF, outro formato extensamente usado na Web apoia só 8-bits.

A compressão é executada em blocos de pixels de oito em cada lado. JPEG é

um processo de dois estágios com algoritmos de compressão e descompressão. Isto

significa que ele leva mais muito tempo para carregar e exibir que um arquivo de gif.

Você pode salvar imagens em um formato JPEG progressivo que trabalha um pouco

como um GIF interlaçado. Enquanto um JPEG padrão carrega de cima para baixo,

um JPEG progressivo exibe a imagem inteira que começa com os blocos maiores.

Isto permite exibir a imagem primeiro em baixa resolução e então preenche-la

quando mais dados chegam.

3.6.2.2 Sem perda de dados (lossless)

3.6.2.2.1 GIF

O formato GIF gera arquivos de tamanho reduzido, no entanto, seu uso não é

muito comum em fotografias, já que é capaz de trabalhar com apenas 256 cores (8

bits), chamadas de (cores indexadas). Assim, sua utilização é muito comum em

ícones, ilustrações ou qualquer tipo de imagem que não necessita de muitas cores.

Uma de suas características é que o GIF passou a permitir a inserção de uma

sequencia de imagens em um único arquivo. Quando um GIF é exibido, cada uma

das imagens inseridas é mostrada seguindo uma ordem, dando ao usuário a

sensação de movimento.

Outra característica é que ele é capaz de permitir um efeito conhecido como

fundo transparente. O GIF pode ter áreas da imagem que assimilam a cor do local

onde está sendo exibida, como se fosse, de fato, uma transparência. Exemplo: Se

em uma pagina estiver um fundo vermelho, as áreas “transparentes” do arquivo

Page 32: Representação de Áudio e Imagem

31

serão mostradas na mesma cor.

Diferente do JPEG, mesmo usando compressão, não causa perda de

qualidade. Para salvar uma imagem de 24 bits como um GIF, você tem que reduzir a

profundidade do bit até 8 bits. Para reduzir tamanhos de arquivo em formatos GIF,

você pode reduzir o número de cores na imagem. Isto é difícil com a maioria das

fotografias, mas não com desenhos. Por exemplo, se sua imagem tem 16 ou menos,

você pode convertê-la para uma paleta de 4-bit (16-cores).

3.6.2.2.2 PNG

A maior característica do PNG é que ele tem: animação, fundo transparente e compressão sem perca de qualidade, mesmo com salvamentos constantes do arquivo. E é diferenciado dos outros, pois suporta milhões de cores, não apenas 256, sendo assim, uma ótima opção para fotos. Na animação o PNG por si só não teria tal capacidade, há uma variação chamada APNG.

O esquema é o mesmo do padrão GIF: uma sequência de imagens inseridas em um único arquivo. No caso, a primeira imagem é um arquivo PNG "normal", que é exibido em situações onde, por algum motivo, a animação não pode ser executada. PNG é talvez um pouco mais lento para ler ou escrever. Ele ainda é menos utilizado do que TIF ou JPG, mas é outra boa opção para um trabalho de qualidade sem perdas.

3.6.2.2.3 TIFF

O formato TIFF salva imagens criadas por scanners, frame grabbers e programas que editam fotografia. Existem variações do formato, chamadas extensões, assim pode ocorrer problemas ocasionais ao abrir um de outra fonte.

O formato TIFF oferece grande quantidade de cores e excelente qualidade de imagem, o que aumenta consideravelmente o tamanho dos seus arquivos, embora seja possível amenizar este aspecto com compressão sem perda de informações. Um detalhe interessante é que o formato TIFF suporta o uso de camadas, isto é, podem-se utilizar versões diferenciadas da imagem a ser trabalhada em um único arquivo. Algumas versões são comprimidas usando o LZW ou outros métodos de lossless. Arquivos TIFF suportam cores de até 24-bit. Imagens em TIFF geralmente utilizam extensão .tif ou .tiff e suportam "fundo transparente".

Page 33: Representação de Áudio e Imagem

32

4 CONCLUSÃO

Este trabalho é resultado de um estudo amplo sobre tal assunto, que exigiu, no decorrer do mesmo, análise, síntese e reflexão. Uma das vantagens oferecidas e que considero a mais importante foi o conhecimento que tive a respeito de como funciona a conversão digital de uma informação analógica, bem como os tipos de arquivos, métodos de compressão, melhores taxas de amostragem, alguns termos técnicos, etc. Foi um estudo realmente, muito interessante e instrutivo. Concluindo que, questões como qualidade e fidelidade de uma conversão analógico digital ainda é muito discutido. Existem argumentos de que a tecnologia ainda está atrás da digitalização perfeita. Com equipamentos cada vez mais tecnológicos, creio que daqui a pouco será possível armazenar todas as informações analógicas em um formato digital.

Page 34: Representação de Áudio e Imagem

33

REFERÊNCIAS [1] E. M. Miletto, L. L. Costalonga, L. V. Flores, E. F. Fritsch, M. S. Pimenta e R. M. Vicari “Introdução à Computação Musical” . Disponível em: <http://www.inf.ufrgs.br/lcm/site_arquivos/textos/aula1/CMintro2.pdf> Acesso em: 19 jun. 2013 [2] Maria Cristina Felippetto De Castro “Capítulo 3 − Fundamentos de Comunicação de Dados” de “Teleprocessamento I”. Disponível em: <http://www.feng.pucrs.br/~decastro/TPI/TPI_Cap3_parte2.pdf> Acesso em: 19 jun. 2013 [3] Diogo Pinheiro Fernandes Pedrosa “Conceitos Básicos de Áudio Digital”. Disponível em: <http://www2.ufersa.edu.br/portal/view/uploads/setores/164/arquivos/SistemaMultimidia/aula07_audio_digital.pdf> Acesso em: 14 jun. 2013 [4] “As diferenças entre os formatos de áudio”. Disponível em: <http://www.acidezmental.xpg.com.br/as_diferencas_entre_os_formatos_de_audio.html> Acesso em: 19 jun. 2013 [5] Emerson Goia “Introdução ao processamento de imagens”. Disponível em: <http://www.goya.pro.br/aula/dwnload/webdesign/Introd_proc_img.pdf> Acesso em: 16 jun. 2013 [6] Antonio G. Tomé “Aquisição e Representação da imagem digital”. Disponível em: <http://equipe.nce.ufrj.br/thome/p_grad/nn_img/transp/c2_aquis_v2.pdf> Acesso em: 18 jun. 2013 [7] Prof. Roberto Willrich “Sistemas Numéricos e a Representação Interna dos Dados no Computador”. Disponível em: <http://www.inf.ufsc.br/~willrich/Ensino/INE5602/restrito/ii-cap2.PDF> Acesso em: 15 jun. 2013