análise de padrões musicais rítmicos e melódicos utilizando o
TRANSCRIPT
-
UNIVERSIDADE FEDERAL DA PARABA CENTRO DE CINCIAS EXATAS E DA NATUREZA
DEPARTAMENTO DE INFORMTICA PROGRAMA DE PS-GRADUAO EM INFORMTICA
ANLISE DE PADRES MUSICAIS RTMICOS E
MELDICOS UTILIZANDO O ALGORITMO DE
PREDIO POR CORRESPONDNCIA PARCIAL
ANTONIO DEUSANY DE CARVALHO JUNIOR
JOO PESSOA-PB Dezembro-2011
II
-
ANTONIO DEUSANY DE CARVALHO JUNIOR
ANLISE DE PADRES MUSICAIS RTMICOS E
MELDICOS UTILIZANDO O ALGORITMO DE
PREDIO POR CORRESPONDNCIA PARCIAL
DISSERTAO APRESENTADA AO CENTRO DE CINCIAS EXATAS E
DA NATUREZA DA UNIVERSIDADE FEDERAL DA PARABA, COMO
REQUISITO PARCIAL PARA OBTENO DO TTULO DE MESTRE EM INFORMTICA (SISTEMAS DE COMPUTAO).
Orientador: Prof. Dr. Leonardo Vidal Batista
JOO PESSOA-PB
Dezembo-2011
III
-
IV
-
Agradeo s energias que proporcionam a existncia de tudo.
-
Resumo
O desenvolvimento da Teoria da Informao possibilitou formas diversas de
tratamento de dados que so relevantes para qualquer rea cientfica atualmente. Dentre elas,
temos a caracterizao da auto-informao, onde temos a possibilidade de determinar a
informao contida em um dado em prol de futuras anlises e, a partir deste ponto, a
probabilidade de ocorrncia de um elemento num determinado contexto tem como ser
avaliada em virtude da anlise da entropia. Em consequncia disso, modelos de compressores
foram desenvolvidos baseando-se em predio, e o algoritmo de Predio por
Correspondncia Parcial (Prediction by Partial Matching - PPM) foi o que mais se destacou
por se aproximar ao mximo da entropia de uma entrada qualquer com dependncia de
contextos. O PPM realiza predio por correspondncia parcial entre elementos em um
determinando contexto, permitindo o reconhecimento de padres e utilizado em diversas
reas.
Neste trabalho, a problemtica vem da avaliao da eficincia da utilizao do PPM
em arquivos de udio com o intuito de utiliz-lo no reconhecimento de padres meldicos e
rtmicos em melodias. Os testes foram realizados utilizando melodias no formato MIDI,
criando os modelos a partir das articulaes meldicas e rtmicas separadamente, modelando
os dados a partir da variao entre as alturas das notas das melodias e tambm considerando
as propores entre as duraes das notas. A avaliao da eficincia dos modelos foi realizada
atravs de Validao Cruzada a fim de verificar as melhores caractersticas da modelagem.
Os resultados obtidos com os primeiros testes realizados com obras para violino solo
serviram para se ter um domnio das possveis maneiras de utilizao. Houve uma taxa de
acerto mdio de 80%, mesmo sem considerar todos os conceitos importantes da Teoria
Musical. Com estes resultados, realizou-se um teste de similaridade de melodias, buscando 30
melodias num banco de 5223 arquivos obtendo timos resultados. A anlise de melodias com
o PPM utilizando os conceitos determinados confirma o PPM como um algoritmo verstil
para reconhecimento de padres em sequncias meldicas, considerando vlida a modelagem
dos dados de entrada utilizada neste trabalho.
Palavras-chave: Anlise musical, PPM, MIDI
-
Abstract
The development of Information Theory allowed various forms of data processing that
are relevant to any area of science today. Among them, we have the characterization of the
self-information, where we have the possibility to determine the information given in favor of
a future analysis, and, from this point, the probability of an element in a given context is to be
evaluated under the entropy analysis. By this concept, various models of compressors were
developed based on prediction, and the Prediction by Partial Matching algorithm (PPM) has
results closest to the maximum entropy of a given input with context dependence. The PPM
performs prediction by partial correlation between the elements, allowing for pattern
recognition and is used in several areas.
The aim of this work is the efficiency evaluation of the use of PPM in symbolic audio
files in order to be used in pattern recognition over the melodic and rhythmic patterns of
melodies. The tests were conducted using melodies on MIDI files, creating models from the
melodic and rhythmic parts, evaluating the efficiency of the models through cross-validation.
The results obtained with the first tests carried out on works for solo violin have been
meant as possibility ways to use. There was an average hit rate of 80%, even without
considering all the important concepts of Music Theory. With these results, we carried out a
test of similarity of melodies, 30 melodies were sought through a bank of 5223 files with great
significant results. The analysis of melodies with certain concepts using the PPM confirms the
PPM as a versatile algorithm for pattern recognition in melodic sequences, considering the
modeling of valid input data used in this work.
Keywords: Music analysis, PPM, MIDI
-
Lista de ilustraes
Figura 1. Representao da relao entre as frequncias, cdigo MIDI e notas musicais ....... 23
Figura 2. Representao da proporo temporal existente entre smbolos de notao musical27
Figura 3. Exemplo de articulaes rtmicas .......................................................................... 27
Figura 4. Parte inicial da Melodia do Hino Nacional Brasileiro ............................................ 29
Figura 5. Exemplo da representao grfica do Hino Nacional Brasileiro ............................. 29
Figura 6. Membrana timpnica, sistema ossicular do ouvido mdio e ouvido interno ........... 31
Figura 7. Mapa tonotpico da cclea .................................................................................... 32
Figura 8. Diagrama do caminho do estmulo auditivo ........................................................... 33
Figura 9. Violino Lady Blunt feito por Antonius Stradivarius em 1721 ............................. 42
Figura 10. Parte da partitura do primeiro movimento da obra BWV 1002 de Johann Sebastian
Bach .............................................................................................................................. 45
Figura 11. Parte da partitura do segundo movimento da obra BWV 1004 de Johann Sebastian
Bach .............................................................................................................................. 45
Figura 12. Representao comparativa entre os intervalos meldicos em obras de Bach ....... 46
Figura 13. Representao comparativa entre os intervalos rtmicos em obras de Bach .......... 46
Figura 14. Diagrama de Pacotes do Sistema de Anlise Musical .......................................... 49
Figura 15. Diagrama de Classe do Pacote Classificador ................................................... 50
Figura 16. Interface do Sistema de Anlise Musical ............................................................. 53
Figura 17. Interface do menu Arquivo .................................................................................. 53
Figura 18. Interface do menu Modelo ................................................................................... 54
Figura 19. Interface do menu Testes ..................................................................................... 54
Figura 20. Exemplo de interface dos resultados: Taxa por Contexto ..................................... 55
Figura 21. Exemplo de interface dos resultados: Taxa por Contexto/Compositor .................. 55
Figura 22. Exemplo de interface dos resultados: Taxa por Compositor/Contexto .................. 56
Figura 23. Comparao entre este sistema e o Sistema de Percepo Auditiva...................... 58
Figura 24. Interface do programa aps a realizao dos testes .............................................. 62
Figura 25. Interface do resultado da anlise no primeiro modo com melodia (1) ................... 63
Figura 26. Interface do resultado da anlise no primeiro modo com melodia (2) ................... 63
Figura 27. Interface do resultado da anlise no primeiro modo com melodia (3) ................... 63
Figura 28. Interface do resultado da anlise no primeiro modo com ritmo (1) ....................... 64
Figura 29. Interface do resultado da anlise no primeiro modo com ritmo (2) ....................... 64
-
Figura 30. Interface do resultado da anlise no primeiro modo com ritmo (3) ....................... 64
Figura 31. Interface do resultado na anlise no segundo modo (1) ........................................ 65
Figura 32. Interface do resultado da anlise no segundo modo (2) ........................................ 65
Figura 33. Interface do resultado da anlise no segundo modo (3) ........................................ 65
Figura 34. Interface do resultado da anlise no terceiro modo (1) ......................................... 66
Figura 35. Interface do resultado da anlise no terceiro modo (2) ......................................... 66
Figura 36. Interface do resultado da anlise no terceiro modo (3) ......................................... 66
Figura 37. Interface do resultado da anlise no quarto modo (1) ........................................... 67
Figura 38. Interface da anlise do resultado no quarto modo (2) ........................................... 67
Figura 39. Interface do resultado da anlise no quarto modo (3) ........................................... 67
-
Lista de tabelas
Tabela 1. Exemplo de tabela de probabilidades utilizadas para para classificao com PPM 20
Tabela 2. Porcentagem de acerto dos modos de avaliao .................................................... 68
Tabela 3. Durao dos testes dos modos de avaliao utilizando 7 contextos ........................ 68
Tabela 4. Resultado do teste simulando o MIREX ................................................................ 69
-
Lista de abreviaturas e siglas
ADC Conversor Analgico-Digital (Analogic/Digital Converter)
API Interface para Programar Aplicaes (Application Programming Interface)
bpm Batidas por minuto (beats per minute)
CV Validao Cruzada (Cross Validation)
DAC Conversor Digital-Analgico (Digital/Analogic Converter)
DAP Processamento digital de udio (Digital Audio Processing)
IMSLP Projeto Biblioteca Internacional de Partituras Musicais (International Music Score
Library Project)
ISMIR Sociedade Internacional para Recuperao de Informaes em Musical
(International Society for Music Information Retrieval)
LCS Mais Longa Subsequncia Comum (Longest Common Subsequence)
LOOCV Validao Cruzada Deixando Um de Fora (Leave-One-Out Cross Validation)
MIDI Interface Digital para Instrumentos Musicais (Musical Instrument Digital
Interface)
MIR Recuperao de Informaes em Msicas (Music Information Retrieval)
MIREX Permuta de Avaliaes de Recuperao de Informaes em Msica (Music
Information Retrieval Evaluation eXchange)
NCD Distncia de Compresso Normalizada (Normalized Compression Distance)
PPM Predio por Correspondncia Parcial (Prediction by Partial Matching)
SMS Similaridade de Melodias Simblicas (Symbolic Melodic Similarity)
-
Sumrio
1 Introduo ....................................................................................................................... 11
2 Fundamentao Terica ................................................................................................. 15
2.1 Teoria da Informao ............................................................................................... 15
2.1.1 Predio por Correspondncia Parcial ................................................................... 16
2.1.2 Exemplo de aplicao do PPM .............................................................................. 19
2.2 Sinais de udio .......................................................................................................... 21
2.2.1 Processamento Digital de udio ........................................................................... 22
2.2.2 Formato MIDI....................................................................................................... 22
2.3 Anlise Musical ......................................................................................................... 24
2.3.1 Ritmo .................................................................................................................... 26
2.3.2 Melodia ................................................................................................................ 27
2.3.3 Percepo do som ................................................................................................. 30
2.4 Validao Cruzada .................................................................................................... 34
2.4.1 Exemplo de validao cruzada .............................................................................. 35
3 Aplicao do PPM para Anlise Musical ....................................................................... 37
3.1 Trabalhos Correlatos sobre Anlise Musical ........................................................... 37
3.1.1 Trabalhos Correlatos Utilizando o Formato MIDI ................................................. 39
3.2 Descrio da Anlise Musical Realizada .................................................................. 41
3.2.1 Definio da Anlise Musical com o PPM ............................................................ 43
3.2.2 Exemplo da aplicao do mtodo de tratamento das melodias e ritmos .................. 45
3.2.3 Descrio das avaliaes realizadas....................................................................... 47
3.3 Sistema para Anlise Musical ................................................................................... 49
3.3.1 Detalhes de desenvolvimento ................................................................................ 50
3.3.2 Interface para Interao com o Sistema ................................................................. 52
3.3.3 Comparativo deste sistema com o Sistema de Percepo Auditiva ........................ 56
3.3.4 Verso do sistema para o MIREX ......................................................................... 59
4 Resultados da Anlise ..................................................................................................... 61
4.1 Interfaces dos resultados........................................................................................... 62
-
4.2 Detalhes dos resultados ............................................................................................. 68
5 Consideraes Finais ....................................................................................................... 70
5.1 Discusso dos Resultados .......................................................................................... 70
5.2 Propostas para Trabalhos Futuros ........................................................................... 71
Referncias ......................................................................................................................... 73
APNDICE A Aplicao do PPM para preparao de um modelo .............................. 79
APNDICE B Compresso de entrada utilizando um modelo com PPM .................... 83
APNDICE C Lista de obras utilizadas......................................................................... 89
-
11
1 Introduo
A ligao entre as diversas reas da cincia impe uma visualizao mais ampla diante
de conceitos existentes, principalmente pelo fato de tornar-se possvel levar em considerao
os diversos pontos de vista e funes crticas referentes a cada rea. Considerando a ligao
entre todas as Cincias e a Computao possvel reconhecer o quo importante a
participao desta na evoluo daquelas. A interao com a msica, por sua vez predisps
anlises diversificadas que vo desde a determinao automtica de acordes criao de
msica atravs de sistemas computacionais.
Um dos principais objetos de estudo da msica o som, fenmeno acstico existente
atravs da propagao de ondas sonoras pelo espao. O estudo do som por estar diretamente
relacionado com o sistema auditivo adquire conceitos importantes tambm na psicologia da
percepo auditiva e fisiologia do sistema neurolgico e auditivo. Alm disso, h de se
considerar o foco no estudo artstico da msica, buscando as razes para justificar as reaes
humanas perante as sensaes passadas, por exemplo, pela ateno execuo de uma ode e
na composio da mesma.
O ser humano percebe o som utilizando-se do seu sistema auditivo e s vezes do
sistema ttil e visual, considerando que propagao de ondas pelo espao provocada por
energia mecnica e eltrica na maioria das vezes. Desde a Gestalt, psiclogos passaram a
analisar os sentidos de modo que se tornou possvel entend-los com experincias que
descrevem o funcionamento do crebro quanto percepo. A percepo em si depende tanto
das sensaes quanto da interpretao criteriosa das relaes entre tudo que sentido. No
sistema auditivo, o som adquirido sequencialmente ordenado pelo ouvido humano e
percorre um caminho atravs da cclea at o crtex auditivo. Sua interpretao vai desde o
ouvido interno e pode se relacionar com lembranas de outros sons encontradas na memria.
As marcas deixadas por uma simples melodia podem gerar outras melodias ou serem
utilizadas para o simples reconhecimento da melodia a partir da execuo de poucas notas da
mesma. Desta mesma maneira, a percepo de ritmo leva ao acompanhamento do mesmo,
seja atravs de um instrumento musical ou um simples bater do p no cho, dando a
impresso de predio. Esta predio est relacionada com diversos fatores atravs dos quais
-
12
o crebro possibilita uma recuperao de uma informao antiga para reconhecer algo j
existente ou predispor a criatividade.
O tratamento de informaes, sejam elas de qualquer tipo, d a possibilidade de
entendimento das mesmas. Conceitos da Matemtica junto Computao permitiram que
fosse ento desenvolvida a Teoria da Informao, propondo uma maneira inovadora para o
tratamento de dados contidos em informaes atravs de mtodos matemticos. A partir da,
diversos trabalhos correlacionando as informaes contidas em dados tornaram-se possveis.
Na rea da Msica no foi diferente, tendo em vista que a anlise de uma grande quantidade
de obras vem a ser invivel ou cansativa por um humano, enquanto que um computador
habilitado para tal tarefa capaz de realiza-la em tempo hbil e sem fatigar-se pelo esforo
realizado.
Diversas pesquisas em busca das relaes entre as estruturas musicais foram realizadas
ao longo dos sculos atravs de anlise de partituras e documentos histricos. Com o avano
das tecnologias, as pesquisas foram se tornando mais intensas e os objetivos mais ambiciosos.
Alguns trabalhos clssicos propuseram o estudo das estruturas musicais em busca de
determinao de autoria, gnero e ritmos entre outras caractersticas importantes. A partir
deste ponto uma nova subrea da cincia musical surgiu com o nome de Recuperao de
Informaes Musicais (Music Information Retrieval MIR). A complexidade desta busca por
informaes contidas em msicas com o auxlio da computao resultou em diversas
metodologias que fazem parte do cotidiano auxiliando a seleo musical das pessoas atravs
do aconselhamento musical atravs de preferncias semelhantes (www.lastfm.com.br) e
possibilitando a identificao de msicas a partir do cantarolar de parte de uma melodia
relembrada (www.midomi.com).
Tendo em vista a possibilidade de interao entre as cincias e com base nos diversos
trabalhos da rea, decidiu-se aplicar tais conhecimentos em busca de uma nova maneira de
tratamento do udio a fim de permitir um agrupamento baseado nas estruturas internas das
msicas, como melodia e ritmo. Considerando o fato de a msica conter informaes e estas
informaes apresentarem relaes entre si, a possibilidade de aplicao de conceitos da
Teoria da Informao tornou-se foco deste trabalho. Tomando como base os principais
mtodos desta rea, verificou-se a existncia de um mtodo considerado estado da arte em
compresso baseada em contexto chamado mtodo de Predio por Correspondncia Parcial
(Prediction by Partial Matching PPM).
O PPM, mtodo aplicado neste trabalho, detm de bons resultados em diversas reas,
como reconhecimento de texturas, anlise de textos e outros tipos de informaes, sendo
-
13
considerado um dos mtodos com melhores resultados em compresso de dados. A ideia
principal deste mtodo de compresso vem da realizao da predio de um prximo smbolo
a partir dos contextos nos quais o smbolo aparece normalmente. A utilizao deste mtodo
em msica proposta pelo fato de que os conceitos da Teoria Musical possibilitam a
determinao de condies sequenciais existentes na Msica, como a determinao de uma
escala musical a ser utilizada em uma harmonia especfica, sendo assim possvel a suposio
das notas que podero ser executadas ou o padro rtmico utilizado por certa cultura.
A anlise musical torna-se complexa a partir do ponto em que esta se utiliza de
conceitos de diversas reas para obteno de concluses relevantes. A utilizao de um
mtodo j aceito como timo em outras reas proposto na anlise musical considerando a
possibilidade de obteno de resultados significativos. Um ponto a enfatizar a necessidade
de modelagem da informao musical a ser tratada pelo PPM por existirem diversas
informaes que podem ser consideradas em relao a uma simples nota musical.
Este trabalho especifica um mtodo para o tratamento de melodias musicais com o
intuito de agrupar as informaes musicais de maneira mais prxima das sensaes e
percepes realizadas pelo ser humano. O agrupamento utilizado neste trabalho parte dos
conceitos de como o sistema auditivo trata o som, baseando-se num tratamento sequencial
variaes entre frequncias sonoras e considerando as relaes de proporo de durao. Para
representao destas informaes so utilizados os smbolos das notas musicais referentes s
frequncias e durao de cada nota.
A avaliao deste mtodo se d a partir de uma anlise inicial de obras voltadas para
violino solo em busca de caracterizao de autoria das obras. Esta avaliao inicial realizada
em busca de restringir o conjunto de obras para reconhecer os melhores resultados obtidos
com a aplicao do PPM nestas informaes. A validao cruzada utilizada como teste
principal dos modelos criados para classificao de cada autor a fim de qualificar os modelos
criados e validar a aplicao do mtodo.
Aps a validao do mtodo e obteno de variveis relevantes para aplicao do PPM
na anlise musical, torna-se possvel uma avaliao mais apurada do mtodo utilizando-se de
um banco de msicas com uma quantidade relativamente maior. A ideia do novo teste parte
do conceito de que com o mtodo proposto possvel reencontrar uma obra mesmo com
alteraes na mesma. Sendo assim, realizado um teste final com tais obras com a finalidade
de verificar a taxa de acerto.
Os prximos captulos do uma viso melhor do que se deseja apresentar com o
mtodo aqui aplicado. O Captulo 2 trata a fundamentao terica que serve de base para o
-
14
trabalho, sendo descritos conceitos da Teoria da Informao com foco na descrio do PPM.
Uma breve introduo s noes de sinais de udio e seu processamento apresentada junto
definio das caractersticas do formato MIDI que ser utilizado para leitura e interpretao
dos arquivos de udio do trabalho. O tpico sobre anlise musical trata algumas caractersticas
da msica, apresentando definies sobre ritmo e melodia de modo que estes sejam
compreendidos do ponto de vista em que se enquadram na metodologia aqui aplicada. Por
fim, apresentado o mtodo estatstico aqui utilizado para avaliao dos resultados obtidos.
O Captulo 3 apresenta diversos trabalhos correlatos com inteno de mostrar como
algumas pesquisas da rea so desenvolvidas e quais critrios so tomados como base para a
realizao deste trabalho. Os mtodos de utilizao dos arquivos no formato MIDI tambm
so apresentados a fim de demonstrar maneiras diferentes para o tratamento do udio, visto
que este formato exprime apenas os eventos ocorridos e no fora desenvolvido apenas para
representao de udio, mas tambm para a comunicao de dispositivos.
O Captulo 4 define o mtodo aqui aplicado correlacionando a Anlise Musical com o
PPM. O sistema desenvolvido para avaliao do mtodo apresentado neste captulo com a
apresentao de alguns diagramas, detalhes do desenvolvimento, a interface do sistema, um
comparativo com o Sistema de Percepo Musica humano, alm de ser descrita uma verso
especfica do sistema. Os resultados dos testes realizados com o sistema so apresentados no
Captulo 5 e algumas consideraes sobre todo o trabalho esto situadas no Captulo 6.
-
15
2 Fundamentao Terica
Por se tratar de um trabalho multidisciplinar, o qual envolve conceito de msica,
computao, psicologia, medicina e estatstica, sero apresentadas neste captulo diversas
definies relacionadas com os temas passveis de utilizao. O enfoque principal passa a ser
em relao Teoria da Informao e sua aplicao num mbito musical em busca do
reconhecimento de padres existentes em linhas meldicas. O conceito de melodia e ritmo
ser apresentado de maneira sucinta a fim de que se torne claro o foco deste trabalho.
A relao entre o processamento de sinais e o formato MIDI ser descrita com enfoque
na utilizao deste formato para a anlise musical, sendo apresentadas apenas as
caractersticas relevantes. Como haver a aplicao de uma metodologia estatstica para
avaliao dos resultados obtidos atravs da validao cruzada, esta ser detalhada com
exemplo para o tipo de validao efetuado nos testes a serem realizados.
2.1 Teoria da Informao
A Teoria da Informao foi desenvolvida no fim da dcada de 40 por Claude Shannon,
e desde ento todos os tipos de informaes passaram a ter definies e propriedades bem
especficas (SHANNON, 1948). Por ter sido o primeiro a considerar comunicao como um
problema matemtico rigorosamente embasado na estatstica, Shannon considerado o pai
da Teoria da Informao. A partir de seus estudos, a nova era da informao se iniciou,
levando a cincia a estudar a informao com bases filosficas e teorias cada vez mais
vigorosas.
Os conceitos criados desde ento levaram ao desenvolvimento de diversas tcnicas
para suprirem algumas necessidades que j existiam no passado. Uma dessas necessidades
que pode ser citada a maneira de analisar muitas informaes de maneira mais eficiente.
Neste ponto, surgiram tcnicas de codificao e compresso de informaes que vieram a
mudar a forma de tratamento de todo tipo de dado alm de contribuir com o reconhecimento
de padres.
Todo dado de uma informao pode ser tratado como um smbolo e este smbolo deve
carregar consigo uma auto-informao. Considerando que cada smbolo pertence a um
alfabeto A = {a0, a1,, aM-1}, temos que cada smbolo apresentar uma probabilidade de
-
16
ocorrncia a partir de uma certa fonte de informao. Sendo S uma fonte de informao -
como uma imagem, um texto ou uma msica, por exemplo -, temos que um elemento x
gerado por S pode ser considerado uma varivel aleatria que assume o valor a1 com
probabilidade P(x = ai), para i = 0, 1,, M-1. Uma varivel aleatria pode ser entendida como
uma varivel quantitativa, cujo valor depende de fatores aleatrios. Desta maneira, a auto-
informao associada a um pode ser representada a partir da Equao 1.
I(ai) = - log2 P(x = ai) bits (1)
Num determinado alfabeto, se for atribudo a cada smbolo uma quantidade de bits
relativa a sua auto-informao, o comprimento mdio do cdigo eh minimizado. Shannon
(1948) provou que h a possibilidade de codificar sem perdas as informaes de uma fonte
qualquer chegando a uma taxa arbitrariamente prxima entropia, mas no inferior a ela.
Enquanto para a Fsica a entropia de um sistema uma medida de sua desordem, a teoria da
informao diz que a entropia ser menor se o modelo probabilstico utilizado para
codificao de um sistema for mais preciso. Logo, possvel utilizar a entropia para avaliar a
eficincia da codificao utilizada para uma fonte de informao, caracterizando um cdigo
como timo quando seu comprimento mdio igual entropia, pois neste caso a
probabilidade de ocorrncia de cada smbolo na sequencia estimada com preciso. Alm
disso, para atingir este comprimento mdio mnimo necessrio que cada smbolo seja
representado com nmero de bits igual sua auto-informao, obtendo desta forma uma
compresso de cdigo otimizada na transmisso ou armazenamento da mensagem.
As tcnicas de compresso so baseadas em mtodos de codificao para modelagem
de informao. Elas trabalham na relao entre o modelo e o cdigo a fim de encontrar a
compresso tima. Dentre estas diversas maneiras de codificao, surgiu um dos mais
sofisticados mtodos de codificao de informaes chamado mtodo de Predio por
Correspondncia Parcial. Este, que se caracteriza como um mtodo utilizado para compresso,
por sua vez, codifica smbolos a partir do reconhecimento de padres existentes em
sequncias e ser mais bem descrito a seguir.
2.1.1 Predio por Correspondncia Parcial
O mtodo de Predio por Correspondncia Parcial (Prediction by Partial Matching
PPM) um sofisticado estado da arte dos mtodos de compresso originalmente
desenvolvido por J. Cleary e I. Witten. O mtodo baseado em um codificador que mantm
um modelo estatstico da entrada baseando-se em contexto. Desta forma, o modelo estatstico
-
17
criado impe que a probabilidade de um smbolo no depende apenas da frequncia do
smbolo, mas tambm do contexto que o antecede (CLEARY e WITTEN, 1984).
Cleary e Witten (1984) afirmam que um modelo que captura mais precisamente as
caractersticas reais da fonte reduz sua entropia, aumentando as oportunidades de
compresso. Logo, a definio de um modelo que leve menor entropia para uma fonte
genrica um problema sem soluo definida. Ganhos de compresso podem sempre ser
obtidos com a construo de modelos mais precisos levando em considerao que os dados
podem ser remodelados de diversas maneiras para serem utilizados com este mtodo. No caso
do PPM, o modelo apresenta-se bastante eficiente quando a informao a ser modelada para a
codificao e compresso apresenta maior preciso quando o contexto pode ser considerado
importante e tem-se a partir da sua utilidade em casos especficos como um reconhecimento
de padres.
O algoritmo do PPM basicamente realiza a contagem das ocorrncias dos smbolos. A
cada smbolo lido, h uma verificao do seu contexto em diversas ordens com o intuito de
incrementar o contador de ocorrncia do smbolo seguido dos contextos nos quais tal smbolo
foi encontrado, alm do contador de ocorrncia do prprio smbolo. O contexto de um
smbolo a sequncia de smbolos que o antecedem, e a quantidade de contextos que sero
avaliados depende da ordem do PPM. Caso esteja se considerando uma ordem dois, sero
computados os contadores do smbolo, do smbolo junto ao seu antecessor e do smbolo junto
aos seus dois antecessores. A probabilidade de cada smbolo em cada ordem dada pela
diviso da quantidade de vezes que o smbolo apareceu seguido do contexto da ordem em
questo pela quantidade de vezes que o contexto ocorreu.
A aplicao do PPM resulta em uma tabela composta pela probabilidade dos smbolos
e contextos dos dados de entrada. Um dos casos especiais a ser tratado pelo mtodo est
relacionado situao na qual algum smbolo ou sequncia no tenha ocorrido durante a
criao da tabela, o que determinaria uma probabilidade igual a zero para a ocorrncia do
smbolo em questo. Existem diversas solues para sanar o problema da probabilidade zero,
o que garante a existncia de diversas verses de implementao do algoritmo do PPM. Para
gerar valores para os smbolos com probabilidade zero, algumas verses utilizam estimadores
como o de Laplace, outras utilizam smbolos de escape, e em casos mais simples o valor 1
atribudo nesta situao (SALOMON e MOTTA, 2009).
Temos que os modelos gerados pelo PPM so criados a partir dos dados de entrada e
do contexto selecionado. O contexto define a ordem do PPM, todavia, um contexto muito
elevado traz srios problemas ao processo de compresso com relao ao tempo e memria
-
18
definidos para a modelagem. Por exemplo, para um alfabeto de 256 smbolos, o nmero de
contextos de ordem dois e trs so, respectivamente, 65536 e 16777216. O contexto de ordem
dois gerencivel, enquanto o outro talvez seja muito grande para manipulao em alguns
casos. Na prtica, contextos relativamente curtos, entre dois e dez, so utilizados. Uma boa
implementao do PPM requer uma estrutura de dados cuidadosamente desenvolvida para
prover rpida busca e fcil atualizao diante dos milhares de smbolos. Em alguns casos
guardar em memria apenas a probabilidade de elementos que apareceram na criao do
modelo diminui o custo de memria para contextos altos.
Dentre as diversas caractersticas do PPM, alguns princpios podem ser levados em
considerao tanto na criao da tabela de probabilidades quanto na compresso. Um deles
o princpio da excluso, que retira da tabela os itens que no tero probabilidade de ocorrer no
momento da codificao. Outro princpio que pode ser citado se refere dinamicidade do
PPM, visto que o modelo pode ser esttico ou adaptativo. Um modelo esttico torna a
compresso mais rpida, alm de facilitar a descompresso visto que o modelo no ser mais
alterado durante a compresso por se utilizar de um conjunto fixo de probabilidades pr-
estimadas, o que pode levar a uma compresso ineficaz caso modelo seja incompatvel com o
que se deseja comprimir. J o modelo adaptativo, que se atualiza durante a compresso, pode
tornar mais lento o processo de compresso enquanto melhora a taxa de compresso por
utilizar as taxas reais durante este processo, j que vai se adaptando entrada.
O resultado da compresso dos smbolos de entrada baseando-se nos modelos o
armazenamento das probabilidades de ocorrncia de cada smbolo. Desta forma, os smbolos e
contextos com maior ocorrncia sero armazenados de uma maneira melhor por apresentarem
valores maiores para a probabilidade de ocorrncia, o que facilita a compresso utilizando um
bom codificador. Tendo em vista que as probabilidades sero resultados decimais, possvel a
utilizao do Codificador Aritmtico durante a compresso, visto que codificadores inteiros
dificultariam a aproximao do resultado entropia da fonte (WITTEN, 1987). O Codificador
Aritmtico tido como codificador timo por codificar cada smbolo com um nmero de bits
igual sua auto-informao, apresentando um cdigo timo de comprimento mdio igual
entropia.
Na prtica, pode-se utilizar o PPM apenas para calcular o resultado da sua compresso
a fim de comparar resultados de modelos utilizados. Para isto, aps a criao da tabela de
probabilidades de um modelo, realiza-se a compresso de uma fonte e obtm-se o resultado
final a partir da soma da quantidade de bits usada para representao de cada smbolo
baseando-se na frmula da auto-informao. O resultado da soma da quantidade de bits
-
19
utilizada para cada fonte no modelo em questo pode ser comparado a fim de verificar qual
fonte obteve uma melhor compresso, determinando qual delas garante uma maior adequao
da fonte ao modelo. H tambm a possibilidade de clculo da razo de compresso para
verificar onde obtido o melhor resultado em uma classificao. A razo de compresso
definida atravs da porcentagem entre o tamanho do arquivo comprimido e o no
comprimido. Uma aplicao do PPM apresentada a seguir a fim de facilitar seu
entendimento atravs de um exemplo voltado codificao de palavras.
2.1.2 Exemplo de aplicao do PPM
A aplicao do PPM parte da criao da tabela de contagem de ocorrncias a partir da
leitura de uma entrada que vir a criar um modelo seguindo o algoritmo do PPM com uma
ordem determinada. Uma possibilidade para esta aplicao a utilizao do PPM-C
(MOFFAT, 1990), algoritmo este que uma variao do PPM, acrescentando sempre um
caractere extra de escape quando uma nova ocorrncia em um contexto aparece. A utilizao
deste caractere feita para reservar uma probabilidade para a ocorrncia de um novo smbolo
no contexto em questo. Desta maneira, se um contexto foi seguido nove vezes por um
smbolo x ento este smbolo tem a probabilidade de ocorrncia de nove em dez enquanto o
escape em a probabilidade de ocorrncia de um em dez. Logo, se um smbolo que no
houvera ocorrido antes aparece aps este contexto, teremos neste momento que a
probabilidade de ocorrncia deste smbolo seria a do escape. Aps isto, a probabilidade do x
vir a ser nove em doze, a do novo smbolo ser uma em doze e a do escape ser duas em
doze.
A fim de explicar a aplicao do PPM na prtica, um exemplo ser apresentado a
seguir. Tomando como possibilidade de sinal de entrada o alfabeto representado por A = {A,
B, C, D, R}, ser utilizado o PPM-C para criar um modelo a partir a palavra
ABRACADABRA e buscar comprimir as palavras DACAR e ABBAD neste modelo a fim de
verificar as vantagens deste mtodo de predio. Os passos para a criao da tabela com os
contadores segue no APNDICE A.
Aps a criao da tabela com os contadores, a tabela preenchida com as
probabilidades atuais dos smbolos, resultando na Tabela 1. Esta tabela de probabilidades ser
utilizada e adaptada ao longo da compresso de cada palavra, partindo sempre deste modelo
inicial. A ordem -1 no se encontra na tabela por esta ordem ser utilizada apenas no incio da
criao da mesma com espao reservado para os itens que ainda no foram utilizados e que
no apresentam probabilidades de ocorrncia.
-
20
Tabela 1. Exemplo de tabela de probabilidades utilizadas para para classificao com PPM
Ordem 3 Ordem 2 Ordem 1 Ordem 0
ABR A 2/3
esc 1/3
ACA D 1/2
esc 1/2
ADA B 1/2
esc 1/2
BRA C 1/2
esc 1/2
CAD A 1/2
esc 1/2 DAB R 1/2
esc 1/2
RAC A 1/2
esc 1/2
AB R 2/3
esc 1/3
AC A 1/2
esc 1/2
AD A 1/2
esc 1/2
BR A 2/3
esc 1/3
CA D 1/2
esc 1/2 DA B 1/2
esc 1/2
RA C 1/2
esc 1/2
A B 2/7
A C 1/7
A D 1/7
esc 3/7
B R 2/3
esc 1/3
C A 1/2
esc 1/2
D A 1/2
esc 1/2 R A 2/3
esc 1/3
A 5/16
B 2/16
C 1/16
D 1/16
R 2/16
esc 5/16
Fonte: Autoria prpria (2011)
No Apndice B apresentado todo o procedimento para compresso das entradas a
partir da tabela de probabilidades criada. Realizando a soma da quantidade de bits necessria
para codificar cada smbolo, temos que "DACAR" comprimido em 10,807 bits, enquanto
que "ABBAD" comprimido em 12,911 bits, ambos utilizando o mesmo modelo. Aps a
codificao de ambas as entradas, percebe-se que a primeira palavra adquire uma compresso
melhor do que a primeira por apresentar sequncias de smbolos mais comuns no modelo
utilizado, como "DA" e "ACA" e que resultaram em uma reduo da entropia.
Considerando todas as caractersticas apresentadas temos que o PPM til para
reconhecimento de padres baseados em correspondncias parciais. Diante disto, a escolha do
que ser utilizado como dado simblico para o PPM deve ser bem definido. A definio dos
dados deve manter o foco sobre a informao contida no dado, j que ser utilizada sua auto-
informao para clculo da probabilidade. Esta etapa de definio de dados, tambm chamada
de modelagem de dados, importante para que seja possvel encontrar semelhanas que
possam gerar um bom modelo e predizer bem a partir dos padres encontrados.
Considerando estes fatores e o conhecimento dos bons resultados apresentados pelo
PPM em outras reas, surgiu a ideia de aplicar o PPM na Msica, rea pouco explorada pela
utilizao do mesmo. Como as obras musicais podem ser interpretadas a partir de diversos
pontos de vista, buscou-se foco na anlise a partir da representao do sinal de udio. Sendo
assim, os dados utilizados neste trabalho para a modelagem so definidos a partir da
representao simblica de sinais de udio de forma que a tanto segmentao como a
representao do sinal permita que se encontrem padres que tornem semelhantes as obras
musicais.
-
21
2.2 Sinais de udio
Operacionalmente, o sinal um tipo de mensagem, cujo texto composto de uma ou
mais letras, palavras, personagens, smbolos, displays visuais ou sons especiais, com
significado pr-arranjado e que veiculado ou transmitido por meios visuais, acsticos ou
eltricos. Os sinais de udio, considerados mensagens ou representaes sonoras, apresentam
representaes analgicas ou digitais e so utilizados para passar informaes ou
representaes de algo que pode ser produzido atravs de ondas sonoras.
A diferena entre udio e som precisa ser levada em considerao deste ponto em
diante. O som considerado um fenmeno acstico que existe a partir da propagao de
ondas sonoras produzidas por um corpo que vibra em meio material e que pode se estender
alm das capacidades audveis humanas. J o udio vem a ser um som reproduzido ou captado
eletronicamente. Logo, a partir do momento em que um som processado eletronicamente ele
passa a ser considerado como udio, e o udio ao ser reproduzido atravs de algum meio
torna-se som. A partir da temos que ambos podem ser interpretados e tratados.
A interpretao de um sinal se d atravs do seu processamento seja por meio da
sensao e percepo humana ou com a utilizao de equipamentos eletromecnicos. No meio
eletrnico e computacional, temos que o processamento de sinal uma rea da computao,
engenharia eltrica e matemtica aplicada, e que lida com operaes ou anlise de sinais em
tempo discreto ou contnuo para executar operaes teis sobre esses sinais. Outras reas
tambm se utilizam dos sinais para diversos fins, como a msica que se utiliza dos sinais de
udio para anlise de suas caractersticas acsticas.
Os sinais de udio podem ser tratados no formato analgico ou digital. O primeiro
formato baseia-se na utilizao de circuitos eltricos ou mecnicos, de maneira que a forma
pura do sinal seja utilizada. O formato digital normalmente resulta da converso do formato
analgico para alguma representao som atravs de smbolos ou com aplicao de
compresso do sinal analgico para facilitar seu tratamento atravs de computadores. Este
tratamento digital se d pelo fato de um sinal ser algo contnuo com infinitos pontos, o que
torna invivel o armazenamento de toda a representao bruta do sinal para seu tratamento
posterior em virtude das limitaes computacionais em relao ao processamento e
principalmente memria para armazenamento, alm de ser possvel considerar que em
muitos casos no h tal necessidade em virtude das prprias limitaes dos seres humanos em
perceber todas as variaes de um sinal analgico.
-
22
2.2.1 Processamento Digital de udio
O processamento digital de udio (Digital Audio Processing - DAP) est preocupado
com a representao de tempo discreto de sinais de udio por uma sequncia de nmeros ou
smbolos e o processamento desses sinais. O objetivo do DAP geralmente medir, filtrar ou
comprimir sinais analgicos contnuos do mundo real. O primeiro passo deste processo
converter o sinal de um formato analgico para um formato digital, por amostragem usando
um conversor analgico-digital (Analogic/Digital Converter - ADC), que transforma o sinal
analgico em um fluxo de nmeros. Algumas vezes, o sinal de sada necessrio pode ser
requerido em formato analgico, o que requer um conversor digital-analgico
(Digital/Analogic Converter - DAC). Estas converses citadas se do a partir da determinao
de valores como quantizao e amostragem do som, todavia, o udio em formato digital pode
ser adquirido atravs de representaes criadas diretamente atravs de meios digitais como
programas simuladores de ondas que utilizam funes especficas para gerar ondas nas
frequncias e amplitudes desejadas.
O sinal de udio em formato digital adquire diversos formatos, visto que o som pode
ser tratado de diversas maneiras. Os formatos digitais partem do princpio de que o udio
resultante de uma onda sonora e esta onda foi formada a partir uma ou mais ondas em
frequncias diferentes. Sua representao digital pode ser a partir de senides, valores ou
smbolos com carter representativo da onda, as frequncias existentes ou at as notas
musicais relativas s tais frequncias. Esta ltima forma de representao mais encontrada
em partituras escritas utilizando programas de computador ou meramente digitalizadas, sendo
ainda possvel a utilizao de formatos especficos como o MIDI (Musical Instrument Digital
Interface), que ser utilizado neste trabalho.
2.2.2 Formato MIDI
MIDI (Musical Instrument Digital Interface) um protocolo padro da indstria que
permite que instrumentos musicais eletrnicos (sintetizadores), computadores e outros
equipamentos eletrnicos (controladores MIDI, placas de som, samplers) se comuniquem e
sincronizem-se uns com os outros. Ao contrrio de dispositivos analgicos, os dispositivos
que utilizam o protocolo MIDI no transmitem um sinal de udio, ao invs disso, enviam
mensagens em formato de eventos. Estes eventos podem conter informaes sobre a notao
musical, altura musical e intensidade de execuo de uma nota, sinais de controle de
parmetros como vibrato, volume e panning, pistas e sinais de relgio para definir o tempo.
-
23
Todas as informaes citadas podem ser vistas com maiores detalhes atravs do site oficial
http://www.midi.org.
Por ser um protocolo eletrnico, nota-se sua ampla adoo por toda a indstria da
msica desde sua definio em 1982. Por ser um protocolo digital e trabalhar com mensagens,
estas mensagens podem ser armazenadas em memria para um futuro uso. O formato padro
utilizado para armazenamento em arquivos o Standard Midi Format (SMF) que pode gerar
arquivos com as extenses "smf" e "mid". Este formato pode ser utilizado para representar
uma msica inteira, e como a msica armazenada como instrues ao invs de formas de
onda, o tamanho dos dados dos arquivos bastante pequeno em comparao aos formatos
mais comuns como MP3 e WAVE, os quais buscam representar o sinal de udio o mais
prximo possvel do sinal originalmente analgico utilizando-se ou no de compresso.
As mensagens em um arquivo mid representam os eventos que podem estar
relacionados s frequncias do udio, mudana de configurao ou podem ser referentes a
efeitos. Algumas caractersticas destes eventos foram baseadas no formato padro da notao
musical. Os eventos voltados s frequncias utilizam a diviso de notas de um piano e
codificam cada nota com um valor representativo entre 0 (zero) e 128. Esta codificao tem
como referncia a frequncia 440 Hz, sendo esta frequncia equivalente ao quarto L da
notao musical ocidental temperada (explicada posteriormente) e com o cdigo igual a 69 no
formato mid como pode ser visto na Figura 1.
Figura 1. Representao da relao entre as frequncias, cdigo MIDI e notas musicais
Fonte: Adaptao de http://en.wikipedia.org/wiki/File:NoteNamesFrequenciesAndMidiNumbers.svg (2010)
-
24
O formato tambm se assemelha linguagem musical no que diz respeito durao
dos eventos, pois cada evento apresenta um incio e fim em uma linha do tempo guiada por
uma referncia s batidas por minuto (bpm) ou quantidade de quadros por segundo (SMPTE
system). Desta maneira, tratar o contedo deste formato de arquivo a partir de conceitos de
teoria musical uma alternativa para anlises musicais comparando-se com uma anlise de
partituras ou outros registros sonoros. Dependendo da anlise, vrios temas da teoria musical
podero ser abordados, e dentre eles tem-se a melodia e o ritmo musical, abordados neste
trabalho.
A escolha desde formato de descrio simblica do som visa facilitar o tratamento das
informaes. As frequncias so numeradas e identificadas como notas de diferentes oitavas
musicais. Considerando conceitos da Teoria Musical que sero descritos em 2.3, tem-se que o
formato MIDI segue o modelo ocidental de representao musical baseando-se na escala
temperada que consiste de 12 notas por oitava, a cada 12 notas teremos repetio de uma nota
anterior, sendo iniciada a ordem a partir do C(-1) com o valor 0 (zero) em cdigo MIDI e
tendo o C0 com cdigo 12. O C(-1) representa a nota mais grave a ser apresentada no formato
MIDI sendo referente frequncia 8,17 Hz, sendo possvel tratar at a nota G9 como a mais
aguda referente frequncia 12.543,85 Hz e ao cdigo 127 em MIDI, compreendendo assim
10 oitavas. Desta forma possvel perceber que a representao MIDI compreende uma
escala de frequncias til para a anlise musical.
Analisar aspectos meldicos e rtmicos a partir de ondas sonoras no deixa de ser uma
opo, no entanto, utilizar-se de uma representao simblica do som parte do julgamento de
que esta uma representao mais simples e mais prxima dos conceitos da Teoria Musical.
O tratamento da onda sonora de uma melodia atravs de suas frequncias normalmente levaria
converso da onda em valores numricos referentes s frequncias o que pode ser facilitado
atravs da representao simblica em formato de notas. J o tratamento do ritmo parte do
tratamento das repeties e duraes da execuo das frequncias, sendo assim possvel sua
representao numrica em escala de tempo. A partir destas observaes, considera-se que
seja possvel tratar parte da auto-informao contida em melodias e ritmos utilizando o
formato MIDI, avaliando uma modelagem especfica dos dados referentes a estes temas.
2.3 Anlise Musical
O termo analisar vem da ideia de examinar partes de um todo em busca do seu
entendimento. O resultado de uma anlise pode ser a compreenso de suas estruturas
-
25
orgnicas e suas relaes a fim de especificar uma lgica cientfica do que est sendo
analisado. A anlise musical caracterizada pelo entendimento de estruturas que fazem da
msica, uma arte to admirada e ao mesmo tempo questionada pelas sensaes passadas
atravs de sua execuo.
O som, matria prima da msica, sempre existiu, porm boa parte dos seres vivos
sente o som da mesma maneira que os seres humanos sentem as ondas de rdio atravessando o
corpo, ou seja, mal sentem ou no sentem. O sentido da audio est presente em muitos seres
vivos, mas a experincia de ouvir msica pelos seres humanos s possvel graas ao poder
do crebro em manipular padres complexos de som de maneira simultnea e sucessiva,
caracterizando assim a msica, fato que at ento no fora evidenciado em outros seres que
utilizam do sentido da audio com funo natural de sobrevivncia (JOURDAIN, 1998).
A palavra msica, que vem do grego musik tchne (arte das musas), d nome arte
de combinao de sons e silncios. Esta arte, cuja percepo auditiva e sequencial, existe
desde as primeiras civilizaes, com manifestaes prprias e teorias complexas que so
estudas at os dias atuais. Sua anlise teve fortes avanos no sculo XX a partir das
contribuies das diversas reas da cincia, como a psicologia, medicina, computao e a
prpria cincia musical. Isto gerou diversos conflitos entre msicos e pesquisadores, pelo fato
de estes buscarem formalizar logicamente os padres musicais, enquanto que aqueles
priorizam as relaes subjetivas apresentadas na msica.
O estudo da msica levou ao desenvolvimento da Teoria Geral Musical, muitas vezes
chamada de cincia musical, estruturada atravs de diversas disciplinas tidas no como fim,
mas como um meio de entendimento da msica. As principais disciplinas que compem esta
cincia so: teoria bsica da msica, solfejo, ritmo, percepo meldica, rtmica e dinmica,
harmonia, contraponto, formas musicais, instrumentos musicais, instrumentao,
orquestrao, arranjo, fisiologia da voz e fontica, psicologia da msica, pedagogia musical,
histria da msica, acstica musical, anlise musical, composio, regncia e tcnica de um
ou mais instrumentos musicais especficos (MED, 1996).
A estrutura musical determina que qualquer que seja o mtodo e o objetivo, o material
sonoro a ser usado pela msica tradicionalmente dividido de acordo com trs elementos
organizacionais: melodia, harmonia e ritmo. No entanto, quando nos referimos aos aspectos
do som nos deparamos com uma lista mais abrangente de componentes: altura, timbre,
intensidade, durao, entre outros.
A anlise realizada neste trabalho visa um estudo com base nos padres que podem ser
encontrados em articulaes rtmicas e meldicas de linhas meldicas. Uma articulao pode
-
26
ser considerada uma juno entre elementos semelhantes, e, neste caso, tem-se as notas
musicais como os elementos. As articulaes sero consideradas em relao diferena entre
as alturas das notas e diferena entre as duraes das mesmas, referentes s articulaes
meldicas e rtmicas, respectivamente.
2.3.1 Ritmo
Certas medidas so dispostas comumente como definidoras de ritmo. Uma frequncia
medida em unidade de tempo ou distncia d uma ideia de regularidade de acontecimento, no
entanto, o ritmo no algo que venha a ser regular. A razo de certa ordenao ou a noo do
fluir musical traz uma ideia estrutural muito mais abrangente em relao definio de ritmo.
Esta ordenao que pode ser de carter contnuo ou descontnuo requer maior ateno a partir
do momento em que sua diversas caractersticas so levadas em considerao na determinao
de um ritmo qualquer (KIEFER, 1979).
As caractersticas rtmicas voltadas msica esto relacionadas durao e
intensidade, todavia possvel caracterizar um ritmo tambm atravs de variaes de timbre e
altura. O ritmo na msica adquire condies especficas baseando-se nas culturas e nos
instrumentos atravs dos quais ele expresso. O msico, ao executar uma obra, tambm
interfere na forma como os ritmos so articulados, mesmo partindo de uma mesma
representao rtmica.
A representao rtmica na msica baseada em smbolos que so utilizados para dar
uma ideia de durao de movimentos. Estes smbolos seguem os conceitos de notaes
musicais, e partem da ideia de proporo temporal. A notao musical o nome comum dado
a qualquer sistema utilizado para representar graficamente uma obra musical, permitindo sua
execuo como fora composta (MED, 1996). Na Figura 2, algumas propores so
apresentadas utilizando a notao musical ocidental. Da esquerda para a direita temos
smbolos que representam as duraes: semibreve, mnima, semnima, colcheia, semicolcheia,
fusa e semifusa. A ideia de proporo existente entre elas se d a partir da durao em escala
temporal. Uma semibreve representa uma unidade de tempo proporcional a duas mnimas,
sendo assim, a semibreve apresenta-se como uma unidade e a mnima como metade desta
unidade, e assim por diante. Considerando que cada representao referente unidade
padro que semibreve neste caso. Logo, temos que a semifusa equivale a um sessenta e
quatro avos do tempo de durao da semibreve.
-
27
Figura 2. Representao da proporo temporal existente entre smbolos de notao musical
Fonte: POZZOLI (1983)
A partir da combinao destes smbolos possvel a criao e representao de um
nmero imenso de ritmos (POZZOLI, 1983). A combinao deles pode ser ordenada ou no e
permite que certos padres de sequncias sejam seguidos para caracterizar ritmos especficos,
alm de ser possvel articular ritmos diferentes em paralelo utilizando-se mais de um
instrumento, abrangendo assim uma gama de sensaes rtmicas distintas diante de poucos
smbolos. A Figura 3 apresenta alguns exemplos de articulaes rtmicas a partir da variao
entre smbolos da notao musical.
Figura 3. Exemplo de articulaes rtmicas
Fonte: POZZOLI (1983, p. )
Este representao musical utiliza-se de muitos outros smbolos da msica, todavia,
dando ateno apenas s sequencias de smbolos apresentados da Figura 2, possvel verificar
como tais smbolos podem ser agrupados. As sensaes passadas pela execuo de qualquer
uma das 15 sequncias apresentadas na Figura 3 so diferentes, mesmo quando as diferenas
so mnimas. Isso se d pelo fato de o sentido rtmico ser determinado por estas diferenas de
organizao. Porm, outras particularidades da execuo podem dar aspectos diferentes at a
uma mesma sequncia rtmica, e uma destas particularidades, a melodia, ser descrita a
seguir.
2.3.2 Melodia
A sucesso de notas proporcionando uma variao de frequncias sonoras caracteriza
o que pode ser chamado de melodia. Na teoria musical, tem-se que a base para o estudo das
-
28
melodias so as notas musicais, os motivos meldicos e temas, os quais fazem parte da
estrutura da melodia dando sentido mesma. O sentido musical de uma melodia sua
principal caracterstica, pois a partir dele que se sente o que tal melodia transparece
(KIEFER, 1979).
O sentido de uma melodia ter maior carter significativo em seu sistema nativo de
notao musical. Um sistema de notao musical pode ser comparado lngua de um pas no
que diz respeito ao modo de passar conhecimento ou descrever algo. Esta comparao se
baseia no fato de sistemas musicais existirem desde a antiguidade e variarem entre diferentes
culturas, sempre servindo como forma de eternizar o conhecimento musical e obras musicais.
Nos dias atuais, o sistema mais tradicional o ocidental, que emprega notas musicais
representadas em um pentagrama utilizando smbolos apresentados na Figura 2 para definio
de localizao e durao das notas musicais, sendo possvel o emprego de outros smbolos
para discriminar a forma como a melodia foi pr-definida pelo compositor para ser executada
posteriormente (MED, 1996).
As notas musicais utilizadas no sistema ocidental seguem um padro que permite sua
interpretao de forma mais prtica, considerando que este padro evita tanto o uso dos
valores das frequncias sonoras quanto a representao da durao de cada frequncia em
unidade de tempo padro como o segundo ou milissegundo. A princpio so definidas sete
notas musicais, sendo elas d, r, mi, f, sol, l e si, representadas tambm de maneira cifrada
por C, D, E, F, G, A e B, respectivamente. Estas sete notas podem adquirir a condio de
sustenido (#) ou bemol (b) dependendo da escala, e, desta maneira, passam a existir 21 notas
musicais. No entanto, alguns instrumentos apresentam apenas 12 notas diferentes em cada
oitava, como o piano, pelo fato de igualarem algumas notas: C# e Db, D# e Eb, E e Fb, E# e
F, F# e Gb, G# e Ab, A# e Bb, B e Cb, B# e C. Neste caso citado, uma representao para a
sequncia de notas pode ser C, C#, D, D#, E, F, F#, G, G#, A, A# e B, totalizando 12 notas
que se repetem em a cada oitava. O sistema de notao musical que utiliza esta definio
tido como sistema temperado. Em algumas culturas orientais tem-se a utilizao de mais notas
musicais em virtude de notaes antigas e divises diferenciadas, o que promove maneiras
diferentes de representao musical que no sero tratadas neste trabalho (JOURDAIN,
1998).
A apresentao de uma melodia atravs do sistema de notao musical ocidental
resulta na visualizao das relaes entre notas sucessivas. Uma breve representao de
melodia apresentada na Figura 4. Nela possvel observar a melodia inicial do Hino
Nacional Brasileiro com a letra acompanhando cada smbolo da notao ao qual se refere.
-
29
Tendo em vista a altura das notas em relao pauta, verifica-se que ocorre uma sequncia de
ascenso e queda.
A altura de uma nota determina quo grave ou quo aguda ela considerando a sua
localizao na pauta, de modo que podemos comparar a pauta com um grfico em que o eixo
das abscissas representa o tempo, enquanto que o eixo das ordenadas representa a frequncia
das ondas sonoras. Um exemplo grfico comparativo para a melodia do Hino Nacional
Brasileiro apresentado na Figura 5. Outro conceito da Teoria Musical que visto nesta
partitura o ponto aps o smbolo, tornando a nota com uma durao 50% maior que sua
durao original.
Figura 4. Parte inicial da Melodia do Hino Nacional Brasileiro
Fonte: SILVA (2011).
Figura 5. Exemplo da representao grfica do Hino Nacional Brasileiro
Fonte: Autoria prpria (2011).
A visualizao da melodia em uma pauta apresenta a mesma ideia de variedade
apresentada na definio de ritmo, visto que tambm possvel alternar a posio das notas na
pauta de maneira infinita. A melodia e o ritmo proporcionam uma diversidade de linhas
meldicas que so capazes de satisfazerem s diversas culturas e perodos desde a
antiguidade, passando pelos dias atuais e deixando ainda milhares de possibilidades de
composies para um futuro distante.
A composio de linhas meldicas se d baseada em diversos fatores. Fatores
harmnicos associados a outros conceitos da Teoria Musical predispem as sequencias
meldicas a seguirem algumas condies e regras. As escalas musicais, por exemplo,
-
30
determinam um conjunto de notas que possivelmente soaro bem ao serem utilizadas em
conjunto.
A possibilidade de uma linha meldica soar bem vem da condio de admirao do
som possuda pelo ser humano, o qual pode perceber o som atravs de seus sentidos e utilizar-
se de diversos artifcios para anlise musical, como seu conhecimento prvio, sua cultura ou
sua conjuntura social. A partir da temos que a percepo do som tanto influencia na audio
quanto na composio de obras musicais (JOURDAIN, 1998).
2.3.3 Percepo do som
Tem-se que o ato de perceber vem da arte de adquirir conhecimentos atravs das
sensaes obtidas pelos sentidos. Alguns atos ver, tocar, degustar, cheirar e ouvir, por
exemplo ajudam a compreender tudo o que se encontra em um ambiente atravs das
experincias sensitivas. A percepo, por sua vez, uma caracterstica nativa nos seres vivos,
possibilitando diversas aes que caracterizam o perfil de cada ser. A diferenciao das
percepes se d a partir de condies distintas (BOOTHROYD, 1986). Uma destas
condies o conhecimento prvio, o qual se relaciona com a interpretao dos sentidos no
momento da percepo. Neste contexto, temos uma relao entre o conhecimento e a
percepo segundo Morin (2000):
O conhecimento no um espelho das coisas ou do mundo externo.
Todas as percepes so, ao mesmo tempo, tradues e reconstrues
cerebrais com base em estmulos ou sinais captados e codificados
pelos sentidos. Da resultam, sabemos bem, os inmeros erros de
percepo que nos vm de nosso sentido mais confivel, o da viso.
Ao erro de percepo acrescenta-se o erro intelectual. (MORIN, 2000,
p. 20).
O conhecimento prvio e as caractersticas biolgicas do ser humano so elementos
fundamentais para caracterizao do funcionamento do sistema sensorial. As deficincias e
diferenas cognitivas entre seres proporcionam diferentes formas de sentir o mundo,
implicando nas diferentes percepes sob mesmas condies. Logo, seres diferentes podem
ter sensaes e percepes diferentes em uma mesma situao, como a audio de uma onda
sonora. Considerando as caractersticas neurolgicas dos seres, temos que a agregao de
significados s coisas do mundo dada utilizando-se da memria como fator crucial para
recuperar informaes que iro possibilitar o aperfeioamento dos sentidos. (SILVA, 2007)
O processo de percepo auditiva se da a partir da habilidade de interpretar sons e
modelos sonoros captados pelo sistema auditivo. Segundo Boothroyd (1986), perceber um
-
31
evento sonoro um processo rpido, porm minucioso, e este processo baseia-se em etapas,
como: deteco, sensao, discriminao, localizao, reconhecimento, compreenso, ateno
e memria. A partir disto, Boothroyd (1986) afirma que:
[...] um estmulo sonoro remoto um evento, o estmulo prximo
passa a ser o som, o rgo que sente o ouvido, os dados sentidos
consistem em padres eltricos estimulados no nervo auditivo, o
processamento se dar nas reas reservadas aos centros auditivos no
crebro, e a percepo resultante ser uma representao interna do
evento original. (BOOTHROYD, 1986, p.68, traduo prpria).
A onda em si uma perturbao que se propaga num meio. As ondas sonoras
utilizam dois meios para chegarem a ser perceptveis pelo ser: o ar e o corpo humano. As
ondas da prpria voz so transmitidas duas vezes e de maneiras diferentes ao emissor, tanto
pelo ar, quanto pelos ossos do corpo do mesmo, o que resulta no fato de os seres humanos
ouvirem sua prpria voz de maneira diferente da voz ouvida pelos seres ao seu redor
(JOURDAIN, 1998).
Considerando o ar como meio de propagao do som, temos que as ondas sonoras
seguem atravs deste meio at chegarem ao canal auditivo onde percorrero um curto
caminho at a membrana timpnica. A partir da, o som percorre o ouvido mdio em direo
ao ouvido interno. Neste ponto o som passa pelo martelo e pela bigorna, ossos que fazem
parte do sistema ossicular do ouvido mdio e ajudam a amplificar a vibrao causada pelo
som na membrana timpnica a fim de auxiliar na transmisso do som. A bigorna por sua vez
se articula com o cabo do estribo para que as ondas sonoras sejam ento transmitidas para
dentro da cclea onde ocorre o tratamento do som antes de ser transmitido ao crebro
(GUYTON, 2006). Os participantes deste processo podem ser localizados na Figura 6.
Figura 6. Membrana timpnica, sistema ossicular do ouvido mdio e ouvido interno
Fonte: GUYTON (2006, p. 652, traduo prpria)
-
32
Dentro da cclea, o rgo de Corti o receptor que gera impulsos nervosos em
resposta s vibraes que atravessam o lquido coclear ao longo da membrana basilar. Os
verdadeiros receptores sensoriais no rgo de Corti so as clulas ciliadas, as quais fazem
sinapse com a rede de terminaes nervosas da cclea. Estas clulas esto distribudas ao
longo da cclea de maneira que as frequncias so discriminadas separadamente. Esta
discriminao de frequncias seque uma sequncia que vai das frequncias mais altas no fim
da cclea para as mais baixas no seu centro (GOLDSTEIN, 2002). A Figura 7 apresenta um
mapa de localizao da mxima resposta para cada frequncia dentro da cclea.
Figura 7. Mapa tonotpico da cclea
Fonte: CULLER et al. (1943 apud GOLDSTEIN, 2002, p. 354, traduo prpria)
Aps a passagem pela cclea e pelo rgo de Corti, o estmulo causado pelo som segue
atravs dos neurnios do nervo da cclea at chegar ao crtex auditivo. Antes de chegar ao
crtex, os estmulos passam por alguns diversos caminhos onde ocorrem combinaes do que
percebido em cada ouvido. Neste percurso, os estmulos do ouvido direito e esquerdo se
cruzam nos ncleos olivares superiores e seguem para ambos os lados do crebro juntos,
como se o estmulo fosse duplicado, combinado com o estmulo do lado contrrio e assim
enviado para ser interpretado. Alm de se cruzarem nos ncleos olivares, h tambm um
encontro no colculo inferior antes de chegar ao ncleo geniculado medial e ser enviado para
o crtex auditivo. O caminho dos estmulos sonoros resultantes da percepo das frequncias
na cclea pode ser mais bem observado na Figura 8, onde setas representam os percursos dos
estmulos pelos neurnios atravs das fibras aferentes do nervo vestbulo-coclear. Estas fibras
-
33
aferentes so responsveis pela aferio dos estmulos sensoriais auditivos e fazem parte do
processo de percepo como intermedirias do translado de tais estmulos (GOLDSTEIN,
2002).
Figura 8. Diagrama do caminho do estmulo auditivo
Fonte: GOLDSTEIN (2002, p. 351, traduo prpria)
Ao chegar ao crtex auditivo, o estmulo interpretado, processado e entendido. Isso
s d a partir das funes do crtex auditivo primrio, secundrio e tercirio. H uma
diferenciao tambm em relao ao que tratado em cada lado do crebro. No lado direito, o
crtex auditivo secundrio mantm foco sob as relaes de sons simultneos, as quais tambm
so chamadas de relaes harmnicas. Enquanto isso, o crtex auditivo secundrio do lado
esquerdo d ateno s hierarquias de sequncias e percepo do ritmo (JOURDAIN, 1998,
p. 87). Considerando todo o processo do sistema auditivo, Jourdain (1998) diz:
Os neurocientistas esto longe de entender como os fenmenos
temporais so representados no crtex. Mas est claro que o crtex
auditivo no age como uma espcie de gravador, colocando em
escaninhos, ao chegar, cada som que entra. Se fosse este o caso,
inverter uma sequncia de sons significaria inverter o padro de
atividade neurolgica que ele produz. Mas isto no acontece: as
pesquisas mostram que os sons invertidos geram uma resposta nica.
Isto implica que o crtex auditivo no considera isoladamente os sons
individuais. Em vez disso, sempre interpreta os sons dentro do
contexto precedente. (JOURDAIN, 1998, p.87).
O processamento do som em relao ao contexto se d no crtex auditivo tercirio,
onde h um contato direto com o hipocampo, regio considerada principal sede da memria.
Quando evento sonoro chega ao crtex e estimulado no hipocampo, este interpreta as novas
informaes, associa-as s memrias anteriores e determina se vai codific-las como uma
-
34
memria de longo prazo. Para codificar algo na memria de longo prazo h a necessidade de
reforar o estmulo para que ocorra a persistncia da informao. Logo, quanto maior a
frequncia, maior ser a fixao do material "aprendido" (BARKER et al., 1999). Alm disso,
vale salientar que o tratamento do som sequencial e que o crebro trabalha normalmente
com foco nas alteraes do que percebido, pois se tem que a ateno a algo que se mantm
constante ou que repetitivo torna-se baixa (GOLDSTEIN, 2002). Percebe-se ento que ao
aprender, a ateno alterada e a partir da aprendizagem concluda o foco da ateno se dar
para novos objetos.
Tendo em vista toda esta descrio das caractersticas musicais e da percepo
auditiva, verifica-se que a repetio de um evento sonoro causa sua maior fixao e facilita
sua recuperao atravs da memria. Estes pontos fazem uma conexo com o PPM e com a
anlise musical de maneira que possvel propor uma anlise musical baseada na verificao
de repeties, considerando estas repeties posteriormente como padres e utilizando-as para
reconhecimento de materiais semelhantes a partir da busca por estes padres.
Os conceitos expostos tambm servem de base para os testes que so apresentados
neste trabalho a partir do mtodo proposto. Para validao do mtodo, h de se utilizar de
tcnicas estatsticas a fim de obter informaes sobre quo vlidos so os mtodos utilizados.
Dentre as diversas tcnicas existentes, a tcnica trabalhada neste estudo ser descrita a seguir.
2.4 Validao Cruzada
Em estatstica, tcnicas de reamostragem podem ser usadas para validar modelos
usando subconjuntos aleatrios, e temos a validao cruzada como uma das principais
tcnicas utilizadas. Esta tcnica algumas vezes chamada de estimativa de rotao, e seu
principal objetivo voltado validao de modelos preditivos. A tcnica tambm serve para
analisar como os resultados de uma anlise estatstica tende a generalizar um conjunto de
dados independentes (MOORE e LEE, 1994).
Esta prtica utiliza os itens de modelos para criar um conjunto de testes em prol da
validao de modelos. Os modelos so determinados normalmente por critrios que tornam
seus itens semelhantes. No final, o objetivo avaliar a qualidade da previso para os modelos,
e quo confivel o modelo pode ser para testes futuros.
A validao cruzada pode tratar os modelos a partir de diversos tipos de treinamentos.
O tipo usado neste trabalho o Deixando-Um-De-Fora (Leave-One-Out Cross Validation -
-
35
LOOCV). A escolha deste tipo se deu pelo fato de tal validao servir para qualquer tipo de
classificao, pois se torna possvel testar todos os grupos de itens.
No LOOCV, apenas um item dos modelos ser retirado por vez para compor o
conjunto de teste, deixando os demais itens compondo os modelos a serem testados. Os
resultados dos testes de cada item com todos os modelos sero comparados para estimar o
erro obtido com os modelos e validar qual modelo pode ser usado para prever melhor. Este
um mtodo caro a partir de um ponto de vista computacional, porque todos os subconjuntos
de modelos sero criados durante o processo de formao para validar com o conjunto de
teste.
2.4.1 Exemplo de validao cruzada
Considerando um grupo de N-modelos com C-itens e utilizando o LOOCV tem-se
uma representao dos seguintes modelos M com itens I a serem avaliados:
M1 = (M1I1, M1I2,..., M1IC);
M2 = (M2I1, M2I2,..., M2IC);
...
MN = (MNI1, MNI2,..., MNIC).
A criao do conjunto de teste e do conjunto de treinamento pode ser feita de diversas
maneiras visto que o intuito testar o maior nmero de subconjuntos dos modelos. Neste
trabalho, a cada iterao o primeiro elemento de cada modelo retirado criando o conjunto de
testes e deixando os outros elementos como parte dos modelos para o conjunto de
treinamento. A cada iterao todos os elementos do conjunto de testes so avaliados junto aos
modelos do conjunto de treinamento e ento cada elemento devolvido a seu respectivo
modelo. Desta forma, um elemento diferente de cada modelo retirado por vez para formar o
conjunto de teste, permitindo assim que todos os elementos sejam testados, alm de permitir
que os subconjuntos com C-1 elementos dos modelos sejam tambm testados.
Como a quantidade de subconjuntos ser "C", tem-se "C" conjuntos de teste T, "N"
elementos em cada conjunto de teste e "N" modelos para serem testados com os elementos
dos conjuntos de teste. Isto resulta num total de CxNxN testes e CxN classificaes de
elementos a serem realizadas. Os resultados obtidos com as classificaes so apresentados de
forma que cada elemento tenha uma lista ordenada dos resultados de sua classificao a fim
de determinar o modelo que melhor o classificou. Abaixo temos uma exemplificao dos
conjuntos de teste e do primeiro conjunto de treinamento com os itens restantes dos modelos.
-
36
A seguir tem-se uma descrio dos conjuntos de testes T, com os elementos
retirados dos modelos (C conjuntos com N itens):
T1 = M1I1, M2I1,..., MNI1;
T2 = M1I2, M2I2,..., MNI2;
...
TC = M1IC, M2IC,..., MNIC.
Um exemplo do primeiro conjunto modelos para treinamento com os elementos
restantes e sem os elementos do primeiro conjunto de teste (N modelos):
M1 = (M1I2, M1I3,..., M1IC);
M2 = (M2I2, M2I3,..., M2IC);
...
MN = (MNI2, MNI3,..., MNIC).
Os prximos conjuntos de treinamento sero formados a partir da insero dos
elementos retirados, seguida da retirada dos elementos seguintes para a formao de um novo
conjunto de testes. Este mtodo utilizar todos os itens de todos os modelos concluindo sobre
a qualidade de predio de cada modelo, verificando assim se possvel a utilizao do
modelo para classificao no domnio em questo.
Este tipo de avaliao qualifica o mtodo calculando a taxa de acerto entre os modelos
criados. Este resultado pode ser utilizado para comparaes com outros mtodos, porm, o
principal interesse aqui comparar o mtodo em si com outros trabalhos da rea. Sendo
assim, a descrio de alguns trabalhos ser realizada a seguir antes de ser exibido o mtodo
proposto.
-
37
3 Aplicao do PPM para Anlise Musical
A rea de Recuperao de Informaes em Msicas (Music Information Retrieval
MIR) trabalha diversas maneiras tratamento de sinais de udio e informaes musicais.
Muitas reas tambm tratam deste tema com destreza, como a psicologia, medicina, msica e
computao, no entanto, o enfoque em relacionar todas as reas ou algumas delas pode trazer
vantagens para os resultados. Este trabalho trata-se de uma anlise de ritmos e melodias em
busca da classificao de padres utilizando o PPM baseando-se em conhecimentos sobre o
sistema auditivo humano, tema capaz abrir possibilidades diversas para sua aplicao.
A utilizao do PPM na msica no fora tema de muitos trabalhos. Entretanto, a
utilizao deste mtodo ao longo dos anos voltado para a compresso e reconhecimento de
padres obteve bons resultados em diversos ramos, como na classificao de texturas
(HONRIO et al, 2007), anlise de imagens de mamografias (MARQUES et al, 2008) e
classificao de textos (BARBOSA et al, 2009).
Antes da apresentao da proposta deste trabalho, so apresentados a seguir trabalhos
correlatos ao tema em questo. Alguns trabalhos citados apresentam correspondncias com
este a partir da aplicao de mtodos diversos na anlise musical, incluindo a utilizao do
PPM. Outros trabalhos que so citados a seguir tratam da anlise musical utilizando o formato
MIDI.
3.1 Trabalhos Correlatos sobre Anlise Musical
A classificao de arquivos de udio tanto atravs do reconhecimento de padres
quanto com bases estatsticas so temas muito pesquisados na rea de MIR. Resultados
diversos mostram que h possibilidade de tratamento do udio para segmentao de suas
estruturas em busca de reconhecimento de estilos, autoria, acordes, voz, ttulo da msica,
autor da msica ou outras caractersticas musicais. Alguns dos principais trabalhos utilizados
como base para este sero apresentados a seguir com uma breve descrio e o que seus
resultados apresentam.
Em busca da modelagem de estilos musicais, comparativos entre algoritmos so
apresentados em Lartillot (2001). Esta modelagem se baseia na representao computacional
de caractersticas estruturais do udio. Os algoritmos utilizados neste trabalho partem dos
-
38
princpios de compresso e tambm de modelagem estatstica de sequncias complexas de
dados. Os resultados do trabalho apresentam formas de utilizao de tais algoritmos e suas
qualidades. Um ponto relevante a sugesto da aplicao do PPM como trabalho posterior
para anlise de udio com os mesmo princpios apresentados pelos algoritmos tratados.
O trabalho apresentado por Pearce e Wiggins (2003) apresenta comparaes sobre as
variadas formas de implementao do PPM na anlise musical. O PPM adquiriu diversas
formas variantes ao longo do tempo com o intuito de tratar melhor a probabilidade do smbolo
de escape ou melhorar o tratamento para contextos longos (SALOMON e MOTTA, 2009).
As variantes do PPM apresentadas por Pearce e Wiggins (2003) utilizam trs tcnicas
diferentes, sendo elas o mtodo do escape, o mtodo interpolated smoothing e a utilizao de
contextos ilimitados. Estas tcnicas foram aplicadas a msicas monofnicas, que so msicas
que executam apenas um som por vez. O objetivo deste trabalho foi demonstrar como
algumas variaes do PPM podem melhorar o desempenho dos modelos criados e
consequentemente comparar tais variaes no contexto em questo.
Alguns outros trabalhos so de bastante importncia na rea pelo fato de tratarem do
reconhecimento de padres atravs da anlise de segmentos. O trabalho de Dnnenberg e Hu
(2002) relevante neste ponto por testar diversas tcnicas de reconhecimento de padres para
udio em formato de onda. Os resultados apresentados analisam o udio monofnico,
polifnico e utilizando o chroma (espectro) revelando que nem todos os segmentos
semelhantes so encontrados e que o tratamento da polifonia ainda precisa ser evoludo para
tratar a harmonia existente entre os segmentos.
O tratamento do udio nos diversos trabalhos bem diferenciado por ser possvel
tratar o udio em formato de ondas, em formato espectral ou utilizando formatos descritivos
de alguns bancos de dados especficos. O formato escolhido vai diferenciar os possveis
resultados a serem obtidos tendo em vista que cada formato tem sua funo caracterstica.
Alm dos formatos citados, o foco sobre o tratamento do udio no formato MIDI relevante
perante as pesquisas visto que o formato mais prximo da representao do udio musical
atravs de smbolos.
O formato MIDI tambm se apresenta com grande valor para a anlise musical por
apresentar caractersticas que o aproximam da representao utilizada por partituras, que a
forma mais comum de representao musical. Algumas das diversas maneiras como o udio
tratado a partir do formato MIDI so analisadas a seguir com o intuito de expor vantagens e
embasar a utilizao deste formato no trabalho.
-
39
3.1.1 Trabalhos Correlatos Utilizando o Formato MIDI
O formato MIDI apresenta o udio a partir de eventos que simbolizam a frequncia e
sua durao, entre outras informaes como fora descrito na seo 2.2.2. A cada apario de
uma nota, registrado um evento no arquivo mid indicando seu incio de execuo em
funo do tempo, e posteriormente outro evento indicado com o intuito de especificar
quando a nota musical finalizada. Sendo assim, os trabalhos podem considerar tanto a notas
quanto sua durao durante o tratamento dos arquivos neste formato.
H uma grande dificuldade para tratamento de arquivos polifnicos pelo fato de estes
apresentarem caractersticas harmnicas, rtmicas e meldicas a serem consideradas durante
sua anlise, no entanto, alguns trabalhos aplicam metodologias prprias neste caso. Como o
caso do trabalho de recuperao de informaes atravs de arquivos polifnicos descrito por
Suyoto et al (2007), no qual arquivos de udio em formato de onda so convertidos para o
formato MIDI e mesmo os arquivos monofnicos geram arquivos polifnicos pelo efeito dos
harmnicos das notas.
O tratamento da polifonia neste caso basicamente converte sons simultneos em sons
sequenciais, como se transformasse acordes em arpejos. Se as notas C, E e G ocorrem
simultaneamente, elas se transformam em uma sequncia apresentada da mais grave para a
mais aguda. Suyoto et al (2007) utiliza o algoritmo de Mais Longa Subsequncia Comum
(Longest Common Subsequence - LCS) para buscar sequncias em comum nos arquivos.
Um ponto relevante deste trabalho a realizao da transposio das sequncias
durante os testes. Desta forma, cada sequncia testada 12 vezes, transpondo a sequncia da
seguinte maneira: cada nota adicionada de uma unidade a cada teste para gerar uma nova
sequncia a ser testada e avaliada, atribuindo-se uma pontuao para a comparao desta nova
sequncia. Tomando como base a sequncia C, E e G, teremos que a segunda sequncia
a ser testada seria C#, F e G#, e assim sucessivamente. Este trabalho no faz
diferenciao entre as oitavas das notas na representao dos smbolos.
Uma atitude diferente tomada por Londei et al (2003), no tratamento de melodias.
Neste trabalho, durante a leitura dos arquivos mid realizado o armazenamento do valor
resultante da subtrao de uma nota pela sua antecessora somando-se a 127, a fim de evitar a
dependncia das notas para seu tratamento posterior. Aps todo o tratamento dos arquivos, a
compresso dos arquivos feita em pares em busca da entropia relativa. Cada teste recebe
uma pontuao para posteriormente ser apresentado topograficamente o resultado da
comparao de todos os arquivos agrupando os semelhantes. Estes testes comprovaram que a
-
40
entropia relativa aparenta ser um bom parmetro para identificao de msica e para deteco
se similaridades entre obras.
Outro tipo de tratamento encontrado em Cilibrasi et al (2004), trabalho que tem um
foco na criao de clusters aps a comparao dos arquivos baseando-se em mtricas de
similaridade universais. H a fundamentao de tentar aproximar-se da noo da
complexidade de Kolmogorov, em que o tamanho do menor cdigo comprimido a partir de
um objeto original pode ser reproduzido sem perdas por um eficiente descompressor. No
entanto, por motivos computacionais se utiliza de tcnicas comuns de compresso e uma
mtrica de similaridade computvel a partir da Distncia de Compresso Normalizada
(Normalized Compression Distance - NCD).
De fato, o trabalho computa a distncia entre os pares de arquivos mid resultando
numa matriz de distncia. Para isto, os arquivos so pr-processados para se tornarem
uniformes, sem dados particulares como informaes dos artistas, tags, ttulos, entre outros
dados. Ocorre um clculo em busca de uma nota para se t