separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1...

37
Shayenne da Luz Moura Separação de sinais de áudio em melodia e acompanhamento São Paulo 2016

Upload: dinhcong

Post on 02-Dec-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Shayenne da Luz Moura

Separação de sinais de áudio em melodia eacompanhamento

São Paulo

2016

Page 2: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Shayenne da Luz Moura

Separação de sinais de áudio em melodia eacompanhamento

Trabalho de Conclusão de Curso em Bachare-lado em Ciência da Computação do Institutode Matemática e Estatística na área de Com-putação Musical.

Universidade de São Paulo – USP

Instituto de Matemática e Estatística – IME

Bacharelado em Ciência da Computação

Orientador: Marcelo Gomes de Queiroz

São Paulo2016

Page 3: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

“ E então as vozes dos Ainur, semelhantes a harpas e alaúdes, a flautas e trombetas,a violas e órgãos, e a inúmeros coros cantando com palavras,

começaram a dar forma ao tema de Ilúvatar, criando uma sinfonia magnífica;e surgiu um som de melodias em eterna mutação, entretecidas em harmonia,

as quais, superando a audição,alcançaram as profundezas e as alturas

...e a música e o eco da música saíram para o Vazio, e este não estava mais vazio.”

(Quenta Silmarillion, A música dos Ainur)

Page 4: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

ResumoRecuperar informações perceptualmente válidas de sinais sonoros é um desafio importanteque possui diversas áreas de aplicações. Entre elas está a análise computacional de cenasauditivas, que busca aproximar a capacidade humana de interpretar informações sonoras.Para este fim, são usados ferramentas e métodos bastante estudados em recuperação deinformação musical. Este trabalho usa um sistema desenvolvido para extrair informaçãomelódica de sinais e, a partir dos seus resultados, realiza a separação desta informação emfaixas diferentes de áudio. Os resultados mostram, que apesar de simples, este métodopossui relevância em identificar o que é percebido como melodia principal por ouvinteshumanos, ainda que apresente limitações diversas, entre elas o tipo de fonte sonora e aqualidade da informação melódica devolvida pelo sistema.

Palavras-chave: computação musical; recuperação de informação musical; análise decena auditiva computacional; extração de melodia.

Page 5: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

AbstractTo recover perceptually valid information from audio signals is a major challenge that hasseveral application areas. Among them is computational auditory scene analysis, whichseeks to approximate the human ability in interpreting sound information. To this end,extensively studied tools and methods in musical information retrieval are used. Thiswork uses a system which was developed to extract melodic information from signals and,using the results, performs the separation of this information in different audio tracks.The results show that, although simple, this method has relevance in identifying what isperceived as the main melody by human listeners, even though it presents limitations,including the type of sound source and the quality of melodic information returned by thesystem.

Keywords: computer music; music information retrieval; computational auditory sceneanalysis; melody extraction.

Page 6: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Sumário

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.1 Contextualização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2 Estrutura do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 82.1 Representações do sinal . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2 Transcrição melódica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3 Processamento: Análise e Ressíntese . . . . . . . . . . . . . . . . . . 14

3 SEPARAÇÃO MELODIA E ACOMPANHAMENTO . . . . . . . . . 173.1 Construção da máscara melódica e de acompanhamento . . . . . . . 173.2 Melhorias da máscara melódica . . . . . . . . . . . . . . . . . . . . . 18

4 IMPLEMENTAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.1 Ferramentas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.2 Notebooks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5 AVALIAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265.1 Formato da avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . 265.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275.3 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

6 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Page 7: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

6

1 Introdução

Métodos computacionais de análise de sinais de áudio são usados para diversastarefas, como por exemplo descrever paisagens sonoras (soundscapes) ou cenas auditivas(auditory scenes) a partir da separação de fontes sonoras em sinais mixados, de maneiraanáloga à realizada por ouvintes humanos, permitindo a descrição do sinal num nível altode representação (instrumentos, vozes, posições espaciais, etc).

Em aplicações musicais podem ser necessárias outras formas de representação, quepermitam a descrição do sinal sonoro utilizando conceitos simbólicos como acordes, linhade baixo e melodia, estrutura rítmica, motivos e frases repetidas, seções, movimentos, etc.

É um desafio importante construir sistemas de descrição de cenas musicais queconsigam extrair tais representações a partir de sinais musicais reais, que são úteis emdiversas aplicações como produção/edição musical e construção de interfaces musicais.

Este trabalho tratará de um recorte específico da análise de cena musical referenteà extração de melodias, apresentando sistemas já construídos, e a implementação daseparação do sinal a partir dos dados calculados por um destes sistemas.

1.1 ContextualizaçãoEm 1863, Helmholtz observa o fato do ouvido humano ser capaz de reconhecer e

separar diversas fontes sonoras a partir de uma mistura sonora. Em 1950, Cherry cunhao termo “cocktail party problem” para indicar essa habilidade humana de reconheceruma fonte sonora em meio a outras. Em 1990, Bregman publica um livro com estudosimportantes na área de análise de cenas auditivas, identificando similaridades entre ossentidos da visão e audição. Do mesmo modo como é possível analisar e obter informaçõesde cenas visuais, como bordas de objetos, texturas e cores, Bregman argumenta que o somque chega aos ouvidos também permite uma abordagem analítica, por ele denominada deanálise de cena auditiva (auditory scene analysis - ASA). Conceitualmente, essa análise podeser considerada como um processo em dois estágios. No primeiro estágio, o sinal acústico édecomposto em uma coleção de segmentos no espaço de representação tempo-frequência.No segundo estágio, os segmentos que parecem vir da mesma fonte são agrupados emestruturas perceptuais denominadas fluxos (streams).

A partir do livro de Bregman (1990) houve um grande interesse no estudo de ASAcom meios computacionais. Esse interesse foi impulsionado pela demanda de sistemaspráticos capazes de realizar separação sonora, que possui diversas aplicações, dentre elas,a separação de fontes musicais. Esse novo campo ficou conhecido como Computational

Page 8: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 1. Introdução 7

Auditory Scene Analysis (CASA)(WANG; BROWN, 2006). O principal desafio em CASA éconstruir um sistema capaz de atingir o desempenho humano em ASA, isto é, que consigaagrupar segmentos em fluxos que reproduzem fielmente a percepção humana. Existemdiversos princípios, algoritmos e aplicações importantes a serem estudadas e aperfeiçoadasnesta área.

O tema CASA se insere numa área mais abrangente denominada Music InformationRetrieval (MIR), que lida com todo tipo de análise para extração de informação musicala partir de sinais de áudio, representações musicais simbólicas (partituras, códigos) eregistros multimodais de performances e de indivíduos em situação de escuta (vídeo,sensores de movimento, sinais fisiológicos, etc)(MÜLLER, 2015).

O objetivo geral deste trabalho consiste em estudar algumas técnicas de MIR nocontexto de CASA, particularmente aquelas relacionadas à extração de característicassimbólicas como melodia e acompanhamento, e estudar suas limitações em função dasclasses de sinais considerados (sons polifônicos, contendo vários instrumentos). Alémdisso, o trabalho objetivou implementar um sistema de análise automático que incluísse astécnicas de MIR estudadas. Este sistema baseia-se na extração de melodia a partir de sinaispolifônicos realizando a separação do sinal em conteúdo melódico e acompanhamento.

1.2 Estrutura do trabalhoO capítulo 2 apresenta a teoria na qual se baseia o desenvolvimento do sistema,

tratando desde a representação do sinal de áudio, passando pela definição de linhasmelódicas, até chegar no paradigma de análise e ressíntese de áudio.

No capítulo 3 são descritas as ideias que induziram a construção da máscaramelódica, as razões para tentar melhorá-la e as premissas perceptuais que fundamentaramtais melhorias.

As ferramentas utilizadas para desenvolver o sistema estão descritas no capítulo 4.Este capítulo contém também os exemplos desenvolvidos para comparação dos resultadose as melhorias exploradas para diferentes tipos de conteúdo melódico.

O capítulo 5 traz o formato de avaliação do sistema e os resultados obtidos duranteseu desenvolvimento; além disso, traz a discussão destes resultados e suas interpretações.

O capítulo final expõe as contribuições deste trabalho, confronta os resultados comos objetivos iniciais, apresenta as principais dificuldades encontradas e traz conclusõesgerais sobre a pesquisa realizada.

Page 9: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

8

2 Fundamentação teórica

O processo de manipular sinais de áudio é construído a partir de caracterizaçõesmatemáticas e perceptuais, que levam a conhecer quais tipos de alterações influenciarãoo resultado do processamento, e de que maneiras. As representações e transformaçõesmatemáticas permitem a reconfiguração dos sinais, modificando suas características damaneira que se deseje. Neste capítulo, são descritas as principais representações de sinaisde áudio, nos domínios temporal, espectral e tempo-frequência, o problema da transcriçãomelódica, que consiste em obter um perfil em função do tempo da frequência instantâneade uma melodia principal, e um modelo de processamento no domínio tempo-frequênciacaracterizado pelas etapas de análise, manipulação e ressíntese.

2.1 Representações do sinalO som, associado ao fenômeno físico de pressão e descompressão do ar, ao ter sua

pressão medida em um ponto do espaço (como função do tempo) pode ser representadona forma de um sinal digital de áudio. Os sinais digitais de áudio são normalmenterepresentados como sequências de valores discretos de amplitude amostrados de um sinalanalógico (no caso do som, a pressão em função do tempo contínuo) em instantes de tempoespaçados regularmente:

x := {x0, x1, . . . , xN−1, xN} ; (2.1)

esta representação do sinal na forma de amplitude em função do tempo é denominadaRepresentação Temporal.

A qualidade da representação de cada amostra é limitada pela quantidade de bitsusados em sua representação. Como essa representação é finita, ela introduz um errodenominado de quantização, que é a perda de precisão do valor amostrado em relação aodado original em âmbito contínuo. Os valores xn de amplitude instantânea de um sinal deáudio podem ser interpretados de várias maneiras diferentes, seja como representação dapressão medida por um microfone (através por exemplo de um captador piezo-elétrico), deuma voltagem instantânea (no caso de uma transmissão por cabo de áudio) ou mesmoda movimentação realizada pelas membranas de um alto-falante para reproduzir o somoriginalmente codificado.

A quantidade de amostras obtidas do sinal é determinada pela taxa de amostragem(uma medida de frequência, usualmente expressa em Hz), que define também o intervalo detempo entre amostras sucessivas (dado pelo inverso da taxa de amostragem). Supondo que

Page 10: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 2. Fundamentação teórica 9

o sinal x acima tenha sido amostrado a uma taxa sr Hz, o intervalo entre as amostras seráde 1

srsegundos, e a amostra xn corresponde à medida instantânea de amplitude obtida no

instante nsr

segundos. A amostragem temporal, embora não introduza um erro comparávelao da quantização, restringe o conteúdo do sinal representado no domínio da frequência,sendo a limitação dada pelo teorema de Shannon-Nyquist, ou teorema da amostragem,que estabelece que a maior frequência representável por um tal sinal é aquela de sr

2 Hz(denominada frequência de Nyquist para a taxa de amostragem sr).

As ondas sonoras possuem picos (de compressão do ar) e vales (de descompressão),sendo que tais oscilações podem ser descritas por componentes com diferentes frequências eamplitudes. Sons reais exigem um grande número (potencialmente infinito) de componentes,com frequências e amplitudes que variam em função do tempo, mas o estudo de sinaismais simples, como os sinais periódicos, facilita a compreensão tanto de aspectos darepresentação quanto de determinados fenômenos perceptuais. O exemplo mais simples deoscilação periódica é uma onda senoidal1 caracterizada por valores constantes de amplitude,frequência e fase inicial. A sua realização musical é considerada como um tom puro ousimples, e é perceptualmente muito próxima do som emitido por um diapasão de metal.Quanto mais alta a frequência de uma onda senoidal, mais aguda ela soa; quanto maiorsua amplitude, mais forte será percebida.

Oscilações periódicas mais complexas podem ser representadas como soma decomponentes senoidais. A análise de Fourier, descrita na equação 2.2, é usada paraencontrar as componentes senoidais que compõem uma forma de onda complexa. Atransformada de Fourier separa o sinal em seus componentes senoidais, produzindo paracada componente associado a uma frequência valores de amplitude e fase, criando umarepresentação de Fourier. A representação de Fourier e a representação temporal contêm amesma informação, no sentido de que é possível passar de qualquer uma delas à outra semperda de informação; ou seja, é possível reconstruir perfeitamente o sinal temporal a partirda sobreposição das componentes senoidais contidas na representação de Fourier através dasíntese de Fourier, descrita na equação 2.3. Esta representação de componentes senoidaisem função das frequências que compõem uma onda sonora complexa é denominadaRepresentação Espectral.

X(f) =∫ ∞∞

x(t)e−2πiftdt (2.2)

x(t) =∫ ∞−∞

X(f)e2πiftdf (2.3)

As expressões acima correspondem a um par de equações de análise e síntese de1 O termo senoidal será utilizado para qualquer expressão da forma A sin(2πft+ ϕ0), o que inclui senos,

cossenos e suas combinações lineares.

Page 11: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 2. Fundamentação teórica 10

Fourier para sinais de tempo contínuo e infinito e contemplando frequências contínuas eilimitadas. O uso de exponenciais complexas bem como valores X(f) complexos simplificaas expressões das ondas senoidais a partir da relação de Euler (eiω = cos(ω) + i sin(ω)).

Como no computador trabalhamos com sinais de áudio discretos e finitos, a conver-são entre as representações temporal e espectral deve ser realizada conforme as equações2.4 e 2.5, que correspondem à transformada discreta de Fourier ou DFT - Discrete FourierTransform.

Equação de Análise de Fourier para sinais discretos:

X(k) = 1N

N−1∑n=0

x(n)e−2πikn/N , k = 0, 1, . . . , N − 1 (2.4)

Equação de Síntese de Fourier para sinais discretos:

x(n) =N−1∑k=0

X(k)e2πikn/N , n = 0, 1, . . . , N − 1 (2.5)

Cada índice k utilizado para representar frequências está associado à frequência de2πk/N radianos por amostra, ou sr ∗ k/N Hz; o índice K = N/2 correspondente entãoà frequência de sr/2, que é a máxima frequência representável corretamente na análise(frequência de Nyquist). Os índices k > N/2 podem ser reinterpretados como frequênciasnegativas (k −N) que serão pareadas com as frequências positivas correspondentes paraformar componentes senoidais reais (através das relações cos(ω) = (eiω+e−iω)/2 e sin(ω) =(eiω − e−iω)/(2i), derivadas da relação de Euler).

A transformada de Fourier descreve o conteúdo espectral do sinal como um todo;no entanto, no caso de sinais não-periódicos não é possível decidir em quais instantesdeterminada componente/frequência esteve presente no sinal. Para analisar sinais cujoconteúdo espectral varia em função do tempo é necessário realizar uma segmentaçãono sinal anterior à análise de Fourier. A segmentação corresponde ao produto do sinalpor uma função janeladora, com valores positivos para os índices que pertencem ao seuintervalo de interesse e zera as demais amostras do sinal. Dessa forma é possível considerarrepresentações espectrais de pequenos trechos do sinal.

Para sistematizar esse tipo de operação de janelamento e análise foi criada umatransformada modificada de Fourier chamada “short-time Fourier transform” (STFT) ouTransformada de Fourier de Curto Termo. Esta transformada representa componentessenoidais, através de suas frequências, amplitudes e fases iniciais, em seções locais do sinal,permitindo identificar os intervalos em que elas aparecem de maneira mais clara.

Dado um sinal de áudio, deseja-se identificar quais frequências estão presentes emuma vizinhança de um instante de tempo t. Para isso, é usada uma função janeladora

Page 12: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 2. Fundamentação teórica 11

centrada em t, que seleciona a informação do sinal em torno de t e zera o resto dosinal de áudio. A função janeladora “desliza” sobre o sinal em função de t; ao aplicara transformada de Fourier a este sinal janelado são obtidas as frequências presentes naregião selecionada. Dado um sinal f ∈ L2(<) e uma função janeladora g ∈ L2(<), a STFTé a função fg : <× < → C dada por:

fg(t, ω) := fg,t(ω) =∫u∈<

f(u)g(u− t)e−2πiωudu (2.6)

No caso discreto, o sinal x(n) é segmentado em blocos de tamanho M e costuma-seusar um parâmetro de pulo (hop) H que é o intervalo entre inícios de blocos sucessivos;naturalmente 1 ≤ H ≤M , sendo que no caso extremo H = 1 as janelas “deslizam” amostrapor amostra e no outro extremo H = M as janelas são justapostas. A transformada STFTdiscreta de um sinal é dada por

X (m, k) :=N−1∑n=0

x(n+mH)w(n)e−2πikn/N (2.7)

com m ∈ Z e k ∈ [0 : K].

A STFT de um sinal de áudio devolve, para cada instante de tempo m e frequênciak, um número complexo X(m, k). Estes valores são normalmente visualizados na forma deum espectrograma, que é uma imagem bidimensional onde o pixel (m, k) possui o valor|X(m, k)|2, sendo o eixo horizontal o tempo e o eixo vertical a frequência, e a intensidade dacor reflete os valores de magnitude para cada par (m, k) nesse domínio tempo × frequência.A figura 1 mostra o exemplo de um espectrograma calculado a partir de um sinal de áudio.

Figura 1 – Espectrograma de um sinal de áudio

Para melhor representar as relações de altura musical (agudo/grave) associadasàs frequências do espectrograma, é usada a representação logarítmica das frequências.Como a percepção das alturas musicais segue um padrão logarítmico, ao representar o eixovertical do espectrograma em escala logarítmica, podemos associar essa escala à percepçãolinear de alturas musicais. Da mesma forma, a percepção das intensidades se dá de forma

Page 13: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 2. Fundamentação teórica 12

aproximadamente logarítmica. Para permitir a visualização das intensidades de cada pixelforma análoga à percepção de intensidade, costuma-se usar uma compressão logarítmicanos valores de energia do espectrograma.

2.2 Transcrição melódicaO conceito de melodia está baseado fundamentalmente no julgamento humano.

Uma definição mais popular é de que “melodia é a sequência de alturas (notas) que umouvinte poderia reproduzir caso pedissem para cantarolar uma parte de uma música, eque um ouvinte pudesse reconhecer como sendo a essência da música ouvida”. Como émuito subjetiva, as pesquisas em transcrição de melodia são concentradas em estimar asfrequências advindas de uma única fonte sonora considerada como sendo o instrumento oua voz principal.

As técnicas de transcrição de melodia buscam identificar a frequência fundamentalcorrespondente à altura, ou seja, as notas pertencentes à linha melódica predominanteem uma peça. Basicamente, transcrever uma melodia é estimar quando a melodia estápresente ou não e estimar a altura correta quando a melodia está presente.

Neste trabalho serão considerados apenas sinais polifônicos, que são os sinais quecontêm diversas fontes sonoras (e.g. violino, flauta, percussão, voz) ou fontes que podemexecutar mais de uma nota ao mesmo tempo (e.g. piano, violão). Sinais que contêm apenasuma fonte sonora e que executam apenas uma nota por vez são sinais monofônicos; nestesé mais simples realizar a transcrição da melodia, uma vez que é realizada apenas umaestimação da frequência fundamental que está sendo executada por uma única fonte a cadainstante. Enquanto isso, os sinais polifônicos possuem diversas fontes sonoras, tornandonão só a tarefa de estimação de frequência fundamental mais difícil, mas também tendo queestimar quais das frequências fundamentais encontradas fazem parte da linha melódica.

Técnicas de extração de melodias em geral

Em Salamon et al. (2013) há uma revisão de abordagens, técnicas, aplicações edesafios para o problema de extração de melodia, ou seja, para estimar automaticamentea sequência de valores de frequências fundamentais que correspondem à voz principal.Mas esta tarefa é complexa por dois fatores: diferentemente de sinais monofônicos, umsinal polifônico é composto por uma mistura de ondas sonoras produzidas por váriosinstrumentos ao mesmo tempo, dificultando a identificação da fonte sonora principal;no âmbito da representação espectral, uma vez que se identificam as componentes emfrequências presentes no sinal, é difícil decidir quais são parte da melodia e quais sãoapenas acompanhamento.

Page 14: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 2. Fundamentação teórica 13

Foram criados diversos algoritmos com diferentes abordagens para realizar a es-timação da linha melódica. As abordagens apresentadas na competição MIREX (MusicInformation Retrieval Evaluation eXchange) entre 2005 e 2012 foram baseadas em funçãode saliência, separação de fontes, abordagens data driven e estimação monofônica.

A maior parte deles usa a abordagem baseada em saliências, que procura identificara componente em frequência mais intensa a partir do espectrograma do sinal. A abordagemde separação de fontes busca identificar o perfil espectral das fontes sonoras e identificaraquela que estiver mais predominante, identificando também as componentes em frequênciasa ela associadas.

A abordagem data driven utiliza dados de treinamento rotulados e um algoritmode aprendizado que classifica os dados de áudio e estima as frequências que podem fazerparte da melodia. A abordagem monofônica cria acompanhadores de altura monofônicospara tentar identificar qual deles seria o que acompanha a fonte principal.

Em todos os casos deseja-se produzir um perfil temporal contendo a frequênciafundamental a cada segmento analisado. É importante destacar que esses perfis excluempartes importantes da caracterização dos instrumentos que produzem a melodia principal,que são os ruídos ou transientes encontrados frequentemente no início e fim de notas, eque são caracterizados pela inarmonicidade ou espalhamento do conteúdo espectral. Estesincluem ruídos de chaves ou do fluxo de ar no bocal em instrumentos de sopro, sonoridadesraspadas em instrumentos de arco, sons de palhetas ou unhas em instrumentos de corda, eessencialmente todas as consoantes na voz humana. Tendo em vista que tais elementossão essenciais na caracterização dos timbres, parte importante do desafio desse trabalhoconsiste em extrapolar o perfil temporal da melodia na tentativa de reintroduzir esseselementos no sinal sonoro que se pretende ressintetizar.

Transcrição melódica realizada pelo Melodia

Para realizar a separação em dois sinais de áudio da melodia e do acompanhamentomisturados em um único sinal, é necessário conhecer sua linha melódica, ou seja, afrequência fundamental da melodia em função do tempo. O sistema de transcrição de linhamelódica usado neste trabalho chama-se Melodia, e se aplica a sinais de áudio polifônicos.Ele foi desenvolvido por Justin Salamon, e está descrito com mais detalhes em (SALAMON;GóMEZ, 2012). Sua abordagem é composta por quatro blocos de processamento: extraçãosenoidal, função de saliência, criação de contornos e seleção de melodia.

O primeiro bloco recebe o sinal de áudio e calcula picos espectrais, isto é, quaisfrequências estão presentes em cada instante do tempo. Esse cálculo é feito a partir dosinal filtrado por um Equal Loudness Filter, que ajusta os níveis de intensidade em funçãoda frequência a fim de aproximar a mistura do que é humanamente perceptível.

Page 15: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 2. Fundamentação teórica 14

O segundo bloco realiza o cálculo da função de saliência, estimando quais alturasestão presentes em cada instante de tempo no sinal. Para obter esta estimativa é feita umasoma harmônica, isto é, para cada altura possível, dentro de um intervalo razoável, sãoacumulados os valores de magnitude dos seus harmônicos superiores. O resultado destasoma é considerado como sendo a saliência desta altura.

O terceiro bloco realiza a caracterização dos contornos. Um contorno representauma série de valores de altura em frames consecutivos que são suaves tanto em tempoquanto em frequência. A identificação dos contornos consiste em agrupar picos da funçãode saliência a partir de interpretações baseadas em fluxos auditivos.

O quarto bloco usa as características dos contornos calculados no bloco anteriore com uma série de heurísticas estima quais destes contornos fazem parte da melodia equais não fazem (ou seja, seriam contornos de harmônicos da melodia principal ou deacompanhamentos). Por fim, o algoritmo devolve a linha melódica estimada para o áudiode entrada.

2.3 Processamento: Análise e RessínteseConhecer informações sobre o conteúdo musical de um sinal de áudio permite

decompor este sinal em partes com características perceptualmente relevantes. Nesta seçãoserá apresentada uma estratégia de manipulação do sinal para seleção de componentessemanticamente relevantes e ressíntese em separado destas componentes em sinais de áudioisolados.

Separação harmônica-percussiva

Observando espectrogramas de sons de piano e violino podemos inferir como secomportam os elementos musicais percebidos como percussivos e harmônicos. A figura 2representa os espectrogramas de notas realizadas ao piano e ao violino. É notável que oespectrograma do piano possui linhas verticais bem definidas nos instantes de ataque dasnotas, enquanto o espectrograma do violino possui linhas horizontais bem definidas.

O ataque do piano é percussivo, realizado a partir do martelo que percute a corda,gerando um movimento caótico na corda, formando assim componentes em frequênciasespalhadas em todo o espectro. Por seu caráter percussivo, a corda não recebe mais energiae logo várias daquelas frequências desaparecem, sobrando apenas as que ressoam de acordocom a estrutura da corda (comprimento, densidade, material, etc).

O violino não possui ataque percussivo, mas inicialmente há alguns transientes(resultantes da fricção inicial) que não fazem parte da série harmônica e se esvaemrapidamente, sobrando apenas os harmônicos. Como o arco é friccionado contra a corda,

Page 16: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 2. Fundamentação teórica 15

(a) Piano (b) Violino

Figura 2 – Espectrogramas de notas isoladas

a energia é reposta enquanto a corda vibra, fazendo perdurar as frequências enquantohouver fricção.

Dessa forma, sabendo que o conteúdo harmônico aparece no espectrograma comolinhas horizontais e o conteúdo percussivo como linhas verticais, é possível construir filtros,baseados em processamento de imagens, que selecionem o conteúdo horizontal e verticalrealizando a separação destes elementos.

Máscaras binárias e máscaras soft

A seleção de elementos do espectrograma é feita a partir de máscaras que determi-nam o quanto de cada “pixel” do espectrograma deve ser admitido como percussivo ouharmônico, lembrando que cada pixel determina o valor de magnitude da frequência k noinstante n centrado em um bloco de tamanho M . Para realizar esta separação são usadosdois tipos de máscaras: binária e soft.

A máscara binária é uma representação com as mesmas dimensões do espectrogramado sinal a ser separado, tendo como valores apenas 0 e 1. As máscaras binárias percussivae harmônica são calculadas a partir do espectrograma original filtrado com um filtro demediana. São criados dois espectrogramas: suavizado horizontalmente, Yh, e suavizadoverticalmente, Yp. A construção das máscaras binárias dá-se da seguinte maneira:

Mp(n, k) :=

1, se Yh(n, k) ≥ Yp(n, k)

0, caso contrário(2.8)

Mh(n, k) :=

1, se Yh(n, k) < Yp(n, k)

0, caso contrário(2.9)

A máscara binária realiza uma separação rígida do conteúdo espectral, e isso podeser indesejável devido à possível sobreposição de elementos harmônicos e percussivosem um mesmo pixel do espectrograma. Para contornar esse problema, são definidas as

Page 17: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 2. Fundamentação teórica 16

máscaras soft, que separam a energia com base na quantidade de informação harmônica epercussiva nos espectrogramas filtrados Yh e Yp, atribuindo frações complementares àsduas máscaras de forma proporcional aos espectrogramas harmônico e percussivo:

Mp(n, k) := Yp(n, k) + E/2Yh(n, k) + Yp(n, k) + E

(2.10)

Mh(n, k) := Yh(n, k) + E/2Yh(n, k) + Yp(n, k) + E

(2.11)

Ressíntese a partir do espectrograma (ISTFT)

A criação dos sinais de áudio com conteúdo separado em percussivo e harmônico éfeita a partir da ressíntese do espectrograma original filtrado com as máscaras percussivae harmônica geradas. Esta ressíntese é feita a partir da função inversa responsável porcalcular o espectrograma, Inverse Short Term Fourier Transform (ISTF). É preciso tomarcuidado com a reconstrução do sinal, uma vez que ele foi modificado em relação a aplicaçãooriginal da STFT. Desta forma, é necessário minimizar o erro de reconstrução em relaçãoao sinal original.

Quando calculamos a STFT X de um sinal x podemos reconstruí-lo, lembrandoque ele foi calculado a partir de janelamentos do sinal. Mais precisamente, para cadaelemento n ∈ Z, tomamos o sinal janelado por

xn(r) := x(r + nH)w(r) (2.12)

onde H ∈ N é o parâmetro hop size, w : Z → R é uma função janeladora e r ∈ Z. Logo,os coeficientes da STFT X (n, k) para k ∈ [0 : N − 1] são obtidos através de

(X (n, 0), . . . ,X (n,N − 1))> = DFTN · (xn(0), ..., xn(N − 1))> (2.13)

A DFTN é uma matriz inversível com inversa dada por DFT−1N = 1

NDFTN

>, ondea barra vertical indica a conjugação complexa dos elementos da matriz.

(xn(0), ..., xn(N − 1))> = DFT−1N · (X (n, 0), . . . ,X (n,N − 1))> (2.14)

e xn(r) = 0 para r ∈ Z\[0 : N − 1]. Para obter o sinal original é preciso reverter o processode janelamento.

A ISTFT reconstrói o sinal somando as reconstruções das janelas e atribuindoas fases do sinal original. Com isso, é possível obter um resultado com menos erros dereconstrução.

Page 18: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

17

3 Separação Melodia e Acompanhamento

O objetivo da separação de melodia é decompor um sinal musical em um componentemelódico que captura a fonte melódica principal e um componente de acompanhamento,que captura os elementos acústicos restantes. A principal estratégia usada neste trabalhopara realizar a separação é composta por manipulações de máscaras e ressíntese de sinaisa partir de espectrogramas filtrados.

A separação de fontes harmônica e percussiva com máscaras binárias serviu deinspiração para realizar a extração de componentes melódicos do sinal. Assim como aprimeira define as máscaras baseada em conhecimento de comportamento espectral deelementos percussivos e harmônicos, neste trabalho foram observados os comportamentosdos elementos melódicos e suas fontes sonoras para alcançar melhores resultados naseparação destes elementos. A construção e melhorias das máscaras foram realizadasincrementalmente, visando melhorar a qualidade da separação a partir da observação deresultados preliminares.

3.1 Construção da máscara melódica e de acompanhamentoO autor do software Melodia apresenta como exemplo de utilização do seu software

a síntese da linha melódica estimada, com qualquer instrumento desejado, para reproduçãodo que seria a melodia percebida por um humano. Essa síntese se baseia apenas narepresentação da frequência fundamental em função do tempo, e utiliza um timbre arbitráriopré-determinado.

Conhecendo a linha melódica e as máscaras binárias, neste trabalho foi propostocriar uma máscara contendo a linha melódica e aplicá-la diretamente ao espectrogramado sinal para posterior reconstrução. Dessa forma, a melodia seria recuperada do sinal deáudio original, e sua ressíntese seria produzida por suas fontes melódicas originais.

Uma vez definida a máscara melódica, o espectrograma restante torna-se acompa-nhamento, definindo a máscara de acompanhamento como o complemento da máscaramelódica. Sendo o objetivo deste trabalho alcançar bons resultados na extração da melodiaprincipal, não foram exploradas estratégias que privilegiassem a qualidade da máscara deacompanhamento: seu caráter complementar garante resultados razoáveis caso a máscaramelódica seja suficientemente representativa.

Esta definição, por ser simples, torna a qualidade da separação fundamentalmentedependente dos resultados da transcrição melódica. Sua principal limitação refere-se aoresultado da separação dos elementos espectrais que compõem a melodia: qualquer falha

Page 19: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 3. Separação Melodia e Acompanhamento 18

no processo de transcrição afetará diretamente a melodia gerada, na forma de omissões(falsos negativos na linha melódica) e notas erradas (falsos positivos). Como transientes eelementos que possuem muito espalhamento espectral não são transcritos como parte damelodia, ainda que pertençam ao instrumento ou voz que produz a melodia principal, esteselementos são especialmente difíceis de capturar com a máscara melódica e frequentementedeixam resquícios perceptíveis na máscara de acompanhamento.

Fontes sonoras instrumentais não possuem todas o mesmo comportamento espectral.Existem fontes que possuem ataques pouco percussivos, enquanto outras produzem muitostransientes nos inícios das notas que são importantes para sua caracterização. Algumasfontes produzem muito vibrato, outras são mais regulares. Estas particularidades das fontessonoras tornam necessária a formatação das máscaras melódicas, para que a separaçãoseja perceptualmente mais convincente. Durante o desenvolvimento do sistema, forampropostas algumas melhorias para alcançar resultados perceptualmente expressivos.

3.2 Melhorias da máscara melódicaAs máscaras melódicas foram modificadas com base nas características espectrais

desejadas. A seguir está a sequência desenvolvida a partir de experimentações e premissassobre o comportamento espectral das fontes sonoras.

1 Máscara melódica definida pela linha melódica do sinal de áudio

Esta máscara é capaz de recuperar as fontes sonoras que produzem as frequênciasfundamentais a cada intervalo de tempo. Porém, instrumentos reais produzem outrasfrequências além da fundamental, e estas não são recuperadas com este tipo demáscara.

2 Máscara contendo harmônicos superiores da frequência fundamental definida pelalinha melódica

Page 20: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 3. Separação Melodia e Acompanhamento 19

Esta máscara tem a vantagem de alcançar as frequências superiores geradas por fontesharmônicas instrumentais, melhorando a representação do timbre desses instrumentosno sinal melódico separado. No entanto, quando as fontes possuem vibrato oupequenas variações nas frequências fundamentais, esta máscara não permite recuperaras componentes em frequências próximas à série harmônica produzida.

3 Máscara dilatada contendo os harmônicos superiores da frequência fundamentaldefinida pela linha melódica

Com esta máscara é possível recuperar tanto os harmônicos quanto as pequenasvariações em frequência presentes em bins adjacentes das DFTs que compõem oespectrograma. Para fontes sonoras que possuem ataque pouco percussivo é possívelrecuperar quase todo o espectro melódico. Esta máscara passa a ser a base para asmodificações que buscam melhorar a recuperação de ataques e transientes nos iníciosdas notas.

4 Máscara obtida a partir da máscara [3] usando abertura espectral definida por umafunção de novidade espectral note on

A principal motivação desta máscara é a de recuperar a informação espectral dosinícios das notas importantes para caracterizar algumas fontes sonoras. A definição

Page 21: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 3. Separação Melodia e Acompanhamento 20

de uma função de novidade espectral visa encontrar os inícios de notas com base nasestruturas definidas pelas frequências no espectrograma. Teoricamente, quando deum frame para outro há uma diferença muito grande entre seus espectros, é sinalde que ocorreu uma novidade, isto é, um início de nota. Com base na medida destanovidade, a abrangência do espectro melódico naquele momento pode ser ampliada,e assim, parte das informações dos transientes pode ser recuperada.

5 Máscara obtida a partir de [3] com abertura apenas para elementos percussivos

Esta melhoria tem como base a mesma construção da anterior, porém evita a aberturada máscara para muitas frequências, uma vez que poderiam ser acrescentadas namáscara melódica frequências indesejadas. Ainda buscando recuperar informação deataque ou transientes, esta máscara toma o máximo do espectro percussivo do sinalcom a máscara melódica dilatada através da função de novidade espectral.

6 Máscara com espalhamento espectral nos inícios de notas

Em outra abordagem para a recuperação de ataques e transientes das fontes sonoras,esta melhoria teve como base a premissa de que inícios de notas possuiriam umpadrão na imagem que define o espectrograma dos ataques. A partir dos inícios de

Page 22: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 3. Separação Melodia e Acompanhamento 21

nota na máscara melódica, foi feita uma substituição por um padrão que ampliavaa recuperação espectral no início e reduzia-se até alcançar a frequência definida,visando recuperar os ataques e transientes que têm esta característica de espalhamentoespectral.

7 Máscara com dilatação percussiva nos inícios de notas, com padrão definido comoespalhador

Como a estratégia [5], esta melhoria calcula um máximo entre o espectrograma comas substituições nos inícios de notas da estratégia [6] e o espectrograma percussivo.

Page 23: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

22

4 Implementação

O desenvolvimento do sistema foi realizado inteiramente em linguagem Python,por esta permitir o uso de bibliotecas especializadas para o processamento de sinais, tantode áudio quanto de imagem. Esta linguagem também permite a integração com o sistemaque estima as linhas melódicas, garantindo assim que todo o desenvolvimento se voltasseapenas para esta linguagem.

Neste capítulo são descritas as ferramentas utilizadas durante o desenvolvimento eapresentados os detalhes de implementação e de uso dos programas criados a partir destasferramentas.

4.1 Ferramentas

Jupyter notebook

O Jupyter notebook é uma aplicação cliente-servidor que permite editar e rodarprogramas (notebooks) via web browser. Ele pode ser executado localmente ou instaladoem um servidor remoto e acessado pela internet. Através desta aplicação é possível escrevercódigos em células (em linguagens definidas como Kernel), executando-os e apresentandoseus resultados (incluindo gráficos e imagens) entre as células de código.

Esta ferramenta foi utilizada principalmente para organizar os resultados visuais,como espectrogramas e máscaras melódicas, bem como apresentar estruturadamente ospassos realizados para calcular as máscaras binárias, a separação dos espectrogramas e aressíntese do sinal de áudio.

Librosa

O Librosa é um pacote Python para análise de música e áudio. Este pacote provêfunções essenciais para criar sistemas de recuperação de informação musical, tendo sidousado para a leitura e escrita dos sinais de áudio, para o cálculo da STFT e ISTFT, alémde incluir uma função de separação harmônica e percussiva eficiente, que foi utilizada naimplementação.

Melodia Vamp Plugin

O plugin Melodia estima automaticamente a altura (frequência fundamental) damelodia predominante em uma música polifônica em função do tempo, como detalhado no

Page 24: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 4. Implementação 23

capítulo 2. Este plugin foi utilizado para recuperar a linha melódica de músicas que nãopossuíam anotação (ground-truth para a melodia).

4.2 NotebooksO uso do Jupyter Notebook permite modularizar a apresentação do sistema e

diversificar o ponto de vista do algoritmo. Deste modo, foram criados notebooks usandoas funções do sistema com apresentações diferentes, exibindo passo a passo a composiçãodas máscaras e permitindo a comparação dos resultados em meio à execução do código emPython.

Anotação × Estimação

Este notebook foi criado com o objetivo de comparar a extração da melodia baseadanas anotações de linha melódica manuais com as estimações de linhas melódicas dadas peloplugin Melodia. Durante o desenvolvimento das máscaras percebeu-se que os resultadosproduzidos a partir da linha melódica estimada pelo software Melodia não eram muitoclaros, pois haviam muitos falsos positivos (anotações de frequência fundamental que nãofaziam parte da melodia principal) e falsos negativos (falta de anotação das frequênciaspertencentes à melodia).

Através deste notebook, é possível comparar perceptualmente os resultados produ-zidos a partir das anotações manuais presentes no MedleyDB (descrito em 5.1) com aslinhas melódicas devolvidas pelo Melodia e verificar a qualidade das máscaras produzidas apartir de cada abordagem. O notebook foi estruturado em duas partes principais e possuia seguinte estrutura:

Calcula a STFT do sinal de entrada;

Calcula o espectrograma de magnitude do sinal;

[PARTE 1]

Carrega a anotação disponível no conjunto de dados MedleyDB;

Constrói máscaras melódicas a partir desta anotação;

Aplica as máscaras melódicas ao espectrograma original;

Reconstrói os sinais calculando a ISTFT dos espectrogramas modificados.

[PARTE 2]

Calcula a linha melódica estimada com o plugin Melodia;

Constrói máscaras melódicas a partir desta linha melódica;

Aplica as máscaras melódicas ao espectrograma original;

Reconstrói os sinais calculando a ISTFT dos espectrogramas modificados.

Page 25: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 4. Implementação 24

As reconstruções podem ser ouvidas e comparadas perceptualmente. Entretanto,este notebook só pode ser usado com músicas que possuem anotação prévia. Para utilizaçãodo mesmo é necessário ter uma anotação seguindo a mesma estrutura das anotaçõesdisponíveis no MedleyDB. Há uma amostra do conjunto de dados disponível para downloadem <http://medleydb.weebly.com/downloads.html>.

Exemplos de separação

Este notebook foi criado para apresentar todas as técnicas de separação implemen-tadas durante o desenvolvimento e exploração das máscaras melódicas. A partir de umsinal de áudio de entrada qualquer, são calculadas as máscaras melódicas a partir da linhamelódica estimada pelo software Melodia.

Os resultados podem ser ouvidos dentro do próprio notebook após cada reconstruçãodo espectro modificado pela máscara. Apenas a informação melódica é reconstruída emtodos os exemplos.

A sequência de apresentação das máscaras é a mesma do desenvolvimento, indo damais simples, com apenas a linha melódica como modelo de separação, até as tentativasmais complexas, que tentam extrair informações do espectrograma que caracterizem melhoras fontes sonoras responsáveis pela execução da melodia.

Seu uso durante os desenvolvimento foi essencial para verificar quais tipos demáscara extraíam melhor as características espectrais das diferentes fontes sonoras testadas.

Avaliação objetiva

Este notebook foi construído com o objetivo de calcular medidas objetivas sobre osresultados alcançados com as diferentes máscaras melódicas, e verificar se essas medidaseram relacionadas ao que se entendia como bons resultados perceptuais.

As músicas do conjunto de dados MedleyDB possuíam também as gravaçõesdos instrumentos separados. Assim, foi possível usar estas gravações como ground truth,tornando-as uma base de comparação entre os resultados alcançados com as diferentesconstruções de máscaras.

A avaliação buscou medir a qualidade de recuperação das informações musicaisque se referiam à melodia. Os cálculos realizados definiram duas medidas que serviram debase para a comparação.

A primeira medida foi calculada em relação ao instrumento melódico, ou seja, aqueleque executa a melodia. As máscaras foram aplicadas ao espectrograma do instrumentomelódico para definir o espectrograma da quantidade de energia deste instrumento queera recuperada. A seguir, calcula-se a norma desta representação ao quadrado dividida

Page 26: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 4. Implementação 25

pela norma do espectrograma completo do instrumento melódico ao quadrado. O objetivoera descobrir o quanto da informação de intensidade daquele instrumento fora recuperadacom cada uma das estratégias de recuperação. Esta medida recebeu o nome de acurácia.

A segunda medida buscava verificar o quanto da informação recuperada pelasmáscaras era produzida pelo instrumento melódico em relação ao que era produzido poroutras fontes sonoras que possuíam a mesma frequência. Dessa forma, calculou-se a relaçãoentre as normas ao quadrado da representação separada pela máscara do instrumentomelódico e da representação separada pela máscara do áudio com todos os instrumentos.

A intuição dada por esta medida é a de que quanto maior o valor dela, menor ainterferência de outras fontes no áudio reconstruído a partir da separação com a máscara.Esta medida recebeu o nome de precisão.

Com a intenção de balancear estas medidas foi calculada a sua média harmônica. Amédia harmônica possui a característica de tender fortemente para o menor dos elementos.Com ela é possível valorizar resultados que possuem valores altos em ambas as medidas.

Estes notebooks estão disponíveis para visualização e download neste link1.

Além dos notebooks, foi desenvolvido um código em linguagem Python que recebeparâmetros em linha de comando e realiza a separação do sinal em conteúdo melódico eacompanhamento. Este código pode ser encontrado no repositório <http://github.com/shayenne/MAS> e está aberto a contribuições.

1 https://linux.ime.usp.br/˜shayenne/mac0499/results/

Page 27: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

26

5 Avaliação

Neste capítulo são apresentados os resultados das explorações realizadas durante aimplementação do sistema. Os resultados observados são discutidos e analisados.

5.1 Formato da avaliaçãoA avaliação experimental do sistema ocorreu em um contexto preliminar e ex-

ploratório, ou seja, foi baseada em iterações de observações perceptuais e propostas deestratégias de processamento e consequente implementação. Participaram dessa avaliaçãomembros do grupo de pesquisas em Computação Musical do IME/USP, que forneceramfeedback em entrevistas livres/informais sobre a qualidade dos resultados sonoros obtidos etambém sobre possíveis estratégias para a construção das máscaras nos espectrogramas esuas melhorias. Tal etapa exploratória era imprescindível para o desenho de experimentosperceptuais formais, que são alvo de trabalhos futuros e contarão com a participação demais voluntários.

A sequência de melhorias da máscara para extração da melodia foi construídatendo-se em mente evitar dois problemas recorrentes no contexto de processamento desinais. O primeiro é o excesso de suavização (excessive smoothing) dos parâmetros, ouseja, o ampliamento indiscriminado da cobertura das máscaras, que seria motivado pelanecessidade de abranger diversos tipos de músicas e instrumentos com timbres muitodiferentes; isso geralmente traz como contrapartida a dificuldade em obter resultados bemajustados a cada exemplo (detectado através do vazamento de porções do acompanhamentona melodia extraída). O segundo problema recorrente é o ajuste excessivo (overfitting),causado pela tentativa de otimizar os parâmetros do algoritmo tendo como base um únicoexemplo ou poucos exemplos, o que geralmente degrada a performance do método quandoaplicado a outros exemplos (causando a supressão de informação relevante pertencente aoinstrumento que produz a melodia).

MedleyDB e Melodia

Para avaliação do sistema de maneira exploratória foi utilizado o conjunto dedados MedleyDB (BITTNER et al., 2014), que é um conjunto de dados de gravaçõesanotadas criado primeiramente para permitir pesquisas em extração de melodias. Para cadamúsica existem anotações das frequências fundamentais da melodia e também de ativaçõesdos instrumentos (para avaliação de reconhecedores automáticos de instrumentos). Esteconjunto de dados também é útil para pesquisas em tarefas que necessitam de acesso a

Page 28: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 5. Avaliação 27

faixas individuais de instrumentos em uma música, tarefas como separação de fontes emixagem automática. As músicas que possuem faixas individuais são as únicas em queexistiria uma espécie de ground truth para o problema da extração da melodia.

O uso deste conjunto de dados deve-se principalmente aos resultados não muitoclaros obtidos com a estimação feita pelo sistema Melodia. Os resultados da extraçãoautomática de melodia utilizando o software Melodia como estimador de frequênciasfundamentais não foram muito satisfatórios pois a cobertura da linha melódica era bastanteinferior à esperada. Isso se deve a uma maior preocupação desse software em evitar falsospositivos (frames com estimativa de F0 errada) do que falsos negativos (frames semestimativa de F0). Por essa razão, investiu-se mais tempo no desenvolvimento baseado emanotações originais do conjunto de dados MedleyDB, que possuía uma cobertura maiordas linhas melódicas (por ter sido revisado manualmente por especialistas).

5.2 Resultados

Produtos

Os produtos obtidos através da separação do sinal em conteúdo melódico e acom-panhamento são os áudios criados a partir do sinal original e da linha melódica associada,e podem ser encontrados neste link1, separados de acordo com a versão da máscara cons-truída para a filtragem da melodia. A partir destes áudios são feitas as avaliações dosresultados, em comparação com o sinal isolado de cada exemplo, levando em consideraçãoas características mais representativas de cada fonte sonora responsável por reproduzir amelodia da peça.

Avaliações experimentais

Foram avaliados os resultados da separação de cinco sinais de áudio com conteúdosmusicais distintos. As peças foram todas extraídas do conjunto de dados MedleyDB. Seustítulos, gêneros e informações sobre a fonte melódica principal são listadas a seguir.

Para cada peça são apresentados o espectrograma de um instrumento que executaa melodia e a máscara que alcançou maior valor de medida objetiva em relação a esteinstrumento. Os valores de acurácia (o quanto da informação espectral foi recuperada apartir da máscara melódica) e de precisão (de tudo o que foi recuperado, o que realmenteé parte deste instrumento) são apresentados juntamente com a sua média harmônica.

O valor da média harmônica é utilizado para classificar objetivamente as máscarasque melhor recuperam a informação melódica do sinal original, pois ela equilibra aquantidade de informação de intensidade do instrumento melódico e a quantidade de1 https://linux.ime.usp.br/˜shayenne/mac0499/results/

Page 29: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 5. Avaliação 28

informação extra proveniente de outras fontes. A Tabela 1 apresenta os valores de acuráciaobtidos, A Tabela 2 apresenta os valores de precisão e a Tabela 3 apresenta os resultadosde média harmônica, todas com destaque para as máscaras que possuem maior valor. Estesdados foram comparados com os resultados obtidos perceptualmente e são discutidos aseguir.

Tabela 1 – Resultados de acurácia

Acurácia Máscaras MelódicasMúsicas [1] [2] [3] [4] [5] [6] [7]Liz NelsonRainfall 0.2463 0.5389 0.8130 0.8986 0.8223 0.9573 0.8364

Chris JacobyBooth Shot Lincoln 0.2734 0.3321 0.5450 0.6643 0.5598 0.6095 0.5573

DebussyLenfant Prodigue 0.0299 0.3287 0.6289 0.8206 0.6689 0.8327 0.6782

MusicDeltaBeethoven 0.4252 0.4379 0.8308 0.9281 0.8365 0.9104 0.8389

MusicDeltaPunk 0.0234 0.1010 0.4080 0.7108 0.4464 0.7163 0.4618

Tabela 2 – Resultados de precisão

Precisão Máscaras MelódicasMúsicas [1] [2] [3] [4] [5] [6] [7]Liz NelsonRainfall 0.6214 0.7249 0.7139 0.6758 0.7161 0.6718 0.7240

Chris JacobyBooth Shot Lincoln 0.0261 0.0260 0.0251 0.0232 0.0240 0.0240 0.0247

DebussyLenfant Prodigue 0.0179 0.0318 0.0303 0.0292 0.0305 0.0305 0.0304

MusicDeltaBeethoven 0.8144 0.7771 0.5638 0.4466 0.5608 0.4860 0.5632

MusicDeltaPunk 0.6352 0.8023 0.8951 0.8967 0.8738 0.8465 0.8423

Tabela 3 – Resultados de média harmônica entre acurácia e precisão

Média Harmônica Máscaras MelódicasMúsicas [1] [2] [3] [4] [5] [6] [7]Liz NelsonRainfall 0.3528 0.6182 0.7603 0.7714 0.7655 0.7895 0.7762

Chris JacobyBooth Shot Lincoln 0.0478 0.0482 0.0480 0.0449 0.0460 0.0460 0.0474

DebussyLenfant Prodigue 0.0224 0.0580 0.0578 0.0565 0.0583 0.0543 0.0582

MusicDeltaBeethoven 0.5587 0.5602 0.6718 0.6031 0.6715 0.6337 0.6740

MusicDeltaPunk 0.0452 0.1794 0.5606 0.7930 0.5909 0.7760 0.5966

Page 30: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 5. Avaliação 29

Título Rainfall

Artista Liz Nelson e Jennifer Davies

Gênero Singer/Songwriter

Fonte melódica Voz feminina

Esta peça contém vozes femininas que executam principalmente a melodia, comuma das vozes fazendo acompanhamento juntamente com um violão. Os resultados com autilização da máscara binária que incluía apenas os harmônicos da frequência fundamentalnão capturavam elementos espectrais importantes para a caracterização do timbre davoz, como vibratos e transientes nos inícios das vogais. Para esta peça, o resultado queaparentou mais proximidade com as características esperadas foi a separação realizada apartir de máscara melódica com dilatação percussiva nos inícios das notas [7]. Com essamáscara, foi possível reinserir vogais muito percussivas na melodia separada.

Nas medidas objetivas, a máscara que obteve maior valor de média harmônica foia [6], porém é possível entender a diferença de resultados perceptualmente porque o valorde precisão da [6] é menor que o da [7]. Por isso, é plausível o fato de perceber melhoresresultados com a máscara [7].

Page 31: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 5. Avaliação 30

Título Booth Shot Lincoln

Artista Chris Jacoby

Gênero World/Folk

Fonte melódica Mandolin

A característica mais marcante desta peça é possuir um instrumento de cordaspinçadas em evidência, fazendo tanto a melodia quanto o acompanhamento, além de uminstrumento percussivo. A separação melódica apenas com a máscara que continha osharmônicos superiores dilatados, sem qualquer tentativa de incluir ataques [3], foi a quemelhor expressou as características de timbre da fonte sonora, o mandolin. Neste caso,quando eram incluídas informações espectrais no início das notas, incluía-se muito doconteúdo proveniente do instrumento percussivo, acrescentando informação que não faziaparte da fonte sonora que executa a melodia.

Avaliando a medida objetiva, observou-se que a média harmônica mais alta é exa-tamente a da máscara [2], com uma diferença de apenas 0.002 da máscara [3]. Observandoos valores de acurácia é possível perceber que o valor da máscara [3] é bem maior que oda [2], o que concorda com o resultado perceptualmente escolhido.

Page 32: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 5. Avaliação 31

Título L’enfant Prodigue

Artista Claude Debussy

Gênero Classical

Fonte melódica Voz masculina

Esta peça tem características de canção, com um piano ao fundo e o cantorem bastante destaque. Como acontece com a voz feminina, também é importante aquirecuperar informações espectrais das consoantes percussivas e ruidosas. No entanto, estecaso é distinto do primeiro, pelo fato de o cantor permanecer mais tempo cantando asvogais, e assim, mantendo uma altura recuperável mais facilmente pela máscara melódica.

Os resultados mostraram que, para esta peça, a máscara que melhor recuperou ascaracterísticas espectrais da voz foi a máscara com dilatação percussiva nos inícios dasnotas, com padrão espalhador [7]. Os valores de média harmônica definiram a [5] commaior valor, com uma pequena diferença de 0.001 da máscara [7]. Os valores de acuráciaconcordaram a escolha da máscara [7].

Page 33: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 5. Avaliação 32

Título Beethoven

Artista Music Delta Multitracks

Gênero Classical

Fonte melódica Flauta/Clarinete/Oboé/Trompete/Trompa

A peça é puramente instrumental, contendo diversos instrumentos executandoa mesma melodia, o que torna impossível separar apenas uma fonte. Mesmo assim, aextração recupera as características espectrais dos instrumentos que tocam a melodia.Neste caso, como há muitos instrumentos executando diferentes notas, a recuperação damelodia com a máscara melódica sem qualquer tentativa de recuperar transientes [3] pareceboa perceptualmente. A separação da melodia é clara, ainda que seja difícil a identificaçãode alguns dos instrumentos que a compõem a partir do sinal reconstruído.

Ao realizar a comparação objetiva entre o espectrograma melódico recuperado como espectrograma de um instrumento que executa a melodia, neste caso a flauta, obteve-sevalores de média harmônica elevados para a máscara [3] e a máscara [7]. Com a comparaçãoperceptual, notou-se que a máscara [7] traz um pouco mais dos ataques nos inícios dasnotas, o que explica seu valor mais elevado.

Page 34: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 5. Avaliação 33

Título Punk

Artista Music Delta Multitracks

Gênero Rock

Fonte melódica Voz masculina

Este exemplo musical é o mais ruidoso de todos, e é perceptível pelo espectrogramaque em todo o sinal há muita informação. A melodia é considerada como sendo a voz docantor. Para este caso, apesar do excesso de ruído ao redor, é importante recuperar ostransientes da voz. Assim, a máscara contendo a informação melódica com a dilataçãopor padrão hit/miss da máscara melódica [4] foi a que alcançou melhores resultadosperceptuais.

Nesta peça, o valor de medida objetiva de média harmônica maior foi alcançadopela máscara [4], o que não contradiz o resultado perceptual.

Page 35: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

Capítulo 5. Avaliação 34

5.3 DiscussãoPara validar completamente os resultados deste sistema seria necessário realizar

experimentos subjetivos com diferentes pessoas, comparando os resultados de diferentesestratégias para a extração de melodias. Como essa validação formal dependia das propostasde melhorias das máscaras de filtragem, esse trabalho exploratório preliminar consistiaem uma etapa anterior e essencial. Isso fez com que o desenvolvimento do trabalho seconcentrasse nessa avaliação preliminar, realizada através de experimentos pilotos visandoa elaboração de novas estratégias, e com a participação de voluntários do grupo de pesquisana forma de entrevistas livres.

Durante o seu desenvolvimento, as abordagens de separação foram revisadas,levando em conta as características de representação do sinal, dos contornos melódicose da distribuição de informação de energia do sinal nas diversas frequências do espectro.Conforme os resultados eram avaliados, novas formas de aperfeiçoá-los eram investigadas.

As melhorias propostas para a máscara de filtragem da melodia partiram todasda informação fornecida pelos perfis de frequências fundamentais, sendo a partir destesque se elaboraram estratégias para a inclusão de informação relevante. As máscaras deacompanhamento também poderiam ser usadas para propor melhorias na máscara melódica,por exemplo, incluindo suavizações (soft mask) nas componentes próximas à melodia. Deuma certa maneira, algo parecido foi feito nas estratégias [5] e [7] de melhoria, em queelementos percussivos entraram na máscara melódica. Uma exploração mais abrangenteda perspectiva do acompanhamento exigiria um nível maior de confiabilidade na máscaramelódica construída, de modo a permitir a identificação de elementos em cada classificaçãode conteúdo do sinal (melodia, transientes, instrumentos, acompanhamento, etc).

Os resultados variaram principalmente de acordo com os tipos de fontes sonoraspresentes no sinal. É muito difícil extrair informações de fontes sonoras sem conhecerdetalhadamente suas características espectrais. As melodias executadas por instrumentosmusicais eram mais definidas que as executadas por voz, pelo fato de a voz conter diferentesataques percussivos, correspondentes às consoantes que não possuem caráter melódico,dificultando sua recuperação.

A tentativa de extrair informação melódica com voz humana é bem mais complexa,uma vez que os ataques variam bastante entre as consoantes. Enquanto algumas consoantessão mais facilmente agrupadas com as vogais na melodia, outras, que têm característicasde maior espalhamento espectral e maior duração, como as sibilantes e fricativas, são maisdifíceis de localizar automaticamente no espectro.

Page 36: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

35

6 Conclusão

Este trabalho permitiu investigar uma técnica de separação sonora voltada àpercepção humana, sem utilizar teorias musicais complexas, com abordagem simplesbaseada em análise de espectrogramas associados às anotações melódicas de um sinalpolifônico. Embora simples, a técnica se mostrou relevante a partir dos resultados obtidos.

Os resultados foram promissores e coerentes com a expectativa. Sendo um trabalhoinicial em uma área que apresenta grandes desafios tanto teóricos quanto práticos, umainvestigação exploratória preliminar parecia o caminho mais correto a seguir, como prepa-ração para uma formalização tanto da metodologia de investigação quanto da avaliaçãoperceptual. Nos resultados obtidos, a separação do sinal foi clara, sendo o conteúdo decada melodia obtida perceptualmente similar ao resultado esperado, mas apresentandonuances em relação a outros elementos não estritamente melódicos (ataques, transientes,consoantes), que foram o foco das estratégias de melhorias propostas.

As principais dificuldades encontradas, principalmente na fase inicial do trabalho,dizia respeito à qualidade das linhas melódicas extraídas automaticamente, o que não erao foco da investigação por se tratar de um pré-processamento da entrada. Constatou-seque o sistema Melodia frequentemente não devolve toda a linha melódica dos sinais deáudio de entrada, e algumas vezes classifica como linha melódica o que é na realidadeacompanhamento. Isto impediu de alcançar resultados satisfatórios em músicas que nãopossuíam anotação prévia, restringindo a etapa de validação objetiva às músicas quepossuíam anotações melódicas.

Sendo o principal objetivo do presente trabalho a extração de melodias de formacoerente com a percepção humana, a próxima etapa do trabalho consiste em realizarexperimentos subjetivos comparando os resultados das diferentes técnicas utilizadas nestetrabalho. Adicionalmente, o sistema poderia permitir ao usuário a escolha dos tipos defontes sonoras que deseja capturar, a fim de melhor ajustar a construção da máscaramelódica levando em consideração as características timbrísticas do instrumento queproduz a melodia, permitindo a separação do sinal de áudio de maneira mais próxima aoesperado.

Page 37: Separação de sinais de áudio em melodia e acompanhamentoshayenne/mac0499/monografia.pdf · 6 1 Introdução Métodoscomputacionaisdeanálisedesinaisdeáudiosãousadosparadiversas

36

Referências

BITTNER, R. M. et al. MedleyDB: A multitrack dataset for annotation-intensive MIRresearch. In: 15th Int. Soc. for Music Info. Retrieval Conf. Taipei, Taiwan: [s.n.], 2014. p.155–160. Citado na página 26.

BREGMAN, A. Auditory Scene Analysis: The Perceptual Organization of Sound.Bradford Books, 1990. (A Bradford book). ISBN 9780262521956. Disponível em:<https://books.google.com.br/books?id=jI8muSpAC5AC>. Citado na página 6.

JUPYTER, P. Jupyter notebook. 2016. <=> http://jupyter.org/. Disponível em:<http://jupyter.org/>. Citado na página 22.

LIBROSA, D. T. Librosa. 2016. <=> http://librosa.github.io/. Disponível em:<http://librosa.github.io/>. Citado na página 22.

MÜLLER, M. Fundamentals of Music Processing: Audio, Analysis, Algorithms,Applications. Springer International Publishing, 2015. ISBN 9783319219455. Disponívelem: <https://books.google.com.br/books?id=HCI\_CgAAQBAJ>. Citado na página 7.

SALAMON, J.; GóMEZ, E. Melody extraction from polyphonic music signals using pitchcontour characteristics. IEEE Transactions on Audio, Speech, and Language Processing,v. 20, n. 6, p. 1759–1770, Aug. 2012. Citado na página 13.

SALAMON, J. et al. Melody extraction from polyphonic music signals: Approaches,applications and challenges. IEEE Signal Processing Magazine, 2013. Citado na página12.

WANG, D.; BROWN, G. Computational Auditory Scene Analysis: Principles,Algorithms, and Applications. Wiley, 2006. ISBN 9780471741091. Disponível em:<https://books.google.com.br/books?id=q58eAQAAIAAJ>. Citado na página 7.