ct_ppgeb_m_dresch, andrea alves guimaraes_2015.pdf

107
UNIVERSIDADE TECNOL ´ OGICA FEDERAL DO PARAN ´ A PROGRAMA DE P ´ OS-GRADUAC ¸ ˜ AO EM ENGENHARIA BIOM ´ EDICA ANDR ´ EA ALVES GUIMAR ˜ AES DRESCH M ´ ETODO PARA RECONHECIMENTO DE VOGAIS E EXTRAC ¸ ˜ AO DE PAR ˆ AMETROS AC ´ USTICOS PARA AN ´ ALISES FORENSES DISSERTAC ¸ ˜ AO CURITIBA 2015

Upload: dangdiep

Post on 07-Jan-2017

227 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

UNIVERSIDADE TECNOLOGICA FEDERAL DO PARANAPROGRAMA DE POS-GRADUACAO EM ENGENHARIA BIOMEDICA

ANDREA ALVES GUIMARAES DRESCH

METODO PARA RECONHECIMENTO DE VOGAIS E EXTRACAO DEPARAMETROS ACUSTICOS PARA ANALISES FORENSES

DISSERTACAO

CURITIBA

2015

Page 2: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

ANDREA ALVES GUIMARAES DRESCH

METODO PARA RECONHECIMENTO DE VOGAIS E EXTRACAO DEPARAMETROS ACUSTICOS PARA ANALISES FORENSES

Dissertacao apresentada ao Programa dePos-Graduacao em Engenharia Biomedicada Universidade Tecnologica Federal doParana como requisito parcial para obtencaodo grau de “Mestre em Ciencias” – Area deConcentracao: Engenharia Biomedica.

Orientador: Prof. Dr. Hugo Vieira Neto

Coorientador: Prof. Dr. Rubens Alexandre deFaria

CURITIBA

2015

Page 3: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

Dados Internacionais de Catalogação na Publicação

D773m Dresch, Andréa Alves Guimarães

2015 Método para reconhecimento de vogais e extração de

parâmetros acústicos para análises forenses / Andréa Alves

Guimarães Dresch.-- 2015.

105 f.: il.; 30 cm

Texto em português, com resumo em inglês.

Dissertação (Mestrado) - Universidade Tecnológica

Federal do Paraná. Programa de Pós-graduação em Engenharia

Biomédica, Curitiba, 2015.

Bibliografia: f. 67-72.

1. Fonética acústica. 2. Fonética forense. 3. Língua

portuguesa - Vogais. 4. Processamento de sinais -

Modelos matemáticos. 5. Teoria da previsão. 6. Medição.

7. Métodos de simulação. 8. Engenharia biomédica -

Dissertações. I. Vieira Neto, Hugo, orient. II. Faria,

Rubens Alexandre de, coorient. III. Universidade Tecnológica

Federal do Paraná. Programa de Pós-graduação em Engenharia

Biomédica. IV. Título.

CDD: Ed. 22 -- 610.28

Biblioteca Central da UTFPR, Câmpus Curitiba

Page 4: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ

Campus Curitiba

Programa de Pós-Graduação em Engenharia Biomédica

Título da Dissertação Nº 048

“Método para reconhecimento de vogais e extração de parâmetros acústicos para análises forenses”

por

Andréa Alves Guimarães Dresch ÁREA DE CONCENTRAÇÃO: Engenharia Biomédica.

LINHA DE PESQUISA: Instrumentação Biomédica.

Esta dissertação foi apresentada como requisito parcial à obtenção do grau de MESTRE EM CIÊNCIAS (M.Sc.) – Área de Concentração: Engenharia Biomédica, pelo Programa de Pós-Graduação em Engenharia Biomédica (PPGEB), – da Universidade Tecnológica Federal do Paraná (UTFPR), Campus Curitiba, às 10h00min do dia 14 de dezembro de 2015. O trabalho foi aprovado pela Banca Examinadora, composta pelos professores:

________________________________ Prof. Rubens Alexandre de Faria, Dr.

(Presidente – UTFPR)

________________________________ Prof. Luiz Eduardo Soares de Oliveira , Dr.

(UFPR)

________________________________ Prof. André Eugênio Lazzaretti, Dr.

(UTFPR)

Visto da coordenação:

________________________________ Profª. Leandra Ulbricht.,Drª. (Coordenadora do PPGEB)

AVISO: A Folha de Aprovação assinada encontra-se na Coordenação do PPGEB.

Page 5: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

A vovo Corina (in memoriam).

Page 6: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

AGRADECIMENTOS

O caminho dessa etapa da minha vida so foi possıvel de ser percorrido por

valiosas contribuicoes que recebi. Por isso expresso minha gratidao a essas pessoas.

Agradeco ao Grupo de Estudos dos Sons da Fala da UTFPR, em especial a

professora Malu, pela cessao de amostras de audio utilizadas neste trabalho.

Agradeco aos colegas do LAPIS, especialmente Eduardo, Philipe, Charles e

Ricardo, pelo convıvio que permitiu um imenso aprendizado.

Agradeco aos meus colegas da Secao de Perıcias Audiovisuais, Aninha, Ivo,

Marcia, Lucas, Denise e Marilisa. O apoio de voces foi muito importante.

Agradeco ao meu orientador Hugo Vieira Neto, que tem tido um papel

fundamental em minha formacao. Nos momentos crıticos sempre soube trazer a

motivacao necessaria.

Ao meu coorientador Rubens Alexandre Faria por abrir as portas para

Engenharia Forense no programa.

A Andre Eugenio Lazzareti, pelo auxılio com as analises dos resultados dos

experimentos.

Agradeco aos meus familiares e amigos, por toda compreensao neste perıodo.

A minha mae, dona Aparecida, por todas as oracoes sempre que eu precisava.

Aos meus irmaos Karine, Rogerio e Lucas, sempre irmaozinhos no meu

coracao.

A Josianne, irma por afinidade, pela amizade que atravessa os anos.

Agradeco ao meu esposo, Marcio, companheiro de jornada e meu melhor

amigo, sempre me amparando em todos os passos.

Page 7: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

“Caminhante, nao ha caminho, faz-se caminho ao andar.”(Antonio Machado Ruiz)

“NAO ENTRE EM PANICO!”(Douglas Adams, Guia do Mochileiro das Galaxias)

Page 8: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

RESUMO

Dresch, Andrea Alves Guimaraes. METODO PARA RECONHECIMENTO DE VOGAISE EXTRACAO DE PARAMETROS ACUSTICOS PARA ANALISES FORENSES. 105 f.Dissertacao – Programa de Pos-Graduacao em Engenharia Biomedica, UniversidadeTecnologica Federal do Parana. Curitiba, 2015.

Exames de Comparacao Forense de Locutores apresentam caracterısticascomplexas, demandando analises demoradas quando realizadas manualmente.Propoe-se um metodo para reconhecimento automatico de vogais com extracao decaracterısticas para analises acusticas, objetivando-se contribuir com uma ferramentade apoio nesses exames. A proposta baseia-se na medicao dos formantes atravesde LPC (Linear Predictive Coding), seletivamente por deteccao da frequenciafundamental, taxa de passagem por zero, largura de banda e continuidade, sendo oagrupamento das amostras realizado por meio do metodo k-means. Experimentosrealizados com amostras de tres diferentes bases de dados trouxeram resultadospromissores, com localizacao das regioes correspondentes a cinco das vogais doPortugues Brasileiro, propiciando a visualizacao do comportamento do trato vocal deum falante, assim como deteccao de trechos correspondentes as vogais-alvo.

Palavras-chave: Analise Acustica, Exame de Comparacao de Locutores, FoneticaForense, Processamento de Sinais de Audio, Trapezio Fonetico.

Page 9: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

ABSTRACT

Dresch, Andrea Alves Guimaraes. METHOD FOR RECOGNITION OF VOWELS ANDEXTRACTION OF ACOUSTIC PARAMETERS FOR FORENSIC ANALYSIS. 105 f.Master’s Dissertation – Post-graduation Program in Biomedical Engineering, FederalUniversity of Technology - Parana. Curitiba, 2015.

Forensic Speaker Comparison exams have complex characteristics, demanding a longtime for manual analysis. A method for automatic recognition of vowels, providingfeature extraction for acoustic analysis is proposed, aiming to contribute as a supporttool in these exams. The proposal is based in formant measurements by LPC (LinearPredictive Coding), selectively by fundamental frequency detection, zero crossing rate,bandwidth and continuity, with the clustering being done by the k-means method.Experiments using samples from three different databases have shown promisingresults, in which the regions corresponding to five of the Brasilian Portuguese vowelswere successfully located, providing visualization of a speaker’s vocal tract behavior,as well as the detection of segments corresponding to target vowels.

Keywords: Acoustic Analysis, Audio Signal Processing, Forensic Phonetics, ForensicSpeaker Comparison Exam, Phonetic Trapezium.

Page 10: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

LISTA DE FIGURAS

–FIGURA.1 Fluxograma das etapas principais da proposta . . . . . . . . . . . . . . . . . . . . 18–FIGURA.2 Diagrama em corte sagital do aparelho fonador com indicacao dos

sistemas que o compoem e seus principais elementos . . . . . . . . . . . . 22–FIGURA.3 Diagrama esquematico do mecanismo de producao de voz humana 23–FIGURA.4 Comparacao entre os espectros LPC e FFT . . . . . . . . . . . . . . . . . . . . . . . 26–FIGURA.5 Trapezio vocalico fonetico de acordo com o IPA . . . . . . . . . . . . . . . . . . . 28–FIGURA.6 Sobreposicao do grafico de F1×F2 com ilustracao com posicao da

lıngua durante a producao das vogais orais tonicas . . . . . . . . . . . . . . . . 29–FIGURA.7 Fluxograma dos algoritmos implementados . . . . . . . . . . . . . . . . . . . . . . . 35–FIGURA.8 Grafico de nuvem de pontos F1×F2 com os valores de formantes

obtidos para todos os pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36–FIGURA.9 Grafico de nuvem de pontos F1×F2 com os valores de formantes

apos analise de F0 e de ZCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37–FIGURA.10 Grafico de nuvem de pontos F1×F2 com os valores de formantes

apos analise inicial de agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38–FIGURA.11 Graficos de um trecho de audio: forma de onda com sobreposicao

de tracados de STE e ZCR e espectrogramas com sobreposicao decurvas de F0 e de formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

–FIGURA.12 Graficos de nuvens de pontos F1×F2 referentes a diferentes trilhasde formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

–FIGURA.13 Fluxogramas dos algoritmos implementados para agrupamento ebusca de centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

–FIGURA.14 Divisao do espaco F1 × F2 em regioes horizontais a partir dosmınimos obtidos atraves da funcao da densidade de probabilidade 44

–FIGURA.15 Subdivisao de regiao do espaco F1 × F2 a partir dos mınimos emaximos da funcao densidade de probabilidade para inicializacaodos centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

–FIGURA.16 Distribuicao dos valores de razao entre as distancias resultantes dosMetodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

–FIGURA.17 Grafico de nuvem de pontos F1 × F2 com indicacao do centroideassociado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

–FIGURA.18 Graficos de nuvens de pontos e trechos F1×F2 sobrepostos peloscentroides resultantes obtidos pelos Metodos 1 e 2 . . . . . . . . . . . . . . . . 53

–FIGURA.19 Graficos LTAS (Long Term Average Spectrum) . . . . . . . . . . . . . . . . . . . . 55–FIGURA.20 Boxplots com comparativo das distribuicoes de F1×F2 de amostras

do grupo GC com degradacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60–FIGURA.21 Graficos de nuvens de pontos F1×F2 e boxplots das distribuicoes

dos formantes em diferentes trechos de uma amostra. . . . . . . . . . . . . 62

Page 11: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

LISTA DE TABELAS

–TABELA.1 Amostras de dados utilizadas nos experimentos . . . . . . . . . . . . . . . . . . . 34–TABELA.2 Resultados dos centroides do grupo GC da UTFPR obtidos apos

agrupamento por meio dos Metodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . 48–TABELA.3 Diferencas entre os centros as referencias do grupo GC da UTFPR

apos agrupamento por meio dos Metodos 1 e 2 . . . . . . . . . . . . . . . . . . . . 49–TABELA.4 Diferenca percentual da distancia entre a fronteira de cada regiao a

referencia mais proxima, com agrupamento pelos Metodos 1 e 2 . . . 51–TABELA.5 Quantidade de referencias localizadas internamente as regioes

delimitadas por meio dos Metodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 51–TABELA.6 Corpus UTFPR: percentual de vogais-alvo representadas na nuvem

final e percentual medio das amostras dessas vogais . . . . . . . . . . . . . . 54–TABELA.7 Diferenca dos valores F1 e F2 dos centroides em relacao aos valores

de referencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56–TABELA.8 Percentual de vogais-alvo representadas na nuvem final - grupos do

corpus UTFPR sem degradacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56–TABELA.9 Diferenca dos valores F1 e F2 dos centroides em relacao aos valores

de referencia, amostras com codificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . 57–TABELA.10 Teste t de Student para comparar valores obtidos com amostras

submetidas a codificacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57–TABELA.11 Percentual de vogais-alvo representadas na nuvem final - grupos do

corpus UTFPR com codificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58–TABELA.12 Numero de centroides reconhecidos nos grupos analisados apos

adicao de ruıdo ao sinal das amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58–TABELA.13 Diferenca dos valores F1 e F2 dos centroides em relacao aos valores

de referencia, amostras com adicao de ruıdo . . . . . . . . . . . . . . . . . . . . . . 59–TABELA.14 Teste t de Student para comparar valores obtidos com amostras com

adicao de ruıdo codificacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59–TABELA.15 Percentual de vogais-alvo representadas na nuvem final - grupos do

corpus UTFPR com adicao de ruıdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60–TABELA.16 Diferenca dos valores de centroides em comparacoes intrafalantes

para amostras do corpus C-ORAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Page 12: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

LISTA DE SIGLAS

CL Comparacao de LocutoresMFCC Mel-Frequency Cepstral CoefficientsLPCC Linear Prediction Cepstral CoefficientsHMM Hidden Markov ModelGMM Gaussian Mixture ModelSVM Support Vector MachineZCR Zero Crossing RateSTE Short Term EnergyMDF Most Dominant FrequencyF0 Frequencia FundamentalF1 Primeiro FormanteF2 Segundo FormanteFn Enesimo FormanteLPC Linear Predictive CodingFFT Fast Fourier TransformPB Portugues BrasileiroIPA International Phonetic AlphabetBW1 Banda de passagem de F1BW2 Banda de passagem de F2PCM Pulse Code ModulationAMR-nb Adaptative multi rate - narrow bandAMR Adaptative multi rate3GPP 3rd Generation Partnership ProjectMP3 MPEG layer 3LTAS Long Term Average Spectrum

Page 13: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

LISTA DE SIMBOLOS

rx(τ) Autocorrelacao do sinalrxw(τ) Autocorrelacao do sinal apos janelamentorw(τ) Autocorrelacao da janelas[n] Sinal de saıdax[n] Sinal de audio de entradam Numero de coeficientes LPCs[n] Sinal de saıda estimado atraves dos coeficientes LPCa[i] Coeficientes LPCe[n] Erro de predicao do sistema LPCyn Predicao linear das amostras anterioreszn Predicao linear das amostras posterioresK Numero de agrupamentos do metodo k-meansd Distancia Euclidianaµµµkkk K-esimo centro de agrupamento do metodo k-meansrnk Rotulo do enesimo padrao de entradaxxxnnn Enesimo padrao de entrada do metodo k-meansµ Media da distribuicao

Page 14: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

SUMARIO

1 INTRODUCAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.1 MOTIVACAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.2 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2.2 Objetivos Especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3 ABORDAGEM PROPOSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4 ESTRUTURA DA DISSERTACAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 TRABALHOS CORRELATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 FUNDAMENTACAO TEORICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1 PRODUCAO DE VOZ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1.1 Sistema Respiratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.2 Sistema Laringeal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.3 Sistema Articulatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 TEORIA FONTE-FILTRO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2.1 Frequencia Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.2 Formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3 FONEMAS DO PORTUGUES BRASILEIRO (PB) . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.1 Vogais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.2 Semivogais ou Glides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3.3 Consoantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.4 MODELO DE AGRUPAMENTO K-MEANS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 MATERIAIS E METODOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1 AMOSTRAS DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.1 Corpus UTFPR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.2 Corpus SPOLTECH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.3 Corpus C-ORAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.2 FERRAMENTAL DE EDICAO DE AUDIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3 ALGORITMOS UTILIZADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3.1 Pre-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.2 Rotina para Calculo da Taxa de Passagem por Zero . . . . . . . . . . . . . . . . . . . . . . . 374.3.3 Deteccao da Frequencia Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.4 Calculo de Formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.3.5 Selecao de Amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.3.6 Continuidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.7 Modelo de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.8 Inicializacao dos Centroides - “Metodo 1” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.9 Inicializacao dos Centroides - “Metodo 2” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 EXPERIMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.1 COMPARACAO ENTRE OS METODOS DE INICIALIZACAO . . . . . . . . . . . . . . . 465.2 ALOCACAO DOS CENTROIDES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.3 RECONHECIMENTO DOS TRECHOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.4 CODIFICACAO DOS SINAIS DE AUDIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Page 15: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

5.5 ADICAO DE RUIDO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.6 COMPARACAO INTRAFALANTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 RESULTADOS E DISCUSSOES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.1 COMPARACAO ENTRE OS METODOS DE INICIALIZACAO . . . . . . . . . . . . . . . 486.1.1 Alocacao dos Centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.1.2 Reconhecimento dos Trechos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536.1.3 Media Espectral apos o Reconhecimento dos Trechos . . . . . . . . . . . . . . . . . . . . . 546.2 RESULTADOS PARA DEGRADACOES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.2.1 Codificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.2.2 Adicao de Ruıdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.3 RESULTADOS PARA COMPARACAO INTRAFALANTES . . . . . . . . . . . . . . . . . . . 617 CONCLUSAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.1 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67APENDICE A - CODIGO DOS PROGRAMAS GERADOS NO PRAAT . . . . . . . . . . 73A.1 ROTINA PARA CALCULO E GERACAO DE TABELAS COM VALORES DE

STE, ZCR, F0 E TRILHAS DE F1,2,3 E BW1,2,3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73A.2 ROTINA PARA CRIACAO DE TEXTGRIDS COM VALORES DE TRECHOS 82APENDICE B - CODIGO DOS PROGRAMAS GERADOS NO MATLAB . . . . . . . . . 86B.1 FUNCAO PRINCIPAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86B.2 FUNCAO PARA FORMATAR TABELAS GERADAS NO PRAAT . . . . . . . . . . . . . 87B.3 FUNCOES PARA GERAR NUVEM DE PONTOS F1×F2 - METODO 1 . . . . . . 88B.4 FUNCOES PARA GERAR NUVEM DE PONTOS F1×F2 - METODO 2 . . . . . . 92B.5 FUNCAO PARA CALCULAR VALORES MEDIOS NOS TRECHOS . . . . . . . . . 95APENDICE C - RESULTADOS OBTIDOS DURANTE OS EXPERIMENTOS . . . . . 97C.1 RESULTADOS OBTIDOS POR MEIO DOS METODOS 1 E 2 . . . . . . . . . . . . . . . 97C.2 DISTANCIAS RESULTANTES APOS AGRUPAMENTO POR MEIO DOS

METODOS 1 E 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98C.3 DIFERENCA DOS VALORES F1 E F2 DOS CENTROIDES EM RELACAO

AOS VALORES DE REFERENCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99C.4 PERCENTUAL DE VOGAIS-ALVO REPRESENTADAS NA NUVEM FINAL -

GRUPOS DO CORPUS UTFPR SEM DEGRADACAO . . . . . . . . . . . . . . . . . . . . . 99C.5 DIFERENCA DOS VALORES F1 E F2 DOS CENTROIDES EM RELACAO

AOS VALORES DE REFERENCIA, AMOSTRAS COM CODIFICACAO . . . . .100C.6 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COM

CODIFICACAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101C.7 NUMERO DE CENTROIDES RECONHECIDOS APOS ADICAO DE RUIDO

AO SINAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .102C.8 DIFERENCA DOS VALORES F1 E F2 DOS CENTROIDES EM RELACAO

AOS VALORES DE REFERENCIA, AMOSTRAS COM ADICAO DE RUIDO 103C.9 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COM

ADICAO DE RUIDO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104C.10 DIFERENCA DOS VALORES DE CENTROIDES EM COMPARACOES

INTRAFALANTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .105

Page 16: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

14

1 INTRODUCAO

A producao de provas, regulamentada atraves do Codigo de Processo Penal

(BRASIL, 1941; BRASIL, 2008), tem sido cada vez mais comum por meio de

registros de audio, em especial apos a promulgacao da Lei 9296/96 que trata das

interceptacoes telefonicas (BRASIL, 1996), disciplinada pelas Resolucoes nº 59 e

nº 84 (CNJ, 2008; CNJ, 2009). Consequentemente, as demandas da area forense

referentes as perıcias audiovisuais para atribuicao de autorias tem se intensificado.

O exame de Comparacao de Locutores (CL) tem por finalidade verificar se

dois registros de voz e fala foram produzidos por um mesmo indivıduo, consistindo

na comparacao entre um registro de audio denominado questionado - sobre o qual

pairam duvidas quanto a autoria das falas - e um registro padrao - registros de fala

de identidade conhecida (MORISSON, 2003; GRECO, 2013; GONCALVES; PETRY,

2015). A importancia desse exame reside na possibilidade de vincular ou desvincular

um indivıduo a um fato delituoso materializado atraves de um registro de audio

(BRAID, 2003).

Um exemplo no qual um exame de CL seria destacadamente importante

supoe uma gravacao oriunda de interceptacao telefonica, cumprindo todos os

requisitos legais, seja a unica prova material para esclarecimento de um crime. Seu

conteudo trata-se de um dialogo entre duas pessoas, identificadas como Joao e

Maria, que trocam informacoes sobre um homicıdio perpetrado por ambos contra

um terceiro indivıduo, sendo que os falantes nao apenas explicitam sua participacao,

como tambem mencionam detalhes que alteram a classificacao do delito de homicıdio

simples para qualificado, de acordo com o Codigo Penal (BRASIL, 1940). Ocorre que,

durante o processo penal, o defensor dos acusados argumenta que as vozes ouvidas

na gravacao nao sao de seus clientes.

E indiscutıvel a importancia do exame de CL para dirimir duvidas como a

descrita no exemplo. Nesse caso hipotetico, associar ou nao, equivocadamente,

as vozes presentes na gravacao as pessoas Joao e Maria, leva a dois cenarios

diametralmente opostos: impunidade de indivıduos culpados de um crime de maior

potencial ofensivo, ou situacao eticamente ainda pior, reclusao injusta de cidadaos

inocentes do crime imputado.

Page 17: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

15

Relatorios de diagnostico da Seguranca Publica e da Perıcia Criminal

brasileira apontam a carencia de peritos criminais (SENASP, 2012; ENASP, 2012), o

que consequentemente culmina em passivo de laudos nos Institutos de Criminalıstica.

O represamento de materiais a serem examinados prejudica a celeridade necessaria

para a producao de provas, o que, de acordo com Vargas e colaboradores (2006),

contribui para a morosidade de um processo penal.

Nesse contexto, agravado pela complexidade das analises envolvidas, uma

vez que o exame de CL requer um tempo de execucao muito superior a media dos

demais exames periciais, a gestao de recursos humanos de Secoes de Perıcias

Audiovisuais e dificultada, analogamente ao constatado por Vrubel e colaboradores

(2013) em relacao a Secao de Computacao Forense .

Segundo Gomes e Carneiro (2014), nos orgaos brasileiros que realizam

exames de CL, observa-se uma preponderancia de fonoaudiologos e engenheiros

eletricistas. Contudo, independentemente da area de formacao do perito criminal,

a interdisciplinaridade inerente a esse exame (GOMES et al., 2012) exige uma grande

construcao de conhecimento. Portanto, a capacitacao deve ser rigorosa, pois em

cada exame um diferente aspecto podera ser decisivo para determinacao/exclusao

de autoria (MIQUILUSSI et al., 2014). Dessa forma, torna-se ainda mais reduzido

o numero de peritos criminais aptos para receberem designacoes de exames de

CL. E desejavel, portanto, que se busque o aperfeicoamento das tecnicas adotadas,

para melhor aproveitamento dos recursos humanos disponıveis e para otimizacao -

quantitativa e qualitativa - do exame.

Em pesquisa realizada por Gold e French (2011), foi efetuado um

levantamento das tecnicas utilizadas para esse exame em 13 paıses, sendo

constatada a predominancia da utilizacao das analises classificadas como perceptivo-

auditiva e acustico-instrumental, ou simplesmente perceptiva e acustica (MORISSON

et al., 2009). Os autores observaram ainda que, mesmo quando algum sistema de

reconhecimento automatico e utilizado, nao se abandona por completo as analises

humanas, tanto que recentemente tem-se adotado a nomenclatura “Automatico com

Supervisao Humana” (MORRISON et al., 2015).

No cenario brasileiro, a constatacao de Gold e French (2011) e de que as

analises perceptiva e acustica sao adotadas combinadamente, sendo tal apontamento

corroborado por autores brasileiros (MORISSON et al., 2009; GONCALVES; PETRY,

2015).

Page 18: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

16

A analise perceptiva requer um profissional capacitado para identificar

propriedades da qualidade da voz, padroes articulatorios, tracos linguısticos, entre

outros atributos. Recentemente foi proposto por Goncalves e Petry (2015) o ”Protocolo

Forense para Analise Perceptivo-Auditiva de Amostras de Fala”, para auxiliar a

identificacao e analise de caracterısticas relativas a qualidade de voz, que tambem

ampara analises de sociofonetica (GONCALVES; BRESCANCINI, 2014).

Por sua vez, a analise acustica engloba medicoes de curto e de longo

termo, nos domınios temporal e espectral, sendo que, de acordo com Morisson

e colaboradores (2009), os parametros acusticos servem como suporte para

achados em analises perceptivas. Contudo, algumas analises requerem extensiva

segmentacao de trechos com fonemas a serem submetidos a extracao de parametros,

o que, dependendo do volume do material, pode tornar o exame extremamente

laborioso.

Sendo assim, a proposta desta pesquisa e o desenvolvimento de um metodo

para contribuir para o desenvolvimento de uma ferramenta para auxılio de analises

acusticas que facilite a visualizacao de caracterısticas uteis para o exame de CL:

energia, frequencia fundamental, frequencia e banda de formantes, taxa de subida

ou descida de formantes em um trecho.

1.1 MOTIVACAO

Objetiva-se que o metodo proposto seja integrado em ferramenta de apoio em

exames de CL. Para tal implementacao, a escolha do aproveitamento de interfaces do

aplicativo Praat (BOERSMA; WEENINK, 2015) se deve pelo mesmo ser um software

livre e amplamente difundido tanto no ambiente academico como no forense, tal que

os profissionais da area ja estao familiarizados com o mesmo.

Embora o foco seja forense, a ferramenta tambem podera ser utilizada em

outras areas de linguıstica ou de fonoaudiologia. O intento e o reconhecimento

de trechos vozeados de uma gravacao, sem a obrigatoriedade de pre-segmentacao

manual, alem da disponibilizacao de graficos, com possibilidade de selecao de areas

a serem reavaliadas com a visualizacao de oscilograma e espectrograma, com os

trechos de interesse concatenados ou simplesmente etiquetados.

Tal funcionalidade seria util, por exemplo, em analises do comportamento

formantico a longo termo do trato vocal de um dado falante. Porem, nos casos

Page 19: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

17

em que tal hipotese nao se confirme devido a interferencia agressiva de ruıdo ou a

particularidades da voz em questao, ou mesmo no caso de outliers, o perito teria a

possibilidade de confirmar perceptivamente o que ocorreu.

O metodo proposto podera auxiliar em analises acusticas manuais, sem

detrimento da utilizacao de sistemas de reconhecimento automatico. Alem disso, um

padrao visual auxiliaria em analise intra e inter-sujeito, pois se espera em uma CL que

sejam encontrados elementos estaveis o suficiente e que denotem similaridades em

falas pertencentes a um falante, mas que nao sejam comuns a outros indivıduos.

1.2 OBJETIVOS

1.2.1 Objetivo Geral

Obter um metodo para reconhecimento de vogais, com a finalidade de

segmentar automaticamente e extrair caracterısticas acusticas de fonemas vocalicos

em exames de CL.

1.2.2 Objetivos Especıficos

• Selecionar amostras de audio viaveis para extracao e analise de parametros

acusticos.

• Implementar funcoes nos software Praat e Matlab para segmentacao de trechos

vocalicos, assim como a obtencao do trapezio fonetico vocalico.

• Estabelecer criterios para avaliacao de desempenho dos metodos

implementados.

• Conduzir experimentos com diversos tipos de degradacao do sinal de audio, tais

como codificacao, compressao e adicao de ruıdo.

1.3 ABORDAGEM PROPOSTA

Com a finalidade de proporcionar uma visao geral da metodologia proposta,

apresenta-se a seguir um resumo de suas etapas, as quais estao ilustradas na

Figura 1.

Page 20: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

18

ENTRADA

Selecao de trechos apartir de tres corpora,e preparacao dasamostras

EXTRACAO DECARACTERISTICAS

Calculo de parametrosacusticos e geracao detabelas com resultados

PROCESSAMENTODO SINAL

Processamento do sinal paraclassificacao das amostras eseu agrupamento, comutilizacao de dois metodosde inicializacao

SAIDA

Nuvem resultante dosprimeiros formantes esegmentacao emtrechos vocalicos enao-vocalicos

Figura 1: Fluxograma das etapas principais da proposta.

• Entrada: para realizacao dos experimentos foram selecionadas amostras de

audio de tres diferentes corpora. Para avaliacao da robustez do metodo, as

analises foram efetuadas nao apenas para os sinais de audio sem degradacao,

como tambem com os mesmos submetidos a codificacao, compressao ou adicao

de ruıdo. A escolha das degradacoes foi feita com base na natureza de materiais

que costumeiramente sao encaminhados para perıcia: provenientes de ligacoes

telefonicas, gravadas em formatos que utilizam compressao com perdas ou com

ruıdo de fundo.

• Extracao de Caracterısticas: calculo de parametros acusticos do sinal. No

metodo proposto, a medicao dos formantes e feita pela tecnica LPC (Linear

Predictive Coding), conforme o metodo de Burg (COLLOMB, 2009), com

posterior ponderacao de custos para determinacao final dos valores de cada

formante (com base na frequencia e na banda). Sao descartados os pontos

em que nao ha deteccao de F0 (frequencia fundamental), calculados atraves de

autocorrelacao nas janelas (trechos em analise) com energia acima e taxa de

passagem por zero abaixo de limiares pre-estabelecidos.

• Processamento do sinal: reconhecimento de agrupamentos de pontos (ou

clusters) relacionados a anterioridade e a altura das vogais, identificando que

vogal se refere a cada regiao especıfica (/a/, /e/, /E/, /i/, /o/, /O/ e /u/).

Embora, como constatado por Escudero e colaboradores (2009), no Portugues

Brasileiro (PB) tal determinacao possa ser feita por meio de varias combinacoes

de parametros, a combinacao dos formantes F1×F2 e a que melhor evidencia a

distribuicao das vogais.

Com o mecanismo desenvolvido foi possıvel proceder a analise das vogais, com

base em seus parametros acusticos, sem necessidade de segmentacao previa.

A estrategia explorada foi a de utilizar a deteccao da frequencia fundamental

(F0), a determinacao de limiares de taxa de passagem por zero e de energia de

Page 21: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

19

curto termo, assim como a avaliacao da continuidade de valores em amostras

subsequentes, para possibilitar a selecao dos instantes com valores validos de

formantes, de forma a minimizar a interferencia de fonemas consonantais.

Foram avaliadas duas variacoes de metodos para reconhecimento das vogais,

os quais diferiam entre si na forma de realizar o agrupamento dos pontos F1×F2.

No denominado “Metodo 1”, obtem-se uma matriz com valores de formantes

calculados a partir de um valor medio de vogais como referencia e a busca de

centroides se baseia nos picos das distribuicoes de F1 × F2. Por outro lado,

no “Metodo 2”, trabalha-se com varias matrizes de formantes, designadas de

“trilhas”, e a busca de centroides parte de valores iniciais definidos a priori.

• Saıda: foram obtidas nuvens resultantes para os primeiros formantes F1×F2,

assim como a segmentacao do sinal de audio em trechos vocalicos e nao-

vocalicos. Os resultados obtidos demonstraram sucesso na segmentacao

automatica de vogais, sendo constatado um melhor desempenho do “Metodo

2” tanto em relacao ao numero de centroides localizados, como a quantidade e

duracao dos trechos-alvo reconhecidos.

1.4 ESTRUTURA DA DISSERTACAO

Esta dissertacao esta organizada da seguinte maneira: no Capıtulo 2 sao

trazidos trabalhos recentes de reconhecimento automatico de vogais, enquanto que no

Capıtulo 3 sao abordados conceitos relacionados a producao de voz, a Teoria Fonte-

Filtro, caracterısticas acusticas associados aos fonemas, assim como ao modelo de

agrupamento k-means. O Capıtulo 4 trata da descricao das amostras de dados,

ferramental e algoritmos utilizados. No Capıtulo 5 sao elencados os experimentos

realizados, sendo os resultados obtidos apresentados e discutidos no Capıtulo 6. No

Capıtulo 7, os principais resultados sao retomados, sendo feita uma discussao acerca

da contribuicao do metodo desenvolvido e de trabalhos futuros.

Page 22: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

20

2 TRABALHOS CORRELATOS

Dentro da area de processamento de sinais de fala encontra-se a aplicacao de

reconhecimento de locutor (ou falante), a qual apresenta tres subdivisoes principais:

deteccao, identificacao e verificacao de locutor, podendo as mesmas ser classificadas

como dependentes ou independentes de texto (CAMPBELL JR, 1997).

A identificacao de locutor ocorre em um contexto 1:N, pois efetua-se a

comparacao do alvo com os indivıduos de um dado grupo, podendo ou nao existir

uma correspondencia. Na verificacao de locutor, por outro lado, existe uma relacao

1:1 para comparacao, uma vez que ha uma identidade alegada para o alvo (ADAMI,

2004).

Os sistemas de reconhecimento automatico de locutor apresentam estruturas

similares as dos sistemas de reconhecimento de fala. Englobam etapas de extracao

de parametros, comparacao e de decisao. A etapa de extracao de parametros tem por

objetivo estimar um vetor de caracterısticas do sinal de audio, a fim de possibilitar que

comparacoes possam ser feitas a partir desse vetor. A etapa de comparacao envolve

o calculo de um valor de correspondencia, que expresse a similaridade entre as

caracterısticas extraıdas dos sinais sob analise. Por fim, a etapa de decisao compete

determinar se as vozes comparadas foram produzidas por um mesmo indivıduo

(CAMPBELL JR, 1997).

O desenvolvimento de tais sistemas baseia-se, principalmente, na extracao

de caracterısticas por meio de tecnicas MFCC (Mel-Frequency Cepstral Coefficients),

LPCC (Linear Prediction Cepstral Coefficients), com modelamento HMM (Hidden

Markov Model), GMM (Gaussian Mixture Model), SVM (Support Vector Machine) ou

redes neurais (DRYGAJLO, 2012; FURUI, 2005; REYNOLDS, 2002; KINNUNEN; LI,

2010).

Ressalta-se, contudo, que a motivacao deste trabalho foi contribuir com

ferramental para auxiliar peritos criminais durante a realizacao do exame, por meio

da segmentacao de fonemas vocalicos. Com base nisso, buscou-se na literatura

trabalhos relacionados ao reconhecimento automatico de vogais, especialmente em

contexto de fala encadeada.

Page 23: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

21

Alotaibi e Hussain (2010) realizaram um sistema para reconhecimento de

vogais do idioma Arabe. Os autores efetuaram modelamento HMM, sendo a

extracao de caracterısticas feita por meio de MFCC e de formantes, tendo obtido um

desempenho similar para ambas as tecnicas, com taxa de acerto de ate 91,6%.

Pradhan e Prasanna (2013) propoem a segmentacao de regioes vocalicas

e nao-vocalicas como estrategia para melhorar o desempenho na tarefa de

reconhecimento de falante. No metodo aplicado, essas regioes sao submetidas de

forma independente ao estagio de extracao de caracterısticas por meio de MFCC, e

em seguida a etapa de classificacao com uso de GMM. Para decisao, os resultados

obtidos sao combinados, porem com uma atribuicao distinta de pesos (ha um

favorecimento das regioes vocalicas que sao menos degradadas por ruıdo). Tal

implementacao resultou em reducao da taxa de erro de 6,63% para 6%.

Deekshitha e Leena (2014) propoem um sistema para classificacao de

fonemas presentes no Malaiala, uma das lınguas oficiais da India. O metodo de

extracao de caracterısticas, que foi indicado como tendo melhor resultado, foi baseado

na combinacao de coeficientes MFCC com caracterısticas do sinal - ZCR (Zero

Crossing Rate - taxa de passagem por zero), STE (Short Term Energy - energia

de curto termo), MDF (Most Dominant Frequency - frequencia dominante), spectral

flatness (nivelamento espectral). Para classificacao foram utilizadas redes neurais

artificiais. As autoras buscavam o reconhecimento das diferentes categorias de

consoantes alem das vogais, para as quais foi obtida uma taxa de acerto de 60%

com o metodo de extracao indicado.

Na abordagem proposta por Beke e Horvarth (2015) para reconhecimento

de vogais nasais do idioma Hungaro, a partir de um corpus de fala espontanea, a

extracao de caracterısticas foi feita com MFCC e a classificacao com HMM, sendo

utilizados 1490 vogais para treino e 745 para teste. Com essa abordagem os autores

conseguiram uma taxa de acerto de 75,8% no reconhecimento das vogais.

No presente trabalho optou-se pela extracao de caracterısticas acusticas do

sinal, sendo a classificacao das regioes vocalicas realizadas com a aplicacao do

metodo de agrupamento k-means na nuvem de pontos F1× F2, apos refinamentos

e inicializacao detalhados na Secao 4.3. Adotou-se tal metodologia para ser possıvel

realizar a segmentacao sem a etapa de treinamento, procedimento necessario nos

metodos de classificacao utilizados nos trabalhos mencionados anteriormente.

Page 24: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

22

3 FUNDAMENTACAO TEORICA

3.1 PRODUCAO DE VOZ

A fala e um dos principais recursos de comunicacao humana. Inicia-se por um

processo interno do falante, que mentalmente formula a mensagem a ser transmitida,

ocorrendo em seguida a ativacao motora dos musculos e orgaos do aparelho fonador

para a articulacao da fala.

Apos emissao da mensagem pelo falante e transmissao atraves do meio (o

proprio ar ou um canal telefonico, por exemplo), tera vez o processo de percepcao dos

sons de fala pelo ouvinte. Tal processo e mais complexo do que a simples deteccao de

sinais acusticos (como tons puros ou ruıdo), pois e necessario identificar, categorizar e

reconhecer esses sons em sua forma, para atribuir a fala seu significado (mensagem)

(RUSSO; BEHLAU, 1993; RABINER; SCHAFER, 2011).

Os elementos envolvidos na producao de voz compoem o aparelho fonador

(ilustrado na Figura 2), constituıdo pelos sistemas elencados na sequencia.Produção da Fala

19

2 FUNDAMENTACAO TEORICA

2.1 PRODUCAO DE VOZ

A fala e um dos principais recursos de comunicacao humana. Inicia-se por um

processo interno do falante, que mentalmente formula a mensagem a ser transmitida,

ocorrendo em seguida a ativacao motora dos musculos e orgaos do aparelho fonador

para a articulacao da fala.

Apos emissao da mensagem pelo falante e transmissao atraves do meio (o

proprio ar ou um canal telefonico, por exemplo), tera vez o processo de percepcao dos

sons de fala pelo ouvinte. Tal processo e mais complexo do que a simples deteccao de

sinais acusticos (como tons puros ou ruıdo), pois e necessario identificar, categorizar e

reconhecer esses sons em sua forma, para atribuir a fala seu significado (mensagem)

(RUSSO; BEHLAU, 1993; RABINER; SCHAFER, 2011).

Os elementos envolvidos na producao de voz compoem o aparelho fonador

(ilustrado na Figura 1), constituıdo pelos sistemas elencados na sequencia.

Sistema Articulatorio

Sistema Laringeal

Sistema Respiratorio

Cavidade nasal

Narinas

Labios

Lıngua

Dentes

Cavidade oral

Traqueia

Pulmoes

Diafragma

Laringe

Palato duro

Palato mole(veu palatino)

Figura 1: Diagrama em corte sagital do aparelho fonador.

Fonte: Adaptado de (DELLER et al., 2000).

Fonte: Adaptado de (DELLER et al., 2000).

9 / 54

Figura 2: Diagrama em corte sagital do aparelho fonador,os sistemas que o compoem e seus principais elementos.

Fonte: Adaptado de (DELLER et al., 2000).

Page 25: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

23

3.1.1 Sistema Respiratorio

A geracao da voz tem inıcio no sistema respiratorio (diafragma, pulmoes,

traqueia), que produz a energia aerodinamica necessaria pra producao dos sons

da fala (LADEFOGED; JOHNSON, 2010). Na Figura 3 e possıvel observar como o

volume de ar expelido pelos pulmoes atua como fonte de energia para os demais

sistemas integrantes do aparelho fonador.Produção da Fala

20

2.1.1 Sistema Respiratorio

A geracao da voz tem inıcio no sistema respiratorio (diafragma, pulmoes,

traqueia), que produz a energia aerodinamica necessaria pra producao dos sons

da fala (LADEFOGED; JOHNSON, 2010). Na Figura 2 e possıvel observar como o

volume de ar expelido pelos pulmoes atua como fonte de energia para os demais

sistemas integrantes do aparelho fonador.

��

����� ���������� ��� ��

��� ���������� �������������� ���� ��� ������ ����������

� ���� ����� ������� ��� ����!��������� �� � ��������������

����"�#$%&'$#()&*+�&+����� �+%��� �������������,�� � ����

������� �-��������������������������������� ��� ������

����������� ������� ��.������ �

/012345

61540789:027

;9<=>5?97@=<>A957

B012345

/CD34=0

;C5=@0<0E239

F0CD?03070<

F0CD?0910<

G082?0?53070<

G082?0?5910<

B91:H0>=7:=<01

B24=10 IJ #�� ���������� �� ������ ��� ������������.���

B93E5KL?0@E0?9?5MNO//OP5E0<QRISSSTQ

+�� ���������������������UV������ �������� ����-�� �����

W����� ������������ ������-�� ������� ����������� �����

�����-�� ������� �������X$+Y(�$�#����� �

����� �����" �����

&������ ��������� ������ ������������������������ ���

������������,� �� ��� �������� ����, ������� ��������� �����

����� �����Z�-������������ �� ����������������������� �������

��������� �$���� �������������������������������������.�����������

�$+'$"V$�Y�����(*&"[$�(*&"[$������ ���� �������������� ��� ������

������������������������������������ ���!����������, ����

�� �������\� ���!�������������] ��������������� �������������_abc

�#$""$���������� �

Figura 2: Diagrama esquematico do mecanismo de producao de vozhumana.

Fonte: Adaptado de (DELLER et al., 2000).

Na maioria das lınguas, incluindo o PB, a fala e produzida durante a expiracao.

Quando em repouso, a inspiracao e expiracao tem praticamente a mesma duracao,

mas na fala a expiracao e prolongada (KENT; READ, 2002).

2.1.2 Sistema Laringeal

O sistema laringeal e formado pela laringe, onde estao localizadas as pregas

vocais e a glote (abertura das pregas vocais). A vibracao das pregas vocais

propicia a conversao do fluxo contınuo de ar egresso dos pulmoes em pulsos de ar

(pulsos gloticos). Esse processo de modulacao dos pulsos gloticos e chamado de

fonacao (ENGELBERT, 2011; HOLMES; HOLMES, 2001), sendo responsavel pela

caracterıstica de vozeamento das vogais e de algumas consoantes. A frequencia

Fonte: Adaptado de (DELLER et al., 2000).

10 / 54

Figura 3: Diagrama esquematico do mecanismo de producao de vozhumana.

Fonte: Adaptado de (DELLER et al., 2000).

Na maioria das lınguas, incluindo o PB, a fala e produzida durante a expiracao.

Quando em repouso, a inspiracao e expiracao tem praticamente a mesma duracao,

mas na fala a expiracao e prolongada (KENT; READ, 2002).

3.1.2 Sistema Laringeal

O sistema laringeal e formado pela laringe, onde estao localizadas as pregas

vocais e a glote (abertura das pregas vocais). A vibracao das pregas vocais

propicia a conversao do fluxo contınuo de ar egresso dos pulmoes em pulsos de ar

(pulsos gloticos). Esse processo de modulacao dos pulsos gloticos e chamado de

fonacao (ENGELBERT, 2011; HOLMES; HOLMES, 2001), sendo responsavel pela

Page 26: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

24

caracterıstica de vozeamento das vogais e de algumas consoantes. A frequencia

dessa vibracao corresponde a frequencia fundamental (F0), que possui como correlato

acustico o pitch (DELLER et al., 2000).

3.1.3 Sistema Articulatorio

O sistema articulatorio, tambem chamado por trato vocal, e composto pela

faringe, cavidade oral e cavidade nasal, elementos esses que participam da producao

sonora (RUSSO; BEHLAU, 1993). As caracterısticas anatomofisiologicas do trato

vocal produzem ressonancias nos sons originados dos pulsos gloticos ou friccionais,

conforme descrito no modelo fonte-filtro (KENT; READ, 2002), apresentado na

Secao 3.2.

Durante a producao de fonemas vocalicos, as frequencias amplificadas

resultam nos formantes (F1, F2, F3, ..., Fn) (RABINER; SCHAFER, 2011). Os primeiros

formantes, F1 e F2, tem relacao direta com a altura e o recuo da lıngua (RUSSO;

BEHLAU, 1993). Sua representacao grafica e normalmente realizada atraves do

diagrama de Vogais Cardeais, tambem chamado de Trapezio Vocalico (CRISTOFARO-

SILVA, 2011), conforme Figura 5 (p. 28).

3.2 TEORIA FONTE-FILTRO

A Teoria Fonte-Filtro e um legado de Fant 1960 e considera o sinal de voz

como uma composicao de uma fonte de excitacao acoplado a um filtro modelado pela

anatomia do trato vocal.

Conforme descrito em (KENT; READ, 2002), a aplicacao da Teoria Fonte-Filtro

envolve suposicoes que permitem simplificacoes do modelo, tornando-o “tratavel”

matematicamente. Sendo assim, e importante fazer as seguintes ressalvas sobre

algumas simplificacoes realizadas:

• Desconsidera-se a atuacao dos tecidos do trato vocal na absorcao e reflexao dos

sons.

• Considera-se que o trato vocal atua de forma invariante no tempo.

• Considera-se a propagacao longitudinal das ondas, porem algumas podem se

propagar de forma transversal.

Page 27: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

25

• Considera-se interacoes entre o sistema respiratorio e o trato vocal.

• Considera-se o trato vocal como uma associacao de tubos retos, embora

apresente curvatura e variacoes no calibre ao longo da passagem.

A Teoria Fonte-Filtro e considerada valida e tem sido adotada por diversos

autores em diferentes aplicacoes, contudo e importante se considerar as limitacoes

inerentes ao modelo nos casos praticos.

3.2.1 Frequencia Fundamental

Estimadores de frequencia fundamental procuram a componente frequencial

que se sobressai em um trecho do sinal, valor que devera ser equivalente ao

perıodo entre pulsos gloticos. Duas abordagens tradicionalmente utilizadas sao

a autocorrelacao e a analise cepstral. Neste trabalho, optou-se pelo metodo de

autocorrelacao, por se mostrar mais robusto a presenca de ruıdo (SHIMAMURA;

KOBAYASHI, 2001).

O algoritmo nativo do software Praat calcula a autocorrelacao de cada bloco

de sinal submetido a uma janela de Hanning ou Gaussiana. O resultado e obtido pela

divisao da funcao de autocorrelacao do sinal pela autocorrelacao da propria janela,

como demonstrado na Equacao (1), em que rx(τ) e correspondente a autocorrelacao

resultante, rxw(τ) a autocorrelacao do sinal apos janelamento e rw(τ) a autocorrelacao

da janela utilizada. Dessa forma, evita-se que harmonicos sejam confundidos com a

frequencia fundamental (BOERSMA, 1993).

rx(τ)≈rxw(τ)

rw(τ). (1)

Para estimativa de F0 no segmento do sinal em analise, busca-se o maximo

local da autocorrelacao rx(τ), em que τ0 = (F0)−1. O algoritmo possui ainda

refinamentos, com limiares de silencio e de vozeamento e a atribuicao de custos para

transicoes de vozeamento/desvozeamento, valor de oitava e salto de oitava entre duas

janelas consecutivas. O tamanho da janela de analise tambem esta atrelado ao limite

inferior para busca de frequencia (pitch floor ) (BOERSMA; WEENINK, 2015).

Page 28: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

26

3.2.2 Formantes

Uma forma de reconhecer as regioes vocalicas de um sinal de voz e atraves da

obtencao dos formantes, que pode ser feita pela aproximacao do envelope espectral

desse sinal atraves de uma analise de predicao linear, ou LPC (Linear Predictive

Coding). Na Figura 4 e possıvel visualizar o espectro LPC, mais suavizado que o

espectro FFT, evidenciado os picos que correspondem aos formantes daquele instante

de tempo do sinal de voz em analise. Tal tecnica consiste em separar o sinal de

excitacao da resposta do trato vocal, extraindo justamente a informacao de formantes

que e de interesse para a analise (RABINER; SCHAFER, 2011).Formantes Frequência (Hz)

Nív

el d

e pr

essã

o so

nora

(dB/

Hz)

0 1000 2000 3000 400010

20

30

40

50

60

70

80

90

Frequência (Hz)

Nív

el d

e pr

essã

o so

nora

(dB/

Hz)

0 1000 2000 3000 400010

20

30

40

50

60

70

80

90PADRÃO

Tempo (s)

Fre

quên

cia

(Hz)

3.639 3.7790

4000PADRÃO ESPECTRO LPC

Frequência (Hz)

Nív

el d

e pr

essã

o so

nora

(dB/

Hz)

0 1000 2000 3000 400010

20

30

40

50

60

70

80

90QUESTIONADO

Tempo (s)

Fre

quên

cia

(Hz)

3.639 3.7790

4000QUESTIONADO

PDFill PDF Editor w

ith Free Write

r and Tools

Espectro FFTEspectro LPC

F1

F2

F3 · · ·

15 / 54

Figura 4: Figura contemplando o espectro LPC (em azul na partesuperior), mais suavizado, em contraste com o espectro FFT (emvermelho na parte inferior).

A analise de predicao linear parte do pressuposto de que cada amostra do

sinal de fala e, aproximadamente, uma combinacao linear das amostras anteriores.

Normalmente e feita atraves de metodos de covariancia ou de autocorrelacao

(BARBOSA; REIS, 2012). Uma representacao deste modelo pode ser visualizada

na Equacao (2), em que s[n] representa o sinal de saıda, x[n] o sinal de entrada e m o

numero de coeficientes que correspondera a ordem do sistema.

s[n] =m

∑i=1

ais[n− i]+ x[n]. (2)

Uma vez que o sinal de entrada e desconhecido, o valor s[n] na Equacao (3)

Page 29: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

27

e uma estimativa do valor da amostra atual. O objetivo da analise preditiva e a

determinacao dos coeficientes a[i] (em que i = 1, . . . ,m), de forma que o erro de

predicao e[n] constante na Equacao (4) seja o menor possıvel.

s[n] =m

∑i=1

ais[n− i]. (3)

e[n] = s[n]− s[n]. (4)

Para este trabalho foi escolhido o algoritmo de Burg, por ser considerado um

modelo estavel e que apresenta bons resultados para gravacoes de curta duracao

(COLLOMB, 2009). O algoritmo de Burg considera, alem da predicao referente as

amostras anteriores, yn na Equacao (5), tambem a predicao referente as amostras

posteriores, zn na Equacao (6).

yn =−m

∑i=1

aix[n− i]. (5)

zn =−m

∑i=1

aix[n+ i]. (6)

A escolha dos coeficientes e feita de forma a minimizar o erro de ambos os

sentidos. A quantidade maxima de numero de coeficientes, na pratica, e determinada

pelo valor da frequencia de amostragem (em kHz) mais dois (BARBOSA; REIS, 2012).

Os valores e as bandas de passagens dos formantes sao calculados a partir do

polinomio obtido com os coeficientes estimados.

3.3 FONEMAS DO PORTUGUES BRASILEIRO (PB)

As unidades linguısticas que organizam uma determinada lıngua sao

denominadas fonemas. No PB os fonemas sao subdivididos em vogais, semivogais

ou glides e consoantes.

3.3.1 Vogais

Representam o unico tipo de segmento que pode atuar como nucleo

silabico. Sao segmentos vozeados ou sonoros, devido a vibracao das pregas vocais

Page 30: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

28

que sempre ocorre durante a sua articulacao. Um ponto importante para sua

caracterizacao e que, durante a sua producao, o fluxo de ar nao sofre obstrucoes no

trato vocal, e, como consequencia, os segmentos vocalicos geralmente apresentam

maior energia que os consonantais (RUSSO; BEHLAU, 1993; RABINER; SCHAFER,

2011).

Na Figura 5 e apresentado o trapezio fonetico das vogais, em que as barras

verticais e horizontais sao alusivas a posicao da lıngua nos respectivos eixos durante

a producao de cada vogal. Dessa forma, cada vogal corresponde a uma configuracao

do trato vocal, interferindo diretamente nos valores dos formantes.

O formante F1 diz respeito a posicao da lıngua no eixo vertical e F2 a sua

posicao no eixo horizontal, conforme Figura 6, que ilustra as posicoes da lıngua

durante a producao das vogais orais tonicas /a/, /e/, /E/, /i/, /o/, /O/ e /u/ (“a”,

“e”, “e”, “i”, “o”, “o” e “u”) (RUSSO; BEHLAU, 1993; ENGELBERT, 2011).Trapézio Vocálico

25

Na Figura 4 e apresentado o trapezio fonetico das vogais, em que as barras

verticais e horizontais sao alusivas a posicao da lıngua nos respectivos eixos durante

a producao de cada vogal. Dessa forma, cada vogal corresponde a uma configuracao

do trato vocal, interferindo diretamente nos valores dos formantes.

O formante F1 diz respeito a posicao da lıngua no eixo vertical e F2 a sua

posicao no eixo horizontal, conforme Figura 5, que ilustra as posicoes da lıngua

durante a producao das vogais orais tonicas /a/, /e/, /E/, /i/, /o/, /O/ e /u/ (“a”,

“e”, “e”, “i”, “o”, “o” e “u”) (RUSSO; BEHLAU, 1993; ENGELBERT, 2011).

i y 1 0 W u

I Y U

e ø 9 8 G o

E œ 3 Æ 2 O

æ

a × A 6

@

5

Anterior Central Posterior

Alta (fechada)

Media-alta (meia fechada)

Media-baixa (meia aberta)

Baixa (aberta)

Figura 4: Trapezio vocalico fonetico de acordo com o IPA -International Phonetic Alphabet (IPA, 2005). Pares de vogaiscom vogais arredondadas a direita e nao-arredondadas aesquerda. Destaque em vermelho para as vogais queocorrem no PB.

Fonte: Adaptado de (CRISTOFARO-SILVA; YEHIA, 2009).

Outra caracterıstica que interfere nas vogais e o arredondamento dos labios,

que pode ser observado nas vogais posteriores /O/, /o/ e /u/. Alem disso, as vogais

podem ser nasais ou nasalizadas, situacao em que o veu palatino e abaixado,

permitindo o acoplamento da cavidade nasal ao trato vocal e por conseguinte

alterando a configuracao das formantes.

Fonte: Adaptado de (CRISTÓFARO-SILVA; YEHIA, 2009).

21 / 54

Figura 5: Trapezio vocalico fonetico de acordo com o IPA -International Phonetic Alphabet (IPA, 2005). Pares de vogaiscom vogais arredondadas a direita e nao-arredondadas aesquerda. Destaque em vermelho para as vogais queocorrem no PB.

Fonte: Adaptado de (CRISTOFARO-SILVA; YEHIA, 2009).

Outra caracterıstica que interfere nas vogais e o arredondamento dos labios,

que pode ser observado nas vogais posteriores /O/, /o/ e /u/. Alem disso, as vogais

podem ser nasais ou nasalizadas, situacao em que o veu palatino e abaixado,

permitindo o acoplamento da cavidade nasal ao trato vocal e por conseguinte

Page 31: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

29Trapézio Vocálico 26 ��

����

����

����

�����

���

����

������������������ !"�#�$�%"&��#"�'�$"����"��()�*��"�#�+,*����"� ��-��.��/����0'"1����#�������*(���"�"2"��1�("�""*%"1���34"�15�(�"� !"��*#��"*#�"����� !"�#"1%6*$5"#5�"*(�"���#5� !"�#�����2�*�0"�7

�89:;<=>�?:�>8>;@ABCCDEFGHI=BJKLLMN

�7O7� ��0�'�$"���5PQRSTU

V"0�%�0 �!"�2�*�0"�'�W�"#����0�1"���4"�'�$"��X���%�0 ��0 0�*��

�*(�*��#"#��#5�"� !"�7Y�+,��*��("0Z��"'�$"���"�"2��0"�#�(�*$���5(��(�*$��X

��#�*#�����[\[X��0�*"�"1"'�"]�"\Z_�"�a�[b[X��0�*"�"1"'�"]0"b Z_0"57

�7O7O c�*��"*(��

d���*(�%"���#"�'�$"��X#5�"*(�"���#5� !"�#�50"��*��"*(��e5/�#�"�

�$�����#���510!������(�5� !"�(�("1�5�"���"17d���*��"*(���!"��"(�$���W"#"��0

25*� !"�#�0�#�X��0��0�#���*(�#"���(�5� !"�������#".fg��ha,ijkdgX�llOa

iYmik,ifVX����37d���0X��*��#��"*#�n5�#5�"*(�""�(��51"� !"�#�502�*�0"

��*��*"*("1������"0�'�0�*("� !"�#�50"�(��51"#��"(�'�.dd3�0#���� !"�"��5(��

�"���'�.d+3�X�0#�����)�*��"#�0�#�#�"�(��51"� !"�"���*��"*(����#�0����

o+1���'"��5��15��'"�����(�5� !"�(�("14"�"��"$�0#�"�.[�[X[�[X[([X[#[X[p[X[$[37

�d�(��51"#�����!"��1�0�*(�������*(��*"�"'�#"#��5�"1Xn5���!"�"(5"����(�5�*#�"�"��"$�0#�"�#5�"*(�"���#5� !"�#�2�*�0"�7Y��(�����������("�!"��*'�1'�#��#���"�(��51"#����X"(�'���"���'�X��n5"��#�&*�0���*(�#�"�(��51"� !"�7

Figura 5: Sobreposicao do grafico das vogais orais tonicasdo PB no espaco F1×F2 (eixos com valores decrescentespara facilitar a analise) a ilustracao indicando a posicao dalıngua durante a producao desses fonemas.

Fonte: Adaptado de (RUSSO; BEHLAU, 1993)

2.3.2 Semivogais ou Glides

Tambem sao fonemas vozeados similares as vogais, porem com menor

intensidade e duracao. No PB conectam-se a vogais para formar ditongos ou tritongos,

podendo ser: /j/, como na palavra [paj] - “pai”; e /w/, como na palavra [maw] - “mau”.

2.3.3 Consoantes

Ao contrario das vogais, durante a producao de uma consoante o fluxo de ar

egresso dos pulmoes obstrucao total ou parcial. As consoantes sao categorizadas em

funcao do modo, bem como do ponto da obstrucao ocorrida (RUSSO; BEHLAU, 1993;

ENGELBERT, 2011). Assim, considerando que durante a articulacao de um fonema

consonantal ocorre a movimentacao de um articulador ativo (AA) em direcao ao outro

passivo (AP) 1, em decorrencia do modo de articulacao as consoantes podem ser:

1Articuladores sao elementos presentes na cavidade bucal, que irao atuar obstruindo a passagemde ar durante a producao de fonemas. Neste processo estarao envolvidos dois articuladores, ativo epassivo, os quais definem o ponto de articulacao.

F1 l

F2 ↔

Fonte: Adaptado de (RUSSO;BEHLAU, 1993). 22 / 54Figura 6: Sobreposicao do grafico das vogais orais tonicasdo PB no espaco F1×F2 (eixos com valores decrescentespara facilitar a analise) a ilustracao indicando a posicao dalıngua durante a producao desses fonemas.

Fonte: Adaptado de (RUSSO; BEHLAU, 1993)

alterando a configuracao das formantes.

3.3.2 Semivogais ou Glides

Tambem sao fonemas vozeados similares as vogais, porem com menor

intensidade e duracao. No PB conectam-se a vogais para formar ditongos ou tritongos,

podendo ser: /j/, como na palavra [paj] - “pai”; e /w/, como na palavra [maw] - “mau”.

3.3.3 Consoantes

Ao contrario das vogais, durante a producao de uma consoante o fluxo

de ar egresso dos pulmoes sofre obstrucao total ou parcial. As consoantes sao

categorizadas em funcao do modo, bem como do ponto da obstrucao ocorrida

(RUSSO; BEHLAU, 1993; ENGELBERT, 2011).

Durante a articulacao de um fonema consonantal ocorre a movimentacao de

Page 32: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

30

um articulador ativo (AA) em direcao ao outro passivo (AP) 1.

Em decorrencia do modo de articulacao as consoantes sao classificadas em:

• Plosivas ou oclusivas: obstrucao total a passagem de ar ( /p/, /b/, /t/, /d/, /k/, /g/).

• Nasais: obstrucao total a passagem de ar na cavidade oral, porem com

acoplamento da cavidade nasal (/m/, /n/, /ñ/ em [soño] - “sonho”).

• Fricativas: articuladores se aproximam produzindo friccao ( /f/, /v/, /s/, /z/, /Z/ em

[Zato] - “jato”, /S/ em [Sato] - “chato”, roticos2 /x/, /G/, /h/ e /H/).

• Laterais: articuladores se tocam e a corrente de ar e obstruıda no eixo central

(/l/, /L/ em [paLa] - “palha”).

• Tepes: articuladores se tocam rapidamente uma unica vez (/R/ em [caRo] - “caro”).

No PB ha ainda alguns modos de articulacao presentes apenas em variedades

regionais:

• Africadas: alofones (variantes foneticas) dos fonemas /Z/ e /S/. O segmento inicia-

se com oclusao e termina com friccao (/Ã/ em [Ãia] - “dia”, /Ù/ em [Ùia] - “tia”).

• Vibrantes: os articuladores se tocam varias vezes causando vibracao. “R forte”

de algumas variedades regionais, pronunciado de forma prolongada (/r/).

• Retroflexas: produzido com encurvamento da lıngua, variedade regional

conhecida como “R caipira” (/ô/).

Quanto a classificacao em funcao do ponto da articulacao, as consoantes

podem ser:

• Bilabiais: AA - labio inferior, AP - labio superior (/p/, /b/, /m/).

• Labiodentais: AA - labio inferior, AP - dentes incisivos superiores (/f/, /v/).

• Alveolares: AA - ponta da lıngua, AP - alveolos (/t/, /d/, /n/, /l/, /R/, /s/, /z/).

1Articuladores sao elementos presentes na cavidade bucal, que irao atuar obstruindo a passagemde ar durante a producao de fonemas. Neste processo estarao envolvidos dois articuladores, ativo epassivo, os quais definem o ponto de articulacao.

2Sons de “r”, que quanto ao modo de articulacao podem ser fricativas, tepes, vibrantes ou retroflexas,e quanto ao ponto de articulacao alveolares, velares ou glotais.

Page 33: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

31

• Alveopalatares: AA - parte anterior da lıngua, AP - parte medial do palato duro (

/Z/, /S/, /Ã/, /Ù/).

• Palatais: AA - parte medial da lıngua, AP - parte final do palato duro (/L/, /ñ/).

• Velares: AA - parte posterior da lıngua, AP - veu palatino (/k/, /g/, /x/, /G/).

• Glotais: constricao na glote. “R forte” presente apenas em algumas variedades

regionais, como o carioca (/h/ e /H/).

As consoantes ainda podem ser vozeadas ou desvozeadas, sendo que na

analise espectral de consoantes com mesmo ponto e modo de articulacao (como por

exemplo [f] e [v], de “faca” e “vaca”), a diferenca pode ser observada atraves da barra

de vozeamento (para o [v]).

Durante a fala os segmentos vocalicos e consonantais sao produzidos de

forma encadeada, sendo que o ponto e o modo de articulacao de um determinado

fonema provocam efeitos de coarticulacao nos fonemas vizinhos.

3.4 MODELO DE AGRUPAMENTO K-MEANS

O k-means e um metodo para agrupamento dos padroes de entrada em K

grupos, sendo K um parametro definido a priori. Conforme descrito em (GOPI,

2014), antes de dar inıcio ao processo em si e necessario inicializar os centroides

(µµµ111,µµµ222, · · · ,µµµKKK) dos K agrupamentos, o que normalmente e realizado com valores

aleatorios. Uma vez inicializado, o algoritmo apresenta duas etapas principais, as

quais tem relacao com o metodo de Maximizacao de Expectativa (BISHOP, 1995).

A primeira etapa consiste na atribuicao de cada padrao de entrada xxxnnn ao

agrupamento mais proximo, sendo a medida de proximidade representada pela

distancia euclidiana d expressa na Equacao 7, a qual corresponde a menor distancia

geometrica entre xxxnnn e o centro do agrupamento µµµkkk no espaco N-dimensional. A

variavel responsavel pelo rotulo de cada padrao e definida como rnk∈ [0,1], onde

k = 1, ...,K, como sendo rnk = 1 se xxxnnn pertence ao agrupamento k e rnk = 0 caso

contrario.

d =

√N

∑i=1

(xni−µki)2 (7)

Page 34: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

32

Na segunda etapa, apos a atribuicao de todos os padroes de entrada a um

dos K agrupamentos, e realizado o calculo dos novos centros definidos pelo primeiro

estagio do algoritmo, atraves da Equacao 8.

µµµkkk =

N∑

n=1rnkxxxnnn

N∑

n=1rnk

. (8)

O processo se repete ate a convergencia (ou seja, ate que nenhuma nova

alteracao seja verificada nos agrupamentos), ou ate que um determinado numero de

iteracoes tenha ocorrido. Ao final, cada padrao de entrada esta associado a um dos

agrupamentos definidos, aos quais estao atribuıdos os novos valores de centros. Tal

processo equivale ao pseudo-codigo apresentado a seguir.

1 if Centroides nao Inicializados{

2 Selecionar valores iniciais dos K centroides aleatoriamente;

3 }

4 while (i++ < Numero Maximo de Iteracoes){

5 for (j++ <= Numero de pontos){ //Formar K clusters

6 //distancia euclidiana

7 Calcular distancias entre ponto j e centroides;

8 Associar ponto j ao centroide mais proximo;

9 }

10 Recalcular centroides dos cluster; //com base na nova configuracao

11 if Centroides Inalterados {// Houve convergencia

12 break;

13 }

14 }

Page 35: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

33

4 MATERIAIS E METODOS

4.1 AMOSTRAS DE DADOS

Para os experimentos foram utilizadas como amostras de dados arquivos de

audio produzidos em tres corpora, descritos a seguir.

4.1.1 Corpus UTFPR

Apresenta arquivos de audio produzidos em pesquisa realizada pelo Grupo

de Estudos de Sons da Fala da UTFPR (GOMES, 2013). Trata-se de gravacoes

realizadas durante a leitura de um texto pre-definido, com duracao aproximada de

60 segundos.

Os fonemas alvo daquele estudo estavam presentes em sılabas tonicas e

em contexto interplosivo, de forma a minimizar os efeitos de coarticulacao. O texto

continha quatro repeticoes para cada uma das sete vogais orais tonicas do PB, as

quais foram manualmente etiquetadas, servindo de referencia. As gravacoes foram

organizadas em cinco grupos.

4.1.2 Corpus SPOLTECH

Compilado atraves do projeto “CORPORA from CSLU: The Spoltech Brazilian

Portuguese v1.0” (SCHRAMM et al., 2000), apresenta 8.080 trechos com falas de

477 falantes, consistindo de leituras de sentencas foneticamente balanceadas e de

respostas a perguntas.

Apesar da duracao de audio total de cada falante ser relativamente pequena

(aproximadamente 30 segundos), tem sido uma base bastante utilizada em pesquisas

do PB, alem de trazer um contexto com fluidez diferente daquela apresentada pelo

corpus UTFPR, o que justifica sua utilizacao neste trabalho.

Na preparacao das amostras foram concatenados todos os trechos

pertencentes aos 20 primeiros falantes, sendo gerados arquivos individuais

distribuıdas em dois grupos.

Page 36: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

34

4.1.3 Corpus C-ORAL

Base compilada atraves do projeto “C-ORAL”, desenvolvido pelo Nucleo de

Estudos em Linguagem, Cognicao e Cultura da Universidade Federal de Minas Gerais

(RASO; MELLO, 2012), que apresenta registros com fala espontanea, trazendo uma

proximidade maior de situacoes reais.

Foram selecionadas as amostras classificadas como monologos, por

apresentarem maior duracao de fala exclusiva do falante alvo. Na preparacao, excluiu-

se qualquer trecho em que houvesse interferencia do entrevistador ou de outro falante

que nao fosse o alvo. Os arquivos resultantes das amostras apresentaram em media

oito minutos de duracao, divididos em dois grupos.

Com a utilizacao das amostras provenientes das bases UTFPR e SPOLTECH,

obteve-se variedade de sujeitos para avaliacoes interfalantes, enquanto que a maior

duracao das amostras da base C-ORAL permitiu analises intrafalantes. Na Tabela 1

sao apresentados os grupos em que estavam organizadas as amostras utilizadas

durante os experimentos.

Tabela 1: Amostras de dados utilizadas nos experimentos.

Corpus Caracterısticas das amostras Grupo Qtd. Falantes

UTFPR Leitura (∼ 60 s)

GC 10 pesquisadorasGM 10 sexo feminino (> 35 anos)GG 10 sexo feminino (< 25 anos)GH 10 sexo masculino (> 35 anos)GR 10 sexo masculino (< 25 anos)

Total 50 (∼50 min)

SPOLTECH Leitura/respostas (∼ 30 s)M 9 sexo femininoH 11 sexo masculino

Total 20 (∼10 min)

C-ORAL Monologos (∼ 8 min)M 4 sexo femininoH 2 sexo masculino

Total 6 (∼48 min)

Page 37: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

35

4.2 FERRAMENTAL DE EDICAO DE AUDIO

A conversao dos arquivos originais em arquivos com compressao ou com

adicao de ruıdo foi realizada com o auxılio das ferramentas de edicao de audio e

vıdeo SoX (SOX, 2015) e FFMPEG (FFMPEG, 2015).

Para a implementacao dos algoritmos indicados na Secao 4.3, utilizou-se o

software de analise de audio Praat, assim como o software de analise matematica

Matlab, e sua toolbox de Processamento de Sinais.

4.3 ALGORITMOS UTILIZADOS

Apos a selecao no Praat do arquivo ou trecho a ser submetido a analise, inicia-

se o processamento, conforme ilustrado no fluxograma apresentado na Figura 7, nos

qual os blocos principais estao enumerados de acordo com a subsecao em que serao

descritos na sequencia.

InıcioSelecao de trecho epre-processamento

Calculo de ZCR,F0, F1··4 e BW1··4

Tabelasresultantes

F0, ZCR, BW1,BW2 ok?

Busca inicialde centroides

Amostra ∈cluster valido?

Continuidadeok?

Busca decentroides

Amostra ∈cluster valido?

Descarte deamostras

Nuvem de pontosresultantes Graficos e relatorios Fim

S

SS

S

NN N

Blocos implementados no software Praat conforme codigo apresentado no Apendice A

Blocos implementados no software Matlab conforme codigo apresentado no Apendice B

4.3.1 4.3.2 4.3.3 4.3.4

4.3.5

4.3.6 4.3.8 4.3.94.3.74.3.8 4.3.94.3.7

Figura 7: Fluxograma dos algoritmos implementados. A numeracao ao lado decada bloco refere-se a sua subsecao correspondente da Secao 4.3. Tambem saoindicados os blocos programados no software Praat (Apendice A) e no softwareMatlab (Apendice B).

Page 38: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

36

4.3.1 Pre-processamento

Nesta etapa o sinal e reamostrado a uma taxa de 8 kHz, e o nıvel CC removido

atraves da subtracao do nıvel medio do sinal de audio. Um exemplo de grafico gerado

nesta etapa apresentado na Figura 8(a), sendo que a area de interesse do grafico esta

delimitada pelo trapezio vermelho na Figura 8(b).

Materiais e métodos: algoritmos

� Gráfico da nuvem F1 × F2 com todos ospontos:

500100015002000250030003500

200

600

1000

1400

1800

2200

F2(Hz)

F1(Hz)

Pontos F1 × F

2

27 / 54(a)

Materiais e métodos: algoritmos

� Gráfico da nuvem F1 × F2 com todos ospontos:

500100015002000250030003500

200

600

1000

1400

1800

2200

F2(Hz)

F1(Hz)

Pontos F1 × F

2

27 / 54(b)

Figura 8: Exemplo de grafico com resultados de umadas amostras de audio do grupo GC da UTFPR. (a)Grafico da nuvem F1×F2 com os valores de formantesobtidos para todos os pontos. (b) Trapezio indicandoo formato desejado para conformacao da nuvem.

Page 39: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

37

4.3.2 Rotina para Calculo da Taxa de Passagem por Zero

O sinal e dividido em janelas com duracao de 25 ms1, sendo efetuado o calculo

do numero de vezes em que ha alteracao do sinal do valor da amostra (mudanca de

sinal de positivo para negativo e vice-versa). Apos a finalizacao do processo descrito,

os resultados de todas as janelas sao normalizados (valores entre [0,1]).

4.3.3 Deteccao da Frequencia Fundamental

No Praat e utilizada a opcao “To Pitch (ac)...”, por permitir a configuracao

dos parametros de inicializacao, que incluem a definicao das frequencias mınima

e maxima, alem da escolha do tipo de janela (opcao “Very accurate” para janela

Gaussiana). O tamanho da janela nao e definido, por ser uma funcao da frequencia

mınima.

Neste primeiro momento mantiveram-se os valores de custo padrao. O

objeto resultante e convertido para “PitchTier ” e em seguida para tabela, permitindo

o armazenamento na forma de arquivo. Um exemplo de grafico gerado apos a

deteccao de frequencia fundamental pode ser visto na Figura 9. E possıvel observar

que a simples remocao das amostras em que nao houve deteccao de frequencia

fundamental ja resulta em um grafico F1 × F2 mais proximo do trapezio vocalico,

conforme pode ser visto na Figura 5 (p. 28).

Materiais e métodos: algoritmos

� Gráfico da nuvem F1 × F2 após análise deF0 e ZCR:

500100015002000250030003500

200

600

1000

1400

1800

2200

F2(Hz)

F1(Hz)

Pontos F1 × F

2

29 / 54Figura 9: Grafico de nuvem de pontos F1×F2 com osvalores de formantes apos analise de F0 e de ZCR.

1Tal valor na pratica e fixado entre 10 e 30 ms, sendo definido de forma que a janela tenha duracaosuficiente para capturar as caracterısticas de um determinado fonema.

Page 40: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

38

Contudo, o grafico demonstrado na Figura 9 ainda apresenta pontos de

frequencias mais altas, possivelmente associado aos loci de fonemas consonantais

devido a efeitos de coarticulacao, o que exigiu a aplicacao dos demais algoritmos

apresentados para obtencao de um conjunto resultante mais consistente.

Nas proximas etapas os pontos que persistirem serao submetidos a novas

selecoes, no intuito de se obter uma nuvem mais proxima possıvel do trapezio vocalico,

como a apresentada na Figura 10. Assim torna-se possıvel proceder a analises do

comportamento formantico do indivıduo.

Materiais e métodos: algoritmos

� Gráfico da nuvem F1 × F2 resultante

5001000150020002500

200

400

600

800

1000

1200

F2(Hz)

F1(Hz)

Pontos F1 × F

2

34 / 54

Figura 10: Grafico de nuvem de pontos F1 × F2 com osvalores de formantes apos analise inicial de agrupamento,aproximando-se do formato desejado do trapezio vocalico.

4.3.4 Calculo de Formantes

No software Praat e utilizada a opcao “To Formant (Burg)...” que possibilita

a escolha do numero maximo de formantes a ser buscado e do valor maximo da

frequencia. A largura da janela e configurada em 25 ms, por ser um valor considerado

(empiricamente) razoavel para este tipo de analise.

Mantem-se em 50 Hz o valor do filtro de pre-enfase, que corresponde ao

valor inicial em que o filtro atuara para corrigir a combinacao da atenuacao de altas

frequencias provocada pelo trato vocal e a amplificacao associada a radiacao do som

atraves da abertura dos labios.

Page 41: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

39

Em seguida a matriz obtida e submetida a funcao “Formant Track”, que

considera os valores obtidos para cada frame como um candidato, ao qual e atribuıdo

um custo referente ao valor da frequencia, a banda e a transicao entre oitavas. O

numero maximo de formantes sera menor, porem com maior exatidao dos valores

obtidos.

Com relacao as frequencias definidas para calculo do custo dos valores dos

formantes, usualmente adota-se como referencia os valores medios 550 Hz, 1650 Hz,

2750 Hz, 3850, Hz 4950 Hz para F1 · ·F5. Contudo, devido a variacao de F1 e F2,

tal pratica desfavorece o reconhecimento das vogais posteriores alta e media-alta

(DRESCH et al., 2015). A alternativa encontrada, e aplicada no segundo metodo

de inicializacao de centroides tratado na Subsecao 4.3.9, foi o calculo simultaneo

de “trilhas” de formantes, isto e, matrizes com diferentes valores de referencia dos

formantes F1 e F2. As trilhas sao mescladas durante a etapa de avaliacao da

continuidade (Subsecao 4.3.6).

Apos tal processo e realizada ainda uma limpeza de valores “undefined”, e em

seguida os vetores sao convertidos para tabela, de modo que o arquivo salvo possa

ser corretamente carregado no Matlab.

4.3.5 Selecao de Amostras

No Matlab, as tabelas geradas pelas rotinas do software Praat sao carregadas

e salvas em matrizes. Realiza-se em seguida a etapa de selecao das amostras a

terem os valores de formantes considerados. Inicialmente sao eliminadas as que

apresentem taxa de passagem por zero (ZCR) maior que 0,5 (50% do valor maximo),

por apresentarem baixa probabilidade de serem voz.

Conforme demonstrado nos graficos alinhados temporalmente da Figura 11,

nos pontos em que ha deteccao de F0, a energia do sinal e menor e ha uma maior

taxa de passagem por zero. Na Figura 11(a), em que e apresentado um oscilograma

(forma de onda) para um trecho de sinal de fala com sobreposicao dos tracados de

STE (energia de curto termo) e de ZCR, pode-se visualizar que os trechos com maior

STE tambem apresentam menor ZCR.

Quando o oscilograma e comparado com o espectrograma (apresentado em

banda estreita para melhor observacao da curva de F0) da Figura 11(b), percebe-se

que tais pontos correspondem aqueles em que houve a deteccao de F0.

Page 42: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

40

Assim, sao mantidos para as proximas analises aqueles pontos que

obedecerem a esse criterio, conforme ilustrado na Figura 11(c) (neste caso,

apresentado em banda larga, que destaca as curvas dos formantes). Ou seja, em

regioes vozeadas: F0∃, ZCR ↓ e STE ↑, logo os pontos F1 · ·Fn sao analisados.

Enquanto que em regioes desvozeadas: F0@, ZCR ↑ e STE ↓, sendo F1 · ·Fn

descartados.

0.5 1 1.5 2 2.5 3

-1

-0.5

0

0.5

1

t(s)

Oscilograma: Sinal de fala original - ZCR - STE

Fala

ZCR

STE

0.5 1 1.5 2 2.5 3

1000

2000

3000

4000

F(H

z)

t(s)

Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas

0.5 1 1.5 2 2.5 3

1000

2000

3000

4000

F(H

z)

t(s)

Espectrograma banda larga com curvas dos formantes F1 a F

4 sobrepostos nas áreas vozeadas

V V V V V V V V V V V V V V V

F1

F2

F3

F4

F0

(a)

0.5 1 1.5 2 2.5 3

-1

-0.5

0

0.5

1

t(s)

Oscilograma: Sinal de fala original - ZCR - STE

Fala

ZCR

STE

0.5 1 1.5 2 2.5 3

1000

2000

3000

4000

F(H

z)

t(s)

Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas

0.5 1 1.5 2 2.5 3

1000

2000

3000

4000

F(H

z)

t(s)

Espectrograma banda larga com curvas dos formantes F1 a F

4 sobrepostos nas áreas vozeadas

V V V V V V V V V V V V V V V

F1

F2

F3

F4

F0

(b)

0.5 1 1.5 2 2.5 3

-1

-0.5

0

0.5

1

t(s)

Oscilograma: Sinal de fala original - ZCR - STE

Fala

ZCR

STE

0.5 1 1.5 2 2.5 3

1000

2000

3000

4000

F(H

z)

t(s)

Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas

0.5 1 1.5 2 2.5 3

1000

2000

3000

4000

F(H

z)

t(s)

Espectrograma banda larga com curvas dos formantes F1 a F

4 sobrepostos nas áreas vozeadas

V V V V V V V V V V V V V V V

F1

F2

F3

F4

F0

(c)

Figura 11: Trecho de audio com a repeticao: “nove, um, zero, quatro, zero, tres,dois, zero”. (a) Forma de onda em azul com sobreposicao dos graficos de STE emvermelho e de ZCR em preto; (b) Espectrograma de banda estreita com sobreposicaodos pontos de frequencia fundamental em preto; (c) Espectrograma de banda largacom sobreposicao dos formantes das areas vozeadas, conforme cores indicadas.

Em seguida, utiliza-se a funcao de busca por centroides, em que so sao

mantidos os pontos que pertencam a um agrupamento (cluster ) de tamanho mınimo.

Do resultado do agrupamento sao consideradas apenas as amostras que

apresentem valores de BW1 e BW2 (banda de passagem de F1 e F2) menores que a

media obtida para cada caso, e com continuidade, ou seja, aquelas em que o valor

Page 43: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

41

da amostra presente nao tenha uma variacao maior que 15% em relacao aos blocos

vizinhos.

Com essa restricao, ha um favorecimento das vogais mais estaveis em

detrimento de ditongos e tritongos, nos quais a conexao entre vogal e semivogal

resulta em uma trajetoria crescente ou decrescente de F1 e F2. E feita uma nova busca

por agrupamentos, que resulta em uma matriz final e nos centroides identificados.

4.3.6 Continuidade

Apos encontrar uma nuvem de pontos provisoria, apura-se a continuidade

entre os pontos. No agrupamento descrito como “Metodo 1” na Subsecao 4.3.8,

trata-se de simplesmente manter apenas os trechos que apresentem no mınimo tres

pontos consecutivos que obedeceram aos criterios anteriores e que apresentem uma

variacao de F1 inferior ao limiar pre-determinado.

Conforme descrito na Subsecao 4.3.4, as funcoes utilizadas para calculo dos

formantes no software Praat envolvem, para cada janela de analise, uma atribuicao de

pesos para cada valor de formante obtido, com base em valores medios de formantes

fornecidos como parametros iniciais. Embora os resultados melhorem com a adocao

desse refinamento, ainda assim ha um desfavorecimento das vogais que se distanciam

desse ponto central do espaco F1×F2.

Por essa razao, no caso do “Metodo 2”, a etapa e realizada simultaneamente

para todas as trilhas presentes, as quais se referem a nuvens de F1 × F2 obtidas

considerando-se como referencia nao apenas um ponto central dos formantes, mas

tambem medias de vogais mais extremas (/i/, /a/ e /u/). E entao eleita a trilha

vencedora para cada trecho existente com base na menor variacao de F1.

No exemplo apresentado na Figura 12, e possıvel observar que em (a), se

apenas a “trilha 1” fosse utilizada, os trechos referentes as vogais altas superiores

(regiao superior direita dos graficos) nao seriam detectados. Quando considerada

tambem a “trilha 3”, foi possıvel compreender a area necessaria para compor a nuvem

final (na cor azul).

Page 44: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

42

50010001500200025003000

200

400

600

800

1000

1200

1400

1600

1800

2000

2200

Exemplo GC7, trilha1

F2(Hz)

F1(Hz)

Pontos F1 × F

2 - trilha 1

Pontos F1 × F

2 resultantes

(a)

50010001500200025003000

200

400

600

800

1000

1200

1400

1600

1800

2000

2200

2400

Exemplo GC7, trilha3

F2(Hz)

F1(Hz)

Pontos F1 × F

2 - trilha 3

Pontos F1 × F

2 resultantes

(b)

10001500200025003000

200

400

600

800

1000

1200

Exemplo GC7, trilha3

F2(Hz)

F1(Hz)

10001500200025003000

200

400

600

800

1000

1200

Exemplo GC7, trilha1

F2(Hz)

F1(Hz)

10001500200025003000

200

400

600

800

1000

1200

Exemplo GC7, trilha3

F2(Hz)

F1(Hz)

10001500200025003000

200

400

600

800

1000

1200

Exemplo GC7, trilha1

F2(Hz)

F1(Hz)

(c)

10001500200025003000

200

400

600

800

1000

1200

Exemplo GC7, trilha3

F2(Hz)

F1(Hz)

10001500200025003000

200

400

600

800

1000

1200

Exemplo GC7, trilha1

F2(Hz)

F1(Hz)

10001500200025003000

200

400

600

800

1000

1200

Exemplo GC7, trilha3

F2(Hz)

F1(Hz)

10001500200025003000

200

400

600

800

1000

1200

Exemplo GC7, trilha1

F2(Hz)

F1(Hz)

(d)

Figura 12: Graficos de nuvens de pontos F1×F2 referentes a diferentes trilhas deformantes, com pontos na cor turquesa. Em (a) e (b) a nuvem resultante em azulsobreposta as nuvens das trilhas 1 e 3, respectivamente. Em (c) e (d) graficos dastrilhas 1 e 3, respectivamente, com aproximacao da area equivalente ao trapezioesperado. Observar, no canto superior direito de (a) e de (c), que a trilha 1 naocompreende a area necessaria para compor a nuvem final.

4.3.7 Modelo de Agrupamento

A busca de centroides e realizada atraves do metodo k-means. A principal

motivacao da escolha deste metodo no contexto deste trabalho e o fato do processo

garantir a minimizacao da distancia intra-grupos no final das iteracoes.

Os padroes de entrada para o agrupamento sao pares de formantes F1 e

F2. O numero de grupos K, na metodologia inicial (DRESCH et al., 2015), dependia

da quantidade de picos encontrados durante o processo de inicializacao. Contudo,

na continuidade dos experimentos, constatou-se um melhor resultado quando K era

fixado em cinco, e por essa razao foi a quantidade de centros adotada na metodologia

deste trabalho. Para tanto as referencias equivalentes as vogais anteriores alta e

Page 45: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

43

media-alta (/i/ e /e/) foram agrupadas em uma unica, sendo considerada as medias

de seus valores, medida tambem adotada para as referencias equivalentes as vogais

posteriores alta e media-alta (/u/ e /o/).

Com relacao aos valores de inicializacao dos centroides, os mesmos sao

necessarios para garantir que o metodo k-means forneca resultados determinısticos

no final das iteracoes, que da forma convencional estabeleceria os primeiros centros

aleatoriamente, resultando em valores (ainda que convergentes) diferentes a cada

nova execucao. O processo de inicializacao foi realizada por meios de dois

metodos distintos, descritos na sequencia, os quais sao ilustrados nos fluxogramas

apresentados na Figura 13.

Entrada: Nuvemde pontos F1 e F2

Deteccao de picos e valesnas distribuicoes de F1 e F2

Identificacao do formante(F1, F2) com mais picos

Deteccao de picos nassub-regioes entre vales

Selecao provisoria deagrupamentos commınimo de amostras

Inicializacao do metodok-means com os

centroides provisorios

Descarte de clusterssem a quantidade

mınima de amostras

Saıda: centroides e nuvemde pontos resultante

Entrada: Nuvens depontos (trilhas) F1 e F2

Busca inicial?

Analise de continuidadedas trilhas (F1, F2),e escolha de trilha

em cada trecho

Referencia[F2 +F1 F2−F1]

Inicializacao dometodo k-means comvalores de referencia

Referencia[F2 F1]

Descarte de clustersinvalidos, referentes a altafrequencia (consoantes)

Saıda: centroides enuvem de pontos outrechos resultantes

S

N

Met

odo

1

Met

odo

2

Figura 13: Fluxogramas dos algoritmos para agrupamentos e buscade centroides implementados nos metodos de inicializacao utilizados nodecorrer dos experimentos.

Page 46: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

44

4.3.8 Inicializacao dos Centroides - “Metodo 1”

Utilizado durante os experimentos iniciais, apresentados em (DRESCH et al.,

2015). Inicialmente sao gerados histogramas suavizados (de forma a evidenciar os

pontos maximos e mınimos das distribuicoes) para as matrizes de F1 e F2, conforme

codigo apresentado no Apendice B. Em seguida, e considerado o eixo referente ao

formante que apresente maior numero de maximos (o qual, intuitivamente mas nao

necessariamente, distinguiria melhor as regioes das diferentes vogais).

O grafico e entao dividido em regioes (horizontais se F1 tem mais picos, ou

verticais caso contrario), delimitadas pelos valores de mınimos, as quais sao mantidas

se possuırem um numero mınimo de pontos (> 10% do total). Para cada regiao valida

armazena-se o valor de maximo para a proxima etapa. Um exemplo dessa divisao

inicial de regioes pode ser visualizado na Figura 14.Materiais e métodos: algoritmos - MÉTODO 1

39

• Metodo 1: Utilizado durante os experimentos iniciais, apresentados em

(DRESCH et al., 2015). Inicialmente sao gerados histogramas suavizados

(de forma a evidenciar os pontos maximos e mınimos das distribuicoes) para

as matrizes de F1 e F2, conforme codigo apresentado no Apendice B. E

considerado aquele com maior numero de maximos (o qual, intuitivamente mas

nao necessariamente, distinguiria melhor as regioes das diferentes vogais).

A seguir, o grafico e dividido em regioes (horizontais se F1 tem mais picos,

ou verticais caso contrario) nas quais a geracao de histograma suavizado e

repetida. Tal divisao pode ser visualizada na Figura 13.

05001000150020002500300035004000

0

500

1000

1500

2000

2500

3000

F2(Hz)

F1(H

z)

Pontos F1 × F

2

Máximos de F1

Mínimos de F1

Distribuição de F1

Nuvem de pontos e distribuicões de F1 × F

2

Distribuição de F2

Regiao 1

Regiao 2

Regioes 3 e 4Quantidade ınfima de pontos:

Regiao descartada!

Figura 13: Divisao do espaco F1×F2 em regioes horizontais a partir dos mınimosobtidos atraves da funcao densidade de probabilidade. No exemplo as Regioes3 e 4 sao descartadas pela escassez de pontos, enquanto que as Regioes 1 e 2sao utilizadas para determinacao de sub-regioes verticais.

Com os valores desses maximos obtidos sao determinados centroides

temporarios, para uma area delimitada pelos mınimos locais, conforme pode

ser visualizado na Figura 14. Se essa area apresentar pelo menos 10% do

numero total de amostras, esse centroide e considerado valido. Caso o numero

36 / 54Figura 14: Divisao do espaco F1×F2 em regioes horizontais a partir dos mınimosobtidos atraves da funcao densidade de probabilidade. No exemplo as Regioes 3e 4 sao descartadas pela escassez de pontos.

Em cada regiao, o processo de geracao de histograma suavizado e repetido

no eixo oposto ao utilizado anteriormente, para delimitacao das sub-regioes (areas

Page 47: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

45

compreendidas pelos mınimos locais). Nas sub-regioes, sao determinados os

centroides temporarios, conforme pode ser visualizado na Figura 15. Se essa

area apresentar pelo menos 10% do numero total de amostras, esse centroide e

considerado valido. Caso o numero de centroides obtidos seja nulo, a funcao e

repetida para o formante que inicialmente apresentou menor numero de maximos.Materiais e métodos: algoritmos - MÉTODO 1

40

de centroides obtidos seja nulo, a funcao e repetida para o formante que

inicialmente apresentou menor numero de maximos.

050010001500200025003000

0

100

200

300

400

500

600

F2(Hz)

F1(H

z)

Pontos F1 × F

2

Máximos

Mínimos

Centroides

Nuvem de pontos e distribuicões de F1 × F

2

Distribuição de F2

Sub-divisao 1 (Regiao 1) Sub-divisao 2 (Regiao 1)

Figura 14: Subdivisao de uma das regioes anteriormente definidas do espacoF1 × F2, novamente a partir dos mınimos e maximos da funcao densidade deprobabilidade, para inicializacao dos centroides.

• Metodo 2: Adotado apos constatacao de melhor identificacao dos centroides,

conforme resultados apresentados no Capıtulo 5. Quando a funcao e chamada

na etapa inicial, a funcao e alimentada por trilhas, correspondentes as nuvens

de F1×F2 geradas para diferentes valores de referencias.

Para cada trecho contınuo (apresentando no mınimo tres amostras consecutivas

com valores validos), e eleita uma trilha otima. A nuvem final gerada e entao

submetida a funcao de agrupamento. Como referencia sao fornecidos pares

de valores [(F2 + F1);(F2 − F1)] para as cinco referencias de vogais e um par

equivalente a regiao de frequencias consonantais. As amostras contidas no

agrupamento gerado a partir desse ultimo par sao consideradas invalidas, sendo

o agrupamento eliminado.

Esta funcao tambem e chamada na etapa final da selecao de amostras, quando

e alimentada pela nuvem resultante das etapas anteriores. Os agrupamentos

sao entao, nesta situacao, inicializados com valores de referencia de acordo com

Russo e Behlau (1993).

37 / 54

Figura 15: Subdivisao de uma das regioes anteriormente definidas do espacoF1 × F2, novamente a partir dos mınimos e maximos da funcao densidade deprobabilidade, para inicializacao dos centroides.

4.3.9 Inicializacao dos Centroides - “Metodo 2”

Adotado apos constatacao de melhor identificacao dos centroides, conforme

resultados apresentados no Capıtulo 6. Quando a funcao e chamada na etapa inicial,

a funcao e alimentada por trilhas, correspondentes as nuvens de F1×F2 geradas para

diferentes valores de referencias.

Para cada trecho contınuo (apresentando no mınimo tres amostras

consecutivas com valores validos), e eleita uma trilha otima. A nuvem final gerada

e entao submetida a funcao de agrupamento. Como referencia sao fornecidos pares

de valores [(F2+F1);(F2−F1)] para as cinco referencias de vogais e um par equivalente

a regiao de frequencias consonantais. As amostras contidas no agrupamento gerado

a partir desse ultimo par sao consideradas invalidas, sendo o agrupamento eliminado.

Esta funcao tambem e chamada na etapa final da selecao de amostras,

quando e alimentada pela nuvem resultante das etapas anteriores. Os agrupamentos

sao entao, nesta situacao, inicializados com valores de referencia de acordo com

Russo e Behlau (1993).

Page 48: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

46

5 EXPERIMENTOS

Os experimentos, elencados nas sub-secoes a seguir, foram realizados com

o emprego dos metodos descritos na Secao 4.3, conforme os codigos apresentados

nos Apendices A e B.

5.1 COMPARACAO ENTRE OS METODOS DE INICIALIZACAO

Nesta etapa foram comparados os desempenhos dos metodos descritos em

funcao do numero de centros localizados, diferenca entre os valores obtidos e os

de referencia, assim como da distancia entre a fronteira das regioes localizadas a

cada centro de referencia (considerando-se cinco centros como referencia). Foram

utilizadas as amostras do grupo GC da base da UTFPR.

Foram considerados como referencias cinco centros, com agrupamento das

vogais altas e media-altas, tanto anteriores (/i/ e /e/) como posteriores (/o/ e /u/),

a partir dos valores medios de F1 e F2 obtidos de (RUSSO; BEHLAU, 1993), com

distincao entre grupos de mulheres e de homens.

5.2 ALOCACAO DOS CENTROIDES

A partir de amostras das bases UTFPR e Spoltech, analisou-se o numero de

centroides localizados, sendo calculado o erro de F1 e de F2 em relacao ao padrao-

ouro das vogais-alvo, ou seja, dos trechos pre-segmentados de vogais orais tonicas

especıficas na primeira base, e da totalidade das vogais orais na segunda.

5.3 RECONHECIMENTO DOS TRECHOS

A partir de amostras dos grupos da UTFPR, cujas vogais-alvo foram

segmentadas, foi comparada a quantidade de trechos identificados. Para cada trecho-

alvo identificado, calculou-se o percentual da duracao compreendida nas amostras

finalmente consideradas como vocalicas.

Page 49: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

47

5.4 CODIFICACAO DOS SINAIS DE AUDIO

Foram realizados experimentos com submissao dos registros de audio a

diferentes codecs para simulacao de canais de transmissao e de compressao. Para

simulacao de canal telefonico de rede fixa, os arquivos de audio foram, por meio da

ferramenta SoX, recodificados com o formato G711a (ITU-T, 1988). Esse codec se

trata da variacao “a-law” da modulacao PCM, padrao de telefonia fixa utilizada no

Brasil.

Quanto a simulacao de canal de telefonico de rede movel, os arquivos

de audio foram recodificados por meio da ferramenta FFMPEG com a biblioteca

“libopencore” para o formato AMR-nb 4.750 kbps, o qual apresenta codificacao

adaptativa AMR especificada para utilizacao em redes de telefonia 3GPP (ETSI, 1999-

2014a; ETSI, 1999-2014b).

Tambem foram realizados experimentos com arquivos convertidos para o

formato MP3 com taxa de 24 kbps, por se tratar de compressao bastante popular

em equipamentos portateis de audio. Sua codificacao e baseada em criterios psico-

acusticos, que levam em consideracao limiares de mascaramento da audicao humana,

em funcao de proximidade temporal ou frequencial (MCLOUGHLIN, 2009).

5.5 ADICAO DE RUIDO

Os experimentos com simulacao de degradacao de canal foram realizados

com adicao de ruıdo por meio da ferramenta SoX. Foram selecionados os ruıdos

branco (espectro contınuo e uniforme), rosa (espectro uniforme no espaco logarıtmico,

com decaimento de 3 dB por oitava) (FED-STD-1037C, 1996) e marrom (espectro com

decaimento de 6 dB por oitava, possıvel de ser obtido atraves da integracao de ruıdo

branco), todos aplicados com uma amplitude de 20% do sinal normalizado.

5.6 COMPARACAO INTRAFALANTES

A partir de amostras da base C-ORAL, procedeu-se a busca de centroides

inicialmente para a duracao total de cada arquivo. Na sequencia, os arquivos foram

subdivididos em sete trechos de igual duracao e nova busca foi realizada, sendo os

resultados comparados com os valores iniciais.

Page 50: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

48

6 RESULTADOS E DISCUSSOES

A seguir sao detalhados os resultados dos experimentos, que abrangeram

a comparacao dos metodos de inicializacao dos centroides, desempenho da tecnica

aplicada frente a distorcoes resultantes de diferentes codificacoes/compactacoes e a

adicao de ruıdo ao sinal, e variacao intrafalante na identificacao de centroides.

6.1 COMPARACAO ENTRE OS METODOS DE INICIALIZACAO

Foram comparados os metodos de inicializacao de centroides descritos na

Subsecao 4.3.7, sendo utilizadas as amostras do grupo GC do corpus da UTFPR,

com codificacao G711a (simulacao de canal de telefonia fixa).

Apos realizacao da etapa de busca de clusters, obteve-se um melhor resultado

para o “Metodo 2”, em termos de numero de centroides identificados e reconhecimento

dos trechos correspondentes as vogais-alvo, conforme descrito a seguir.

6.1.1 Alocacao dos Centroides

Na Tabela 2 sao apresentados os percentuais de centroides encontrados para

cada metodo. No Apendice C.1 os dados sao apresentados com maior detalhamento,

sendo expostos para cada amostra a quantidade de centroides identificados e seus

os valores F1×F2, assim como os desvios padrao dos pontos pertencentes a cada

agrupamento.

Tabela 2: Resultados dos centroides obtidos para amostras do grupo GC da UTFPR,apos agrupamento com cinco centros de referencia, por meio dos Metodos 1 e 2.

/i/,/e/ /E/ /a/ /O/ /o/, /u/ Media Maximo

Metodo 1 100% 90% 30% 100% 0% 3,2 (64%) 4,0 (80%)

Metodo 2 100% 100% 100% 100% 100% 5,0 (100%) 5,0 (100%)

Tais valores foram comparados com os valores de referencia, advindos dos

resultados da pesquisa realizada pelo Grupo de Estudos de Sons da Fala da UTFPR

Page 51: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

49

(GOMES, 2013). Para cada centro foi calculado, atraves de distancia euclidiana,

o valor de referencia mais proximo, sendo determinada a vogal mais provavel

correspondente. E importante ressaltar que os valores de referencia correspondem,

nesse caso, apenas a vogais orais especıficas com caracterısticas de tonicidade.

Com a aplicacao do “Metodo 1” obteve-se um maximo de quatro centroides

identificados, com uma media de tres. O “Metodo 2”, por sua vez, permitiu a

identificacao da totalidade (cinco) em todos os casos, apresentando, portanto, uma

melhor eficacia com relacao a quantidade de centroides detectados.

Prosseguindo com a avaliacao dos resultados, calculou-se para cada amostra,

conforme apresentado no Apendice C.2, a distancia euclidiana ∆F1F2 entre os valores

de F1 e F2 das referencias e dos centroides obtidos. Na Tabela 3 sao apresentados os

valores medios para os centroides alocados, sendo que para o “Metodo 1” obteve-

se uma media de 176,6 Hz com desvio padrao de 79,0 Hz, enquanto que para o

“Metodo 2” a media foi 200,4 Hz e o desvio padrao 124,7 Hz.

Tabela 3: Diferenca entre os centros obtidos e os valores de referencia e asrespectivas percentagens para amostras do grupo GC da UTFPR, apos agrupamentocom cinco centros de referencia, por meio dos Metodos 1 e 2.

/i/,/e/ /E/ /a/ /O/ /o/, /u/ Media

∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) (σF1F2)

Metodo 1 194,8 186,9 167,5 151,9 ND 176,6 (79,0)Metodo 2 132,9 192,7 228,2 282,7 165,4 200,4 (124,7)

ND: valor nao disponıvel (nao houve alocacao do centroide em qualquer das amostras).

Houve, todavia, variacao na exatidao que ambos metodos alcancaram para os

centroides referentes as diferentes regioes. Enquanto que com o “Metodo 1” obteve-

se uma distancia media inferior (mais proximo, portanto) para as regioes associadas

as vogais baixas e medias-baixas, o “Metodo 2” propiciou uma alocacao melhor para

as regioes altas.

Por essa razao buscou-se comparar tal desempenho atraves da razao entre as

distancias. Na Figura 16 e possıvel observar a distribuicao das razoes, sendo que na

parte esquerda do grafico, na cor vermelha, esta presente a curva denominada ∆M1

referente a −∆F1F2(M2)∆F1F2(M1) , com a distribuicao das razoes em se obteve menor distancia

(melhor resultado) com o “Metodo 1”.

Da mesma forma, na parte direita do grafico e na cor azul, esta a curva

Page 52: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

50

-20 -15 -10 -5 0 5 10 15 200

0.02

0.04

0.06

0.08

0.1

0.12

0.14Distribuição da razão entre as distâncias do Método 1 e Método 2

∆M2

∆M1

µ = 0.0303

Figura 16: Distribuicao dos valores de razao entre asdistancias resultantes dos Metodos 1 e 2, a partir doApendice C.2, com ∆M1 em vermelho e com ∆M2 nacor azul. A linha tracejada em cor preta indica a mediaµ, praticamente centralizado.

denominada ∆M2, na cor azul, que se refere a +∆F1F2(M1)∆F1F2(M2) , nas situacoes em que se

obteve menor distancia ∆F1F2 com “Metodo 2”. Tambem consta no grafico uma linha

tracejada em cor preta indica a media µ (0,0303), praticamente centralizado, indicando

equivalencia de desempenho dos metodos quando considerado esse parametro em

especıfico.

Quando se leva em conta nao apenas o ponto central, mas tambem a area

da regiao correspondente atraves do desvio padrao das amostras referentes a cada

agrupamento (Apendice C.1), a distancia entre o limite das regioes as referencias

(valores apresentados na Tabela 4) pode ser utilizada como um parametro de

acerto/erro para cada Metodo.

Na Tabela 4 sao apresentados como “OK” aqueles casos em a regiao

associada ao centroide (delimitada pelo desvio padrao dos valores de F1 e de F2)

compreendia a referencia em questao, como “ND” os casos em que o centroide

nao foi alocado, e nos demais sao indicados os percentuais de erro de F1 ou de F2.

Assim obteve-se o percentual da quantidade de acertos de cada metodo, conforme

apresentado na primeira linha da Tabela 5.

Page 53: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

51

Tabela 4: Diferenca percentual da distancia entre a fronteira de cada regiao e o valorde referencia mais proximo, apos agrupamento com cinco centros de referencia, pormeio dos Metodos 1 e 2 (valores do ultimo em negrito). Valores localizados no interiorda regiao indicados por “OK”, e centros nao encontrados como “ND”.

Amostra /i/,/e/ /E/ /a/ /O/ /o/, /u/

F1(%) F2(%) F1(%) F2(%) F1(%) F2(%) F1(%) F2(%) F1(%) F2(%)

GC1(M1) OK OK ND ND ND ND OK OK ND ND(M2) OK OK OK OK 6,7% OK 13,4% 16,2% OK 12,2%

GC2(M1) OK 4,6% 0,5% OK ND ND 11,6% OK ND ND(M2) OK 5,6% 20,1% OK 0,7% 1,1% OK 19,5% OK 2,2%

GC3(M1) OK OK OK 4,1% ND ND OK OK ND ND(M2) OK OK OK OK 26,2% OK OK 5,3% OK 5,6%

GC4(M1) OK OK OK 1,4% ND ND OK OK ND ND(M2) OK OK OK OK 16,4% 2,2% OK 6,3% OK OK

GC5(M1) OK 3,3% OK 2,1% ND ND OK OK ND ND(M2) OK OK OK 0,1% 3,6% OK OK OK OK 7,1%

GC6(M1) OK OK OK 3,9% 8,5% OK OK OK ND ND(M2) OK OK OK 3,2% 20,3% OK OK 4,0% OK OK

GC7(M1) OK 1,2% OK 0,6% 1,2% OK 4,0% OK ND ND(M2) OK 0,5% OK 0,3% 2,3% OK OK 3,9% OK OK

GC8(M1) OK OK OK 8,3% ND ND 16,5% OK ND ND(M2) OK OK 8,7% 4,4% 2,1% OK 2,5% 18,1% OK 11,6%

GC9(M1) OK OK OK OK ND ND OK OK ND ND(M2) OK OK OK 9,3% OK 0,7% OK 4,7% OK OK

GC10(M1) OK OK OK OK OK OK OK OK ND ND(M2) OK 12,7% 23,2% OK 13,0% 18,5% 5,9% 27,6% OK 8,6%

ND: valor nao disponıvel (centroide nao alocado).OK: referencia no interior da regiao localizada.M1: Metodo 1.M2: Metodo 2.

Conforme demonstrado na Tabela 5, o resultado melhora para ambos os

metodos quando se considera uma dilatacao das fronteiras das regioes. A partir de

5% os metodos atingem valores acima de 50%, sendo o desempenho do “Metodo 2”

superior. Na Figura 17 e possıvel visualizar uma nuvem de F1×F2 com cores indicando

a distribuicoes dos pontos nas respectivas regioes, sendo a regiao referente a 0%

ilustrada por cırculo na cor preta, e a regiao equivalente a 21% na cor azul.

Tabela 5: Quantidade de referencias localizadas internamente as regioes delimitadaspor meio dos Metodos 1 e 2. Resultados obtidos a partir dos valores presentesna Tabela 4, levando em consideracao os percentuais indicados para dilatacao dasfronteiras.

Dilatacao Metodo 1 Metodo 2 Ambos Nenhum

(0,0%) 32,0% 30,0% 14,0% 52,0%(2,0%) 46,0% 38,0% 20,0% 36,0%(5,0%) 56,0% 56,0% 36,0% 24,0%(10,0%) 60,0% 74,0% 46,0% 12,0%(21,0%) 62,0% 92,0% 56,0% 2,0%

Page 54: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

52

1000150020002500

400

600

800

1000

F2(Hz)

F1(Hz)

Agrupamento 1Agrupamento 2Agrupamento 3Agrupamento 4Agrupamento 5CentroidesRegião limitada pelo desvio PadraoRegião dilatada (21%)

Figura 17: Grafico de nuvem F1 × F2 com cores distintas paraindicacao do centroide a que cada ponto esta associado. Cırculoscom tracejado na cor preta indicando o area delimitada pelo desviopadrao das distancias entre os pontos e o centroide de cadaagrupamento. Cırculos na cor azul indicando essa area dilatada em21%.

No intuito de exemplificar os dados discutidos, graficos resultantes sao

apresentados na Figura 18, nos quais se observa que as distribuicoes dos valores

F1×F2 das amostras GC4 e GC7 assemelham-se a trapezios. Os centroides obtidos

durante a aplicacao dos metodos (“Metodo 1” - (a) e (c) - a esquerda, “Metodo 2” - (b)

e (d) - a direita) estao identificados pelos pontos em preto, enquanto que os valores

de referencia estao indicados pelos pontos vermelhos.

Para o primeiro metodo e possıvel observar em (a) a proximidade dos centros

com os valores de referencia correspondentes, da esquerda para direita, as vogais

/e/ (agrupado com /i/), /a/ e /O/. Entretanto, em (c), muito embora mais centros

tenham sido reconhecidos, a nao-eliminacao de pontos de alta frequencia (regiao

inferior direita do grafico) causa confusao na identificacao do centro referente a /e/

e /i/.

Nos exemplos da Figura 18 tambem se observa que, para o segundo metodo,

em ambas as amostras as identificacoes foram mais proximas as referencias, ficando

os centroides localizados mais “internamente” ao trapezio. Tal comportamento pode

ser atribuıdo ao fato de que as referencias dessas amostras sao vogais tonicas

especıficas, enquanto que o reconhecimento busca todos os elementos vocalicos sem

distincao.

Page 55: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

53

1000150020002500

400

600

800

1000

UTFPR GC4 orig: Método2

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosReferênciasCentroides

1000150020002500

400

600

800

1000

UTFPR GC4 orig: Método1

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosReferênciasCentroides

Metodo 1 (GC4):

(a)

1000150020002500

400

600

800

1000

UTFPR GC4 orig: Método2

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosReferênciasCentroides

1000150020002500

400

600

800

1000

UTFPR GC4 orig: Método1

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosReferênciasCentroides

Metodo 2 (GC4):

(b)

1000150020002500

400

600

800

1000

UTFPR GC7 orig: Método2

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosReferênciasCentroides

1000150020002500

400

600

800

1000

UTFPR GC7 orig: Método1

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosReferênciasCentroides

Metodo 1 (GC7):

(c)

1000150020002500

400

600

800

1000

UTFPR GC7 orig: Método2

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosReferênciasCentroides

1000150020002500

400

600

800

1000

UTFPR GC7 orig: Método1

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosReferênciasCentroides

Metodo 2 (GC7):

(d)

Figura 18: Graficos de nuvens de pontos (na cor turquesa) e media dos trechosF1×F2 (na cor azul) obtidos para as amostras GC4 (a,b - superiores) e GC7 (c,d -inferiores). A esquerda graficos obtidos por meio do Metodo 1, e a direita por meiodo Metodo 2. Em vermelho estao indicadas os valores medios e desvio padrao dasreferencias. Em preto estao indicados os centroides resultante, sendo importantefazer a ressalva da diferenca na proporcao dos eixos de F1 e F2 nos graficos, o quetorna as distribuicoes visualmente mais alongadas.

6.1.2 Reconhecimento dos Trechos

Na Tabela 6 sao apresentados os resultados quanto a quantidade de

vogais-alvo reconhecidas, assim como, dessas vogais, a duracao das mesmas

compreendidas na nuvem resultante.

Para o “Metodo 2” obteve-se sucesso no reconhecimento de 92,1% da

Page 56: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

54

Tabela 6: Corpus UTFPR - percentual de vogais-alvo representadas na nuvem final epercentual medio das amostras dessas vogais.

Vogal Anterioridade AlturaQuantidade Vogais-alvo Duracao Vogais-alvo

M1 M2 M1 M2

/i/ Anterior Alta 62,5% 77,5% 35,3% 50,5%

/e/ Anterior Media−alta 95,0% 100,0% 61,9% 66,1%

/E/ Anterior Media−baixa 87,5% 100,0% 51,0% 65,3%

/a/ Central Baixa 47,5% 97,5% 25,7% 61,5%

/O/ Posterior Media−baixa 72,5% 82,5% 40,3% 69,8%

/o/ Posterior Media−alta 60,0% 95,0% 28,1% 62,5%

/u/ Posterior Alta 45,0% 95,0% 20,5% 59,5%

Media 67,1% 92,1% 44,3% 63,9%

quantidade dessas vogais, compreendendo 63,9% da duracao dos trechos em

questao, enquanto que o primeiro metodo atingiu 67,1% das vogais compreendendo

44,3% de sua duracao. Alem disso o “Metodo 2” demonstrou maior homogeneidade

no reconhecimento das diferentes vogais, com melhor deteccao das altas.

Sendo assim, pelo desempenho manifestamente melhor do “Metodo 2” para

reconhecimento dos trechos, associado aos resultados anteriormente expostos, o

mesmo foi o adotado para os demais experimentos.

6.1.3 Media Espectral apos o Reconhecimento dos Trechos

O comportamento espectral de um sinal de audio pode ser visualizado

por meio de graficos LTAS (Long Term Average Spectrum), os quais representam

justamente uma media espectral para um perıodo determinado. Na Figura 19 sao

apresentados LTAS de uma amostra para comparacao dos segmentos reconhecidos

como vocalicos e nao-vocalicos por meio do “Metodo 2”, da duracao total do arquivo

de audio nao segmentado, assim como dos trechos de referencia (vogais-alvo).

Na Figura 19 (a) sao apresentados os LTAS mencionados para a faixa ate

3000Hz, e em (b) e (c) tem-se aproximacoes das areas que compreendem primeiro

e segundo formante, respectivamente, com indicacao em vermelho dos valores de

referencia e em preto os valores obtidos para o centroides. E possıvel observar como

a media espectral da regiao vocalica e que mais se aproxima da media espectral dos

trechos de referencia.

Page 57: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

55

Frequency (Hz)0 3000

Sou

nd p

ress

ure

leve

l (dB/

Hz)

10

60

Frequency (Hz)0 3000

Sou

nd p

ress

ure

leve

l (dB/

Hz)

10

60

Frequency (Hz)0 3000

Sou

nd p

ress

ure

leve

l (dB/

Hz)

10

60

0 250 500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000Frequency (Hz)

0 3000

Sou

nd p

ress

ure

leve

l (dB/

Hz)

10

60

LTAS amostra GC4

LTAS referência

LTAS região vocálica

LTAS região não-vocálicaFrequencia(Hz)

Nıv

elde

Pre

ssao

Son

ora(

dB/H

z)

(a)

Frequency (Hz)0 1500

Sou

nd p

ress

ure

leve

l (dB/

Hz)

20

60

Frequency (Hz)0 1500

Sou

nd p

ress

ure

leve

l (dB/

Hz)

20

60

Frequency (Hz)0 1500

Sou

nd p

ress

ure

leve

l (dB/

Hz)

20

60

Frequency (Hz)0 1500

Sou

nd p

ress

ure

leve

l (dB/

Hz)

20

60

437

Hz

329

Hz

613

Hz

556

Hz

752

Hz

886

Hz

633

Hz

619

Hz

528

Hz

413

Hz

0 125 250 375 500 625 750 875 1000 1125 1250 1375 1500

LTAS amostra GC4

LTAS referência

LTAS região vocálica

LTAS região não-vocálica

Frequencia(Hz)

Nıv

elde

Pre

ssao

Son

ora(

dB/H

z)

(b)

Frequency (Hz)900 2400

Sou

nd p

ress

ure

leve

l (dB/

Hz)

10

50

Frequency (Hz)900 2400

Sou

nd p

ress

ure

leve

l (dB/

Hz)

10

60

Frequency (Hz)900 2400

Sou

nd p

ress

ure

leve

l (dB/

Hz)

10

60

Frequency (Hz)900 2400

Sou

nd p

ress

ure

leve

l (dB/

Hz)

10

60

2273

Hz

2315

Hz17

95 H

z

2055

Hz15

13 H

z

1624

Hz12

30 H

z11

87 H

z

959

Hz

1004

Hz

900 1025 1150 1275 1400 1525 1650 1775 1900 2025 2150 2275 2400

LTAS amostra GC4

LTAS referência

LTAS região vocálica

LTAS região não-vocálica

Frequencia(Hz)

Nıv

elde

Pre

ssao

Son

ora(

dB/H

z)

(c)

Figura 19: Graficos LTAS para demonstrar a diferenca espectral das regioesvocalicas e nao-vocalicas em relacao a duracao total, e aos trechos de referencia.(a) Amostra GC4; (b) Regiao de F1; (c) Regiao de F2.

6.2 RESULTADOS PARA DEGRADACOES

A busca por centroides, para as amostras sem degradacao dos grupos

discriminados dos corpora UTFPR e SPOLTECH, resultou nos valores apresentados

no Apendice C.3. Na Tabela 7 sao sintetizados os valores medios e desvios padrao

dos grupos para os cinco centroides. Nesses experimentos obteve-se erros medios

de 25,5% e 16,2%, para F1 e F2 respectivamente.

No que se refere ao reconhecimento das vogais-alvo, no Apendice C.4 sao

apresentados os resultados para as amostras dos grupos do corpus UTFPR sem

degradacao. Os valores das medias obtidas para cada vogal estao sumarizados na

Tabela 8, onde pode-se observar que houve um reconhecimento medio de 87,9%,

Page 58: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

56

compreendendo 75,3% da duracao desses trechos de interesse.

Tais valores, obtidos para as amostras sem degradacao, serviram como

parametro de comparacao para as etapas seguintes que consistiram de experimentos

com codificacao e com adicao de ruıdo aos sinais de audio.

Tabela 7: Diferenca dos valores F1 e F2 dos centroides em relacao aos valores dereferencia - amostras dos corpora UTFPR e SPOLTECH sem degradacao.

Media Desvio padraoCentroide ∆F1×∆F2 σ∆F1×σ∆F2

1 36,9×12,9% (47,4×9,6%)

2 25,1×12,6% (19,4×24,3%)

3 22,7×11,6% (13,0×9,4%)

4 18,6×22,1% (13,0×15,3%)

5 24,4×21,8% (15,7×14,1%)

Media 222555,,,555×××111666,,,222% (((222555,,,999×××111666,,,111%)))

Tabela 8: Percentual de vogais-alvo representadas na nuvem final e percentual daduracao dessas vogais - grupos do corpus UTFPR sem degradacao.

Vogal Trechos Duracao

/i/ 82,0% 65,8%/e/ 95,5% 81,7%/E/ 95,0% 75,7%/a/ 92,0% 71,4%/O/ 88,0% 79,9%/o/ 78,5% 76,9%/u/ 84,5% 70,4%

Media 888777,,,999% 777555,,,333%

6.2.1 Codificacao

As amostras dos grupos dos corpora UTFPR e SPOLTECH foram submetidas

aos tres tipos de codificacao/compressao selecionados: G711a, MP3 24 kbps e AMR-

nb 4.750 kbps.

No Apendice C.5 sao apresentados os erros percentuais dos centroides

obtidos em relacao aos valores de referencia para cada grupo. Cumpre referir que

para todos os casos o numero de centroides obtidos foi cinco (100%). Na Tabela 9

sao sintetizados as medias dos centroides para codificacoes adotadas.

Observa-se que os erros medios de F1×F2, para as variacoes em questao,

sejam (28,4 × 17,3%) para codificacao G711a, (27,7 × 17,8%) para compressao

Page 59: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

57

Tabela 9: Diferenca dos valores F1 e F2 dos centroides em relacao aos valores dereferencia - amostras dos corpora UTFPR e SPOLTECH com codificacao. Na primeiralinha referente a cada grupo estao indicados os valores medios, e na segunda osvalores de desvio padrao.

G711A MP3 24kHz AMR-nb 4.750kbps

Media Desviopadrao Media Desvio

padrao Media Desviopadrao

Centroide ∆F1×∆F2 σ∆F1×σ∆F2 ∆F1×∆F2 σ∆F1×σ∆F2 ∆F1×∆F2 σ∆F1×σ∆F2

1 35,4×11,8% 49,8×9,0% 32,8×13,1% 33,5×9,3% 29,4×12,8% 41,5×10,2%2 40,7×13,2% 42,2×22,9% 33,1×12,5% 33,5×22,8% 28,6×11,8% 29,7×18,9%3 25,0×13,3% 15,7×10,4% 25,1×13,1% 13,0×9,6% 22,3×12,3% 14,8×10,2%4 17,0×24,3% 11,9×15,7% 20,2×27,3% 14,3×16,7% 15,4×20,2% 12,6×13,8%5 24,1×23,7% 16,3×17,3% 27,5×23,1% 17,8×14,6% 22,7×20,8% 16,3×13,6%

Media 222888,,,444×××111777,,,333% 333222,,,333×××111666,,,777% 222777,,,777×××111777,,,888% 222444,,,666×××111666,,,555% 222333,,,777×××111555,,,666% 222555,,,888×××111444,,,222%

MP3 e (23,7 × 15,6 %) para codificacao AMR-nb, sao proximos do erro medio para a

condicao original (25,5% × 16,2%).

Sendo assim realizou-se o teste t de Student para determinar se as amostras

com essas codificacoes estao relacionadas aos valores daquelas sem degradacao.

Com base nos p-values obtidos superiores ao ponto de corte (0,05), conforme exposto

na Tabela 10, nao e possıvel rejeitar a hipotese nula (de que nao ha diferenca

significativa entre os valores).

Tabela 10: Teste t de Student para comparar os valores obtidos com amostrassubmetidas a codificacoes, apresentados no Apendice C.5.

CodecMedia Desvio Padrao Teste t de Student

∆F1×∆F2 σ∆F1×σ∆F2 F1 F2

Sem degradacao 25,5×16,2% 25,9×16,1%G711a 28,4×17,3% 32,3×16,7% 0,315 0,602MP3 24kpbs 27,7×17,8% 24,6×16,5% 0,292 0,457AMR-nb 4.750kbps 23,7×15,6% 25,8×14,2% 0,468 0,751

No que diz respeito ao reconhecimento das vogais-alvo para as referidas

codificacoes, na Tabela 11 sao demonstrados os resultados obtidos. Os percentuais

de identificacao (numero de trechos-alvos reconhecidos) - 85,9%, 81,1% e 82,3%,

assim como a duracao dessas vogais compreendidas nos trechos identificados -

72,8%, 74,4% e 69,9%, tambem guardaram proximidade aos percentuais obtidos para

as amostras sem degradacao.

Page 60: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

58

Tabela 11: Percentual de vogais-alvo representadas na nuvem final e percentual daduracao dessas vogais - grupos do corpus UTFPR com codificacao.

G711A MP3 24kHz AMR-nb 4.750kbpsVogal Trechos Duracao Trechos Duracao Trechos Duracao

/i/ 76,0% 62,7% 56,0% 73,2% 61,0% 55,8%/e/ 94,5% 77,4% 92,5% 80,7% 92,0% 77,3%/E/ 95,0% 76,3% 90,0% 78,5% 94,0% 72,8%/a/ 91,5% 69,0% 89,5% 68,5% 92,0% 68,1%/O/ 88,0% 76,8% 84,0% 75,8% 87,5% 75,0%/o/ 76,0% 74,8% 75,5% 72,9% 75,0% 68,2%/u/ 80,0% 68,1% 80,0% 68,1% 74,5% 58,2%

Media 888555,,,999% 777222,,,888% 888111,,,111% 777444,,,444% 888222,,,333% 666999,,,999%

6.2.2 Adicao de Ruıdo

As amostras dos grupos dos corpora UTFPR e SPOLTECH procedeu-se a

adicao de tres tipos de ruıdo: marrom, rosa e branco, em ordem decrescente de

agressividade ao sinal de audio.

A adicao de ruıdo marrom nao afetou a quantidade de centroides

reconhecidos em relacao a situacao sem degradacao, diferentemente das demais

condicoes, conforme resultados apresentados na Tabela 12. E possıvel observar

que a adicao de ruıdo rosa afeta de forma branda o reconhecimento dos centroides

das extremidades (correspondentes as regioes das vogais altas), enquanto que

com adicao de ruıdo branco ha exito apenas no reconhecimento nos centros

correspondentes as regioes das vogais baixas e medias-baixas.

Tabela 12: Numero de centroides reconhecidos nos grupos analisados apos adicaode ruıdo ao sinal das amostras.

Centroide RUIDO MARROM RUIDO ROSA RUIDO BRANCO

1 100,0% 97,8% 5,6%2 100,0% 100,0% 100,0%3 100,0% 100,0% 100,0%4 100,0% 100,0% 69,1%5 100,0% 88,5% 0,0%

Media 555,,,000(((111000000%))) 444,,,999(((999888%))) 222,,,777(((555444%)))

No Apendice C.8 sao apresentados os erros percentuais dos centroides

obtidos em relacao aos valores de referencia para cada grupo. Na Tabela 13 sao

sintetizados as medias dos centroides para as degradacoes utilizadas. Obteve-se os

seguintes valores medios de erro de F1×F2, para as tres variacoes, sejam eles (42,3

Page 61: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

59

× 21,6 %) para ruıdo marrom, (50,5 × 20,6 %) para ruıdo rosa e (28,1 × 19,1 %) para

ruıdo branco.

Tabela 13: Diferenca dos valores F1 e F2 dos centroides em relacao aos valores dereferencia - amostras dos corpora UTFPR e SPOLTECH com adicao de ruıdo.

RUIDO MARROM RUIDO ROSA RUIDO BRANCO

Media Desviopadrao Media Desvio

padrao Media Desviopadrao

Centroide ∆F1×∆F2 σ∆F1×σ∆F2 ∆F1×∆F2 σ∆F1×σ∆F2 ∆F1×∆F2 σ∆F1×σ∆F2

1 45,3×12,0% 34,7×9,3% 165,0×14,6% 120,2×10,1% ND ND2 93,2×22,5% 66,0×20,9% 26,0×14,6% 38,9×16,8% 38,2×16,8% 70,3×18,4%3 26,5×15,6% 13,1×10,4% 21,6×9,3% 14,3×6,7% 22,5×12,7% 13,3×11,3%4 19,4×20,3% 13,0×14,8% 13,6×18,1% 10,1×11,2% 20,5×33,5% 15,0×16,5%5 26,9×37,5% 20,2×24,4% 27,1×49,6% 23,9×31,8% ND ND

Media 444222,,,333×××222111,,,666% 444444,,,444×××111999,,,000% 555000,,,555×××222000,,,666% 888111,,,444×××222222,,,222% 222888,,,111×××111999,,,111% 444555,,,555×××111777,,,555%

ND: valor nao disponıvel (nenhum centroide nao alocado).

O ultimo caso, referente a adicao de ruıdo branco, nao apresenta condicoes de

ser considerado devido a baixa eficiencia durante o reconhecimento dos centroides.

Quanto aos primeiros, e possıvel notar uma piora expressiva dos valores obtidos para

F1 em relacao ao obtido para a condicao sem degradacao.

Para determinar se a diferenca observada e significativa, realizou-se o teste

t de Student. Com base nos p-values obtidos superiores ao ponto de corte (0,05),

conforme exposto na Tabela 14, a hipotese nula foi rejeitada (ou seja, ha de fato uma

diferenca significativa entre os valores).

Tabela 14: Teste t de Student para comparar os valores obtidos com amostras comadicao de ruıdo, apresentados no Apendice C.8.

CodecMedia Desvio Padrao Teste t de Student

∆F1×∆F2 σ∆F1×σ∆F2 F1 F2

Sem degradacao 25,5×16,2% 25,9×16,1%Ruıdo marrom 42,3×21,6% 44,4×19,0% 0,007 0,038Ruıdo rosa 50,5×20,6% 81,4×22,2% 0,018 0,150

No Apendice C.9 sao demonstrados os valores obtidos de percentuais de

vogais-alvo reconhecidos em cada tipo de ruıdo adicionado, com as medias para cada

tipo de ruıdo sumarizadas na Tabela 15. Quanto aos percentuais de identificacao

obtidos - 83,1%, 82,6% e 37,6%, assim como a duracao dessas vogais compreendidas

nos trechos identificados - 64,6%, 66,6% e 45,2%, observa-se que, com excecao da

situacao de ruıdo branco, nos demais casos houve desempenho similar aquele obtido

no caso de amostras sem degradacao.

Page 62: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

60

Tabela 15: Percentual de vogais-alvo representadas na nuvem final e percentual daduracao dessas vogais - grupos do corpus UTFPR com adicao de ruıdo.

RUIDO MARROM (20%) RUIDO ROSA (20%) RUIDO BRANCO (20%)Vogal Trechos Duracao Trechos Duracao Trechos Duracao

/i/ 72,5% 57,9% 71,5% 51,9% 14,0% 29,9%/e/ 91,5% 71,9% 91,0% 76,3% 42,0% 44,7%/E/ 90,5% 64,4% 90,0% 72,2% 44,0% 52,2%/a/ 88,5% 57,3% 89,5% 67,9% 60,0% 49,6%/O/ 88,0% 72,8% 77,5% 75,0% 42,0% 55,9%/o/ 71,0% 61,1% 74,5% 54,8% 28,0% 39,4%/u/ 79,5% 60,3% 84,5% 54,9% 33,5% 38,8%

Media 888333,,,111% 666444,,,666% 888222,,,666% 666666,,,666% 333777,,,666% 444555,,,222%

Nos exemplos presentes na Figura 20, referentes as amostras GC4 e GC7,

pode-se visualizar mais claramente a distribuicao de F1 e de F2 de acordo com o tipo

de degradacao sofrida pela amostra.

200

400

600

800

1000

1200

1400

1600

ream ctel cmp1 cam1 np02 nb02 nw02

F1(H

z)

GC4: distribuicoes de F1

500

1000

1500

2000

2500

3000

ream ctel cmp1 cam1 np02 nb02 nw02

F2(H

z)

GC4: distribuicoes de F2

200

400

600

800

1000

1200

1400

1600

ream ctel cmp1 cam1 np02 nb02 nw02

F1(H

z)

GC7: distribuicoes de F1

500

1000

1500

2000

2500

3000

ream ctel cmp1 cam1 np02 nb02 nw02

F2(H

z)

GC7: distribuicoes de F2

(a)

200

400

600

800

1000

1200

1400

1600

ream ctel cmp1 cam1 np02 nb02 nw02

F1(H

z)

GC4: distribuicoes de F1

500

1000

1500

2000

2500

3000

ream ctel cmp1 cam1 np02 nb02 nw02

F2(H

z)

GC4: distribuicoes de F2

200

400

600

800

1000

1200

1400

1600

ream ctel cmp1 cam1 np02 nb02 nw02

F1(H

z)

GC7: distribuicoes de F1

500

1000

1500

2000

2500

3000

ream ctel cmp1 cam1 np02 nb02 nw02

F2(H

z)

GC7: distribuicoes de F2

(b)

200

400

600

800

1000

1200

1400

1600

ream ctel cmp1 cam1 np02 nb02 nw02

F1(H

z)

GC4: distribuicoes de F1

500

1000

1500

2000

2500

3000

ream ctel cmp1 cam1 np02 nb02 nw02

F2(H

z)

GC4: distribuicoes de F2

200

400

600

800

1000

1200

1400

1600

ream ctel cmp1 cam1 np02 nb02 nw02

F1(H

z)

GC7: distribuicoes de F1

500

1000

1500

2000

2500

3000

ream ctel cmp1 cam1 np02 nb02 nw02

F2(H

z)

GC7: distribuicoes de F2

(c)

200

400

600

800

1000

1200

1400

1600

ream ctel cmp1 cam1 np02 nb02 nw02

F1(H

z)

GC4: distribuicoes de F1

500

1000

1500

2000

2500

3000

ream ctel cmp1 cam1 np02 nb02 nw02

F2(H

z)

GC4: distribuicoes de F2

200

400

600

800

1000

1200

1400

1600

ream ctel cmp1 cam1 np02 nb02 nw02

F1(H

z)

GC7: distribuicoes de F1

500

1000

1500

2000

2500

3000

ream ctel cmp1 cam1 np02 nb02 nw02

F2(H

z)

GC7: distribuicoes de F2

(d)

Figura 20: Boxplots com comparativo das distribuicoes de F1× F2 de amostras dogrupo GC com degradacoes. (a,b) Distribuicoes para amostra GC4; (c,d) Distribuicoespara GC7, sendo F1 e F2 respectivamente.Observacoes: “ream”: sinal apenas reamostrado em 8 kHz; “ctel”: sinal com codificacao G711a; “cmp1”:sinal com compressao MP3 24 kbps; “cam1”: sinal com codificacao AMR-nb 4.750 kbps; “nb02”: sinalcom adicao de ruıdo marrom; “np02”: sinal com adicao de ruıdo rosa; “nw02”: sinal com adicao de ruıdobranco.

E possıvel observar que a adicao de ruıdo tem um efeito mais dramatico sobre

o sinal do que codificacoes aplicadas. Nota-se ainda, que, com excecao do ruıdo

Page 63: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

61

branco, para os exemplos considerados a distribuicao de F1 manteve-se mais estavel

frente as degradacoes.

Entretanto, cabe esclarecer que o reconhecimento se da em um espaco

bidimensional, dependente da distribuicao dos pontos em relacao a ambos os eixos.

Mesmo com uma distribuicao aparentemente mais estavel de F1, uma deformacao

no formato do “trapezio” justifica os erros maiores para F1 observados no resultados

apresentados na Tabela 13 (p. 59).

6.3 RESULTADOS PARA COMPARACAO INTRAFALANTES

Para comparacao intrafalante foram utilizadas amostras do corpus C-ORAL,

por apresentarem maior duracao, ou seja, serem passıveis de serem subdivididas em

trechos com duracao adequada. Cada amostra foi subdividida em sete trechos, de

modo que cada um apresentasse duracao superior a um minuto.

No Apendice C.10 sao apresentados os resultados obtidos, sendo: valores

F1× F2 dos centros para duracao total da amostra (utilizado como referencia), erro

percentual medio de F1×F2 e erro percentual maximo, sendo um resumo das medias

encontradas para as amostras avaliadas apresentado na Tabela 16.

Tabela 16: Diferenca dos valores de centroides em comparacoes intrafalantes paraamostras do corpus C-ORAL.

AmostraDiferenca media Diferenca maxima

∆F1×∆F2(%) ∆F1×∆F2(%)

BFAMMN01M 3,0%×2,2% 9,7%×6,7%

BFAMMN02M 4,2%×2,3% 13,8%×4,1%

BFAMMN04M 4,2%×2,4% 14,2%×8,4%

BFAMMN08M 4,5%×3,0% 23,5%×6,7%

BFAMMN03H 8,4%×4,9% 72,6%×14,6%

BFAMMN06H 3,0%×2,3% 6,7%×9,5%

Por outro lado, percebe-se que duas amostras apresentam ocorrencias com

valores de erro maximo indicativos de afastamento de um dos centros em questao

(72,6% para o centro 1 da amostra BFAMMN03H e 23,5% para o centro 3 da amostra

BFAMMN08M), um dos trechos daquela amostra em especıfico. Nesses dois casos

especıficos, a distribuicao no espaco F1 × F2 nao havia se mostrado conformada

Page 64: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

62

adequadamente ao trapezio esperado.

A analise dos erros percentuais medios demonstra um comportamento de

baixa variacao intrafalantes, como o que se visualiza no exemplo apresentado na

Figura 21, em que ha constancia na distribuicao da nuvem de pontos e da localizacao

dos centroides encontrados.

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

(a) 50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

(b)

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

(c)

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

(d)

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

(e)

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

50010001500200025003000

200

400

600

800

1000

1200

1400

CORAL bfammn01M ream

F2(Hz)

F1(Hz)

Pontos F1 × F

2

Media dos trechosCentroides

500

1000

1500

2000

2500

F1 F2

(f)

Figura 21: Comparacao de diferentes intervalos de uma das amostras do grupo “C-ORAL M”. (a,c,d) Nuvem de pontos F1×F2 com indicacao das medias dos trechos ecentroides; (b,d,f) Boxplots com as distribuicoes de F1 e de F2.

Page 65: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

63

7 CONCLUSAO

No ambito forense o exame Comparacao de Locutores tem grande

importancia por possibilitar a vinculacao de autoria de crimes. Todavia, devido a

complexidade das analises, e um exame consideravelmente dispendioso. Portanto, e

digno de atencao qualquer desenvolvimento que permita otimizar a realizacao desse

exame. Nesse trabalho foi proposto um metodo para reconhecimento automatico de

vogais, com a finalidade de segmentar e extrair caracterısticas acusticas de fonemas

vocalicos automaticamente.

Foram selecionadas amostras de audio com viabilidade para extracao e

analise de parametros acusticos, a partir de tres diferentes corpora: UTFPR,

SPOLTECH e C-ORAL. Para programacao das funcoes envolvidas na implementacao

dos metodos, foram utilizados os softwares Praat e Matlab. Adicionalmente, para

codificacao, compressao ou adicao de ruıdo as amostras, utilizou-se as ferramentas

de tratamento de audio SoX e FFMPEG.

Os algoritmos foram implementados partindo-se do pressuposto de que

fonemas vocalicos sao caracteristicamente vozeados, isto e, durante sua producao

se observara a frequencia fundamental, e que tambem apresentam uma taxa de

passagem por zero (ZCR) menor do que segmentos consonantais. O processo

envolveu o calculo dos parametros acusticos F0, F1..3 e BW1..3, e a segmentacao em

trechos vocalicos e nao-vocalicos (nesses ultimos as amostras irrelevantes para o

contexto eram descartadas da nuvem resultante).

Durante os experimentos foram avaliados dois metodos de inicializacao para

a etapa de agrupamento dos pontos F1 × F2 baseada no modelo k-means. No

“Metodo 1” a busca de centroides e inicializada com os picos encontrados na

distribuicao, enquanto que no “Metodo 2” a inicializacao e feita com valores pre-

fixados, correspondentes aos valores medios de formantes para as diferentes vogais

orais tonicas do PB, conforme pesquisa de Russo e Behlau (1993).

Outra diferenca entre os metodos, e que no primeiro foi feita selecao dos

valores de formantes em cada janela de tempo (funcao “Formant track” do Praat),

com atribuicao dos valores de formantes de referencia como sendo a media de todas

Page 66: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

64

as vogais. Para o segundo metodo foram consideradas trilhas, ou seja, realizou-se

a selecao de forma paralela, sendo fixadas referencias que englobassem tambem as

regioes extremas do trapezio (nao somente a regiao central do mesmo), sendo eleita

em cada trecho segmentado a melhor trilha com base na continuidade da curva de F1.

Na comparacao entre os dois metodos citados, com amostras do grupo GC

da UTFPR, o segundo apresentou melhores resultados quanto relacao ao numero

de centroides localizados, assim como a quantidade de trechos-alvo reconhecidos

e a duracao dos mesmos. Por essa razao foi o adotado no prosseguimento dos

experimentos.

Foram realizados experimentos com as amostras das bases UTFPR e

SPOLTECH submetidas a diversos tipos de degradacao do canal.

Para simulacao de canal telefonico foram selecionados os codecs G711a,

AMR-nb 4.750 kbps, e para compressao o codec MP3 24 kbps. Nesses casos o

desempenho do metodo nao teve alteracao em relacao ao sinal sem degradacao,

tanto em termos de deteccao de centroides quanto a diferenca de seus valores em

relacao as referencias, assim como a quantidade de trechos-alvo reconhecidos.

No que concerne os experimentos com adicao de ruıdo, foram selecionados

sinais do tipo marrom, rosa e branco. No caso do ruıdo branco, o desempenho foi

severamente prejudicado para todos os criterios. No caso do ruıdo marrom e rosa,

embora o numero de trechos-alvo reconhecidos e a quantidade de centroides alocados

tenha permanecido alta, a diferenca em relacao a referencia foi significativa (conforme

observado por meio de aplicacao de teste estatıstico t de Student).

Foram realizados ainda experimentos para verificar a constancia dos

resultados em comparacoes intrafalantes. Para tanto, as amostras selecionadas do

corpus C-ORAL, de maior duracao que as anteriores, foram subdivididas em intervalos

menores e os valores dos centroides obtidos comparados. Observou-se robustez do

desempenho, com apenas duas situacoes de afastamento dos valores medios dos

formantes do centroide alocado, justamente em casos em que o formato da nuvem de

pontos afastou-se do trapezio almejado.

E importante ressaltar que certa variacao durante a producao de fonemas

e esperado. Entretanto, para utilizacao de dados com a finalidade de comparar

a producao de dois sujeitos, e imprescindıvel que o comportamento formantico

seja estavel no caso em questao. Devido alguns dos casos terem apresentado

Page 67: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

65

outliers ou distanciamento do formato de trapezio, entende-se como necessario refinar

o metodo para melhor adequacao da nuvem. Tais melhorias podem incluir, por

exemplo, a aplicacao de linha definida pelo usuario para corte de regiao do espaco

F1 × F2, ou ainda novas iteracoes para melhor convergencia dos valores utilizados

como referencia nas trilhas e localizacao de centroides. Alem disso, e importante

apontar que casos praticos demandam a analise preliminar da influencia do canal,

especialmente daqueles ruidosos.

Sendo assim, considera-se que o trabalho atingiu parcialmente os objetivos

delineados, uma vez que depende de sua integracao em ferramenta ser efetivamente

utilizado para atender as necessidades forenses. Apesar da aplicacao estar restrita a

amostras de audio de apenas um falante, ou que contenham arquivos de delimitacao

entre os turnos de fala, acredita-se que tera utilidade em muitos casos.

Com os resultados obtidos, o metodo demonstra-se apropriado para trazer

melhorias quantitativas e qualitativas ao exame de Comparacao de Locutores, ao

permitir a reducao do tempo empregado para segmentacao de vogais, extracao de

caracterısticas acusticas, auxılio para eliminacao de amostras inservıveis, bem como

oferecimento de graficos que demonstrem padroes acusticos e relatorios para melhor

embasamento e apresentacao de laudos.

A pesquisa realizada durante os experimentos preliminares, com utilizacao

do “Metodo 1”, resultou no aceite do artigo intitulado “Metodo para analise acustica

e reconhecimento de vogais em exames de comparacao de locutores” na Nona

Conferencia Internacional em Computacao Forense (ICoFCS 2015).

7.1 TRABALHOS FUTUROS

Dadas as condicoes da maioria dos materiais encaminhados para exames de

CL, posteriormente sera imprescindıvel dar continuidade na avaliacao do desempenho

do metodo frente a condicoes de degradacao, tais como: presenca de ruıdo,

compressoes e limitacoes de frequencia de canais telefonicos. Isso requer tanto

analises considerando tentativas de reducao do ruıdo, como experimentos em

situacoes combinadas (canais diversos e adicao de ruıdo).

Trabalhos futuros envolvem a integracao com o software R, a possibilidade

de interacao com os graficos para navegacao dos trechos do audio indicados atraves

de pontos ou regioes selecionadas, a geracao de relatorios e de registros de eventos

Page 68: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

66

(logs) para facilitar o elaboracao de laudos e garantir a reprodutibilidade das etapas

realizadas.

Uma vez que o intuito e facilitar a visualizacao das caracterısticas acusticas de

um dado falante, futuramente pretende-se, alem dos valores de F0, F1 e F2, acrescentar

outras dimensoes para analise e agrupamento. Para tanto poderiam ser incluıdas

medidas como duracao, intensidade, banda de cada formante e sua evolucao no

decorrer da producao de um fonema (ascendencia ou descendencia da curva). Faz-

se necessario ainda, buscar novos ındices de desempenho para o k-means e outras

tecnicas de agrupamento.

Tambem e importante permitir formas de validacao dos resultados, como a

possibilidade de treinamento ou de particionamento de uma amostra de audio para

verificar a coerencia entre os resultados obtidos para cada segmento. O mecanismo

deve propiciar analises de variacoes intra e inter-sujeito, importantıssimas de serem

diferenciadas em exames de CL, permitindo que o perito exclua elementos nao-

servıveis (isto e, que tenham grande variacao intra-sujeito).

Posteriormente tais codigos devem ser migrados para rotinas do software

Praat ou outra linguagem que permita que todos os pacotes programados estejam

em plataforma de software livre. A finalizacao de um ambiente de testes requer

ainda que o examinador possa salvar um projeto com configuracoes realizadas, e

a disponibilizacao de relatorios com as rotinas executadas e parametros utilizados.

Page 69: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

67

REFERENCIAS

ADAMI, A. G. Modeling Prosodic Differences for Speaker and LanguageRecognition. Tese (Doutorado) — Oregon Health & Science University, 2004.

ALOTAIBI, Y. A.; HUSSAIN, A. Comparative analysis of arabic vowels using formantsand an automatic speech recognition system. International Journal of SignalProcessing, Image Processing and Pattern Recognition, v. 3, p. 11–22, 2010.

BARBOSA, L. M. J.; REIS, P. M. G. I. Processamento de Sinais em FoneticaForense. Brasılia, DF: Departamento da Polıcia Federal, 2012.

BEKE, A.; HORVARTH, V. Hidden markov model-based approach for nasalized vowelsrecognition in spontaneous speech. In: Proceedings of the 18th InternationalCongress of Phonetic Sciences. Glasgow,UK: ICPhS 2015, 2015.

BISHOP, C. M. Neural Networks for Pattern Recognition. New York: OxfordUniversity Press, 1995.

BOERSMA, P. Accurate short-term analysis of the fundamental frequency and theharmonics-to-noise ratio of a sampled sound. IFA Proceedings, v. 17, 1993.

BOERSMA, P.; WEENINK, D. PRAAT, doing phonetics by computer (Version5.4.08). 2015. Disponıvel em: <http://www.praat.org/>.

BRAID, A. C. M. Fonetica Forense. 2. ed. Campinas, SP: Editora Millenium, 2003.(Tratado de Perıcias Criminalısticas).

BRASIL. Decreto lei no 2.848 (Codigo Penal), de 7 de dezembro de 1940. DiarioOficial da Republica Federativa do Brasil, Rio de Janeiro, RJ, 1940.

BRASIL. Decreto lei no 3.689 (Codigo de Processo Penal), de 3 de outubro de 1941.Diario Oficial da Republica Federativa do Brasil, Rio de Janeiro, RJ, 1941.

BRASIL. Lei no 9.296 (Lei das Interceptacoes Telefonicas), de 24 de julho de 1996.Diario Oficial da Republica Federativa do Brasil, Brasılia, DF, 1996.

Page 70: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

68

BRASIL. Lei no 11.690 (Alteracoes do Codigo de Processo Penal relativos a prova),de 9 de junho de 2008. Diario Oficial da Republica Federativa do Brasil, Brasılia,DF, 2008.

CAMPBELL JR, J. Speaker recognition: A tutorial. Proceedings of the IEEE, v. 85,n. 9, p. 1437–1462, 1997.

CNJ. Resolucao no 59, de 9 de setembro de 2008. Conselho Nacional de Justica,Brasılia, DF, 2008.

CNJ. Resolucao no 84, de 6 de julho de 2009. Conselho Nacional de Justica,Brasılia, DF, 2009.

COLLOMB, C. Burg’s Method, Algorithm and Recursion. 2009. Disponıvel em:<http://ccollomb.free.fr/>.

CRISTOFARO-SILVA, T. Dicionario de Fonetica e Fonologia. Sao Paulo, SP: EditoraContexto, 2011.

CRISTOFARO-SILVA, T.; YEHIA, H. C. Sonoridade em Artes, Saude eTecnologia. Belo Horizonte, MG, 2009. Acesso em: 20 ago. 2015. Disponıvel em:<http://fonologia.org>.

DEEKSHITHA, G.; LEENA, M. Broad phoneme classification using signal basedfeatures. International Journal on Soft Computing, v. 5, 2014.

DELLER, J. R.; HANSEN, J. H. L.; PROAKIS, J. G. Discrete-Time Processing ofSpeech Signals. Piscataway, NJ: Wiley-IEEE Press, 2000.

DRESCH, A. A. G.; VIERA NETO, H.; LAZZARETTI, A. E.; FARIA, R. A. Metodo paraanalise acustica e reconhecimento de vogais em exames de comparacao de locutores.In: Proceedings of the Ninth International Conference on Forensic ComputerScience. Brasılia, DF: ICoFCS, 2015.

DRYGAJLO, A. Automatic speaker recognition for forensic case assessment andinterpretation. In: Law Enforcement and Counter-Terrorism. New York: Springer,2012. cap. 2, p. 21–39.

Page 71: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

69

ENASP. Relatorio Nacional da Execucao da Meta 2: um diagnostico dainvestigacao de homicıdios no paıs. Brasılia, DF, 2012.

ENGELBERT, A. P. P. F. Fonetica e Fonologia da Lıngua Portuguesa. Curitiba:IBPEX, 2011.

ESCUDERO, P.; BOERSMA, P.; RAUBER, A. S.; BION, R. A. H. A cross-dialectacoustic description of vowels: Brazilian and European Portuguese. Journal of theAcoustical Society of America, v. 126, p. 1379–1393, 2009.

ETSI. 3GPP TS 26.071, Mandatory speech codec speech processing functions;AMR speech codec; General description. 1999–2014. Disponıvel em:<http://www.3gpp.org/ftp/Specs/html-info/26071.htm>.

ETSI. 3GPP TS 26.090, Mandatory speech codec speech processing functions;AMR speech codec; Transcoding functions. 1999–2014. Disponıvel em:<http://www.3gpp.org/ftp/Specs/html-info/26090.htm>.

FANT, G. Acoustic Theory of Speech Production. The Hague: Mouton, 1960.

FED-STD-1037C. Telecommunications: Glossary of Telecommunications Terms.1996.

FFMPEG. (FFMPEG version N-74286-ge5774f2). 2015. Acesso em: 17 ago. 2015.Disponıvel em: <https://www.ffmpeg.org/>.

FURUI, S. 50 years of progress in speech and speaker recognition research. ECTITransactions on computer and Information technology, v. 1, p. 64–74, 2005.

GOLD, E.; FRENCH, P. International practices in forensic speaker comparison. TheInternational Journal of Speech, Language and the Law, v. 18, p. 293–307, 2011.

GOMES, M. L. C. An acoustic description of vowels Brazilian Portuguese in normaland disguised voice. In: IAFPA 2013 Annual Conference. Tampa, FL: IAFPA, 2013.

GOMES, M. L. C.; CARNEIRO, D. O. A fonetica no Brasil: cenarios e atores. Languageand Law / Linguagem e Direito, v. 1.1, p. 22–36, 2014.

Page 72: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

70

GOMES, M. L. C.; RICHERT, L.; MALAKOSKI, J. Identificacao de locutor na areaforense: a importancia da pesquisa interdisciplinar. In: Anais do X Encontro doCELSUL. Cascavel, PR: CELSUL, 2012.

GONCALVES, C. S.; BRESCANCINI, C. R. Consideracoes sobre o papel dasociofonetica na comparacao forense de locutores. Language and Law / Linguageme Direito, v. 1.2, p. 67–87, 2014.

GONCALVES, C. S.; PETRY, T. Comparacao forense de locutor no ambito da perıciaoficial dos estados. In: REHDER, M. I. B. C.; CAZUMBA, L. A. F.; CAZUMBA, M. (Ed.).Identificacao de Falantes: uma introducao a fonoaudiologia forense. Sao Paulo,SP: Revinter, 2015. cap. 15.

GOPI, E. S. Digital Speech Processing Using Matlab. New Delhi: Springer, 2014.

GRECO, L. G. Perıcias em registros audiovisuais em fonetica forense. In: VELHO,J. A.; GEISER, G. C.; ESPINDULA, A. (Ed.). Ciencias Forenses: uma introducao asprincipais areas da criminalıstica moderna. 2. ed. Campinas, SP: Editora Millenium,2013. cap. 18, p. 359–369.

HERACLEOUS, P.; ABOUTABIT, N.; BEAUTEMPS, D. Hmm-based vowel andconsonant automatic recognition in cued speech for french. VECIMS99, 2009.

HOLMES, J.; HOLMES, W. Speech Synthesis and Recognition. New York, NY:Taylor & Francis, 2001.

IPA. The International Phonetic Alphabet. 2005. Acesso em: 20 ago. 2015.Disponıvel em: <https://www.internationalphoneticassociation.org/>.

ITU-T. G.711: Pulse code modulation (PCM) of voice frequencies. 1988.

KENT, R. D.; READ, C. Acoustic Analysis of Speech. 2nd. ed. Clifton Park, NY:Delmar Cengage Learning, 2002.

KINNUNEN, T.; LI, H. An overview of text-independent speaker recognition: fromfeatures to supervectors. Speech Communication, v. 52, p. 12–40, 2010.

LADEFOGED, P.; JOHNSON, K. A Course in Phonetics. 6th. ed. Boston, MA:Wadsworth, 2010.

Page 73: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

71

MCLOUGHLIN, I. Applied Speech and Audio Processing. Cambridge, UK:Cambridge University Press, 2009.

MIQUILUSSI, P. A.; KOSLOVSKI, M. E.; CARNEIRO, D. O. Fonoaudiologia:Contribuicoes nos estudos forenses de comparacao de locutores. Language and Law/ Linguagem e Direito, v. 1.2, p. 88–99, 2014.

MORISSON, A. L. C. Verificacao de locutor: a identificacao humana pela voz. RevistaPerıcia Federal, n. 16, 2003.

MORISSON, A. L. C.; RIBEIRO, J. F.; SAMPAIO, J. F. Exames periciais em foneticaforense. In: TOCCHETTO, D.; ESPINDULA, A. (Ed.). Criminalıstica: Procedimentose Metodologias. 2. ed. Porto Alegre, RS: [s.n.], 2009. cap. XII, p. 275–306.

MORRISON, G. S.; SAHITO, F. H.; JARDINE, G.; DJOKIC, D.; CLAVET, S.; BERGHS,S.; GOEMANS, D. C. Interpol survey of the use of speaker identification by lawenforcement agencies. Poster. 2015. Disponıvel em: <http://geoff-morrison.net/>.

PRADHAN, G.; PRASANNA, S. R. M. Speaker verification by vowel and nonvowel likesegmentation. IEEE Transactions on Audio Speech and Language Processing,v. 21, p. 854–867, 2013.

RABINER, L. R.; SCHAFER, R. W. Theory and Applications of Digital SpeechProcessing. Uppler Saddle River, NJ: Pearson, 2011.

RASO, T.; MELLO, H. C-ORAL BRASIL I - Corpus de Referencia do PortuguesBrasileiro Falado Informal. Belo Horizonte, MG: Editora UFMG, 2012.

REYNOLDS, D. A. An overview of automatic speaker recognition technology. In:Procedings of the IEEE International Conference in Acoustics, Speech andSignal Process. Orlando: ICASSSP, 2002.

RUSSO, I.; BEHLAU, M. Percepcao da Fala: Analise Acustica do PortuguesBrasileiro. Sao Paulo, SP: Editora Lovise, 1993.

SCHRAMM, M. C.; FREITAS, L. F. R.; ZANUZ, A.; BARONE, D. A Brazilian Portugueselanguage corpus development. In: International Conference on Spoken LanguageProcessing 2000. Beijing: ISCA, 2000.

Page 74: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

72

SENASP. Diagnostico da Perıcia Criminal no Brasil. Brasılia, DF, 2012.

SHIMAMURA, T.; KOBAYASHI, H. Weighted autocorrelation for pitch extraction of noisyspeech. IEEE Transactions on Speech and Audio Processing, v. 9, p. 727–730,2001.

SOX. SoX - Sound Exchange, the Swiss Army knife of sound processingprograms (SoX v14.4.2). 2015. Acesso em: 17 ago. 2015. Disponıvel em:<http://sox.sourceforge.net/>.

VARGAS, J. D.; BLAVATSKY, I.; RIBEIRO, L. M. L. Metodologia de Tratamento doTempo e da Morosidade Processual na Justica Criminal. Brasılia, DF, 2006.

VRUBEL, A.; BRONDANI, A.; SILVA, M.; GROCHOCKI, L. Modelo matematico paraa gestao de recursos humanos baseados em controles estatısticos de demanda eprodutividade. In: Anais do VI Congresso CONSAD de Gestao Publica. Brasılia,DF: CONSAD, 2013.

Page 75: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

73

APENDICE A - CODIGO DOS PROGRAMAS GERADOS NO PRAAT

A.1 ROTINA PARA CALCULO E GERACAO DE TABELAS COM VALORES DE STE,ZCR, F0 E TRILHAS DE F1,2,3 E BW1,2,3

1 # Rotina para gerar tabelas com valores de F0, STE, ZCR, formantes

2 # e bandas (F1 ate F5 se disponivel), sendo 3 trilhas de formantes

3 # para as referencias especificadas.

4 # Rodados para arquivos presentes no diretorio selecionado (*.wav ou ...

*.mp3)

5

6 select all

7 if numberOfSelected () > 0

8 Remove

9 endif

10

11 #Formulario para entrada conferencia dos parametros

12 form Parametros para Calculo de F0 e de Formantes

13 integer F0_Time_Step_(s) 0 (=auto)

14 positive F0_Floor_(Hz) 40

15 positive F0_Ceil_(Hz) 600

16 positive F0_Max_Candidates 15

17 optionmenu F0_Window: 2

18 option Hanning

19 option Gaussian

20 integer Formant_Time_Step_(s) 0 (=auto)

21 positive Formant_Max_candidates 5

22 positive Formant_Max_(Hz) 5500 (= mulher adulta)

23 positive Formant_WindowLength_(ms) 25

24 positive Formant_PreEmphasis_(Hz) 50

25 positive Formant_Track_Number 5

26 boolean Sinal_original 1

27 boolean Canal_telefonico 1 #2

28 boolean Codec_mp3 1 #3,4

29 boolean Codec_amrnb 1 #5,6

30 boolean Codec_gsm 1 #7

31 boolean Ruido_branco 1 #8,9

32 boolean Ruido_pink 1 #10,11

Page 76: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

74

33 boolean Ruido_marrom 1 #12,13

34 endform

35

36 f1_ref1 = 550

37 f1_ref2 = 320 #(= anterior alta)

38 f1_ref3= 420 #(= posterior alta)

39 f2_ref1= 1650

40 f2_ref2 =2200 #(= anterior alta)

41 f2_ref3= 850 #(= posterior alta)

42 f3_ref= 2750

43 f4_ref = 3850

44 f5_ref = 4950

45 formant_BW_cost = 1

46 formant_Frequency_cost = 1

47 formant_Transition_cost = 1

48 f0_Silence_threshold = 0.03

49 f0_Voice_threshold = 0.45

50 f0_Octave_Cost = 0.01

51 f0_Octave_Jump_Cost = 0.35

52 f0_VUV_Cost = 0.14

53

54 dir$ = "C:\Andrea\PROJETO\_AMOSTRAS\teste"

55 Create Strings as file list: "fileList", "'dir$'\*.wav"

56 nS = Get number of strings

57 hora1$ = mid$(date$(),rindex(date$(), ":")-5,8)

58 nl$ = newline$

59

60 for j from 1 to nS

61 selectObject: "Strings fileList"

62 file$ = Get string: j

63 name$ = file$ - ".wav"

64 if rindex(name$,"_") > 1

65 name$ = left$(name$, rindex(name$,"_")-1)

66 endif

67 name$ = name$ - "_orig"

68 #Etapa de pre-processamento

69 Read from file: "'dir$'\'file$'"

70 Convert to mono

71 Resample: 8000, 50

72 Subtract mean

73 Scale peak... 0.99

74 Rename... 'name$'

75 Save as WAV file... 'dir$'\'name$'.wav

Page 77: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

75

76 select all

77 minusObject: "Strings fileList"

78 Remove

79 file$ = name$ + ".wav"

80 log$ = "'dir$'\log_'name$'.txt"

81 data$ = mid$(date$(),5,7) + right$(date$(), 4)

82 f0_ts = (0.75/ f0_Floor) * 1000

83 f_ts = 0.25 * formant_WindowLength

84 fileappend 'log$' 'data$''nl$' 'dir$' 'nl$'Versao do Praat: ...

'praatVersion' 'nl$' Arquivo: 'file$' 'nl$'Parametros: 'nl$'F0: ...

'f0_Floor' a 'f0_Ceil' (Hz); Time Step = 'f0_ts' ms ...

'nl$'Formantes: max = 'formant_Max' Hz; Window Length = ...

'formant_WindowLength' ms; Time Step = 'f_ts' ms; Pre Emphasis ...

= 'formant_PreEmphasis' Hz 'nl$'

85 for m to 13

86 gTab = 0

87 cmd1$ = ""

88 cmd2$ = ""

89 cmd3$ = ""

90 msg$ = ""

91 if m == 1 && sinal_original == 1

92 n2$ = name$

93 file$ = n2$ + ".wav"

94 msg$ = "pre processado ..."

95 cmd1$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

96 gTab = 1

97 elsif m == 2 && canal_telefonico == 1

98 n2$ = name$ + "_ctel"

99 file$ = n2$ + ".wav"

100 msg$ = "(FPF 300-3400, A-law, 8000Hz)..."

101 cmd1$ = "sox 'dir$'\'name$'.wav -e a-law -r 8000 'dir$'\'n2$'.wav

102 ... bandpass 300 3400 >> 'dir$'\logsox.txt"

103 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

104 gTab = 1

105 elsif m == 3 && codec_mp3 == 1

106 n2$ = name$ + "_cmp1"

107 file$ = n2$ + ".mp3"

108 msg$ = "(MP3, 24 kbps, 8000Hz)..."

109 cmd1$ = "sox 'dir$'\'name$'.wav -r 8k -C 24 'dir$'\'n2$'.mp3 ...

>> 'dir$'\logsox.txt"

110 cmd2$ = "sox --i 'dir$'\'n2$'.mp3 >> 'dir$'\logsox.txt"

111 gTab = 1

112 elsif m == 4 && codec_mp3 == 1

Page 78: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

76

113 n2$ = name$ + "_cmp2"

114 file$ = n2$ + ".mp3"

115 msg$ = "(MP3, 48 kbps, 8000Hz)..."

116 cmd1$ = "sox 'dir$'\'name$'.wav -r 8k -C 48 'dir$'\'n2$'.mp3 ...

>> 'dir$'\logsox.txt"

117 cmd2$ = "sox --i 'dir$'\'n2$'.mp3 >> 'dir$'\logsox.txt"

118 gTab = 1

119 elsif m == 5 && codec_amrnb == 1

120 n2$ = name$ + "_codec_cam1"

121 file$ = n2$ + ".wav"

122 msg$ = "(formato Amr-nb, 4.75kbps, 8000Hz)... "

123 cmd1$ = "ffmpeg -i 'dir$'\'name$'.wav -acodec ...

libopencore_amrnb -ac 1 -ar 8k -ab 4750 'dir$'\'n2$'.amr ...

2>> 'dir$'\logffmpeg.txt"

124 cmd2$ = "ffmpeg -i 'dir$'\'n2$'.amr 'dir$'\'n2$'.wav 2>> ...

'dir$'\logffmpeg.txt"

125 gTab = 1

126 elsif m == 6 && codec_amrnb == 1

127 n2$ = name$ + "_codec_cam2"

128 file$ = n2$ + ".wav"

129 msg$ = "(formato Amr-nb, 12.2kbps, 8000Hz)..."

130 cmd1$ = "ffmpeg -i 'dir$'\'name$'.wav -acodec ...

libopencore_amrnb -ac 1 -ar 8k -ab 12200 'dir$'\'n2$'.amr ...

2>> 'dir$'\logffmpeg.txt"

131 cmd2$ = "ffmpeg -i 'dir$'\'n2$'.amr 'dir$'\'n2$'.wav 2>> ...

'dir$'\logffmpeg.txt"

132 gTab = 1

133 elsif m == 7 && codec_gsm == 1

134 n2$ = name$ + "_codec_cgsm"

135 file$ = n2$ + ".wav"

136 msg$ = "(formato Gsm)..."

137 cmd1$ = "sox 'dir$'\'name$'.wav -r 8000 'dir$'\'n2$'.gsm >> ...

'dir$'\logsox.txt"

138 cmd2$ = "sox 'dir$'\'n2$'.gsm -e unsigned-integer ...

'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

139 cmd3$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

140 gTab = 1

141 elsif m == 8 && ruido_branco == 1

142 n2$ = name$ + "_nw02"

143 file$ = n2$ + ".wav"

144 msg$ = "(Ruido branco, 20%)..."

145 cmd1$ = "sox 'dir$'\'name$'.wav -p synth whitenoise vol 0.2 | ...

sox --norm=-6 -m 'dir$'\'name$'.wav - -r 8000 ...

Page 79: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

77

'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

146 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

147 gTab = 1

148 elsif m == 9 && ruido_branco == 1

149 n2$ = name$ + "_nw04"

150 file$ = n2$ + ".wav"

151 msg$ = "(Ruido branco, 40%)..."

152 cmd1$ = "sox 'dir$'\'name$'.wav -p synth whitenoise vol 0.4 | ...

sox --norm=-6 -m 'dir$'\'name$'.wav - -r 8000 ...

'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

153 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

154 gTab = 1

155 elsif m == 10 && ruido_pink == 1

156 n2$ = name$ + "_np02"

157 file$ = n2$ + ".wav"

158 msg$ = "(Ruido pink, 20%)..."

159 cmd1$ = "sox 'dir$'\'name$'.wav -p synth pinknoise vol 0.2 | ...

sox --norm=-6 -m 'dir$'\'name$'.wav - -r 8000 ...

'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

160 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

161 gTab = 1

162 elsif m == 11 && ruido_pink == 1

163 n2$ = name$ + "_np04"

164 file$ = n2$ + ".wav"

165 msg$ = "(Ruido pink, 40%)..."

166 cmd1$ = "sox 'dir$'\'name$'.wav -p synth pinknoise vol 0.4 | ...

sox --norm=-6 -m 'dir$'\'name$'.wav - -r 8000 ...

'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

167 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

168 gTab = 1

169 elsif m == 12 && ruido_marrom == 1

170 n2$ = name$ + "_nb02"

171 file$ = n2$ + ".wav"

172 msg$ = "(Ruido marrom, 20%)..."

173 cmd1$ = "sox 'dir$'\'name$'.wav -p synth brownnoise vol 0.2 | ...

sox --norm=-6 -m 'dir$'\'name$'.wav - -r 8000 ...

'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

174 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

175 gTab = 1

176 elsif m == 13 && ruido_marrom == 1

177 n2$ = name$ + "_nb04"

178 file$ = n2$ + ".wav"

179 msg$ = "(Ruido marrom, 40%)..."

Page 80: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

78

180 cmd1$ = "sox 'dir$'\'name$'.wav -p synth brownnoise vol 0.4 | ...

sox --norm=-6 -m 'dir$'\'name$'.wav - -r 8000 ...

'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

181 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"

182 gTab = 1

183 endif

184

185 if gTab == 1

186 gTab = 0

187 fileappend 'log$' 'nl$' ...

******************************************************* 'nl$'

188 hora$ = mid$(date$(),rindex(date$(), ":")-5,8)

189 fileappend 'log$' 'nl$' Hora inicio: 'hora$' 'nl$' ...

'nl$'Convertendo arquivo original para 'n2$' 'msg$' 'nl$'

190 if cmd1$ <> ""

191 fileappend 'log$' 'nl$' 'cmd1$''nl$'

192 runSystem: cmd1$

193 endif

194 if cmd2$ <> ""

195 fileappend 'log$' 'nl$' 'cmd2$''nl$'

196 runSystem: cmd2$

197 endif

198 if cmd3$ <> ""

199 fileappend 'log$' 'nl$' 'cmd3$''nl$'

200 runSystem: cmd3$

201 endif

202 fileappend 'log$' 'nl$'Gerando tabelas para 'n2$'...

203 call measures 'dir$' 'file$' 'n2$' 'log$' f0_Time_Step f0_Floor

204 ... f0_Max_Candidates f0_Window f0_Silence_threshold

205 ... f0_Voice_threshold f0_Octave_Cost f0_Octave_Jump_Cost

206 ... f0_VUV_Cost f0_Ceil formant_Time_Step

207 ... formant_Max_candidates formant_Max formant_WindowLength

208 ... formant_PreEmphasis formant_Track_Number f1_ref1 f2_ref1

209 ... f3_ref f4_ref f5_ref f1_ref2 f2_ref2 f1_ref3 f2_ref3

210 ... formant_BW_cost formant_Frequency_cost ...

formant_Transition_cost

211 hora$ = mid$(date$(),rindex(date$(), ":")-5,8)

212 fileappend 'log$' 'nl$' Hora final: 'hora$'

213 fileappend 'log$' 'nl$' ...

******************************************************* 'nl$'

214 endif

215 endfor

216 select all

Page 81: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

79

217 minusObject: "Strings fileList"

218 if numberOfSelected () > 0

219 Remove

220 endif

221 endfor

222 select all

223 Remove

224 writeInfoLine: "Fim! Processados 'nS' arquivos entre 'hora1$' e 'hora$'"

225

226 procedure measures dir$ file$ n2$ log$ f0_Time_Step

227 ... f0_Floor f0_Max_Candidates f0_Window f0_Silence_threshold

228 ... f0_Voice_threshold f0_Octave_Cost f0_Octave_Jump_Cost

229 ... f0_VUV_Cost f0_Ceil formant_Time_Step formant_Max_candidates

230 ... formant_Max formant_WindowLength formant_PreEmphasis

231 ... formant_Track_Number f1_ref1 f2_ref1 f3_ref f4_ref f5_ref

232 ... f1_ref2 f2_ref2 f1_ref3 f2_ref3

233 ... formant_BW_cost formant_Frequency_cost formant_Transition_cost

234 Read from file: "'dir$'\'file$'"

235 selectObject: "Sound 'n2$'"

236 Rename: "Sound"

237 fileappend 'log$' 'nl$' Tabela de F0...

238 call measureF0 'log$' 'dir$' 'n2$' f0_Time_Step f0_Floor

239 ... f0_Max_Candidates f0_Window f0_Silence_threshold

240 ... f0_Voice_threshold f0_Octave_Cost f0_Octave_Jump_Cost

241 ... f0_VUV_Cost f0_Ceil

242 if measureF0.a > 0

243 fileappend 'log$' 'nl$' Tabela de ZCR (zero crossing rate)...

244 call measureZCR 'dir$' 'n2$'

245 fileappend 'log$' 'nl$' Tabela de Formantes...

246 call measureFormant 'log$' 'dir$' 'n2$'

247 ... formant_Time_Step formant_Max_candidates formant_Max

248 ... (formant_WindowLength/1000) formant_PreEmphasis

249 selectObject: "Formant Formant"

250 f_nTracks = Get minimum number of formants

251 if f_nTracks > 0

252 fileappend 'log$' 'nl$' Trilha 1 (550 1650 2750 3850 4950)...

253 call measureFormantTrack "1" 'log$' 'dir$' 'n2$'

254 ... formant_Track_Number f1_ref1 f2_ref1 f3_ref f4_ref f5_ref

255 ... formant_BW_cost formant_Frequency_cost ...

formant_Transition_cost

256 fileappend 'log$' 'nl$' Trilha 2 (320 850 2750 3850 4950)...

257 call measureFormantTrack "2" 'log$' 'dir$' 'n2$'

258 ... formant_Track_Number f1_ref2 f2_ref2 f3_ref f4_ref f5_ref

Page 82: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

80

259 ... formant_BW_cost formant_Frequency_cost ...

formant_Transition_cost

260 fileappend 'log$' 'nl$' Trilha 3 (420 2200 2750 3850 4950)...

261 call measureFormantTrack "3" 'log$' 'dir$' 'n2$'

262 ... formant_Track_Number f1_ref3 f2_ref3 f3_ref f4_ref f5_ref

263 ... formant_BW_cost formant_Frequency_cost ...

formant_Transition_cost

264 for x to 3

265 selectObject: "Table Formant"

266 for y to 3

267 colunas = Get number of columns

268 Insert column... (colunas+1) Tr'x'_F'y'

269 Insert column... (colunas+2) Tr'x'_BW'y'

270 coluna = y*2-1

271 coluna2 = y*2

272 Formula... Tr'x'_F'y' Table_FormantTrack'x'[row,'coluna']

273 Formula... Tr'x'_BW'y' Table_FormantTrack'x'[row,'coluna2']

274 endfor

275 selectObject: "Table FormantTrack'x'"

276 Remove

277 endfor

278 endif

279 selectObject: "Formant Formant"

280 Remove

281 selectObject: "Table Formant"

282 Insert column... 4 zcr

283 Formula... zcr Table_zcr[row,1]

284 nC = Get number of columns

285 for i from 6 to nC

286 label$ = Get column label... i

287 Formula... 'label$' if self=undefined then 0 else self endif

288 endfor

289 Save as tab-separated file: "'dir$'\'n2$'_PraatForm"

290 plusObject: "Table zcr"

291 Remove

292 else

293 fileappend 'log$' 'nl$' Nao foi possivel gerar tabelas de F0 e ...

de Formantes para essa opcao!

294 endif

295 selectObject: "Sound Sound"

296 Remove

297 endproc

298

Page 83: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

81

299 procedure measureF0 l$ d$ n$ f0_ts f0_f f0_mx f0_w f0_s_th f0_v_th ...

f0_oc_c f0_oj_c f0_vuv_c f0_c

300 fo_accur$ = "yes"

301 if f0_w = 1

302 f0_accur$ = "no"

303 endif

304 To Pitch (ac): f0_ts,f0_f, f0_mx, fo_accur$,

305 ... f0_s_th, f0_v_th, f0_oc_c, f0_oj_c, f0_vuv_c, f0_c

306 Rename: "F0_Tier"

307 Down to PitchTier

308 .a = Get number of points

309 if .a > 0

310 Down to TableOfReal: "Hertz"

311 To Table: "rowLabel"

312 Remove column: "rowLabel"

313 Save as tab-separated file: "'d$'\'n$'_PraatF0"

314 selectObject: "TableOfReal F0_Tier"

315 plusObject: "Table F0_Tier"

316 Remove

317 endif

318 selectObject: "PitchTier F0_Tier"

319 plusObject: "Pitch F0_Tier"

320 Remove

321 endproc

322

323 procedure measureFormant l$ d$ n$ f_ts f_max_cand f_max f_wl f_pre

324 selectObject: "Sound Sound"

325 To Formant (burg): f_ts, f_max_cand, f_max, f_wl, f_pre

326 Rename: "Formant"

327 Down to Table: "yes", "yes",8, "yes",3, "yes",3,"yes"

328 endproc

329

330 procedure measureFormantTrack i$ l$ d$ n$ f_nTr f1_ref f2_ref f3_ref ...

f4_ref f5_ref bw_cost fr_cost ft_tr_cost

331 selectObject: "Formant Formant"

332 f_nTr1 = Get minimum number of formants

333 if f_nTr1 > f_nTr

334 f_nTr1 = f_nTr

335 endif

336 Track: f_nTr1,f1_ref, f2_ref, f3_ref, f4_ref, f5_ref, bw_cost, ...

fr_cost, ft_tr_cost

337 Rename: "FormantTrack'i$'"

338 Down to Table: "no", "no",8, "no",3, "no",3,"yes"

Page 84: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

82

339 selectObject: "Formant FormantTrack'i$'"

340 Remove

341 endproc

342

343 procedure measureZCR d$ n$

344 selectObject: "Sound Sound"

345 fs = Get sampling frequency

346 w = 25/1000

347 nCol = Get number of samples

348 # multiplicando por 4 para ter overlap de 75%

349 nFrames = round (nCol*4/(fs*w))

350 Create Table with column names: "zcr", nFrames, "zc"

351 for k to nFrames

352 ini = ((k-1)*w/4)

353 fim = ini+w

354 selectObject: "Sound Sound"

355 Extract part: ini, fim, "Gaussian1", 1, "yes"

356 Rename... part

357 Down to Matrix

358 # valor 1 nas amostras em que houve passagem por zero

359 Formula: "if self ≥0 then 1 else -1 endif"

360 #diff do resultado

361 Formula: "round(abs(self [row, col] - self [row, col+1])/2)"

362 x = Get sum

363 plusObject: "Sound part"

364 Remove

365 selectObject: "Table zcr"

366 Set numeric value... k "zc" x

367 endfor

368 endproc

A.2 ROTINA PARA CRIACAO DE TEXTGRIDS COM VALORES DE TRECHOS

1 #praat_table to textgrid versao 25/10/2015

2 #carrega os arquivos de audio e tabelas com resultados de F0, F1 e f2

3 # (gerada no Matlab) e salva TextGrids com delimitacoes das regioes

4 # vocalicas encontradas. Em seguida gera graficos LTAS, comparando as

5 # regioes vocalicas e nao vocalicas com a duracao total do audio.

6 # Graficos gerados em tabelas 4x3, para cada grupo e tipo de degradacao.

7

8 grupo$[1] = "UTFPR_GC"

Page 85: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

83

9 grupo$[2] = "UTFPR_GG"

10 grupo$[3] = "UTFPR_GH"

11 grupo$[4] = "UTFPR_GM"

12 grupo$[5] = "UTFPR_GR"

13 grupo$[6] = "SPOLTECH_H"

14 grupo$[7] = "SPOLTECH_M"

15 grupo$[8] = "CORAL_H"

16 grupo$[9] = "CORAL_M"

17 dirn$ = "C:\Andrea\MESTRADO\_AMOSTRAS\"

18 deg$ = "ream"

19 dBinf = -20

20 for g from 1 to 7

21 x$ = grupo$[g]

22 Create Strings as file list: "'x$'_fileList", ...

"'dirn$'TABELAS_2\'x$'\*'deg$'.Table"

23 nString = Get number of strings

24 Erase all

25 Solid line

26 for nS from 1 to nString

27 selectObject: "Strings 'x$'_fileList"

28 name$ = Get string: nS

29 name$ = name$ - ".Table"

30 Read from file: "'dirn$'AUDIO\'x$'\'name$'.wav"

31 Read Table from comma-separated file: ...

"'dirn$'TABELAS_2\'x$'\'name$'.Table"

32 select Table 'name$'

33 r = Get number of rows

34 c = Get number of columns

35 select Sound 'name$'

36 To TextGrid: "F0 F1 F2", ""

37 for linha from 1 to r

38 select Table 'name$'

39 start = Get value... linha i

40 stop = Get value... linha f

41 middle = (start + stop)/2

42 for col from 2 to 4

43 select Table 'name$'

44 coluna$ = Get column label... col

45 f$ = Get value... linha 'coluna$'

46 select TextGrid 'name$'

47 Insert boundary... (col-1) start

48 Insert boundary... (col-1) stop

49 n = Get interval at time... (col-1) middle

Page 86: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

84

50 Set interval text... (col-1) n 'f$'

51 endfor

52 endfor

53 select TextGrid 'name$'

54 Save as text file: "'dirn$'TABELAS_2\'x$'\'name$'.TextGrid"

55 plusObject: "Sound 'name$'"

56 Extract non-empty intervals: 1, "no"

57 Concatenate

58 Rename: "'name$'_v"

59 selectObject: "Sound 'name$'"

60 plusObject: "TextGrid 'name$'"

61 Extract intervals where: 1, "no", "is equal to", ""

62 Concatenate

63 Rename: "'name$'_nv"

64 select all

65 minusObject: "Strings 'x$'_fileList"

66 minusObject: "Sound 'name$'"

67 minusObject: "Sound 'name$'_v"

68 minusObject: "Sound 'name$'_nv"

69 Remove

70 selectObject: "Sound 'name$'"

71 plusObject: "Sound 'name$'_v"

72 plusObject: "Sound 'name$'_nv"

73 To Ltas: 20

74 x1 = ((nS - 1) mod 3)*4 + 0.5

75 x2 = x1 + 3.2

76 y1 = ((nS - 1) div 3)*3 + 0.5

77 y2 = y1 + 2.2

78 Select inner viewport: x1, x2, y1, y2

79 selectObject: "Ltas 'name$'"

80 Blue

81 Draw: 0, 4000, dBinf, (dBinf + 80), "yes", "Curve"

82 selectObject: "Ltas 'name$'_v"

83 Red

84 Draw: 0, 4000, dBinf, (dBinf + 80), "yes", "Curve"

85 selectObject: "Ltas 'name$'_nv"

86 Green

87 Draw: 0, 4000, dBinf, (dBinf + 80), "yes", "Curve"

88 Marks bottom: 9, "yes", "yes", "no"

89 Marks left: 9, "yes", "yes", "no"

90 Line width: 1.0

91 Font size... 10

92 Draw rectangle: 500, 1150, -11, 0

Page 87: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

85

93 Line width: 1

94 Blue

95 Text: 650, "Left", 0, "Top", deg$

96 Draw line: 530, -2.5, 640, -2.5

97 Red

98 Text: 650, "Left", -3, "Top", "'deg$' v"

99 Draw line: 530, -5.5, 640, -5.5

100 Green

101 Text: 650, "Left", -6, "Top", "'deg$' nv"

102 Draw line: 530, -8.5, 640, -8.5

103 Font size... 14

104 Paint rectangle: "white", 800, 3000, -30, -40

105 Paint rectangle: "white", -950, -450, -22, 62

106 Black

107 Text special: -350, "right", 63, "bottom", "Times", 14, "90", ...

"Nivel de pressao sonora (dB/Hz)"

108 Text special: 2000, "centre", dBinf-20, "bottom", "Times", 14, ...

"0", "Frequencia (Hz)"

109 Font size... 14

110 Text: 2500, "Left", 50, "Top", (name$ - "_'deg$'")

111 select all

112 minusObject: "Strings 'x$'_fileList"

113 Remove

114 endfor

115

116 Save as praat picture file: ...

"'dirn$'FIGURAS\IntraFalantes\'x$'\'x$'_'deg$'.prapic"

117 endfor

118 select all

119 Remove

120 Erase all

Page 88: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

86

APENDICE B - CODIGO DOS PROGRAMAS GERADOS NO MATLAB

B.1 FUNCAO PRINCIPAL

1 %Projeto para dissertacao de mestrado Versao: 12/10/2015

2 % UTFPR - Universidade Tecnologica Federal do Parana

3 % PPGEB - Programa de Pos-Graduacao em Engenharia Biomedica

4 % Orientador: Hugo Vieira Neto Co-orientador: Rubens Alexandre Faria

5 % Aluna: Andrea Alves Guimaraes Dresch

6 %-----------------------------------------------------------------------

7 clear;clc;c = fix(clock); close all;

8 disp('Projeto Reconhecimento automatico de vogais do PB');

9 tshd = [0.1 0.6 0.15 0.3 0.1 0.2];% STE(>sil) ZCR(<ruido) f0 f1a f1 f2

10 f0_floor = 40; % frequencia minima de medicao de fo

11 deg = ['_orig';'_ream';'_ctel';'_cgsm';'_cmp1';'_cmp2';'_cam1';...

12 '_cam2'; '_np02';'_np04';'_nb02';'_nb04';'_nw02';'_nw04'];

13 Y = true; N = false; trilhas = [Y N Y]; met = [Y Y]; sel= 2:13;

14

15 for rep1 = 3:3; %base 1-ut,2-sp,3;

16 for rep2=1:2;%gen 1-M/outro-H

17 [ref1,ref1a,ref2,lp1,lp2,sd,nm2,base,g]=a_nom(rep1,rep2);

18 %lp1 = 'C'; lp2 = 4; % para teste

19 for j = sel; arq = deg(j,:);

20 for nm = lp1; i=0; % rodando para cada grupo

21 figname = [num2str(c(1)) num2str(c(2),'%02d') ...

num2str(c(3),'%02d') '_' sd nm];

22 if(rel==1);h1= figure('Position',fpos,'Name',figname);end;

23 for nm1 = lp2; % rodando para cada informante

24 i=i+1; dirn = [pwd '\_AMOSTRAS\TABELAS\' sd nm '\'];

25 if base==1; name = [nm2 nm int2str(nm1) arq];

26 else name=[nm2 num2str(nm1,'%02d') lp1 arq]; end

27 sprintf('Importando tabelas geradas do para %s...', name)

28 [TFr2,TFreqAux,TFrTr] = a_tabelas(dirn, name,f0_floor);

29 %Metodo 1:

30 if met(1); [∼,∼,F1F2,F1F2_cent] = a_met1(...

31 [TFrTr(:,[1 3 2 4]) TFr2(:,[6 1 4 ...

])],0.05,0.1,ref1); end

32 %Metodo 2:

Page 89: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

87

33 if met(2) %obtendo valores para 5 e 7

34 M = true(size(TFr2,1),1);

35 [TFr2,m1,m2,m3,m3_cl,m3_cent, ...

36 m3_tr,m3_tr_cl,m3_tr_cent] ...

37 = a_met2(M,trilhas,TFr2,TFrTr,tshd,ref1,ref2);

38 [∼,∼,∼,∼,m3_cla,m3_centa,...39 m3_tra,m3_tr_cla,m3_tr_centa] = ...

40 a_met2(M,trilhas,TFr2,TFrTr,tshd,ref1a,ref2);

41 end

42 save([pwd '\_AMOSTRAS\RESULTADOS\' name])

43 end

44 end

45 end

46 end

47 end

1 function [R1,R1a,R2,lp1,lp2,sd,nm2,base,g] = a_nom(base, g)

2 %Funcao para formatacao de nome, de acordo com base e genero selecionado

3 %R1 = [[/i/];[/e/];[/eh/];[/a/];[/oh/];[/o/];[/u/]]; %F1 x F2

4 %R1a = 5pts

5 %R2 = [[0,0];[cons];[/i/];[/eh/];[/a/];[/oh/];[/u/]]; % F2+F1 x F2-F1

6 if base == 1; sd = 'UTFPR_G'; nm2 = 'G'; lp2 = 1:10;

7 if g==1; lp1(1:3)= ['C';'G';'M']; else lp1(1:2)= ['R';'H']; end;

8 elseif base ==2; sd = 'SPOLTECH_'; nm2='BR-000';

9 if g==1; lp1 = 'M'; lp2 = [5 8 10 11 13 14 17 19 20];

10 else lp1 = 'H'; lp2 = [1:4 6:7 9 12 15:16 18]; end;

11 elseif base ==3; sd = 'CORAL_'; nm2 = 'bfammn';

12 if g==1; lp1 ='M'; lp2 = [1 2 4 8]; else lp1='H'; lp2=[3 6]; end;

13 end

14 R1=[[300;400;600;850;650;400;350] [2200;2100;1900;1500;1000;850;900]];

15 R1a=zeros(5,2); R1a(2:4,:) = R1(3:5,:);

16 R1a(1,:)=mean(R1(1:2,:));R1a(5,:)= mean(R1(6:7,:));

17 R2 = [R1(:,2)+R1(:,1) R1(:,2)-R1(:,1)]; R2(3:6,:) = R2([1 3:5],:);

18 if g==1; R2(1:2,:) = [[0 0];[5000 2500]];

19 else R2(1:2,:) = [[0 0];[3000 2500]]; end;

20 end

B.2 FUNCAO PARA FORMATAR TABELAS GERADAS NO PRAAT

1 function [TFr2,TFrAux,TFrTr] = a_tabelas(dirn, name,f0_floor)

2 %Funcao para leitura das tabelas geradas no Praat e formatacao

Page 90: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

88

3 % Tabelas do Praat:

4 % Form: obs: jan formante = 25ms, TimeStep = 25% Jan = 6,25ms

5 % 1-frame 2-t(s) 3-int 4-zcr 5-nfmts

6 % 6-F1 7-BW1 8-F2 9-BW2 10-F3 11-BW3 12-F4 13-BW4 14-F5 15-BW5

7 % 16-Tr1_F1 17-Tr1_BW1 18-Tr1_F2 19-Tr1_BW2 20-Tr1_F3 21-Tr1_BW3

8 % 22-Tr2_F1 23-Tr2_BW1 24-Tr2_F2 25-Tr2_BW2 26-Tr2_F3 27-Tr2_BW3

9 % 28-Tr3_F1 29-Tr3_BW1 30-Tr3_F2 31-Tr3_BW2 32-Tr3_F3 33-Tr3_BW3

10 % F0: 1-t(s) 2-F0, obs: JanF0 = 3* TimeStepForm = 28,7ms

11 % Saida:

12 % TFr2: %1-frame 2-t(s) 3-int 4-zcr 5-nfmts 6-F0

13 %7-F1 8-BW1 9-F2 10-BW2 11-F3 12-BW3

14 % TFrAux: %1-F1 2-BW1 3-F2 4-BW2 5-F3 6-BW3 7-F4 8-BW4 9-F5 10-BW5

15 % TFrTr: %1-Tr1_F1 2-Tr1_BW1 3-Tr1_F2 4-Tr1_BW2 5-Tr1_F3 6-Tr1_BW3

16 %7-Tr2_F1 8-Tr2_BW1 9-Tr2_F2 10-Tr2_BW2 11-Tr2_F3 12-Tr2_BW3

17 %13-Tr3_F1 14-Tr3_BW1 15-Tr3_F2 16-Tr3_BW2 17-Tr3_F3 18-Tr3_BW3

18 F0Name = [dirn name '_PraatF0']; F0 = importdata (F0Name);

19 FormName = [dirn name '_PraatForm']; Form = importdata (FormName);

20 %Matrizes com formante (c/ col de F0) e aux com valores de track

21 TFr2 = zeros(size(Form.data,1),12);TFr2(:,1:5)= Form.data(:,1:5);%F1:3

22 TFrAux= zeros(size(Form.data,1),10);TFrAux(:,:)= Form.data(:,6:15);

23 TFrTr = zeros(size(Form.data,1),18);TFrTr(:,:) = Form.data(:,16:33);

24 %Vetor com expansao de F0 para o mesmo n. de frames dos formantes

25 Tp1 = floor(F0.data(:,1)/(0.75/f0_floor)); F0 = F0.data(:,2);

26 TFr2([3*Tp1-2 3*Tp1-1 3*Tp1],6)=[F0; F0; F0];

27 TFr2(:,4) = TFr2(:,4)/ max(TFr2(:,4) ); %Normalizacao de ZCR

28 end

B.3 FUNCOES PARA GERAR NUVEM DE PONTOS F1×F2 - METODO 1

1 function [F,F2,F2_cl2,F2_cent2] = a_met1( F,tshd_f1,tshd_f2,ref1)

2 %Calculo dos cl, conforme metodo descrito em [DRESCH et al,2015]

3 % Entrada:

4 % F: vetor [F1 F2 BW1 BW2 F0 n ZCR]

5 % Saida:

6 % F: pontos F1xF2 apenas para frames em que F0,F1,F2>0

7 % F2: pontos F1xF2 apos cluster inicial, lim. de BW e continuidade

8 % F2_cl2,F2_cent2: pontos F1xF2 apos cluster final, centroides

9 % F2_tr: valores dos trechos apos aplicar filtros

10 % F2_tr_cl2: pontos F1XF2 para trechos apos clusterizacao

11 % F2_tr_cent2: centroides dos trechos

12 sprintf('Gerando vetores de metodo de ref. [DRESCH et al,2015] ... ')

Page 91: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

89

13 F(∼(F(:,5)>0&F(:,2)>0&F(:,1)>0),:) = 0; F_cent = a_cent(F(:,[1 2]));

14 LimBW1 = mean(F((F(:,3)>0&F(:,1)>0),3)./F((F(:,1)>0&F(:,1)>0),1));

15 LimBW2 = mean(F((F(:,4)>0&F(:,2)>0),4)./F((F(:,2)>0&F(:,2)>0),2));

16 [F2,∼] = a_cent_kmeans(F,F_cent); F = F(:,1:2);

17 F2((F2(:,3)>(LimBW1.*F2(:,1)))| (F2(:,4)>(LimBW2.*F2(:,2))),1:6)= 0;

18 F2(:,1:2) = (a_met1_ct((F2(:,1:2))',tshd_f1,tshd_f2))';

19 F2(F2(:,1)≤0 | F2(:,2)≤0 | isnan(F2(:,1)) | isnan(F2(:,2)),:) = 0;

20 F2_cent = a_cent(F2(:,[1 2]));

21 [F2_cl2,F2_cent2,∼] = a_cent_kmeans(F2,F2_cent);

22 sprintf('F0 = %d, clustering inicial = %d, k-means = %d', ...

23 numel(F(:,1)>0),size(F2(F2(:,1)>0),1),size(F2_cl2(F2_cl2(:,1)>0),1))

24 sortrows(a_cent_ref(F2_cent2,ref1),3)

25 end

1 function [F2] = a_met1_ct( F,tshd_f1,tshd_f2)

2 %Funcao para continuidade de F1 e F2

3 F2 = zeros(size(F)); F2(:,:) = NaN;

4 for j=2:size(F,2)-2; teste = 0;

5 for i=1:size(F,1)

6 if ∼isnan(F(i,j))7 x=F(i,j); x1=abs(F(i,j)-F(i,j+1)); x2=abs(F(i,j)-F(i,j+2));

8 if x1>tshd_f1*x && x2>tshd_f2*x; teste = 1; end;

9 end

10 end

11 if teste ==0; F2(:,j)= F(:,j); end;

12 end

13 for j=2:size(F,2)-2

14 if isnan(F2(1,j-1)) && (isnan(F2(1,j+1)) || isnan(F2(1,j+2)));

15 F2(:,j)= NaN; end;

16 if size(F2,1)>10 && isnan(F2(2,j-1)) && (isnan(F2(2,j+1)) || ...

isnan(F2(2,j+2)));

17 F2(:,j)= NaN; end

18 end

19 end

1 function [ct] = a_cent (F)

2 %Funcao repete para formante com menos picos, caso o formante com ...

mais picos retorne vetor nulo

3 F = F(:,[1 2]); [ct,a] = a_cent2(F,0);

4 if isempty(ct); if a==1; a=2; else a=1; end; [ct,∼]=a_cent2(F,a); end

5 if isempty(ct); ct = []; end;

6 end

Page 92: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

90

1 function [ct,f1] = a_cent2(F,f1)

2 %chama funcao que analisa quantidade de picos em F1 e F2, utiliza o que

3 %tiver maior numero de picos como referencia e procura os picos do outro

4 %numero maximo de ctroide nao ultrapassara 10 (cluster limitado a %10)

5 [f1mx,f1mn] ...

=a_picos(F(F(:,1)>0,1));[f2mx,f2mn]=a_picos(F(F(:,2)>0,2));

6 N = size(F(F(:,1)>0,1,1),1); n=1; ct =zeros(20,2); fmn = [];

7 if (((length(f1mx)>length(f2mx))&&(∼f1)) || ...

((f1==1)&&(∼isempty(f1mx))) || (((f1 ==2) && (∼isempty(f1mx))) ...

&& (isempty(f2mx)))|| ((length(f1mx)==length(f2mx))&& ...

(∼isempty(f1mx))&& (∼f1)))8 if ∼isempty(f1mn); fmn = f1mn; end

9 fmx = f1mx; f1 = 1; f2 = 2;

10 elseif (((length(f2mx)>length(f1mx))&& (f1==0))|| ((f1==2 && ...

11 ∼isempty(f2mx)))||((f1==1&&(∼isempty(f2mx)))&&(isempty(f1mx))))12 if ∼isempty(f2mn); fmn = f2mn; end

13 fmx = f2mx; f1 = 2; f2 = 1;

14 else f1 = 0;

15 end

16 if f1>0

17 fmn = [0,fmn,max(F(:,f1))];

18 for i=1:length(fmn)-1

19 inf = fmn(i); sup = fmn(i+1); clear f2mx2 f2mn2

20 [fmx2,fmn2]= a_picos(F((F(:,f1)>inf)&(F(:,f1)<sup),f2));

21 if size(F(F(:,f1)≥inf & F(:,f1)<sup,f1),f1)>0.15*N && ...

22 ∼isempty(fmx2) &&length(fmx)≥i

23 m = n; m2 = 0; fmn2 = [0,fmn2,max(F(:,f2))];

24 for j=1:length(fmn2)-1

25 inf2 = fmn2(j); sup2 = fmn2(j+1);

26 m1 = size(F(F(:,f1)≥ inf & F(:,f1)<sup & ...

27 F(:,f2)≥ inf2 & F(:,f2)<sup2,f1),f1);

28 if m1> m2; m2 = j; end; %arm. maximo local com mais pts

29 if m1> 0.15*N;ct(n,1)=fmx(i);ct(n,2)=fmx2(j);n=n+1; end

30 end

31 if m==n;ct(n,1)=fmx(i);ct(n,2)=fmx2(m2);n=n+1; end

32 end

33 end

34 end

35 if n ≤1; ct = []; else ct = ct(1:n-1,:); end

36 end

Page 93: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

91

1 function [maximos,minimos,u] = a_picos(F)

2 %Para encontrar picos de frequencia

3 %F = vetor de entrada; xi =locais dos picos; u = banda

4 maximos = []; minimos = []; u = [];

5 if ∼isempty(F);6 [f,xi,u]= ksdensity(F);

7 f1 = [0,sign(diff(sign(diff(f/max(f))))),0]; f1 (f<0.01*max(f))=0;

8 maximos = xi(f1==-1); minimos = xi(f1==1);

9 end

10 end

1 function [F1,F_kmeans,y1] = a_cent_kmeans(F,F_cent)

2 %calcula os centros k-means a partir dos valores de inicializacao

3 %calculados pelas distribuicao de F1 e F2

4 if ∼isempty(F_cent)5 y = F(F(:,1)>0&F(:,2)>0,:);tam = size(F_cent,1);

6 [y1,y2] = kmeans(y(:,1:2),tam,'start',F_cent,'emptyaction','drop');

7 d = hist(y1(y1>0),max(y1)); x = find(d<ceil(0.1* (size(y,1))));

8 if ∼isempty(x);for i=1:size(x);y1(y1==x(i))=0;y2(x(i),:)=0;end;end

9 if ∼isempty(y1(y1>0)); F1 = y(y1>0,:);

10 F_kmeans(:,:)= y2(y2(:,1)>0,1:2); y1=y1(y1>0,:);

11 else F1 = []; F_kmeans = [];

12 end

13 else F1 = []; F_kmeans = [];

14 end

15 end

1 function [d] = a_cent_ref(cent, ref)

2 %FuCao que calcula a refereCia mais proxima de cada centro

3 cent = cent(cent(:,1)>0 & cent(:,2)>0,:);

4 C=size(cent,1); R=size(ref,1); b= zeros(R,C);

5 for i=1:C

6 b(:,i)=((cent(i,1)-ref(1:R,1)).ˆ2+(cent(i,2)-ref(1:R,2)).ˆ2).ˆ0.5;

7 end

8 c=zeros(C,2);

9 for i=1:C

10 c(i,2) =find((b==min(min(b)))); c(i,1) = ceil(c(i,2)/R);

11 if mod(c(i,2),R) >0; c(i,2)=mod(c(i,2),R);else c(i,2)=R;end;

12 b(:,c(i,1)) = NaN; b(c(i,2),:) = NaN;

13 end

14 c = sortrows(c); d = zeros(C,3); d(:,1:2) = cent; d(:,3) = c(:,2);

Page 94: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

92

15 end

B.4 FUNCOES PARA GERAR NUVEM DE PONTOS F1×F2 - METODO 2

1 function [ TFr2,m1,m2,m3,m3_cl,m3_cent,m3_tr,m3_tr_cl,m3_tr_cent] = ...

a_met2(M,trilhas,TFr2,TFrTr,tshd,ref1,ref2)

2 %Funcao para escolha dos valores de formantes, com base nas trilhas, e

3 % Entrada: M: mascara inicial

4 % TFr2: [fr t(s) int zcr nfmts F0 F1 BW1 F2 BW2 F3 BW3],form. vazios

5 % TFrTr: [tr1[F1 BW1 F2 BW2 F3 BW3] tr2[F1 BW1 F2 BW2 F3 BW3] ...

tr3[F1 BW1 F2 BW2 F3 BW3]]

6 % tshd: limiares para selecao [STE(>sil) ZCR(<ruido) f0 f1a f1 f2]

7 % ref1, ref2: valores de referenca F1xF2 e (F1+F2)x(F1-F2)

8 % Saida:

9 % TFr2: [fr t(s) int zcr nfmts F0 F1 BW1 F2 BW2 F3 BW3],c/ formantes

10 % m1: mascara F1xF2 p/ frames com F0 e ZCR < limiar

11 % m2: mascara F1xF2 p/ frames vizinhos com variacao de F1 < tshd_f1a

12 % m3: mascara F1xF2, apos m1 e m2, elimando frames em que F1|F2 =0,

13 % e tbm pontos agrupados fora do trapezio (possiveis consoantes)

14 % m3_cl,m3_cent: vetores com indicacao de clusters e centros

15 % m3_tr,m3_tr_cl,m3_tr_cent: trechos, indicando clusters e centros

16 sprintf('Gerando vetores para metodo otimizado ... ')

17 m1=false(size(TFr2,1),1);m1(TFr2(:,6)>0&TFr2(:,4)<tshd(2))=1;

18 m1(∼M)=0;19 %Trilhas para selecao de valores de F1 x F2:

20 [TFr2(:,7:12) ,m2] = a_met2_trilhas(trilhas,m1, TFrTr(: ,1:6), ...

TFrTr(: ,7:12), TFrTr(: ,13:18), ...

TFr2(:,6),tshd(4),tshd(5),tshd(6));

21 %Metodo com eliminacao inicial de alta frequencia por (F1+F2)x(F1-F2):

22 m4 = false(size(TFr2,1),1); m4 (TFr2(:,7)>0 & TFr2(:,9)>0) = 1;

23 aux_m3 = [TFr2(:,9)+TFr2(:,7) TFr2(:,9)-TFr2(:,7)]; aux_m3(∼m4,:)=0;24 aux_m3_cl = ...

kmeans(aux_m3,size(ref2,1),'start',ref2,'emptyaction','drop');

25 m3 = false(size(TFr2,1),1); m3 (aux_m3_cl>2)= 1; % eliminados ...

centros 1 e 2 (0,0) e (5000, 1800)

26 m3(∼a_met2_ct(TFr2(:,7),a_met2_ct(TFr2(:,9),m3,1),1)) = 0;

27 m3_tr = a_trechos(m3,(TFr2(:,[7 9 8 10 6 1 4 ])));

28 m3_cent = []; m3_cl=[]; m3_tr_cent = [];m3_tr_cl=[];

29 if sum(m3)>size(ref1,1); [m3_cl,m3_cent] = kmeans((TFr2(m3>0,[7 ...

9])), size(ref1,1),'start',ref1,'emptyaction','drop'); end;

30 if size(m3_tr,2)≥ 5

Page 95: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

93

31 if size(m3_tr(m3_tr(:,5)>0,5),1)> size(ref1,1);

32 [m3_tr_cl,m3_tr_cent] = kmeans(m3_tr(:,[5 9]), ...

size(ref1,1),'start',ref1,'emptyaction','drop');

33 end;

34 end

35 if isempty(m3_cent); m3_cent = NaN(size(ref1)); end;

36 if isempty(m3_tr_cent); m3_tr_cent = NaN(size(ref1)); end;

37 sprintf('Metodo otimizado: F0 e zcr = %d, clustering = %d, final = ...

%d', sum(m1), sum(m2), sum(m3))

38 [m3_cent m3_tr_cent ref1]

39 end

1 function [Cmask] = a_met2_ct(F,mask,tshd)

2 % F = formante a ser ajustado

3 % mask = pontos a serem considerados

4 % tshd = % em relacao aos pontos vizinhos para ser considerado continuo

5 % Cmask = masc. para valores validos, com menos 3 ptos consecutivos

6 F(mask==0,:)=0; F=F(:,1);y=zeros(size(F)); %considerar apenas a 1a ...

col.

7 Cmask = zeros (size(F)); %Cmask = zeros(size(mask,1)); % 13/10/15

8 if ∼isempty(F)9 Fa = [F(1);F(1:end-1)]; Fp = [F(2:end);F(end)];

10 y(F>0&((Fa==0|abs(F-Fa)<tshd*F) & (Fp==0|abs(F-Fp)<tshd*F)))=1;

11 ya1 = [y(1);y(1:end-1)]; ya2 = [y(1);y(1);y(1:end-2)];

12 yp1 = [y(2:end);y(end)]; yp2 = [y(3:end);y(end);y(end)];

13 Cmask = zeros (size(F));

14 Cmask((y==1)&((ya1==1&ya2==1 )|(yp1==1&yp2==1)|(ya1==1&yp1==1)))=1;

15 if Cmask(end) == 1 && Cmask(end-1) == 0; Cmask(end) =0; end;

16 if Cmask(1) == 1 && Cmask(2) == 0; Cmask(1) =0; end;

17 end

18 end

1 function [TFreq,m2] = a_met2_trilhas(tr, m1, tr1, tr2, tr3, ...

F0,tshd_f1a,tshd_f1,tshd_f2)

2 %Funcao para decisao de qual trilha escolher em cada trecho continuo

3 % Entrada:

4 % m1: mascara com eliminacao de valores em que F0 e ZCR < limiar

5 % tr1,tr2,tr3: trilha 1,trilha2,trilha3 (F1 BW1 F2 BW2 F3 BW3)

6 % F0: vetor de F0 para eliminacao de frames com confusao de F0 e F1

7 % tshd_f1a: limiar para considerar trecho com possibilidade de haver

8 % pelo menos uma trilha com valores viaveis

9 % tshd_f1,tshd_f2: limiares para continuidade de F1 e F2 em cada trilha

Page 96: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

94

10 % Saida:

11 % TFreq: vetor com resultados para (F1 BW1 F2 BW2 F3 BW3)

12 % m2: mascara de F1xF2 para frames vizinhos com variacao de F1 < ...

tshd_f1a

13 tr1(∼m1|(abs(F0-tr1(:,1))./F0) <0.2,:)=0; if ∼tr(1);tr1(:,:)=0;end;14 tr2(∼m1|(abs(F0-tr2(:,1))./F0) <0.2,:)=0; if ∼tr(2);tr2(:,:)=0;end;15 tr3(∼m1|(abs(F0-tr3(:,1))./F0) <0.2,:)=0; if ∼tr(3);tr3(:,:)=0;end;16 TFreq = zeros(size(tr1)); TFrTr = [tr1 tr2 tr3];

17 m2 = (a_met2_ct(tr1,m1,tshd_f1a)| a_met2_ct(tr2,m1,tshd_f1a)| ...

a_met2_ct(tr3,m1,tshd_f1a));

18 %separar em tchs p/ das trilhas, encontrando blocos de transicao ...

entre voiced e unvoiced

19 tchs=[0;diff(m2)]; tchs_ini=find(tchs==1); tchs_fim=find(tchs==-1);

20 if (numel(tchs_ini)>0 && numel(tchs_fim)>0 && tchs_ini(1)>tchs_fim(1))

21 tchs_ini = tchs_ini (2:end);

22 end

23 nTr= min(length(tchs_ini),length(tchs_fim)); tchs_fim = ...

tchs_fim(1:nTr); tchs_ini = tchs_ini(1:nTr);

24 %mascaras para cada trilha, considerando m2 e tresholds para f1 e f2

25 % zeros(x,y,z): x=linhas; y=(BW1/F1, BW2/F2, ...

cont.);z=(trilha1,trilha2,trilha3)

26 tr = zeros(size(F0,1) , 3, 3);

27 tr(:,:,1) = [tr1(:,2)./(tr1(:,1)) tr1(:,4)./(tr1(:,3)) ...

a_met2_ct(tr1(:,1),m2,tshd_f1) & a_met2_ct(tr1(:,3),m2,tshd_f2)];

28 tr(:,:,2) = [tr2(:,2)./(tr2(:,1)) tr2(:,4)./(tr2(:,3)) ...

a_met2_ct(tr2(:,1),m2,tshd_f1) & a_met2_ct(tr2(:,3),m2,tshd_f2)];

29 tr(:,:,3) = [tr3(:,2)./(tr3(:,1)) tr3(:,4)./(tr3(:,3)) ...

a_met2_ct(tr3(:,1),m2,tshd_f1) & a_met2_ct(tr3(:,3),m2,tshd_f2)];

30 for i=1:nTr

31 tr_tch = zeros((tchs_fim(i) - tchs_ini(i) + 1 ),3,3);

32 tr_tch (:,:,[1 2 3])= tr(tchs_ini(i):tchs_fim(i),:,[1 2 3]);

33 %para manter apenas pontos com vizinhos

34 tr_tch(:,3,[1 2 3]) = [a_met2_ct(tr_tch(:,3,1),tr_tch(:,3,1),1) ...

a_met2_ct(tr_tch(:,3,2),tr_tch(:,3,2),1) ...

a_met2_ct(tr_tch(:,3,3),tr_tch(:,3,3),1)];

35 trilhas = [[1; 2; 3 ] [(mean(tr_tch(tr_tch(:,3,1)==1,1:2))); ...

(mean(tr_tch(tr_tch(:,3,2)==1,1:2))) ; ...

(mean(tr_tch(tr_tch(:,3,3)==1,1:2))) ]];

36 if size(trilhas,2)== 3

37 trilhas = sortrows(sortrows(trilhas,2),3);

38 trCol = (trilhas(1,1)-1)*6 +1;

39 tch = TFrTr(tchs_ini(i):tchs_fim(i),trCol:(trCol+5));

40 tch (tr_tch (:,3,trilhas(1,1))==0,:) = 0;

Page 97: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

95

41 TFreq(tchs_ini(i):tchs_fim(i),1:6)=tch(:,:);%F1 BW1 .. F3 BW3

42 end

43 end

44 end

B.5 FUNCAO PARA CALCULAR VALORES MEDIOS NOS TRECHOS

1 function [F_tr] = a_trechos(mask,F)

2 %Funcoo que calcula media dos valores de cada trecho

3 % Entrada: vetor F = [1-F1 2-F2 3-BW1 4-BW2 5-F0 6-n 7-int(opcional)]

4 % Saida: Ftr = [1-n_in 2-n_fim 3-F0_med 4-F0_std 5-F1_med 6-F1_std

5 % 7-BW1_med 8-BW1_std 9-F2_med 10-F2_std 11-BW2_med 12-BW2_std ...

13-int_med...]

6 F_tr=[];

7 if mask == 1 % 02/11/2015

8 mask = true(size(F,1),1);

9 end

10 mask2 = a_trecho_ct(F(:,6)); %elimina pts isolados

11 mask = mask & mask2;

12 if sum(mask)>0

13 Fr(:,:)=F(mask>0,:); teste = [1;diff(Fr(:,6))]; teste(teste==0)=1;

14 teste1= [diff(teste);0]; teste1 = [-2;teste1(2:end-1);1];%03/10/15

15 UV = (Fr(teste1>1,6)); V = (Fr(teste1<-1,6));

16 if UV(1)<V(1); if UV(1)==1;UV=UV(2:end); else V=[Fr(1,6);V]; ...

end;end

17 if V(end)>UV(end);

18 if V(end)==Fr(end,6);V=V(1:end-1);else ...

UV=[UV(1:end);Fr(end,6)];end;

19 end

20 nRows=min(size(V,1),size(UV,1));F_tr=zeros(nRows,(size(F,2)+6));

21 F_tr(:,1) = V (1:nRows); F_tr(:,2) = UV (1:nRows);

22 for i=1:nRows

23 F_tr(i,3)= median(Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),5));%med de F0

24 F_tr(i,4)= std(Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),5)); %std de F0

25 for j=1:2 %apenas dois formantes

26 F_tr(i,4*j+1)= median(Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),j));%Fjmed

27 F_tr(i,4*j+2)= std (Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),j));%Fjstd

28 F_tr(i,4*j+3)= median(Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),j+2));%BWj

29 F_tr(i,4*j+4)= std (Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),j+2));%BWj

30 end

31 end

Page 98: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

96

32 if size(F,2) == 7;

33 for i=1:nRows; ...

F_tr(i,13)=mean(Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),7));end;

34 end

35 end

36 end

1 function [ m ] = a_trecho_ct(F)

2 %verifica continuidade de um trecho

3 % F: vetor com frames validos

4 % m: mascara de saida

5 x2= [0;diff(F)];

6 m = true (size(F,1),1);

7 x3 = F(x26=1);

8 for i = 1: (size(x3,1) -1)

9 y = F(F≥x3(i) & F< x3(i+1));

10 if (numel(y)<2)

11 for j=1: numel(y)

12 m(F==y(j))= 0;

13 end

14 end

15 end

16 end

Page 99: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

97

APENDICE C - RESULTADOS OBTIDOS DURANTE OS EXPERIMENTOS

C.1 RESULTADOS OBTIDOS POR MEIO DOS METODOS 1 E 2

Numero de centroides obtidos (no), seus valores medios (F1×F2) e desvios padrao(σF1×σF2) para amostras do grupo GC da UTFPR, apos agrupamento com cincocentroides de referencia, por meio dos Metodos 1 e 2 (valores do ultimo em negrito).

/i/,/e/ /E/ /a/ /O/ /o/, /u/

Amostra F1×F2(Hz) F1×F2(Hz) F1×F2(Hz) F1×F2(Hz) F1×F2(Hz)no (σF1×σF2) (σF1×σF2) (σF1×σF2) (σF1×σF2) (σF1×σF2)

GC1(M1) 2

480,5×2286,5 ND ND 516,6×1209,5 ND(180,1×301,7) ND ND (198,1×221,0) ND

(MMM222) 5 400,4×2479,5 646,7×2000,1 814,2×1306,0 468,5×1439,2 442,9×1048,1(95,7×121,1) (268,1×156,0) (127,9×138,4) (91,9×151,5) (82,1×137,7)

GC2(M1) 3

400,1×2355,1 848,5×1663,1 ND 455,2×1190,4 ND(129,2×278,0) (140,9×178,1) ND (172,5×183,8) ND

(MMM222) 5 438,3×2245,6 485,2×1791,6 880,6×1701,8 548,8×1421,1 474,7×1059,3(113,6×151,5) (120,4×120,6) (150,1×163,1) (147,6×102,7) (132,1×124,0)

GC3(M1) 3

697,8×2450,5 612,1×1812,8 ND 527,7×1254,7 ND(490,6×156,8) (137,4×167,9) ND (102,8×137,9) ND

(MMM222) 5 418,9×2370,1 522,0×1992,3 582,1×1661,4 511,4×1350,2 440,4×1120,2(80,4×99,4) (100,6×103,0) (151,4×91,8) (114,0×90,9) (100,1×99,4)

GC4(M1) 3

442,0×2183,7 705,2×1630,0 ND 611,4×1117,5 ND(100,4×164,0) (117,2×155,7) ND (121,0×140,1) ND

(MMM222) 5 426,5×2299,2 615,0×1860,0 678,4×1524,0 641,0×1171,5 484,7×939,7(87,5×138,7) (119,4×108,9) (116,8×104,1) (94,8×90,6) (87,1×111,6)

GC5(M1) 3

523,1×2569,5 595,2×1793,7 ND 608,6×1297,7 ND(357,4×202,8) (136,3×148,0) ND (112,0×153,7) ND

(MMM222) 5 375,0×2319,7 500,2×1863,1 635,0×1602,0 525,8×1279,3 399,6×988,7(105,8×141,0) (137,2×114,4) (92,3×90,4) (139,4×102,4) (108,2×118,9)

GC6(M1) 4

476,5×2401,4 608,9×1878,1 595,4×1383,7 548,3×1066,1 ND(160,7×118,2) (131,5×134,3) (114,1×104,8) (64,4×107,8) ND

(MMM222) 5 446,9×2351,8 583,1×1909,5 539,2×1466,1 521,5×1171,2 460,1×885,8(83,7×116,9) (108,6×114,1) (111,4×113,6) (86,8×81,7) (69,9×114,0)

GC7(M1) 4

401,7×2293,5 654,5×1892,6 733,7×1415,1 508,1×1044,9 ND(113,8×113,5) (125,6×112,9) (134,8×116,9) (135,3×118,7) ND

(MMM222) 5 405,4×2283,7 597,9×1898,4 714,4×1485,0 587,5×1188,5 414,5×938,0(92,7×119,9) (129,7×125,9) (146,8×110,1) (126,0×98,0) (84,8×118,7)

GC8(M1) 3

454,8×2446,6 691,2×1805,5 ND 501,1×1239,3 ND(152,7×172,0) (224,3×140,6) ND (97,9×131,8) ND

(MMM222) 5 445,1×2384,7 525,0×1893,3 934,2×1662,8 550,6×1513,5 526,5×1167,6(70,8×156,6) (102,8×118,9) (109,6×193,4) (117,6×102,7) (100,7×105,7)

GC9(M1) 3

517,8×2449,7 697,4×1729,6 ND 533,2×1090,8 ND(347,6×207,4) (150,9×226,3) ND (178,9×159,1) ND

(MMM222) 5 461,1×2354,8 645,7×1902,9 779,3×1515,0 621,7×1224,5 461,9×938,4(162,5×131,0) (175,6×132,5) (145,5×117,1) (126,5×116,2) (93,7×99,3)

GC10(M1) 4

386,0×2539,5 493,8×1991,6 967,5×1938,8 596,0×1178,3 ND(82,2×139,4) (130,9×166,3) (184,9×235,1) (183,0×205,2) ND

(MMM222) 5 480,6×2027,8 1018,8×2002,7 811,4×1368,9 458,7×1608,8 468,2×1033,3(113,0×176,1) (169,5×129,8) (104,4×145,8) (128,3×141,6) (106,6×152,0)

ND: valor nao disponıvel (centroide nao alocado).M1: Metodo 1.M2: Metodo 2.

Page 100: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

98

C.2 DISTANCIAS RESULTANTES APOS AGRUPAMENTO POR MEIO DOSMETODOS 1 E 2

Diferenca entre os centros obtidos e os valores de referencia e as respectivaspercentagens para amostras do grupo GC da UTFPR, apos agrupamento com cincocentros de referencia, por meio dos Metodos 1 e 2 (valores do ultimo em negrito).

/i/,/e/ /E/ /a/ /O/ /o/, /u/ Media

Amostra ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) (σF1F2)

GC1(M1) 175,7 ND ND 187,4 ND 181,5 (8,3)(((MMM222))) 57,3 65,6 194,2 413,9 270,4 200,3 (149,3)

GC2(M1) 387,7 172,4 ND 270,2 ND 276,8 (107,8)(((MMM222))) 283,6 220,8 239,3 402,1 172,1 263,6 (87,1)

GC3(M1) 336,7 248,6 ND 113,5 ND 233,0 (112,4)(((MMM222))) 48,7 71,2 306,2 195,3 162,7 156,8 (103,5)

GC4(M1) 38,7 178,8 ND 117,9 ND 111,8 (70,2)(((MMM222))) 82,9 107,1 266,8 164,5 110,4 146,3 (73,7)

GC5(M1) 322,0 185,8 ND 112,0 ND 206,6 (106,5)(((MMM222))) 37,5 159,0 134,4 155,8 190,0 135,3 (58,2)

GC6(M1) 129,6 208,3 174,4 39,0 ND 137,8 (73,4)(((MMM222))) 71,9 182,2 222,5 141,1 114,2 146,4 (58,5)

GC7(M1) 141,9 125,1 149,3 155,6 ND 143,0 (13,2)(((MMM222))) 132,2 143,0 165,8 163,6 54,8 131,9 (45,4)

GC8(M1) 135,8 290,5 ND 208,0 ND 211,4 (77,4)(((MMM222))) 73,6 250,9 129,6 399,4 249,7 220,6 (126,1)

GC9(M1) 202,0 137,2 ND 159,3 ND 166,2 (33,0)(((MMM222))) 97,6 317,4 171,7 186,2 77,9 170,1 (94,5)

GC10(M1) 77,9 135,7 178,8 155,6 ND 137,0 (43,2)(((MMM222))) 443,9 409,6 451,1 605,4 251,5 432,3 (126,2)

Media(M1) 194,8 186,9 167,5 151,9 ND 176,6 (79,0)(((MMM222))) 132,9 192,7 228,2 282,7 165,4 200,4 (124,7)

ND: valor nao disponıvel (centroide nao alocado).M1: Metodo 1.M2: Metodo 2.

Page 101: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

99

C.3 DIFERENCA DOS VALORES F1 E F2 DOS CENTROIDES EM RELACAO AOSVALORES DE REFERENCIA

Diferenca dos valores F1 e F2 dos centroides em relacao aos valores de referencia- amostras dos corpora UTFPR e SPOLTECH sem degradacao. Na primeira linhareferente a cada grupo estao indicados os valores medios, e na segunda os valoresde desvio padrao.

Centroide 1 Centroide 2 Centroide 3 Centroide 4 Centroide 5 Media

Grupo∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%)

σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2

UT FPR : GC28,7×4,5% 16,9×9,1% 20,6×11,2% 16,5×25,5% 19,6×18,9% 20,5×13,9%(17,6×3,9%) (13,0×6,7%) (12,3×8,6%) (10,0×18,4%) (12,5×10,8%) (13,5×12,9%)

UT FPR : GG45,4×10,1% 20,7×9,6% 21,5×7,1% 14,0×27,9% 29,1×20,1% 26,2×15,0%(28,4×8,9%) (17,0×6,6%) (13,2×4,4%) (8,8×17,7%) (21,6×15,2%) (21,3×13,8%)

UT FPR : GM47,2×8,1% 26,4×28,4% 23,3×14,1% 17,2×21,7% 20,8×12,2% 27,0×16,9%(90,3×5,5%) (19,6×60,7%) (16,6×8,0%) (11,3×10,0%) (21,0×6,5%) (42,8×27,8%)

UT FPR : GR33,1×9,7% 34,7×8,1% 23,1×12,7% 21,9×28,4% 30,5×25,6% 28,7×16,9%(28,0×5,5%) (22,6×6,5%) (14,5×9,7%) (15,9×16,7%) (20,0×20,3%) (20,6×15,2%)

UT FPR : GH34,6×9,9% 35,5×10,4% 28,6×16,2% 21,1×32,6% 26,6×14,6% 29,3×16,7%(27,8×5,0%) (32,3×10,9%) (16,8×13,1%) (12,9×11,1%) (11,8×14,6%) (21,7×13,8%)

SPOLT ECH : M16,3×21,4% 19,8×5,4% 19,5×6,5% 29,4×12,0% 18,7×24,9% 20,7×14,0%(10,3×6,5%) (9,2×7,5%) (10,1×4,4%) (16,7×5,7%) (5,3×5,0%) (11,4×9,7%)

SPOLT ECH : H49,6×26,1% 21,7×16,3% 22,0×12,6% 11,6×7,4% 25,1×35,4% 26,0×19,6%(69,8×7,9%) (6,2×11,0%) (7,0×11,7%) (9,0×5,5%) (10,5×7,4%) (33,4×13,3%)

Media36,9×12,9% 25,1×12,6% 22,7×11,6% 18,6×22,1% 24,4×21,8% 25,5×16,2%(47,4×9,6%) (19,4×24,3%) (13,0×9,4%) (13,0×15,3%) (15,7×14,1%) (25,9×16,1%)

C.4 PERCENTUAL DE VOGAIS-ALVO REPRESENTADAS NA NUVEM FINAL -GRUPOS DO CORPUS UTFPR SEM DEGRADACAO

Percentual de vogais-alvo representadas na nuvem final e percentual da duracaodessas vogais - grupos do corpus UTFPR sem degradacao.

/i/ /e/ /E/ /a/ /O/ /o/ /u/ Media

GrupoNtr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%)

Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%)

UT FPR : GC80,0% 100,0% 100,0% 95,0% 95,0% 85,0% 90,0% 92,1%(58,0%) (80,8%) (74,8%) (65,2%) (80,0%) (84,8%) (65,4%) (73,6%)

UT FPR : GG75,0% 97,5% 100,0% 97,5% 85,0% 90,0% 82,5% 89,6%(58,2%) (79,2%) (75,2%) (70,1%) (91,3%) (80,4%) (66,7%) (76,5%)

UT FPR : GM87,5% 100,0% 92,5% 95,0% 87,5% 82,5% 90,0% 90,7%(53,4%) (80,9%) (68,8%) (69,9%) (78,0%) (73,6%) (67,3%) (71,2%)

UT FPR : GR92,5% 92,5% 95,0% 82,5% 92,5% 65,0% 75,0% 85,0%(87,2%) (86,6%) (76,1%) (76,0%) (76,5%) (63,9%) (79,3%) (78,3%)

UT FPR : GH75,0% 87,5% 87,5% 90,0% 80,0% 70,0% 85,0% 82,1%(72,0%) (81,0%) (83,7%) (75,7%) (73,6%) (81,8%) (73,6%) (77,0%)

Media82,0% 95,5% 95,0% 92,0% 88,0% 78,5% 84,5% 87,9%(65,8%) (81,7%) (75,7%) (71,4%) (79,9%) (76,9%) (70,4%) (75,3%)

Page 102: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

100

C.5 DIFERENCA DOS VALORES F1 E F2 DOS CENTROIDES EM RELACAO AOSVALORES DE REFERENCIA, AMOSTRAS COM CODIFICACAO

Diferenca dos valores F1 e F2 dos centroides em relacao aos valores de referencia- amostras dos corpora UTFPR e SPOLTECH com codificacao. Na primeira linhareferente a cada grupo estao indicados os valores medios, e na segunda os valoresde desvio padrao.

Centroide 1 Centroide 2 Centroide 3 Centroide 4 Centroide 5 Media

Grupo∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%)

σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2

UT FPR : GC1 27,1×4,0% 28,9×7,8% 20,2×18,4% 14,3×27,9% 26,1×23,4% 23,3×16,3%(13,8×2,7%) (23,3×7,0%) (16,7×12,3%) (7,4×13,3%) (13,1×10,8%) (16,0×13,3%)

UT FPR : GG1 30,6×10,4% 23,5×8,7% 28,8×10,4% 13,2×26,9% 27,1×19,9% 24,6×15,2%(18,3×8,9%) (18,3×7,0%) (14,5×7,7%) (10,6×17,9%) (23,1×11,8%) (17,9×13,0%)

UT FPR : GM1 21,6×9,0% 45,0×24,8% 23,0×17,6% 13,1×32,2% 23,0×17,8% 25,2×20,3%(18,4×5,8%) (34,3×54,6%) (18,5×10,4%) (11,0×22,7%) (22,4×6,1%) (23,9×27,2%)

UT FPR : GR1 30,9×7,5% 58,6×16,1% 29,9×14,7% 17,7×27,8% 30,2×26,8% 33,4×18,6%(23,9×4,8%) (38,4×14,2%) (16,2×12,1%) (15,2×15,9%) (15,2×21,3%) (26,3×16,1%)

UT FPR : GH1 60,4×11,3% 64,8×15,1% 28,1×15,8% 22,9×30,4% 26,5×23,1% 40,5×19,1%(63,8×6,9%) (71,2×13,2%) (16,4×12,3%) (12,3×8,5%) (17,1×33,6%) (46,3×18,3%)

SPOLT ECH : M1 11,6×17,8% 31,0×5,1% 20,3×8,4% 27,3×14,0% 14,5×18,8% 20,9×12,8%(11,2×7,7%) (33,5×6,5%) (20,8×6,6%) (12,3×6,7%) (7,8×12,2%) (20,0×9,5%)

SPOLT ECH : H1 60,6×21,8% 32,9×14,1% 24,0×8,0% 11,7×11,1% 21,0×34,8% 30,0×18,0%(99,7×10,0%) (46,1×14,4%) (6,5×6,6%) (7,3×6,5%) (9,0×7,3%) (50,5×13,3%)

Media35,4×11,8% 40,7×13,2% 25,0×13,3% 17,0×24,3% 24,1×23,7% 28,4×17,3%(49,8×9,0%) (42,2×22,9%) (15,7×10,4%) (11,9×15,7%) (16,3×17,3%) (32,3×16,7%)

UT FPR : GC2 29,7×4,2% 28,3×10,3% 26,9×16,7% 22,7×34,1% 26,0×23,5% 26,7×17,8%(15,6×3,6%) (34,5×6,1%) (13,6×10,5%) (7,9×15,0%) (12,5×13,4%) (18,5×14,6%)

UT FPR : GG2 39,9×10,3% 24,3×8,9% 23,6×7,0% 19,5×32,4% 37,4×15,8% 28,9×14,9%(25,1×8,9%) (19,3×4,9%) (12,3×6,6%) (12,7×13,6%) (27,1×10,0%) (21,1×12,9%)

UT FPR : GM2 45,8×8,2% 46,0×25,7% 23,8×17,2% 17,7×33,0% 24,9×15,9% 31,6×20,0%(75,2×4,8%) (27,7×57,7%) (13,7×10,5%) (14,3×17,0%) (23,2×7,1%) (38,7×27,8%)

UT FPR : GR2 35,1×9,9% 39,4×10,6% 28,2×16,2% 20,7×32,3% 33,4×26,8% 31,4×19,2%(24,5×5,5%) (26,2×7,9%) (16,6×13,8%) (18,3×14,8%) (21,8×21,5%) (21,9×16,1%)

UT FPR : GH2 35,1×12,9% 53,9×13,1% 29,7×13,3% 22,9×36,5% 24,6×17,6% 33,2×18,7%(23,4×6,2%) (65,3×14,2%) (18,0×8,9%) (13,4×17,7%) (14,2×19,9%) (33,8×16,5%)

SPOLT ECH : M2 23,3×19,8% 16,8×4,8% 23,5×10,8% 30,2×13,4% 19,3×25,0% 22,6×14,7%(12,6×6,0%) (5,7×3,5%) (8,9×6,1%) (18,9×6,1%) (5,8×5,1%) (11,9×8,8%)

SPOLT ECH : H2 20,8×26,0% 22,5×13,2% 20,5×10,3% 9,6×9,6% 26,5×35,9% 20,0×19,0%(15,2×7,4%) (7,5×6,6%) (5,4×6,5%) (6,4×6,8%) (7,7×6,8%) (10,4×12,3%)

Media32,8×13,1% 33,1×12,5% 25,1×13,1% 20,2×27,3% 27,5×23,1% 27,7×17,8%(33,5×9,3%) (33,5×22,8%) (13,0×9,6%) (14,3×16,7%) (17,8×14,6%) (24,6×16,5%)

UT FPR : GC3 27,1×4,3% 17,8×9,5% 19,8×16,3% 11,6×20,2% 19,7×17,3% 19,2×13,5%(15,8×2,8%) (7,4×6,0%) (12,9×11,2%) (6,6×16,0%) (13,8×12,7%) (12,4×11,9%)

UT FPR : GG3 30,8×12,1% 23,2×8,3% 19,4×10,4% 11,5×27,3% 31,1×15,1% 23,2×14,6%(19,8×10,6%) (15,1×6,8%) (9,9×8,0%) (8,3×19,1%) (26,0×7,9%) (18,0×12,9%)

UT FPR : GM3 20,1×9,2% 22,4×18,8% 17,4×12,6% 11,1×20,6% 25,0×10,3% 19,2×14,3%(14,6×7,8%) (16,8×46,1%) (13,6×11,2%) (11,5×14,0%) (19,5×5,8%) (15,6×22,1%)

UT FPR : GR3 55,2×8,7% 50,1×13,0% 26,4×16,1% 21,8×25,0% 29,0×16,8% 36,5×15,9%(76,2×5,5%) (38,1×11,2%) (17,5×16,1%) (16,7×11,1%) (14,7×8,4%) (40,8×11,9%)

UT FPR : GH3 45,8×8,2% 50,0×12,0% 28,8×12,4% 21,1×26,8% 25,7×12,1% 34,3×14,3%(68,4×5,5%) (56,0×9,2%) (19,3×7,9%) (14,9×9,7%) (12,7×9,6%) (41,3×10,4%)

SPOLT ECH : M3 12,0×22,8% 15,4×4,4% 24,3×7,2% 20,9×9,5% 11,2×33,7% 16,7×15,5%(7,6×7,9%) (6,6×3,7%) (20,1×5,3%) (15,9×6,8%) (4,9×8,3%) (13,0×12,8%)

SPOLT ECH : H3 14,5×24,2% 20,9×15,7% 20,4×10,6% 10,7×11,6% 16,8×39,5% 16,7×20,3%(10,8×10,1%) (8,6×11,3%) (8,3×7,5%) (6,6×6,1%) (7,9×7,4%) (9,1×13,7%)

Media29,4×12,8% 28,6×11,8% 22,3×12,3% 15,4×20,2% 22,7×20,8% 23,7×15,6%(41,5×10,2%) (29,7×18,9%) (14,8×10,2%) (12,6×13,8%) (16,3×13,6%) (25,8×14,2%)

1 sinal com codificacao de canal telefonico: reamostragem em 8 kHz e quantizacao G711a.2 sinal com compressao MP3 24 kbps.3 sinal com compressao AMRnb 4.750 kbps.

Page 103: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

101

C.6 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COMCODIFICACAO

Percentual de vogais-alvo representadas na nuvem final e percentual da duracaodessas vogais - grupos do corpus UTFPR com codificacao.

/i/ /e/ /E/ /a/ /O/ /o/ /u/ Media

GrupoNtr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%)

Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%)

UT FPR : GC1 77,5% 100,0% 100,0% 92,5% 97,5% 82,5% 95,0% 92,1%(57,3%) (74,2%) (70,5%) (64,2%) (75,9%) (76,2%) (66,1%) (69,8%)

UT FPR : GG1 77,5% 95,0% 97,5% 95,0% 85,0% 90,0% 82,5% 88,9%(54,9%) (82,1%) (81,2%) (70,6%) (80,3%) (77,9%) (60,9%) (74,8%)

UT FPR : GM1 87,5% 100,0% 97,5% 95,0% 92,5% 82,5% 90,0% 92,1%(60,8%) (76,7%) (75,7%) (67,5%) (78,2%) (70,7%) (63,1%) (71,4%)

UT FPR : GR1 77,5% 92,5% 95,0% 82,5% 90,0% 67,5% 67,5% 81,8%(80,3%) (82,2%) (76,5%) (73,1%) (79,3%) (69,1%) (83,8%) (76,8%)

UT FPR : GH1 60,0% 85,0% 87,5% 92,5% 75,0% 57,5% 65,0% 74,6%(60,2%) (71,9%) (77,4%) (69,4%) (70,4%) (80,2%) (66,4%) (71,3%)

Media76,0% 94,5% 95,5% 91,5% 88,0% 76,0% 80,0% 85,9%(62,7%) (77,4%) (76,3%) (69,0%) (76,8%) (74,8%) (68,1%) (72,8%)

UT FPR : GC2 45,0% 100,0% 95,0% 90,0% 92,5% 82,5% 85,0% 84,3%(60,0%) (78,0%) (79,9%) (61,2%) (71,2%) (75,1%) (62,9%) (70,5%)

UT FPR : GG2 42,5% 92,5% 97,5% 95,0% 85,0% 77,5% 70,0% 80,0%(71,9%) (82,8%) (75,6%) (69,2%) (76,9%) (74,2%) (68,5%) (75,0%)

UT FPR : GM2 42,5% 95,0% 90,0% 95,0% 85,0% 77,5% 82,5% 81,1%(68,3%) (74,5%) (76,7%) (64,3%) (73,2%) (66,7%) (60,4%) (70,6%)

UT FPR : GR2 80,0% 90,0% 92,5% 80,0% 90,0% 65,0% 77,5% 82,1%(89,4%) (88,6%) (78,0%) (74,2%) (79,9%) (69,1%) (79,0%) (79,5%)

UT FPR : GH2 70,0% 85,0% 75,0% 87,5% 67,5% 75,0% 85,0% 77,9%(76,2%) (79,7%) (82,3%) (73,5%) (77,7%) (79,4%) (69,6%) (76,3%)

Media56,0% 92,5% 90,0% 89,5% 84,0% 75,5% 80,0% 81,1%(73,2%) (80,7%) (78,5%) (68,5%) (75,8%) (72,9%) (68,1%) (74,4%)

UT FPR : GC3 60,0% 100,0% 100,0% 90,0% 90,0% 85,0% 92,5% 88,2%(59,5%) (81,2%) (64,7%) (62,3%) (69,6%) (76,7%) (46,4%) (66,8%)

UT FPR : GG3 60,0% 97,5% 100,0% 95,0% 90,0% 90,0% 77,5% 87,1%(49,3%) (80,0%) (72,3%) (64,9%) (84,5%) (77,4%) (55,4%) (71,6%)

UT FPR : GM3 70,0% 100,0% 100,0% 97,5% 87,5% 87,5% 75,0% 88,2%(43,3%) (74,4%) (72,6%) (64,1%) (73,4%) (68,2%) (62,9%) (67,4%)

UT FPR : GR3 60,0% 80,0% 95,0% 87,5% 92,5% 52,5% 67,5% 76,4%(71,0%) (75,9%) (73,1%) (74,4%) (74,2%) (62,8%) (62,2%) (72,2%)

UT FPR : GH3 55,0% 82,5% 75,0% 90,0% 77,5% 60,0% 60,0% 71,4%(55,9%) (74,8%) (81,3%) (74,7%) (73,2%) (56,0%) (64,0%) (71,2%)

Media61,0% 92,0% 94,0% 92,0% 87,5% 75,0% 74,5% 82,3%(55,8%) (77,3%) (72,8%) (68,1%) (75,0%) (68,2%) (58,2%) (69,9%)

1 sinal com codificacao de canal telefonico: reamostragem em 8kHz e quantizacao G711a.2 sinal com compressao MP3 24kbps.3 sinal com compressao AMRnb 4,750kbps.

Page 104: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

102

C.7 NUMERO DE CENTROIDES RECONHECIDOS APOS ADICAO DE RUIDO AOSINAL

Numero de centroides reconhecidos nos grupos analisados apos adicao de ruıdo aosinal das amostras.

Grupo nocentros Centroide 1 Centroide 2 Centroide 3 Centroide 4 Centroide 5

UT FPR : GC1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

UT FPR : GG1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

UT FPR : GM1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

UT FPR : GR1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

UT FPR : GH1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

SPOLT ECH : M1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

SPOLT ECH : H1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

CORAL : M1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

CORAL : H1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

Media 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

UT FPR : GC2 4,9 100,0% 100,0% 100,0% 100,0% 90,0%

UT FPR : GG2 4,6 100,0% 100,0% 100,0% 100,0% 60,0%

UT FPR : GM2 4,8 90,0% 100,0% 100,0% 100,0% 90,0%

UT FPR : GR2 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

UT FPR : GH2 4,9 90,0% 100,0% 100,0% 100,0% 100,0%

SPOLT ECH : M2 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

SPOLT ECH : H2 4,8 100,0% 100,0% 100,0% 100,0% 81,8%

CORAL : M2 4,8 100,0% 100,0% 100,0% 100,0% 75,0%

CORAL : H2 5,0 100,0% 100,0% 100,0% 100,0% 100,0%

Media 4,9 97,8% 100,0% 100,0% 100,0% 88,5%

UT FPR : GC3 2,8 0,0% 100,0% 100,0% 80,0% 0,0%

UT FPR : GG3 2,7 0,0% 100,0% 100,0% 70,0% 0,0%

UT FPR : GM3 2,6 0,0% 100,0% 100,0% 60,0% 0,0%

UT FPR : GR3 2,7 0,0% 100,0% 100,0% 70,0% 0,0%

UT FPR : GH3 2,5 0,0% 100,0% 100,0% 50,0% 0,0%

SPOLT ECH : M3 2,6 0,0% 100,0% 100,0% 55,6% 0,0%

SPOLT ECH : H3 2,4 0,0% 100,0% 100,0% 36,4% 0,0%

CORAL : M3 3,5 50,0% 100,0% 100,0% 100,0% 0,0%

CORAL : H3 3,0 0,0% 100,0% 100,0% 100,0% 0,0%

Media 2,7 5,6% 100,0% 100,0% 69,1% 0,0%

1 sinal degradado por meio de adicao de ruıdo marrom (20%).2 sinal degradado por meio de adicao de ruıdo rosa (20%).3 sinal degradado por meio de adicao de ruıdo branco (20%).

Page 105: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

103

C.8 DIFERENCA DOS VALORES F1 E F2 DOS CENTROIDES EM RELACAO AOSVALORES DE REFERENCIA, AMOSTRAS COM ADICAO DE RUIDO

Diferenca dos valores F1 e F2 dos centroides em relacao aos valores de referencia -amostras dos corpora UTFPR e SPOLTECH com adicao de ruıdo. Na primeira linhareferente a cada grupo estao indicados os valores medios, e na segunda os valoresde desvio padrao.

Grupo Centroide 1 Centroide 2 Centroide 3 Centroide 4 Centroide 5 Media

∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%)σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2

UT FPR : GC1 42,0×4,9% 72,6×15,7% 27,4×22,0% 19,6×26,2% 29,8×40,5% 38,3×21,9%(19,7×4,7%) (36,8×10,9%) (11,7×7,4%) (11,0×14,6%) (15,2×23,2%) (27,6×17,7%)

UT FPR : GG1 72,2×8,8% 93,1×14,7% 24,3×7,2% 14,9×19,1% 25,8×49,5% 46,1×19,8%(34,0×6,3%) (51,5×10,1%) (10,2×4,5%) (9,0×14,5%) (24,7×25,2%) (42,6×20,7%)

UT FPR : GM1 53,8×9,1% 47,4×20,5% 24,1×17,4% 21,4×16,1% 20,0×44,9% 33,3×21,6%(61,4×5,6%) (35,0×41,8%) (15,8×8,7%) (13,9×14,6%) (20,0×27,0%) (35,8×25,8%)

UT FPR : GR1 47,0×9,8% 115,3×28,5% 30,2×15,6% 19,4×21,4% 29,9×49,7% 48,4×25,0%(31,0×5,4%) (47,4×11,4%) (16,2×13,4%) (13,5×14,9%) (28,6×20,9%) (45,2×19,5%)

UT FPR : GH1 45,4×7,5% 149,8×36,8% 35,5×20,0% 27,1×35,6% 32,4×31,8% 58,0×26,3%(31,0×6,4%) (37,1×12,6%) (15,5×10,1%) (17,9×11,8%) (22,8×34,4%) (53,0×20,6%)

SPOLT ECH : M1 24,2×17,6% 27,8×7,3% 23,9×10,5% 21,6×13,6% 22,4×20,6% 24,0×13,9%(10,7×6,4%) (41,2×4,5%) (10,2×5,9%) (13,9×6,8%) (9,5×6,6%) (20,1×7,5%)

SPOLT ECH : H1 31,5×25,4% 136,0×31,4% 20,2×15,7% 12,7×10,7% 27,7×25,1% 45,6×21,7%(16,9×9,6%) (93,2×17,7%) (7,0×13,3%) (8,4×11,7%) (17,6×9,0%) (62,1×14,3%)

Media45,3×12,0% 93,2×22,5% 26,5×15,6% 19,4×20,3% 26,9×37,5% 42,3×21,6%(34,7×9,3%) (66,0×20,9%) (13,1×10,4%) (13,0×14,8%) (20,2×24,4%) (44,4×19,0%)

UT FPR : GC2 198,8×6,7% 12,2×12,4% 30,3×11,8% 12,2×19,4% 23,2×65,7% 56,0×22,3%(104,6×6,0%) (9,9×6,1%) (14,0×5,5%) (4,7×11,7%) (19,3×26,1%) (86,9×24,7%)

UT FPR : GG2 167,6×10,0% 13,5×15,4% 22,5×6,9% 9,4×19,2% 22,0×66,3% 49,1×19,8%(78,4×6,0%) (9,3×5,5%) (11,7×4,4%) (9,9×9,9%) (19,8×15,4%) (73,1×20,3%)

UT FPR : GM2 155,1×12,1% 41,8×22,5% 30,8×6,6% 12,4×14,6% 16,0×61,3% 49,8×22,9%(77,4×8,2%) (45,9×36,3%) (18,9×5,5%) (8,8×7,3%) (15,1×24,9%) (65,4×27,6%)

UT FPR : GR2 192,4×13,9% 49,0×14,9% 19,1×11,7% 13,7×24,1% 35,2×72,0% 61,9×27,3%(159,7×6,7%) (52,2×12,5%) (14,5×8,8%) (8,5×10,8%) (41,8×22,5%) (100,3×26,3%)

UT FPR : GH2 190,7×14,9% 28,2×15,2% 20,0×13,6% 19,1×28,9% 31,6×60,1% 55,2×26,8%(156,4×8,1%) (34,0×10,1%) (16,2×8,1%) (17,6×11,2%) (17,5×28,9%) (93,3×23,4%)

SPOLT ECH : M2 147,8×19,4% 9,1×9,1% 17,7×6,8% 10,2×8,0% 28,2×12,8% 42,6×11,2%(115,0×8,5%) (5,4×5,9%) (4,3×4,8%) (7,5×6,9%) (25,5×4,9%) (73,6×7,6%)

SPOLT ECH : H2 108,1×24,8% 26,3×12,2% 11,7×8,0% 17,3×12,4% 30,3×10,9% 39,1×13,7%(130,6×13,9%) (59,0×18,5%) (6,9×6,5%) (8,1×8,0%) (15,5×10,6%) (73,0×13,3%)

Media165,0×14,6% 26,0×14,6% 21,6×9,3% 13,6×18,1% 27,1×49,6% 50,5×20,6%(120,2×10,1%) (38,9×16,8%) (14,3×6,7%) (10,1×11,2%) (23,9×31,8%) (81,4×22,2%)

UT FPR : GC3 ND 38,0×15,6% 19,8×12,6% 20,0×39,6% ND 26,4×21,4%ND (50,7×9,1%) (10,5×7,9%) (16,1×15,7%) ND (32,2×15,9%)

UT FPR : GG3 ND 13,1×13,9% 15,7×6,7% 23,7×37,3% ND 16,8×17,3%ND (10,7×7,1%) (7,4×7,7%) (14,8×11,6%) ND (11,3×15,0%)

UT FPR : GM3 ND 15,8×28,6% 22,1×7,3% 18,8×31,3% ND 18,9×21,0%ND (7,2×35,6%) (7,8×5,4%) (14,0×13,9%) ND (9,4×25,1%)

UT FPR : GR3 ND 66,8×16,7% 17,8×19,1% 28,4×45,4% ND 38,7×25,0%ND (86,6×18,6%) (11,1×7,7%) (21,5×8,0%) ND (57,0×17,5%)

UT FPR : GH3 ND 38,5×10,7% 29,6×25,1% 8,7×44,8% ND 29,0×23,3%ND (82,5×9,2%) (20,5×18,0%) (7,8×3,9%) ND (53,3×17,9%)

SPOLT ECH : M3 ND 7,6×13,9% 25,8×4,5% 15,4×13,6% ND 16,4×10,1%ND (3,8×5,4%) (14,8×3,8%) (8,1×8,6%) ND (12,8×7,1%)

SPOLT ECH : H3 ND 80,5×18,1% 26,6×12,6% 25,6×7,7% ND 49,3×14,2%ND (118,1×21,8%) (14,0×8,4%) (11,2×8,7%) ND (80,1×15,5%)

MediaND 38,2×16,8% 22,5×12,7% 20,5×33,5% ND 28,1×19,1%ND (70,3×18,4%) (13,3×11,3%) (15,0×16,5%) ND (45,5×17,5%)

1 sinal degradado por meio de adicao de ruıdo marrom (20%).2 sinal degradado por meio de adicao de ruıdo rosa (20%).3 sinal degradado por meio de adicao de ruıdo branco (20%).ND: valor nao disponıvel (centroide nao alocado).

Page 106: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

104

C.9 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COMADICAO DE RUIDO

Percentual de vogais-alvo representadas na nuvem final e percentual da duracaodessas vogais - grupos do corpus UTFPR com adicao de ruıdo.

/i/ /e/ /E/ /a/ /O/ /o/ /u/ Media

GrupoNtr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%)

Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%)

UT FPR : GC1 67,5% 97,5% 97,5% 85,0% 97,5% 82,5% 97,5% 89,3%(53,6%) (65,6%) (63,4%) (38,1%) (69,6%) (64,8%) (56,0%) (59,7%)

UT FPR : GG1 67,5% 97,5% 100,0% 92,5% 87,5% 87,5% 82,5% 87,9%(45,5%) (70,0%) (65,1%) (60,5%) (81,4%) (57,5%) (51,5%) (64,4%)

UT FPR : GM1 82,5% 97,5% 100,0% 92,5% 95,0% 77,5% 82,5% 89,6%(58,7%) (75,2%) (69,0%) (60,2%) (81,4%) (66,3%) (62,4%) (68,7%)

UT FPR : GR1 77,5% 85,0% 82,5% 80,0% 82,5% 67,5% 85,0% 80,0%(67,7%) (69,0%) (58,4%) (59,2%) (72,3%) (49,6%) (58,9%) (63,1%)

UT FPR : GH1 67,5% 80,0% 72,5% 92,5% 77,5% 40,0% 50,0% 68,6%(63,9%) (79,5%) (66,2%) (68,7%) (59,5%) (67,1%) (72,5%) (67,3%)

Media72,5% 91,5% 90,5% 88,5% 88,0% 71,0% 79,5% 83,1%(57,9%) (71,9%) (64,4%) (57,3%) (72,8%) (61,1%) (60,3%) (64,6%)

UT FPR : GC2 67,5% 92,5% 95,0% 90,0% 85,0% 82,5% 90,0% 86,1%(50,8%) (77,7%) (66,8%) (63,4%) (73,5%) (62,4%) (59,5%) (66,5%)

UT FPR : GG2 67,5% 95,0% 95,0% 90,0% 82,5% 85,0% 82,5% 85,4%(39,9%) (78,9%) (77,6%) (75,7%) (79,6%) (53,3%) (44,3%) (67,3%)

UT FPR : GM2 75,0% 95,0% 92,5% 97,5% 72,5% 77,5% 87,5% 85,4%(54,7%) (81,7%) (67,7%) (60,2%) (77,3%) (49,8%) (55,8%) (66,0%)

UT FPR : GR2 75,0% 80,0% 90,0% 82,5% 80,0% 67,5% 82,5% 79,6%(55,7%) (61,8%) (70,8%) (68,5%) (75,9%) (47,2%) (49,9%) (63,1%)

UT FPR : GH2 72,5% 92,5% 77,5% 87,5% 67,5% 60,0% 80,0% 76,8%(58,5%) (81,6%) (77,9%) (72,0%) (68,6%) (61,1%) (64,9%) (70,1%)

Media71,5% 91,0% 90,0% 89,5% 77,5% 74,5% 84,5% 82,6%(51,9%) (76,3%) (72,2%) (67,9%) (75,0%) (54,8%) (54,9%) (66,6%)

UT FPR : GC3 15,0% 57,5% 57,5% 57,5% 40,0% 30,0% 40,0% 42,5%(18,3%) (38,3%) (48,0%) (51,7%) (49,9%) (40,1%) (43,1%) (43,2%)

UT FPR : GG3 2,5% 37,5% 45,0% 72,5% 52,5% 10,0% 17,5% 33,9%(12,4%) (48,3%) (50,9%) (38,6%) (50,8%) (36,0%) (26,6%) (44,5%)

UT FPR : GM3 17,5% 45,0% 40,0% 57,5% 45,0% 45,0% 35,0% 40,7%(31,9%) (48,2%) (60,4%) (44,1%) (66,9%) (40,2%) (40,4%) (45,2%)

UT FPR : GR3 15,0% 25,0% 37,5% 57,5% 47,5% 17,5% 32,5% 33,2%(50,2%) (37,2%) (51,6%) (61,0%) (50,3%) (32,1%) (36,0%) (44,4%)

UT FPR : GH3 20,0% 45,0% 40,0% 55,0% 25,0% 37,5% 42,5% 37,9%(36,6%) (51,6%) (50,0%) (52,4%) (61,7%) (48,7%) (47,8%) (48,8%)

Media14,0% 42,0% 44,0% 60,0% 42,0% 28,0% 33,5% 37,6%(29,9%) (44,7%) (52,2%) (49,6%) (55,9%) (39,4%) (38,8%) (45,2%)

1 sinal degradado por meio de adicao de ruıdo marrom (20%).2 sinal degradado por meio de adicao de ruıdo rosa (20%).3 sinal degradado por meio de adicao de ruıdo branco (20%).

Page 107: CT_PPGEB_M_Dresch, Andrea Alves Guimaraes_2015.pdf

105

C.10 DIFERENCA DOS VALORES DE CENTROIDES EM COMPARACOES INTRA-FALANTES

Diferenca dos valores de centroides em comparacoes intrafalantes para amostras docorpus C-ORAL.

Amostra

Centroide 1 Centroide 2 Centroide 3 Centroide 4 Centroide 5

F1×F2(Hz) F1×F2(Hz) F1×F2(Hz) F1×F2(Hz) F1×F2(Hz)∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%)

max∆F1×∆F2 max∆F1×∆F2 max∆F1×∆F2 max∆F1×∆F2 max∆F1×∆F2

BFAMMN01M420,4×2206,0 490,5×1804,3 724,4×1439,3 420,7×1404,5 500,6×1038,12,5%×1,0% 1,9%×2,4% 1,5%×2,1% 4,3%×2,6% 5,0%×3,1%4,6%×1,8% 3,9%×8,2% 3,0%×4,7% 8,1%×5,7% 9,7%×6,7%

BFAMMN02M407,7×2167,0 465,2×1863,8 929,9×1930,2 530,0×1469,2 464,0×1005,43,0%×1,3% 4,3%×2,0% 7,1%×1,9% 4,0%×3,8% 2,8%×2,6%7,9%×2,4% 8,4%×3,7% 13,8%×4,1% 10,5%×8,7% 5,8%×4,1%

BFAMMN04M542,4×2237,3 671,5×1877,6 816,1×1390,3 536,4×1493,7 570,5×1142,42,5%×1,0% 2,9%×1,3% 3,0%×2,3% 5,7%×3,4% 6,9%×4,0%5,1%×1,9% 5,2%×2,4% 6,7%×4,0% 9,8%×5,7% 14,2%×8,4%

BFAMMN08M563,3×2207,3 726,3×1864,5 698,5×1475,6 501,7×1389,9 604,6×1153,53,8%×1,1% 3,3%×2,3% 7,9%×4,8% 3,8%×2,4% 3,8%×4,4%7,5%×2,1% 6,9%×5,7% 23,5%×6,7% 11,8%×6,5% 8,1%×7,6%

BFAMMN03H386,5×2192,0 386,8×1874,0 439,0×1540,1 512,6×1276,6 383,0×1023,114,2%×6,0% 8,1%×7,7% 5,4%×5,7% 9,8%×1,8% 4,6%×3,5%72,6%×14,6% 20,0%×17,6% 10,2%×14,4% 16,9%×4,7% 8,2%×8,1%

BFAMMN06H378,8×2291,8 357,8×1894,6 393,9×1581,0 491,5×1266,8 389,5×950,84,5%×1,6% 2,6%×3,4% 2,3%×3,4% 2,3%×1,4% 3,5%×1,5%8,5%×2,9% 6,7%×9,5% 3,6%×8,9% 4,6%×2,4% 7,0%×4,4%

Media 555,,,111%×××222,,,000% 333,,,888%×××333,,,222% 444,,,555%×××333,,,333% 555,,,000%×××222,,,666% 444,,,444%×××333,,,222%