ct_ppgeb_m_dresch, andrea alves guimaraes_2015.pdf
Post on 07-Jan-2017
227 Views
Preview:
TRANSCRIPT
UNIVERSIDADE TECNOLOGICA FEDERAL DO PARANAPROGRAMA DE POS-GRADUACAO EM ENGENHARIA BIOMEDICA
ANDREA ALVES GUIMARAES DRESCH
METODO PARA RECONHECIMENTO DE VOGAIS E EXTRACAO DEPARAMETROS ACUSTICOS PARA ANALISES FORENSES
DISSERTACAO
CURITIBA
2015
ANDREA ALVES GUIMARAES DRESCH
METODO PARA RECONHECIMENTO DE VOGAIS E EXTRACAO DEPARAMETROS ACUSTICOS PARA ANALISES FORENSES
Dissertacao apresentada ao Programa dePos-Graduacao em Engenharia Biomedicada Universidade Tecnologica Federal doParana como requisito parcial para obtencaodo grau de “Mestre em Ciencias” – Area deConcentracao: Engenharia Biomedica.
Orientador: Prof. Dr. Hugo Vieira Neto
Coorientador: Prof. Dr. Rubens Alexandre deFaria
CURITIBA
2015
Dados Internacionais de Catalogação na Publicação
D773m Dresch, Andréa Alves Guimarães
2015 Método para reconhecimento de vogais e extração de
parâmetros acústicos para análises forenses / Andréa Alves
Guimarães Dresch.-- 2015.
105 f.: il.; 30 cm
Texto em português, com resumo em inglês.
Dissertação (Mestrado) - Universidade Tecnológica
Federal do Paraná. Programa de Pós-graduação em Engenharia
Biomédica, Curitiba, 2015.
Bibliografia: f. 67-72.
1. Fonética acústica. 2. Fonética forense. 3. Língua
portuguesa - Vogais. 4. Processamento de sinais -
Modelos matemáticos. 5. Teoria da previsão. 6. Medição.
7. Métodos de simulação. 8. Engenharia biomédica -
Dissertações. I. Vieira Neto, Hugo, orient. II. Faria,
Rubens Alexandre de, coorient. III. Universidade Tecnológica
Federal do Paraná. Programa de Pós-graduação em Engenharia
Biomédica. IV. Título.
CDD: Ed. 22 -- 610.28
Biblioteca Central da UTFPR, Câmpus Curitiba
UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ
Campus Curitiba
Programa de Pós-Graduação em Engenharia Biomédica
Título da Dissertação Nº 048
“Método para reconhecimento de vogais e extração de parâmetros acústicos para análises forenses”
por
Andréa Alves Guimarães Dresch ÁREA DE CONCENTRAÇÃO: Engenharia Biomédica.
LINHA DE PESQUISA: Instrumentação Biomédica.
Esta dissertação foi apresentada como requisito parcial à obtenção do grau de MESTRE EM CIÊNCIAS (M.Sc.) – Área de Concentração: Engenharia Biomédica, pelo Programa de Pós-Graduação em Engenharia Biomédica (PPGEB), – da Universidade Tecnológica Federal do Paraná (UTFPR), Campus Curitiba, às 10h00min do dia 14 de dezembro de 2015. O trabalho foi aprovado pela Banca Examinadora, composta pelos professores:
________________________________ Prof. Rubens Alexandre de Faria, Dr.
(Presidente – UTFPR)
________________________________ Prof. Luiz Eduardo Soares de Oliveira , Dr.
(UFPR)
________________________________ Prof. André Eugênio Lazzaretti, Dr.
(UTFPR)
Visto da coordenação:
________________________________ Profª. Leandra Ulbricht.,Drª. (Coordenadora do PPGEB)
AVISO: A Folha de Aprovação assinada encontra-se na Coordenação do PPGEB.
A vovo Corina (in memoriam).
AGRADECIMENTOS
O caminho dessa etapa da minha vida so foi possıvel de ser percorrido por
valiosas contribuicoes que recebi. Por isso expresso minha gratidao a essas pessoas.
Agradeco ao Grupo de Estudos dos Sons da Fala da UTFPR, em especial a
professora Malu, pela cessao de amostras de audio utilizadas neste trabalho.
Agradeco aos colegas do LAPIS, especialmente Eduardo, Philipe, Charles e
Ricardo, pelo convıvio que permitiu um imenso aprendizado.
Agradeco aos meus colegas da Secao de Perıcias Audiovisuais, Aninha, Ivo,
Marcia, Lucas, Denise e Marilisa. O apoio de voces foi muito importante.
Agradeco ao meu orientador Hugo Vieira Neto, que tem tido um papel
fundamental em minha formacao. Nos momentos crıticos sempre soube trazer a
motivacao necessaria.
Ao meu coorientador Rubens Alexandre Faria por abrir as portas para
Engenharia Forense no programa.
A Andre Eugenio Lazzareti, pelo auxılio com as analises dos resultados dos
experimentos.
Agradeco aos meus familiares e amigos, por toda compreensao neste perıodo.
A minha mae, dona Aparecida, por todas as oracoes sempre que eu precisava.
Aos meus irmaos Karine, Rogerio e Lucas, sempre irmaozinhos no meu
coracao.
A Josianne, irma por afinidade, pela amizade que atravessa os anos.
Agradeco ao meu esposo, Marcio, companheiro de jornada e meu melhor
amigo, sempre me amparando em todos os passos.
“Caminhante, nao ha caminho, faz-se caminho ao andar.”(Antonio Machado Ruiz)
“NAO ENTRE EM PANICO!”(Douglas Adams, Guia do Mochileiro das Galaxias)
RESUMO
Dresch, Andrea Alves Guimaraes. METODO PARA RECONHECIMENTO DE VOGAISE EXTRACAO DE PARAMETROS ACUSTICOS PARA ANALISES FORENSES. 105 f.Dissertacao – Programa de Pos-Graduacao em Engenharia Biomedica, UniversidadeTecnologica Federal do Parana. Curitiba, 2015.
Exames de Comparacao Forense de Locutores apresentam caracterısticascomplexas, demandando analises demoradas quando realizadas manualmente.Propoe-se um metodo para reconhecimento automatico de vogais com extracao decaracterısticas para analises acusticas, objetivando-se contribuir com uma ferramentade apoio nesses exames. A proposta baseia-se na medicao dos formantes atravesde LPC (Linear Predictive Coding), seletivamente por deteccao da frequenciafundamental, taxa de passagem por zero, largura de banda e continuidade, sendo oagrupamento das amostras realizado por meio do metodo k-means. Experimentosrealizados com amostras de tres diferentes bases de dados trouxeram resultadospromissores, com localizacao das regioes correspondentes a cinco das vogais doPortugues Brasileiro, propiciando a visualizacao do comportamento do trato vocal deum falante, assim como deteccao de trechos correspondentes as vogais-alvo.
Palavras-chave: Analise Acustica, Exame de Comparacao de Locutores, FoneticaForense, Processamento de Sinais de Audio, Trapezio Fonetico.
ABSTRACT
Dresch, Andrea Alves Guimaraes. METHOD FOR RECOGNITION OF VOWELS ANDEXTRACTION OF ACOUSTIC PARAMETERS FOR FORENSIC ANALYSIS. 105 f.Master’s Dissertation – Post-graduation Program in Biomedical Engineering, FederalUniversity of Technology - Parana. Curitiba, 2015.
Forensic Speaker Comparison exams have complex characteristics, demanding a longtime for manual analysis. A method for automatic recognition of vowels, providingfeature extraction for acoustic analysis is proposed, aiming to contribute as a supporttool in these exams. The proposal is based in formant measurements by LPC (LinearPredictive Coding), selectively by fundamental frequency detection, zero crossing rate,bandwidth and continuity, with the clustering being done by the k-means method.Experiments using samples from three different databases have shown promisingresults, in which the regions corresponding to five of the Brasilian Portuguese vowelswere successfully located, providing visualization of a speaker’s vocal tract behavior,as well as the detection of segments corresponding to target vowels.
Keywords: Acoustic Analysis, Audio Signal Processing, Forensic Phonetics, ForensicSpeaker Comparison Exam, Phonetic Trapezium.
LISTA DE FIGURAS
–FIGURA.1 Fluxograma das etapas principais da proposta . . . . . . . . . . . . . . . . . . . . 18–FIGURA.2 Diagrama em corte sagital do aparelho fonador com indicacao dos
sistemas que o compoem e seus principais elementos . . . . . . . . . . . . 22–FIGURA.3 Diagrama esquematico do mecanismo de producao de voz humana 23–FIGURA.4 Comparacao entre os espectros LPC e FFT . . . . . . . . . . . . . . . . . . . . . . . 26–FIGURA.5 Trapezio vocalico fonetico de acordo com o IPA . . . . . . . . . . . . . . . . . . . 28–FIGURA.6 Sobreposicao do grafico de F1×F2 com ilustracao com posicao da
lıngua durante a producao das vogais orais tonicas . . . . . . . . . . . . . . . . 29–FIGURA.7 Fluxograma dos algoritmos implementados . . . . . . . . . . . . . . . . . . . . . . . 35–FIGURA.8 Grafico de nuvem de pontos F1×F2 com os valores de formantes
obtidos para todos os pontos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36–FIGURA.9 Grafico de nuvem de pontos F1×F2 com os valores de formantes
apos analise de F0 e de ZCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37–FIGURA.10 Grafico de nuvem de pontos F1×F2 com os valores de formantes
apos analise inicial de agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38–FIGURA.11 Graficos de um trecho de audio: forma de onda com sobreposicao
de tracados de STE e ZCR e espectrogramas com sobreposicao decurvas de F0 e de formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
–FIGURA.12 Graficos de nuvens de pontos F1×F2 referentes a diferentes trilhasde formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
–FIGURA.13 Fluxogramas dos algoritmos implementados para agrupamento ebusca de centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
–FIGURA.14 Divisao do espaco F1 × F2 em regioes horizontais a partir dosmınimos obtidos atraves da funcao da densidade de probabilidade 44
–FIGURA.15 Subdivisao de regiao do espaco F1 × F2 a partir dos mınimos emaximos da funcao densidade de probabilidade para inicializacaodos centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
–FIGURA.16 Distribuicao dos valores de razao entre as distancias resultantes dosMetodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
–FIGURA.17 Grafico de nuvem de pontos F1 × F2 com indicacao do centroideassociado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
–FIGURA.18 Graficos de nuvens de pontos e trechos F1×F2 sobrepostos peloscentroides resultantes obtidos pelos Metodos 1 e 2 . . . . . . . . . . . . . . . . 53
–FIGURA.19 Graficos LTAS (Long Term Average Spectrum) . . . . . . . . . . . . . . . . . . . . 55–FIGURA.20 Boxplots com comparativo das distribuicoes de F1×F2 de amostras
do grupo GC com degradacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60–FIGURA.21 Graficos de nuvens de pontos F1×F2 e boxplots das distribuicoes
dos formantes em diferentes trechos de uma amostra. . . . . . . . . . . . . 62
LISTA DE TABELAS
–TABELA.1 Amostras de dados utilizadas nos experimentos . . . . . . . . . . . . . . . . . . . 34–TABELA.2 Resultados dos centroides do grupo GC da UTFPR obtidos apos
agrupamento por meio dos Metodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . 48–TABELA.3 Diferencas entre os centros as referencias do grupo GC da UTFPR
apos agrupamento por meio dos Metodos 1 e 2 . . . . . . . . . . . . . . . . . . . . 49–TABELA.4 Diferenca percentual da distancia entre a fronteira de cada regiao a
referencia mais proxima, com agrupamento pelos Metodos 1 e 2 . . . 51–TABELA.5 Quantidade de referencias localizadas internamente as regioes
delimitadas por meio dos Metodos 1 e 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 51–TABELA.6 Corpus UTFPR: percentual de vogais-alvo representadas na nuvem
final e percentual medio das amostras dessas vogais . . . . . . . . . . . . . . 54–TABELA.7 Diferenca dos valores F1 e F2 dos centroides em relacao aos valores
de referencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56–TABELA.8 Percentual de vogais-alvo representadas na nuvem final - grupos do
corpus UTFPR sem degradacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56–TABELA.9 Diferenca dos valores F1 e F2 dos centroides em relacao aos valores
de referencia, amostras com codificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . 57–TABELA.10 Teste t de Student para comparar valores obtidos com amostras
submetidas a codificacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57–TABELA.11 Percentual de vogais-alvo representadas na nuvem final - grupos do
corpus UTFPR com codificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58–TABELA.12 Numero de centroides reconhecidos nos grupos analisados apos
adicao de ruıdo ao sinal das amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58–TABELA.13 Diferenca dos valores F1 e F2 dos centroides em relacao aos valores
de referencia, amostras com adicao de ruıdo . . . . . . . . . . . . . . . . . . . . . . 59–TABELA.14 Teste t de Student para comparar valores obtidos com amostras com
adicao de ruıdo codificacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59–TABELA.15 Percentual de vogais-alvo representadas na nuvem final - grupos do
corpus UTFPR com adicao de ruıdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60–TABELA.16 Diferenca dos valores de centroides em comparacoes intrafalantes
para amostras do corpus C-ORAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
LISTA DE SIGLAS
CL Comparacao de LocutoresMFCC Mel-Frequency Cepstral CoefficientsLPCC Linear Prediction Cepstral CoefficientsHMM Hidden Markov ModelGMM Gaussian Mixture ModelSVM Support Vector MachineZCR Zero Crossing RateSTE Short Term EnergyMDF Most Dominant FrequencyF0 Frequencia FundamentalF1 Primeiro FormanteF2 Segundo FormanteFn Enesimo FormanteLPC Linear Predictive CodingFFT Fast Fourier TransformPB Portugues BrasileiroIPA International Phonetic AlphabetBW1 Banda de passagem de F1BW2 Banda de passagem de F2PCM Pulse Code ModulationAMR-nb Adaptative multi rate - narrow bandAMR Adaptative multi rate3GPP 3rd Generation Partnership ProjectMP3 MPEG layer 3LTAS Long Term Average Spectrum
LISTA DE SIMBOLOS
rx(τ) Autocorrelacao do sinalrxw(τ) Autocorrelacao do sinal apos janelamentorw(τ) Autocorrelacao da janelas[n] Sinal de saıdax[n] Sinal de audio de entradam Numero de coeficientes LPCs[n] Sinal de saıda estimado atraves dos coeficientes LPCa[i] Coeficientes LPCe[n] Erro de predicao do sistema LPCyn Predicao linear das amostras anterioreszn Predicao linear das amostras posterioresK Numero de agrupamentos do metodo k-meansd Distancia Euclidianaµµµkkk K-esimo centro de agrupamento do metodo k-meansrnk Rotulo do enesimo padrao de entradaxxxnnn Enesimo padrao de entrada do metodo k-meansµ Media da distribuicao
SUMARIO
1 INTRODUCAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.1 MOTIVACAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.2 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.2.2 Objetivos Especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3 ABORDAGEM PROPOSTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4 ESTRUTURA DA DISSERTACAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 TRABALHOS CORRELATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 FUNDAMENTACAO TEORICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1 PRODUCAO DE VOZ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.1.1 Sistema Respiratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.2 Sistema Laringeal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.1.3 Sistema Articulatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2 TEORIA FONTE-FILTRO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2.1 Frequencia Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.2 Formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3 FONEMAS DO PORTUGUES BRASILEIRO (PB) . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.1 Vogais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.2 Semivogais ou Glides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3.3 Consoantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.4 MODELO DE AGRUPAMENTO K-MEANS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314 MATERIAIS E METODOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1 AMOSTRAS DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.1 Corpus UTFPR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.2 Corpus SPOLTECH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.1.3 Corpus C-ORAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.2 FERRAMENTAL DE EDICAO DE AUDIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3 ALGORITMOS UTILIZADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.3.1 Pre-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.3.2 Rotina para Calculo da Taxa de Passagem por Zero . . . . . . . . . . . . . . . . . . . . . . . 374.3.3 Deteccao da Frequencia Fundamental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.3.4 Calculo de Formantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.3.5 Selecao de Amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.3.6 Continuidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.7 Modelo de Agrupamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.8 Inicializacao dos Centroides - “Metodo 1” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.9 Inicializacao dos Centroides - “Metodo 2” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 EXPERIMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.1 COMPARACAO ENTRE OS METODOS DE INICIALIZACAO . . . . . . . . . . . . . . . 465.2 ALOCACAO DOS CENTROIDES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.3 RECONHECIMENTO DOS TRECHOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465.4 CODIFICACAO DOS SINAIS DE AUDIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.5 ADICAO DE RUIDO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.6 COMPARACAO INTRAFALANTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 RESULTADOS E DISCUSSOES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.1 COMPARACAO ENTRE OS METODOS DE INICIALIZACAO . . . . . . . . . . . . . . . 486.1.1 Alocacao dos Centroides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.1.2 Reconhecimento dos Trechos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536.1.3 Media Espectral apos o Reconhecimento dos Trechos . . . . . . . . . . . . . . . . . . . . . 546.2 RESULTADOS PARA DEGRADACOES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556.2.1 Codificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566.2.2 Adicao de Ruıdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.3 RESULTADOS PARA COMPARACAO INTRAFALANTES . . . . . . . . . . . . . . . . . . . 617 CONCLUSAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 637.1 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65REFERENCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67APENDICE A - CODIGO DOS PROGRAMAS GERADOS NO PRAAT . . . . . . . . . . 73A.1 ROTINA PARA CALCULO E GERACAO DE TABELAS COM VALORES DE
STE, ZCR, F0 E TRILHAS DE F1,2,3 E BW1,2,3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73A.2 ROTINA PARA CRIACAO DE TEXTGRIDS COM VALORES DE TRECHOS 82APENDICE B - CODIGO DOS PROGRAMAS GERADOS NO MATLAB . . . . . . . . . 86B.1 FUNCAO PRINCIPAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86B.2 FUNCAO PARA FORMATAR TABELAS GERADAS NO PRAAT . . . . . . . . . . . . . 87B.3 FUNCOES PARA GERAR NUVEM DE PONTOS F1×F2 - METODO 1 . . . . . . 88B.4 FUNCOES PARA GERAR NUVEM DE PONTOS F1×F2 - METODO 2 . . . . . . 92B.5 FUNCAO PARA CALCULAR VALORES MEDIOS NOS TRECHOS . . . . . . . . . 95APENDICE C - RESULTADOS OBTIDOS DURANTE OS EXPERIMENTOS . . . . . 97C.1 RESULTADOS OBTIDOS POR MEIO DOS METODOS 1 E 2 . . . . . . . . . . . . . . . 97C.2 DISTANCIAS RESULTANTES APOS AGRUPAMENTO POR MEIO DOS
METODOS 1 E 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98C.3 DIFERENCA DOS VALORES F1 E F2 DOS CENTROIDES EM RELACAO
AOS VALORES DE REFERENCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99C.4 PERCENTUAL DE VOGAIS-ALVO REPRESENTADAS NA NUVEM FINAL -
GRUPOS DO CORPUS UTFPR SEM DEGRADACAO . . . . . . . . . . . . . . . . . . . . . 99C.5 DIFERENCA DOS VALORES F1 E F2 DOS CENTROIDES EM RELACAO
AOS VALORES DE REFERENCIA, AMOSTRAS COM CODIFICACAO . . . . .100C.6 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COM
CODIFICACAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101C.7 NUMERO DE CENTROIDES RECONHECIDOS APOS ADICAO DE RUIDO
AO SINAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .102C.8 DIFERENCA DOS VALORES F1 E F2 DOS CENTROIDES EM RELACAO
AOS VALORES DE REFERENCIA, AMOSTRAS COM ADICAO DE RUIDO 103C.9 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COM
ADICAO DE RUIDO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104C.10 DIFERENCA DOS VALORES DE CENTROIDES EM COMPARACOES
INTRAFALANTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .105
14
1 INTRODUCAO
A producao de provas, regulamentada atraves do Codigo de Processo Penal
(BRASIL, 1941; BRASIL, 2008), tem sido cada vez mais comum por meio de
registros de audio, em especial apos a promulgacao da Lei 9296/96 que trata das
interceptacoes telefonicas (BRASIL, 1996), disciplinada pelas Resolucoes nº 59 e
nº 84 (CNJ, 2008; CNJ, 2009). Consequentemente, as demandas da area forense
referentes as perıcias audiovisuais para atribuicao de autorias tem se intensificado.
O exame de Comparacao de Locutores (CL) tem por finalidade verificar se
dois registros de voz e fala foram produzidos por um mesmo indivıduo, consistindo
na comparacao entre um registro de audio denominado questionado - sobre o qual
pairam duvidas quanto a autoria das falas - e um registro padrao - registros de fala
de identidade conhecida (MORISSON, 2003; GRECO, 2013; GONCALVES; PETRY,
2015). A importancia desse exame reside na possibilidade de vincular ou desvincular
um indivıduo a um fato delituoso materializado atraves de um registro de audio
(BRAID, 2003).
Um exemplo no qual um exame de CL seria destacadamente importante
supoe uma gravacao oriunda de interceptacao telefonica, cumprindo todos os
requisitos legais, seja a unica prova material para esclarecimento de um crime. Seu
conteudo trata-se de um dialogo entre duas pessoas, identificadas como Joao e
Maria, que trocam informacoes sobre um homicıdio perpetrado por ambos contra
um terceiro indivıduo, sendo que os falantes nao apenas explicitam sua participacao,
como tambem mencionam detalhes que alteram a classificacao do delito de homicıdio
simples para qualificado, de acordo com o Codigo Penal (BRASIL, 1940). Ocorre que,
durante o processo penal, o defensor dos acusados argumenta que as vozes ouvidas
na gravacao nao sao de seus clientes.
E indiscutıvel a importancia do exame de CL para dirimir duvidas como a
descrita no exemplo. Nesse caso hipotetico, associar ou nao, equivocadamente,
as vozes presentes na gravacao as pessoas Joao e Maria, leva a dois cenarios
diametralmente opostos: impunidade de indivıduos culpados de um crime de maior
potencial ofensivo, ou situacao eticamente ainda pior, reclusao injusta de cidadaos
inocentes do crime imputado.
15
Relatorios de diagnostico da Seguranca Publica e da Perıcia Criminal
brasileira apontam a carencia de peritos criminais (SENASP, 2012; ENASP, 2012), o
que consequentemente culmina em passivo de laudos nos Institutos de Criminalıstica.
O represamento de materiais a serem examinados prejudica a celeridade necessaria
para a producao de provas, o que, de acordo com Vargas e colaboradores (2006),
contribui para a morosidade de um processo penal.
Nesse contexto, agravado pela complexidade das analises envolvidas, uma
vez que o exame de CL requer um tempo de execucao muito superior a media dos
demais exames periciais, a gestao de recursos humanos de Secoes de Perıcias
Audiovisuais e dificultada, analogamente ao constatado por Vrubel e colaboradores
(2013) em relacao a Secao de Computacao Forense .
Segundo Gomes e Carneiro (2014), nos orgaos brasileiros que realizam
exames de CL, observa-se uma preponderancia de fonoaudiologos e engenheiros
eletricistas. Contudo, independentemente da area de formacao do perito criminal,
a interdisciplinaridade inerente a esse exame (GOMES et al., 2012) exige uma grande
construcao de conhecimento. Portanto, a capacitacao deve ser rigorosa, pois em
cada exame um diferente aspecto podera ser decisivo para determinacao/exclusao
de autoria (MIQUILUSSI et al., 2014). Dessa forma, torna-se ainda mais reduzido
o numero de peritos criminais aptos para receberem designacoes de exames de
CL. E desejavel, portanto, que se busque o aperfeicoamento das tecnicas adotadas,
para melhor aproveitamento dos recursos humanos disponıveis e para otimizacao -
quantitativa e qualitativa - do exame.
Em pesquisa realizada por Gold e French (2011), foi efetuado um
levantamento das tecnicas utilizadas para esse exame em 13 paıses, sendo
constatada a predominancia da utilizacao das analises classificadas como perceptivo-
auditiva e acustico-instrumental, ou simplesmente perceptiva e acustica (MORISSON
et al., 2009). Os autores observaram ainda que, mesmo quando algum sistema de
reconhecimento automatico e utilizado, nao se abandona por completo as analises
humanas, tanto que recentemente tem-se adotado a nomenclatura “Automatico com
Supervisao Humana” (MORRISON et al., 2015).
No cenario brasileiro, a constatacao de Gold e French (2011) e de que as
analises perceptiva e acustica sao adotadas combinadamente, sendo tal apontamento
corroborado por autores brasileiros (MORISSON et al., 2009; GONCALVES; PETRY,
2015).
16
A analise perceptiva requer um profissional capacitado para identificar
propriedades da qualidade da voz, padroes articulatorios, tracos linguısticos, entre
outros atributos. Recentemente foi proposto por Goncalves e Petry (2015) o ”Protocolo
Forense para Analise Perceptivo-Auditiva de Amostras de Fala”, para auxiliar a
identificacao e analise de caracterısticas relativas a qualidade de voz, que tambem
ampara analises de sociofonetica (GONCALVES; BRESCANCINI, 2014).
Por sua vez, a analise acustica engloba medicoes de curto e de longo
termo, nos domınios temporal e espectral, sendo que, de acordo com Morisson
e colaboradores (2009), os parametros acusticos servem como suporte para
achados em analises perceptivas. Contudo, algumas analises requerem extensiva
segmentacao de trechos com fonemas a serem submetidos a extracao de parametros,
o que, dependendo do volume do material, pode tornar o exame extremamente
laborioso.
Sendo assim, a proposta desta pesquisa e o desenvolvimento de um metodo
para contribuir para o desenvolvimento de uma ferramenta para auxılio de analises
acusticas que facilite a visualizacao de caracterısticas uteis para o exame de CL:
energia, frequencia fundamental, frequencia e banda de formantes, taxa de subida
ou descida de formantes em um trecho.
1.1 MOTIVACAO
Objetiva-se que o metodo proposto seja integrado em ferramenta de apoio em
exames de CL. Para tal implementacao, a escolha do aproveitamento de interfaces do
aplicativo Praat (BOERSMA; WEENINK, 2015) se deve pelo mesmo ser um software
livre e amplamente difundido tanto no ambiente academico como no forense, tal que
os profissionais da area ja estao familiarizados com o mesmo.
Embora o foco seja forense, a ferramenta tambem podera ser utilizada em
outras areas de linguıstica ou de fonoaudiologia. O intento e o reconhecimento
de trechos vozeados de uma gravacao, sem a obrigatoriedade de pre-segmentacao
manual, alem da disponibilizacao de graficos, com possibilidade de selecao de areas
a serem reavaliadas com a visualizacao de oscilograma e espectrograma, com os
trechos de interesse concatenados ou simplesmente etiquetados.
Tal funcionalidade seria util, por exemplo, em analises do comportamento
formantico a longo termo do trato vocal de um dado falante. Porem, nos casos
17
em que tal hipotese nao se confirme devido a interferencia agressiva de ruıdo ou a
particularidades da voz em questao, ou mesmo no caso de outliers, o perito teria a
possibilidade de confirmar perceptivamente o que ocorreu.
O metodo proposto podera auxiliar em analises acusticas manuais, sem
detrimento da utilizacao de sistemas de reconhecimento automatico. Alem disso, um
padrao visual auxiliaria em analise intra e inter-sujeito, pois se espera em uma CL que
sejam encontrados elementos estaveis o suficiente e que denotem similaridades em
falas pertencentes a um falante, mas que nao sejam comuns a outros indivıduos.
1.2 OBJETIVOS
1.2.1 Objetivo Geral
Obter um metodo para reconhecimento de vogais, com a finalidade de
segmentar automaticamente e extrair caracterısticas acusticas de fonemas vocalicos
em exames de CL.
1.2.2 Objetivos Especıficos
• Selecionar amostras de audio viaveis para extracao e analise de parametros
acusticos.
• Implementar funcoes nos software Praat e Matlab para segmentacao de trechos
vocalicos, assim como a obtencao do trapezio fonetico vocalico.
• Estabelecer criterios para avaliacao de desempenho dos metodos
implementados.
• Conduzir experimentos com diversos tipos de degradacao do sinal de audio, tais
como codificacao, compressao e adicao de ruıdo.
1.3 ABORDAGEM PROPOSTA
Com a finalidade de proporcionar uma visao geral da metodologia proposta,
apresenta-se a seguir um resumo de suas etapas, as quais estao ilustradas na
Figura 1.
18
ENTRADA
Selecao de trechos apartir de tres corpora,e preparacao dasamostras
EXTRACAO DECARACTERISTICAS
Calculo de parametrosacusticos e geracao detabelas com resultados
PROCESSAMENTODO SINAL
Processamento do sinal paraclassificacao das amostras eseu agrupamento, comutilizacao de dois metodosde inicializacao
SAIDA
Nuvem resultante dosprimeiros formantes esegmentacao emtrechos vocalicos enao-vocalicos
Figura 1: Fluxograma das etapas principais da proposta.
• Entrada: para realizacao dos experimentos foram selecionadas amostras de
audio de tres diferentes corpora. Para avaliacao da robustez do metodo, as
analises foram efetuadas nao apenas para os sinais de audio sem degradacao,
como tambem com os mesmos submetidos a codificacao, compressao ou adicao
de ruıdo. A escolha das degradacoes foi feita com base na natureza de materiais
que costumeiramente sao encaminhados para perıcia: provenientes de ligacoes
telefonicas, gravadas em formatos que utilizam compressao com perdas ou com
ruıdo de fundo.
• Extracao de Caracterısticas: calculo de parametros acusticos do sinal. No
metodo proposto, a medicao dos formantes e feita pela tecnica LPC (Linear
Predictive Coding), conforme o metodo de Burg (COLLOMB, 2009), com
posterior ponderacao de custos para determinacao final dos valores de cada
formante (com base na frequencia e na banda). Sao descartados os pontos
em que nao ha deteccao de F0 (frequencia fundamental), calculados atraves de
autocorrelacao nas janelas (trechos em analise) com energia acima e taxa de
passagem por zero abaixo de limiares pre-estabelecidos.
• Processamento do sinal: reconhecimento de agrupamentos de pontos (ou
clusters) relacionados a anterioridade e a altura das vogais, identificando que
vogal se refere a cada regiao especıfica (/a/, /e/, /E/, /i/, /o/, /O/ e /u/).
Embora, como constatado por Escudero e colaboradores (2009), no Portugues
Brasileiro (PB) tal determinacao possa ser feita por meio de varias combinacoes
de parametros, a combinacao dos formantes F1×F2 e a que melhor evidencia a
distribuicao das vogais.
Com o mecanismo desenvolvido foi possıvel proceder a analise das vogais, com
base em seus parametros acusticos, sem necessidade de segmentacao previa.
A estrategia explorada foi a de utilizar a deteccao da frequencia fundamental
(F0), a determinacao de limiares de taxa de passagem por zero e de energia de
19
curto termo, assim como a avaliacao da continuidade de valores em amostras
subsequentes, para possibilitar a selecao dos instantes com valores validos de
formantes, de forma a minimizar a interferencia de fonemas consonantais.
Foram avaliadas duas variacoes de metodos para reconhecimento das vogais,
os quais diferiam entre si na forma de realizar o agrupamento dos pontos F1×F2.
No denominado “Metodo 1”, obtem-se uma matriz com valores de formantes
calculados a partir de um valor medio de vogais como referencia e a busca de
centroides se baseia nos picos das distribuicoes de F1 × F2. Por outro lado,
no “Metodo 2”, trabalha-se com varias matrizes de formantes, designadas de
“trilhas”, e a busca de centroides parte de valores iniciais definidos a priori.
• Saıda: foram obtidas nuvens resultantes para os primeiros formantes F1×F2,
assim como a segmentacao do sinal de audio em trechos vocalicos e nao-
vocalicos. Os resultados obtidos demonstraram sucesso na segmentacao
automatica de vogais, sendo constatado um melhor desempenho do “Metodo
2” tanto em relacao ao numero de centroides localizados, como a quantidade e
duracao dos trechos-alvo reconhecidos.
1.4 ESTRUTURA DA DISSERTACAO
Esta dissertacao esta organizada da seguinte maneira: no Capıtulo 2 sao
trazidos trabalhos recentes de reconhecimento automatico de vogais, enquanto que no
Capıtulo 3 sao abordados conceitos relacionados a producao de voz, a Teoria Fonte-
Filtro, caracterısticas acusticas associados aos fonemas, assim como ao modelo de
agrupamento k-means. O Capıtulo 4 trata da descricao das amostras de dados,
ferramental e algoritmos utilizados. No Capıtulo 5 sao elencados os experimentos
realizados, sendo os resultados obtidos apresentados e discutidos no Capıtulo 6. No
Capıtulo 7, os principais resultados sao retomados, sendo feita uma discussao acerca
da contribuicao do metodo desenvolvido e de trabalhos futuros.
20
2 TRABALHOS CORRELATOS
Dentro da area de processamento de sinais de fala encontra-se a aplicacao de
reconhecimento de locutor (ou falante), a qual apresenta tres subdivisoes principais:
deteccao, identificacao e verificacao de locutor, podendo as mesmas ser classificadas
como dependentes ou independentes de texto (CAMPBELL JR, 1997).
A identificacao de locutor ocorre em um contexto 1:N, pois efetua-se a
comparacao do alvo com os indivıduos de um dado grupo, podendo ou nao existir
uma correspondencia. Na verificacao de locutor, por outro lado, existe uma relacao
1:1 para comparacao, uma vez que ha uma identidade alegada para o alvo (ADAMI,
2004).
Os sistemas de reconhecimento automatico de locutor apresentam estruturas
similares as dos sistemas de reconhecimento de fala. Englobam etapas de extracao
de parametros, comparacao e de decisao. A etapa de extracao de parametros tem por
objetivo estimar um vetor de caracterısticas do sinal de audio, a fim de possibilitar que
comparacoes possam ser feitas a partir desse vetor. A etapa de comparacao envolve
o calculo de um valor de correspondencia, que expresse a similaridade entre as
caracterısticas extraıdas dos sinais sob analise. Por fim, a etapa de decisao compete
determinar se as vozes comparadas foram produzidas por um mesmo indivıduo
(CAMPBELL JR, 1997).
O desenvolvimento de tais sistemas baseia-se, principalmente, na extracao
de caracterısticas por meio de tecnicas MFCC (Mel-Frequency Cepstral Coefficients),
LPCC (Linear Prediction Cepstral Coefficients), com modelamento HMM (Hidden
Markov Model), GMM (Gaussian Mixture Model), SVM (Support Vector Machine) ou
redes neurais (DRYGAJLO, 2012; FURUI, 2005; REYNOLDS, 2002; KINNUNEN; LI,
2010).
Ressalta-se, contudo, que a motivacao deste trabalho foi contribuir com
ferramental para auxiliar peritos criminais durante a realizacao do exame, por meio
da segmentacao de fonemas vocalicos. Com base nisso, buscou-se na literatura
trabalhos relacionados ao reconhecimento automatico de vogais, especialmente em
contexto de fala encadeada.
21
Alotaibi e Hussain (2010) realizaram um sistema para reconhecimento de
vogais do idioma Arabe. Os autores efetuaram modelamento HMM, sendo a
extracao de caracterısticas feita por meio de MFCC e de formantes, tendo obtido um
desempenho similar para ambas as tecnicas, com taxa de acerto de ate 91,6%.
Pradhan e Prasanna (2013) propoem a segmentacao de regioes vocalicas
e nao-vocalicas como estrategia para melhorar o desempenho na tarefa de
reconhecimento de falante. No metodo aplicado, essas regioes sao submetidas de
forma independente ao estagio de extracao de caracterısticas por meio de MFCC, e
em seguida a etapa de classificacao com uso de GMM. Para decisao, os resultados
obtidos sao combinados, porem com uma atribuicao distinta de pesos (ha um
favorecimento das regioes vocalicas que sao menos degradadas por ruıdo). Tal
implementacao resultou em reducao da taxa de erro de 6,63% para 6%.
Deekshitha e Leena (2014) propoem um sistema para classificacao de
fonemas presentes no Malaiala, uma das lınguas oficiais da India. O metodo de
extracao de caracterısticas, que foi indicado como tendo melhor resultado, foi baseado
na combinacao de coeficientes MFCC com caracterısticas do sinal - ZCR (Zero
Crossing Rate - taxa de passagem por zero), STE (Short Term Energy - energia
de curto termo), MDF (Most Dominant Frequency - frequencia dominante), spectral
flatness (nivelamento espectral). Para classificacao foram utilizadas redes neurais
artificiais. As autoras buscavam o reconhecimento das diferentes categorias de
consoantes alem das vogais, para as quais foi obtida uma taxa de acerto de 60%
com o metodo de extracao indicado.
Na abordagem proposta por Beke e Horvarth (2015) para reconhecimento
de vogais nasais do idioma Hungaro, a partir de um corpus de fala espontanea, a
extracao de caracterısticas foi feita com MFCC e a classificacao com HMM, sendo
utilizados 1490 vogais para treino e 745 para teste. Com essa abordagem os autores
conseguiram uma taxa de acerto de 75,8% no reconhecimento das vogais.
No presente trabalho optou-se pela extracao de caracterısticas acusticas do
sinal, sendo a classificacao das regioes vocalicas realizadas com a aplicacao do
metodo de agrupamento k-means na nuvem de pontos F1× F2, apos refinamentos
e inicializacao detalhados na Secao 4.3. Adotou-se tal metodologia para ser possıvel
realizar a segmentacao sem a etapa de treinamento, procedimento necessario nos
metodos de classificacao utilizados nos trabalhos mencionados anteriormente.
22
3 FUNDAMENTACAO TEORICA
3.1 PRODUCAO DE VOZ
A fala e um dos principais recursos de comunicacao humana. Inicia-se por um
processo interno do falante, que mentalmente formula a mensagem a ser transmitida,
ocorrendo em seguida a ativacao motora dos musculos e orgaos do aparelho fonador
para a articulacao da fala.
Apos emissao da mensagem pelo falante e transmissao atraves do meio (o
proprio ar ou um canal telefonico, por exemplo), tera vez o processo de percepcao dos
sons de fala pelo ouvinte. Tal processo e mais complexo do que a simples deteccao de
sinais acusticos (como tons puros ou ruıdo), pois e necessario identificar, categorizar e
reconhecer esses sons em sua forma, para atribuir a fala seu significado (mensagem)
(RUSSO; BEHLAU, 1993; RABINER; SCHAFER, 2011).
Os elementos envolvidos na producao de voz compoem o aparelho fonador
(ilustrado na Figura 2), constituıdo pelos sistemas elencados na sequencia.Produção da Fala
19
2 FUNDAMENTACAO TEORICA
2.1 PRODUCAO DE VOZ
A fala e um dos principais recursos de comunicacao humana. Inicia-se por um
processo interno do falante, que mentalmente formula a mensagem a ser transmitida,
ocorrendo em seguida a ativacao motora dos musculos e orgaos do aparelho fonador
para a articulacao da fala.
Apos emissao da mensagem pelo falante e transmissao atraves do meio (o
proprio ar ou um canal telefonico, por exemplo), tera vez o processo de percepcao dos
sons de fala pelo ouvinte. Tal processo e mais complexo do que a simples deteccao de
sinais acusticos (como tons puros ou ruıdo), pois e necessario identificar, categorizar e
reconhecer esses sons em sua forma, para atribuir a fala seu significado (mensagem)
(RUSSO; BEHLAU, 1993; RABINER; SCHAFER, 2011).
Os elementos envolvidos na producao de voz compoem o aparelho fonador
(ilustrado na Figura 1), constituıdo pelos sistemas elencados na sequencia.
Sistema Articulatorio
Sistema Laringeal
Sistema Respiratorio
Cavidade nasal
Narinas
Labios
Lıngua
Dentes
Cavidade oral
Traqueia
Pulmoes
Diafragma
Laringe
Palato duro
Palato mole(veu palatino)
Figura 1: Diagrama em corte sagital do aparelho fonador.
Fonte: Adaptado de (DELLER et al., 2000).
Fonte: Adaptado de (DELLER et al., 2000).
9 / 54
Figura 2: Diagrama em corte sagital do aparelho fonador,os sistemas que o compoem e seus principais elementos.
Fonte: Adaptado de (DELLER et al., 2000).
23
3.1.1 Sistema Respiratorio
A geracao da voz tem inıcio no sistema respiratorio (diafragma, pulmoes,
traqueia), que produz a energia aerodinamica necessaria pra producao dos sons
da fala (LADEFOGED; JOHNSON, 2010). Na Figura 3 e possıvel observar como o
volume de ar expelido pelos pulmoes atua como fonte de energia para os demais
sistemas integrantes do aparelho fonador.Produção da Fala
20
2.1.1 Sistema Respiratorio
A geracao da voz tem inıcio no sistema respiratorio (diafragma, pulmoes,
traqueia), que produz a energia aerodinamica necessaria pra producao dos sons
da fala (LADEFOGED; JOHNSON, 2010). Na Figura 2 e possıvel observar como o
volume de ar expelido pelos pulmoes atua como fonte de energia para os demais
sistemas integrantes do aparelho fonador.
��
����� ���������� ��� ��
��� ���������� �������������� ���� ��� ������ ����������
� ���� ����� ������� ��� ����!��������� �� � ��������������
����"�#$%&'$#()&*+�&+����� �+%��� �������������,�� � ����
������� �-��������������������������������� ��� ������
����������� ������� ��.������ �
/012345
61540789:027
;9<=>5?97@=<>A957
B012345
/CD34=0
;C5=@0<0E239
F0CD?03070<
F0CD?0910<
G082?0?53070<
G082?0?5910<
B91:H0>=7:=<01
B24=10 IJ #�� ���������� �� ������ ��� ������������.���
B93E5KL?0@E0?9?5MNO//OP5E0<QRISSSTQ
+�� ���������������������UV������ �������� ����-�� �����
W����� ������������ ������-�� ������� ����������� �����
�����-�� ������� �������X$+Y(�$�#����� �
����� �����" �����
&������ ��������� ������ ������������������������ ���
������������,� �� ��� �������� ����, ������� ��������� �����
����� �����Z�-������������ �� ����������������������� �������
��������� �$���� �������������������������������������.�����������
�$+'$"V$�Y�����(*&"[$�(*&"[$������ ���� �������������� ��� ������
������������������������������������ ���!����������, ����
�� �������\� ���!�������������] ��������������� �������������_abc
�#$""$���������� �
Figura 2: Diagrama esquematico do mecanismo de producao de vozhumana.
Fonte: Adaptado de (DELLER et al., 2000).
Na maioria das lınguas, incluindo o PB, a fala e produzida durante a expiracao.
Quando em repouso, a inspiracao e expiracao tem praticamente a mesma duracao,
mas na fala a expiracao e prolongada (KENT; READ, 2002).
2.1.2 Sistema Laringeal
O sistema laringeal e formado pela laringe, onde estao localizadas as pregas
vocais e a glote (abertura das pregas vocais). A vibracao das pregas vocais
propicia a conversao do fluxo contınuo de ar egresso dos pulmoes em pulsos de ar
(pulsos gloticos). Esse processo de modulacao dos pulsos gloticos e chamado de
fonacao (ENGELBERT, 2011; HOLMES; HOLMES, 2001), sendo responsavel pela
caracterıstica de vozeamento das vogais e de algumas consoantes. A frequencia
Fonte: Adaptado de (DELLER et al., 2000).
10 / 54
Figura 3: Diagrama esquematico do mecanismo de producao de vozhumana.
Fonte: Adaptado de (DELLER et al., 2000).
Na maioria das lınguas, incluindo o PB, a fala e produzida durante a expiracao.
Quando em repouso, a inspiracao e expiracao tem praticamente a mesma duracao,
mas na fala a expiracao e prolongada (KENT; READ, 2002).
3.1.2 Sistema Laringeal
O sistema laringeal e formado pela laringe, onde estao localizadas as pregas
vocais e a glote (abertura das pregas vocais). A vibracao das pregas vocais
propicia a conversao do fluxo contınuo de ar egresso dos pulmoes em pulsos de ar
(pulsos gloticos). Esse processo de modulacao dos pulsos gloticos e chamado de
fonacao (ENGELBERT, 2011; HOLMES; HOLMES, 2001), sendo responsavel pela
24
caracterıstica de vozeamento das vogais e de algumas consoantes. A frequencia
dessa vibracao corresponde a frequencia fundamental (F0), que possui como correlato
acustico o pitch (DELLER et al., 2000).
3.1.3 Sistema Articulatorio
O sistema articulatorio, tambem chamado por trato vocal, e composto pela
faringe, cavidade oral e cavidade nasal, elementos esses que participam da producao
sonora (RUSSO; BEHLAU, 1993). As caracterısticas anatomofisiologicas do trato
vocal produzem ressonancias nos sons originados dos pulsos gloticos ou friccionais,
conforme descrito no modelo fonte-filtro (KENT; READ, 2002), apresentado na
Secao 3.2.
Durante a producao de fonemas vocalicos, as frequencias amplificadas
resultam nos formantes (F1, F2, F3, ..., Fn) (RABINER; SCHAFER, 2011). Os primeiros
formantes, F1 e F2, tem relacao direta com a altura e o recuo da lıngua (RUSSO;
BEHLAU, 1993). Sua representacao grafica e normalmente realizada atraves do
diagrama de Vogais Cardeais, tambem chamado de Trapezio Vocalico (CRISTOFARO-
SILVA, 2011), conforme Figura 5 (p. 28).
3.2 TEORIA FONTE-FILTRO
A Teoria Fonte-Filtro e um legado de Fant 1960 e considera o sinal de voz
como uma composicao de uma fonte de excitacao acoplado a um filtro modelado pela
anatomia do trato vocal.
Conforme descrito em (KENT; READ, 2002), a aplicacao da Teoria Fonte-Filtro
envolve suposicoes que permitem simplificacoes do modelo, tornando-o “tratavel”
matematicamente. Sendo assim, e importante fazer as seguintes ressalvas sobre
algumas simplificacoes realizadas:
• Desconsidera-se a atuacao dos tecidos do trato vocal na absorcao e reflexao dos
sons.
• Considera-se que o trato vocal atua de forma invariante no tempo.
• Considera-se a propagacao longitudinal das ondas, porem algumas podem se
propagar de forma transversal.
25
• Considera-se interacoes entre o sistema respiratorio e o trato vocal.
• Considera-se o trato vocal como uma associacao de tubos retos, embora
apresente curvatura e variacoes no calibre ao longo da passagem.
A Teoria Fonte-Filtro e considerada valida e tem sido adotada por diversos
autores em diferentes aplicacoes, contudo e importante se considerar as limitacoes
inerentes ao modelo nos casos praticos.
3.2.1 Frequencia Fundamental
Estimadores de frequencia fundamental procuram a componente frequencial
que se sobressai em um trecho do sinal, valor que devera ser equivalente ao
perıodo entre pulsos gloticos. Duas abordagens tradicionalmente utilizadas sao
a autocorrelacao e a analise cepstral. Neste trabalho, optou-se pelo metodo de
autocorrelacao, por se mostrar mais robusto a presenca de ruıdo (SHIMAMURA;
KOBAYASHI, 2001).
O algoritmo nativo do software Praat calcula a autocorrelacao de cada bloco
de sinal submetido a uma janela de Hanning ou Gaussiana. O resultado e obtido pela
divisao da funcao de autocorrelacao do sinal pela autocorrelacao da propria janela,
como demonstrado na Equacao (1), em que rx(τ) e correspondente a autocorrelacao
resultante, rxw(τ) a autocorrelacao do sinal apos janelamento e rw(τ) a autocorrelacao
da janela utilizada. Dessa forma, evita-se que harmonicos sejam confundidos com a
frequencia fundamental (BOERSMA, 1993).
rx(τ)≈rxw(τ)
rw(τ). (1)
Para estimativa de F0 no segmento do sinal em analise, busca-se o maximo
local da autocorrelacao rx(τ), em que τ0 = (F0)−1. O algoritmo possui ainda
refinamentos, com limiares de silencio e de vozeamento e a atribuicao de custos para
transicoes de vozeamento/desvozeamento, valor de oitava e salto de oitava entre duas
janelas consecutivas. O tamanho da janela de analise tambem esta atrelado ao limite
inferior para busca de frequencia (pitch floor ) (BOERSMA; WEENINK, 2015).
26
3.2.2 Formantes
Uma forma de reconhecer as regioes vocalicas de um sinal de voz e atraves da
obtencao dos formantes, que pode ser feita pela aproximacao do envelope espectral
desse sinal atraves de uma analise de predicao linear, ou LPC (Linear Predictive
Coding). Na Figura 4 e possıvel visualizar o espectro LPC, mais suavizado que o
espectro FFT, evidenciado os picos que correspondem aos formantes daquele instante
de tempo do sinal de voz em analise. Tal tecnica consiste em separar o sinal de
excitacao da resposta do trato vocal, extraindo justamente a informacao de formantes
que e de interesse para a analise (RABINER; SCHAFER, 2011).Formantes Frequência (Hz)
Nív
el d
e pr
essã
o so
nora
(dB/
Hz)
0 1000 2000 3000 400010
20
30
40
50
60
70
80
90
Frequência (Hz)
Nív
el d
e pr
essã
o so
nora
(dB/
Hz)
0 1000 2000 3000 400010
20
30
40
50
60
70
80
90PADRÃO
Tempo (s)
Fre
quên
cia
(Hz)
3.639 3.7790
4000PADRÃO ESPECTRO LPC
Frequência (Hz)
Nív
el d
e pr
essã
o so
nora
(dB/
Hz)
0 1000 2000 3000 400010
20
30
40
50
60
70
80
90QUESTIONADO
Tempo (s)
Fre
quên
cia
(Hz)
3.639 3.7790
4000QUESTIONADO
PDFill PDF Editor w
ith Free Write
r and Tools
Espectro FFTEspectro LPC
F1
F2
F3 · · ·
15 / 54
Figura 4: Figura contemplando o espectro LPC (em azul na partesuperior), mais suavizado, em contraste com o espectro FFT (emvermelho na parte inferior).
A analise de predicao linear parte do pressuposto de que cada amostra do
sinal de fala e, aproximadamente, uma combinacao linear das amostras anteriores.
Normalmente e feita atraves de metodos de covariancia ou de autocorrelacao
(BARBOSA; REIS, 2012). Uma representacao deste modelo pode ser visualizada
na Equacao (2), em que s[n] representa o sinal de saıda, x[n] o sinal de entrada e m o
numero de coeficientes que correspondera a ordem do sistema.
s[n] =m
∑i=1
ais[n− i]+ x[n]. (2)
Uma vez que o sinal de entrada e desconhecido, o valor s[n] na Equacao (3)
27
e uma estimativa do valor da amostra atual. O objetivo da analise preditiva e a
determinacao dos coeficientes a[i] (em que i = 1, . . . ,m), de forma que o erro de
predicao e[n] constante na Equacao (4) seja o menor possıvel.
s[n] =m
∑i=1
ais[n− i]. (3)
e[n] = s[n]− s[n]. (4)
Para este trabalho foi escolhido o algoritmo de Burg, por ser considerado um
modelo estavel e que apresenta bons resultados para gravacoes de curta duracao
(COLLOMB, 2009). O algoritmo de Burg considera, alem da predicao referente as
amostras anteriores, yn na Equacao (5), tambem a predicao referente as amostras
posteriores, zn na Equacao (6).
yn =−m
∑i=1
aix[n− i]. (5)
zn =−m
∑i=1
aix[n+ i]. (6)
A escolha dos coeficientes e feita de forma a minimizar o erro de ambos os
sentidos. A quantidade maxima de numero de coeficientes, na pratica, e determinada
pelo valor da frequencia de amostragem (em kHz) mais dois (BARBOSA; REIS, 2012).
Os valores e as bandas de passagens dos formantes sao calculados a partir do
polinomio obtido com os coeficientes estimados.
3.3 FONEMAS DO PORTUGUES BRASILEIRO (PB)
As unidades linguısticas que organizam uma determinada lıngua sao
denominadas fonemas. No PB os fonemas sao subdivididos em vogais, semivogais
ou glides e consoantes.
3.3.1 Vogais
Representam o unico tipo de segmento que pode atuar como nucleo
silabico. Sao segmentos vozeados ou sonoros, devido a vibracao das pregas vocais
28
que sempre ocorre durante a sua articulacao. Um ponto importante para sua
caracterizacao e que, durante a sua producao, o fluxo de ar nao sofre obstrucoes no
trato vocal, e, como consequencia, os segmentos vocalicos geralmente apresentam
maior energia que os consonantais (RUSSO; BEHLAU, 1993; RABINER; SCHAFER,
2011).
Na Figura 5 e apresentado o trapezio fonetico das vogais, em que as barras
verticais e horizontais sao alusivas a posicao da lıngua nos respectivos eixos durante
a producao de cada vogal. Dessa forma, cada vogal corresponde a uma configuracao
do trato vocal, interferindo diretamente nos valores dos formantes.
O formante F1 diz respeito a posicao da lıngua no eixo vertical e F2 a sua
posicao no eixo horizontal, conforme Figura 6, que ilustra as posicoes da lıngua
durante a producao das vogais orais tonicas /a/, /e/, /E/, /i/, /o/, /O/ e /u/ (“a”,
“e”, “e”, “i”, “o”, “o” e “u”) (RUSSO; BEHLAU, 1993; ENGELBERT, 2011).Trapézio Vocálico
25
Na Figura 4 e apresentado o trapezio fonetico das vogais, em que as barras
verticais e horizontais sao alusivas a posicao da lıngua nos respectivos eixos durante
a producao de cada vogal. Dessa forma, cada vogal corresponde a uma configuracao
do trato vocal, interferindo diretamente nos valores dos formantes.
O formante F1 diz respeito a posicao da lıngua no eixo vertical e F2 a sua
posicao no eixo horizontal, conforme Figura 5, que ilustra as posicoes da lıngua
durante a producao das vogais orais tonicas /a/, /e/, /E/, /i/, /o/, /O/ e /u/ (“a”,
“e”, “e”, “i”, “o”, “o” e “u”) (RUSSO; BEHLAU, 1993; ENGELBERT, 2011).
i y 1 0 W u
I Y U
e ø 9 8 G o
E œ 3 Æ 2 O
æ
a × A 6
@
5
Anterior Central Posterior
Alta (fechada)
Media-alta (meia fechada)
Media-baixa (meia aberta)
Baixa (aberta)
Figura 4: Trapezio vocalico fonetico de acordo com o IPA -International Phonetic Alphabet (IPA, 2005). Pares de vogaiscom vogais arredondadas a direita e nao-arredondadas aesquerda. Destaque em vermelho para as vogais queocorrem no PB.
Fonte: Adaptado de (CRISTOFARO-SILVA; YEHIA, 2009).
Outra caracterıstica que interfere nas vogais e o arredondamento dos labios,
que pode ser observado nas vogais posteriores /O/, /o/ e /u/. Alem disso, as vogais
podem ser nasais ou nasalizadas, situacao em que o veu palatino e abaixado,
permitindo o acoplamento da cavidade nasal ao trato vocal e por conseguinte
alterando a configuracao das formantes.
Fonte: Adaptado de (CRISTÓFARO-SILVA; YEHIA, 2009).
21 / 54
Figura 5: Trapezio vocalico fonetico de acordo com o IPA -International Phonetic Alphabet (IPA, 2005). Pares de vogaiscom vogais arredondadas a direita e nao-arredondadas aesquerda. Destaque em vermelho para as vogais queocorrem no PB.
Fonte: Adaptado de (CRISTOFARO-SILVA; YEHIA, 2009).
Outra caracterıstica que interfere nas vogais e o arredondamento dos labios,
que pode ser observado nas vogais posteriores /O/, /o/ e /u/. Alem disso, as vogais
podem ser nasais ou nasalizadas, situacao em que o veu palatino e abaixado,
permitindo o acoplamento da cavidade nasal ao trato vocal e por conseguinte
29Trapézio Vocálico 26 ��
����
����
����
�
�����
���
����
������������������ !"�#�$�%"&��#"�'�$"����"��()�*��"�#�+,*����"� ��-��.��/����0'"1����#�������*(���"�"2"��1�("�""*%"1���34"�15�(�"� !"��*#��"*#�"����� !"�#"1%6*$5"#5�"*(�"���#5� !"�#�����2�*�0"�7
�89:;<=>�?:�>8>;@ABCCDEFGHI=BJKLLMN
�7O7� ��0�'�$"���5PQRSTU
V"0�%�0 �!"�2�*�0"�'�W�"#����0�1"���4"�'�$"��X���%�0 ��0 0�*��
�*(�*��#"#��#5�"� !"�7Y�+,��*��("0Z��"'�$"���"�"2��0"�#�(�*$���5(��(�*$��X
��#�*#�����[\[X��0�*"�"1"'�"]�"\Z_�"�a�[b[X��0�*"�"1"'�"]0"b Z_0"57
�7O7O c�*��"*(��
d���*(�%"���#"�'�$"��X#5�"*(�"���#5� !"�#�50"��*��"*(��e5/�#�"�
�$�����#���510!������(�5� !"�(�("1�5�"���"17d���*��"*(���!"��"(�$���W"#"��0
25*� !"�#�0�#�X��0��0�#���*(�#"���(�5� !"�������#".fg��ha,ijkdgX�llOa
iYmik,ifVX����37d���0X��*��#��"*#�n5�#5�"*(�""�(��51"� !"�#�502�*�0"
��*��*"*("1������"0�'�0�*("� !"�#�50"�(��51"#��"(�'�.dd3�0#���� !"�"��5(��
�"���'�.d+3�X�0#�����)�*��"#�0�#�#�"�(��51"� !"�"���*��"*(����#�0����
o+1���'"��5��15��'"�����(�5� !"�(�("14"�"��"$�0#�"�.[�[X[�[X[([X[#[X[p[X[$[37
�d�(��51"#�����!"��1�0�*(�������*(��*"�"'�#"#��5�"1Xn5���!"�"(5"����(�5�*#�"�"��"$�0#�"�#5�"*(�"���#5� !"�#�2�*�0"�7Y��(�����������("�!"��*'�1'�#��#���"�(��51"#����X"(�'���"���'�X��n5"��#�&*�0���*(�#�"�(��51"� !"�7
Figura 5: Sobreposicao do grafico das vogais orais tonicasdo PB no espaco F1×F2 (eixos com valores decrescentespara facilitar a analise) a ilustracao indicando a posicao dalıngua durante a producao desses fonemas.
Fonte: Adaptado de (RUSSO; BEHLAU, 1993)
2.3.2 Semivogais ou Glides
Tambem sao fonemas vozeados similares as vogais, porem com menor
intensidade e duracao. No PB conectam-se a vogais para formar ditongos ou tritongos,
podendo ser: /j/, como na palavra [paj] - “pai”; e /w/, como na palavra [maw] - “mau”.
2.3.3 Consoantes
Ao contrario das vogais, durante a producao de uma consoante o fluxo de ar
egresso dos pulmoes obstrucao total ou parcial. As consoantes sao categorizadas em
funcao do modo, bem como do ponto da obstrucao ocorrida (RUSSO; BEHLAU, 1993;
ENGELBERT, 2011). Assim, considerando que durante a articulacao de um fonema
consonantal ocorre a movimentacao de um articulador ativo (AA) em direcao ao outro
passivo (AP) 1, em decorrencia do modo de articulacao as consoantes podem ser:
1Articuladores sao elementos presentes na cavidade bucal, que irao atuar obstruindo a passagemde ar durante a producao de fonemas. Neste processo estarao envolvidos dois articuladores, ativo epassivo, os quais definem o ponto de articulacao.
F1 l
F2 ↔
Fonte: Adaptado de (RUSSO;BEHLAU, 1993). 22 / 54Figura 6: Sobreposicao do grafico das vogais orais tonicasdo PB no espaco F1×F2 (eixos com valores decrescentespara facilitar a analise) a ilustracao indicando a posicao dalıngua durante a producao desses fonemas.
Fonte: Adaptado de (RUSSO; BEHLAU, 1993)
alterando a configuracao das formantes.
3.3.2 Semivogais ou Glides
Tambem sao fonemas vozeados similares as vogais, porem com menor
intensidade e duracao. No PB conectam-se a vogais para formar ditongos ou tritongos,
podendo ser: /j/, como na palavra [paj] - “pai”; e /w/, como na palavra [maw] - “mau”.
3.3.3 Consoantes
Ao contrario das vogais, durante a producao de uma consoante o fluxo
de ar egresso dos pulmoes sofre obstrucao total ou parcial. As consoantes sao
categorizadas em funcao do modo, bem como do ponto da obstrucao ocorrida
(RUSSO; BEHLAU, 1993; ENGELBERT, 2011).
Durante a articulacao de um fonema consonantal ocorre a movimentacao de
30
um articulador ativo (AA) em direcao ao outro passivo (AP) 1.
Em decorrencia do modo de articulacao as consoantes sao classificadas em:
• Plosivas ou oclusivas: obstrucao total a passagem de ar ( /p/, /b/, /t/, /d/, /k/, /g/).
• Nasais: obstrucao total a passagem de ar na cavidade oral, porem com
acoplamento da cavidade nasal (/m/, /n/, /ñ/ em [soño] - “sonho”).
• Fricativas: articuladores se aproximam produzindo friccao ( /f/, /v/, /s/, /z/, /Z/ em
[Zato] - “jato”, /S/ em [Sato] - “chato”, roticos2 /x/, /G/, /h/ e /H/).
• Laterais: articuladores se tocam e a corrente de ar e obstruıda no eixo central
(/l/, /L/ em [paLa] - “palha”).
• Tepes: articuladores se tocam rapidamente uma unica vez (/R/ em [caRo] - “caro”).
No PB ha ainda alguns modos de articulacao presentes apenas em variedades
regionais:
• Africadas: alofones (variantes foneticas) dos fonemas /Z/ e /S/. O segmento inicia-
se com oclusao e termina com friccao (/Ã/ em [Ãia] - “dia”, /Ù/ em [Ùia] - “tia”).
• Vibrantes: os articuladores se tocam varias vezes causando vibracao. “R forte”
de algumas variedades regionais, pronunciado de forma prolongada (/r/).
• Retroflexas: produzido com encurvamento da lıngua, variedade regional
conhecida como “R caipira” (/ô/).
Quanto a classificacao em funcao do ponto da articulacao, as consoantes
podem ser:
• Bilabiais: AA - labio inferior, AP - labio superior (/p/, /b/, /m/).
• Labiodentais: AA - labio inferior, AP - dentes incisivos superiores (/f/, /v/).
• Alveolares: AA - ponta da lıngua, AP - alveolos (/t/, /d/, /n/, /l/, /R/, /s/, /z/).
1Articuladores sao elementos presentes na cavidade bucal, que irao atuar obstruindo a passagemde ar durante a producao de fonemas. Neste processo estarao envolvidos dois articuladores, ativo epassivo, os quais definem o ponto de articulacao.
2Sons de “r”, que quanto ao modo de articulacao podem ser fricativas, tepes, vibrantes ou retroflexas,e quanto ao ponto de articulacao alveolares, velares ou glotais.
31
• Alveopalatares: AA - parte anterior da lıngua, AP - parte medial do palato duro (
/Z/, /S/, /Ã/, /Ù/).
• Palatais: AA - parte medial da lıngua, AP - parte final do palato duro (/L/, /ñ/).
• Velares: AA - parte posterior da lıngua, AP - veu palatino (/k/, /g/, /x/, /G/).
• Glotais: constricao na glote. “R forte” presente apenas em algumas variedades
regionais, como o carioca (/h/ e /H/).
As consoantes ainda podem ser vozeadas ou desvozeadas, sendo que na
analise espectral de consoantes com mesmo ponto e modo de articulacao (como por
exemplo [f] e [v], de “faca” e “vaca”), a diferenca pode ser observada atraves da barra
de vozeamento (para o [v]).
Durante a fala os segmentos vocalicos e consonantais sao produzidos de
forma encadeada, sendo que o ponto e o modo de articulacao de um determinado
fonema provocam efeitos de coarticulacao nos fonemas vizinhos.
3.4 MODELO DE AGRUPAMENTO K-MEANS
O k-means e um metodo para agrupamento dos padroes de entrada em K
grupos, sendo K um parametro definido a priori. Conforme descrito em (GOPI,
2014), antes de dar inıcio ao processo em si e necessario inicializar os centroides
(µµµ111,µµµ222, · · · ,µµµKKK) dos K agrupamentos, o que normalmente e realizado com valores
aleatorios. Uma vez inicializado, o algoritmo apresenta duas etapas principais, as
quais tem relacao com o metodo de Maximizacao de Expectativa (BISHOP, 1995).
A primeira etapa consiste na atribuicao de cada padrao de entrada xxxnnn ao
agrupamento mais proximo, sendo a medida de proximidade representada pela
distancia euclidiana d expressa na Equacao 7, a qual corresponde a menor distancia
geometrica entre xxxnnn e o centro do agrupamento µµµkkk no espaco N-dimensional. A
variavel responsavel pelo rotulo de cada padrao e definida como rnk∈ [0,1], onde
k = 1, ...,K, como sendo rnk = 1 se xxxnnn pertence ao agrupamento k e rnk = 0 caso
contrario.
d =
√N
∑i=1
(xni−µki)2 (7)
32
Na segunda etapa, apos a atribuicao de todos os padroes de entrada a um
dos K agrupamentos, e realizado o calculo dos novos centros definidos pelo primeiro
estagio do algoritmo, atraves da Equacao 8.
µµµkkk =
N∑
n=1rnkxxxnnn
N∑
n=1rnk
. (8)
O processo se repete ate a convergencia (ou seja, ate que nenhuma nova
alteracao seja verificada nos agrupamentos), ou ate que um determinado numero de
iteracoes tenha ocorrido. Ao final, cada padrao de entrada esta associado a um dos
agrupamentos definidos, aos quais estao atribuıdos os novos valores de centros. Tal
processo equivale ao pseudo-codigo apresentado a seguir.
1 if Centroides nao Inicializados{
2 Selecionar valores iniciais dos K centroides aleatoriamente;
3 }
4 while (i++ < Numero Maximo de Iteracoes){
5 for (j++ <= Numero de pontos){ //Formar K clusters
6 //distancia euclidiana
7 Calcular distancias entre ponto j e centroides;
8 Associar ponto j ao centroide mais proximo;
9 }
10 Recalcular centroides dos cluster; //com base na nova configuracao
11 if Centroides Inalterados {// Houve convergencia
12 break;
13 }
14 }
33
4 MATERIAIS E METODOS
4.1 AMOSTRAS DE DADOS
Para os experimentos foram utilizadas como amostras de dados arquivos de
audio produzidos em tres corpora, descritos a seguir.
4.1.1 Corpus UTFPR
Apresenta arquivos de audio produzidos em pesquisa realizada pelo Grupo
de Estudos de Sons da Fala da UTFPR (GOMES, 2013). Trata-se de gravacoes
realizadas durante a leitura de um texto pre-definido, com duracao aproximada de
60 segundos.
Os fonemas alvo daquele estudo estavam presentes em sılabas tonicas e
em contexto interplosivo, de forma a minimizar os efeitos de coarticulacao. O texto
continha quatro repeticoes para cada uma das sete vogais orais tonicas do PB, as
quais foram manualmente etiquetadas, servindo de referencia. As gravacoes foram
organizadas em cinco grupos.
4.1.2 Corpus SPOLTECH
Compilado atraves do projeto “CORPORA from CSLU: The Spoltech Brazilian
Portuguese v1.0” (SCHRAMM et al., 2000), apresenta 8.080 trechos com falas de
477 falantes, consistindo de leituras de sentencas foneticamente balanceadas e de
respostas a perguntas.
Apesar da duracao de audio total de cada falante ser relativamente pequena
(aproximadamente 30 segundos), tem sido uma base bastante utilizada em pesquisas
do PB, alem de trazer um contexto com fluidez diferente daquela apresentada pelo
corpus UTFPR, o que justifica sua utilizacao neste trabalho.
Na preparacao das amostras foram concatenados todos os trechos
pertencentes aos 20 primeiros falantes, sendo gerados arquivos individuais
distribuıdas em dois grupos.
34
4.1.3 Corpus C-ORAL
Base compilada atraves do projeto “C-ORAL”, desenvolvido pelo Nucleo de
Estudos em Linguagem, Cognicao e Cultura da Universidade Federal de Minas Gerais
(RASO; MELLO, 2012), que apresenta registros com fala espontanea, trazendo uma
proximidade maior de situacoes reais.
Foram selecionadas as amostras classificadas como monologos, por
apresentarem maior duracao de fala exclusiva do falante alvo. Na preparacao, excluiu-
se qualquer trecho em que houvesse interferencia do entrevistador ou de outro falante
que nao fosse o alvo. Os arquivos resultantes das amostras apresentaram em media
oito minutos de duracao, divididos em dois grupos.
Com a utilizacao das amostras provenientes das bases UTFPR e SPOLTECH,
obteve-se variedade de sujeitos para avaliacoes interfalantes, enquanto que a maior
duracao das amostras da base C-ORAL permitiu analises intrafalantes. Na Tabela 1
sao apresentados os grupos em que estavam organizadas as amostras utilizadas
durante os experimentos.
Tabela 1: Amostras de dados utilizadas nos experimentos.
Corpus Caracterısticas das amostras Grupo Qtd. Falantes
UTFPR Leitura (∼ 60 s)
GC 10 pesquisadorasGM 10 sexo feminino (> 35 anos)GG 10 sexo feminino (< 25 anos)GH 10 sexo masculino (> 35 anos)GR 10 sexo masculino (< 25 anos)
Total 50 (∼50 min)
SPOLTECH Leitura/respostas (∼ 30 s)M 9 sexo femininoH 11 sexo masculino
Total 20 (∼10 min)
C-ORAL Monologos (∼ 8 min)M 4 sexo femininoH 2 sexo masculino
Total 6 (∼48 min)
35
4.2 FERRAMENTAL DE EDICAO DE AUDIO
A conversao dos arquivos originais em arquivos com compressao ou com
adicao de ruıdo foi realizada com o auxılio das ferramentas de edicao de audio e
vıdeo SoX (SOX, 2015) e FFMPEG (FFMPEG, 2015).
Para a implementacao dos algoritmos indicados na Secao 4.3, utilizou-se o
software de analise de audio Praat, assim como o software de analise matematica
Matlab, e sua toolbox de Processamento de Sinais.
4.3 ALGORITMOS UTILIZADOS
Apos a selecao no Praat do arquivo ou trecho a ser submetido a analise, inicia-
se o processamento, conforme ilustrado no fluxograma apresentado na Figura 7, nos
qual os blocos principais estao enumerados de acordo com a subsecao em que serao
descritos na sequencia.
InıcioSelecao de trecho epre-processamento
Calculo de ZCR,F0, F1··4 e BW1··4
Tabelasresultantes
F0, ZCR, BW1,BW2 ok?
Busca inicialde centroides
Amostra ∈cluster valido?
Continuidadeok?
Busca decentroides
Amostra ∈cluster valido?
Descarte deamostras
Nuvem de pontosresultantes Graficos e relatorios Fim
S
SS
S
NN N
Blocos implementados no software Praat conforme codigo apresentado no Apendice A
Blocos implementados no software Matlab conforme codigo apresentado no Apendice B
4.3.1 4.3.2 4.3.3 4.3.4
4.3.5
4.3.6 4.3.8 4.3.94.3.74.3.8 4.3.94.3.7
Figura 7: Fluxograma dos algoritmos implementados. A numeracao ao lado decada bloco refere-se a sua subsecao correspondente da Secao 4.3. Tambem saoindicados os blocos programados no software Praat (Apendice A) e no softwareMatlab (Apendice B).
36
4.3.1 Pre-processamento
Nesta etapa o sinal e reamostrado a uma taxa de 8 kHz, e o nıvel CC removido
atraves da subtracao do nıvel medio do sinal de audio. Um exemplo de grafico gerado
nesta etapa apresentado na Figura 8(a), sendo que a area de interesse do grafico esta
delimitada pelo trapezio vermelho na Figura 8(b).
Materiais e métodos: algoritmos
� Gráfico da nuvem F1 × F2 com todos ospontos:
500100015002000250030003500
200
600
1000
1400
1800
2200
F2(Hz)
F1(Hz)
Pontos F1 × F
2
27 / 54(a)
Materiais e métodos: algoritmos
� Gráfico da nuvem F1 × F2 com todos ospontos:
500100015002000250030003500
200
600
1000
1400
1800
2200
F2(Hz)
F1(Hz)
Pontos F1 × F
2
27 / 54(b)
Figura 8: Exemplo de grafico com resultados de umadas amostras de audio do grupo GC da UTFPR. (a)Grafico da nuvem F1×F2 com os valores de formantesobtidos para todos os pontos. (b) Trapezio indicandoo formato desejado para conformacao da nuvem.
37
4.3.2 Rotina para Calculo da Taxa de Passagem por Zero
O sinal e dividido em janelas com duracao de 25 ms1, sendo efetuado o calculo
do numero de vezes em que ha alteracao do sinal do valor da amostra (mudanca de
sinal de positivo para negativo e vice-versa). Apos a finalizacao do processo descrito,
os resultados de todas as janelas sao normalizados (valores entre [0,1]).
4.3.3 Deteccao da Frequencia Fundamental
No Praat e utilizada a opcao “To Pitch (ac)...”, por permitir a configuracao
dos parametros de inicializacao, que incluem a definicao das frequencias mınima
e maxima, alem da escolha do tipo de janela (opcao “Very accurate” para janela
Gaussiana). O tamanho da janela nao e definido, por ser uma funcao da frequencia
mınima.
Neste primeiro momento mantiveram-se os valores de custo padrao. O
objeto resultante e convertido para “PitchTier ” e em seguida para tabela, permitindo
o armazenamento na forma de arquivo. Um exemplo de grafico gerado apos a
deteccao de frequencia fundamental pode ser visto na Figura 9. E possıvel observar
que a simples remocao das amostras em que nao houve deteccao de frequencia
fundamental ja resulta em um grafico F1 × F2 mais proximo do trapezio vocalico,
conforme pode ser visto na Figura 5 (p. 28).
Materiais e métodos: algoritmos
� Gráfico da nuvem F1 × F2 após análise deF0 e ZCR:
500100015002000250030003500
200
600
1000
1400
1800
2200
F2(Hz)
F1(Hz)
Pontos F1 × F
2
29 / 54Figura 9: Grafico de nuvem de pontos F1×F2 com osvalores de formantes apos analise de F0 e de ZCR.
1Tal valor na pratica e fixado entre 10 e 30 ms, sendo definido de forma que a janela tenha duracaosuficiente para capturar as caracterısticas de um determinado fonema.
38
Contudo, o grafico demonstrado na Figura 9 ainda apresenta pontos de
frequencias mais altas, possivelmente associado aos loci de fonemas consonantais
devido a efeitos de coarticulacao, o que exigiu a aplicacao dos demais algoritmos
apresentados para obtencao de um conjunto resultante mais consistente.
Nas proximas etapas os pontos que persistirem serao submetidos a novas
selecoes, no intuito de se obter uma nuvem mais proxima possıvel do trapezio vocalico,
como a apresentada na Figura 10. Assim torna-se possıvel proceder a analises do
comportamento formantico do indivıduo.
Materiais e métodos: algoritmos
� Gráfico da nuvem F1 × F2 resultante
5001000150020002500
200
400
600
800
1000
1200
F2(Hz)
F1(Hz)
Pontos F1 × F
2
34 / 54
Figura 10: Grafico de nuvem de pontos F1 × F2 com osvalores de formantes apos analise inicial de agrupamento,aproximando-se do formato desejado do trapezio vocalico.
4.3.4 Calculo de Formantes
No software Praat e utilizada a opcao “To Formant (Burg)...” que possibilita
a escolha do numero maximo de formantes a ser buscado e do valor maximo da
frequencia. A largura da janela e configurada em 25 ms, por ser um valor considerado
(empiricamente) razoavel para este tipo de analise.
Mantem-se em 50 Hz o valor do filtro de pre-enfase, que corresponde ao
valor inicial em que o filtro atuara para corrigir a combinacao da atenuacao de altas
frequencias provocada pelo trato vocal e a amplificacao associada a radiacao do som
atraves da abertura dos labios.
39
Em seguida a matriz obtida e submetida a funcao “Formant Track”, que
considera os valores obtidos para cada frame como um candidato, ao qual e atribuıdo
um custo referente ao valor da frequencia, a banda e a transicao entre oitavas. O
numero maximo de formantes sera menor, porem com maior exatidao dos valores
obtidos.
Com relacao as frequencias definidas para calculo do custo dos valores dos
formantes, usualmente adota-se como referencia os valores medios 550 Hz, 1650 Hz,
2750 Hz, 3850, Hz 4950 Hz para F1 · ·F5. Contudo, devido a variacao de F1 e F2,
tal pratica desfavorece o reconhecimento das vogais posteriores alta e media-alta
(DRESCH et al., 2015). A alternativa encontrada, e aplicada no segundo metodo
de inicializacao de centroides tratado na Subsecao 4.3.9, foi o calculo simultaneo
de “trilhas” de formantes, isto e, matrizes com diferentes valores de referencia dos
formantes F1 e F2. As trilhas sao mescladas durante a etapa de avaliacao da
continuidade (Subsecao 4.3.6).
Apos tal processo e realizada ainda uma limpeza de valores “undefined”, e em
seguida os vetores sao convertidos para tabela, de modo que o arquivo salvo possa
ser corretamente carregado no Matlab.
4.3.5 Selecao de Amostras
No Matlab, as tabelas geradas pelas rotinas do software Praat sao carregadas
e salvas em matrizes. Realiza-se em seguida a etapa de selecao das amostras a
terem os valores de formantes considerados. Inicialmente sao eliminadas as que
apresentem taxa de passagem por zero (ZCR) maior que 0,5 (50% do valor maximo),
por apresentarem baixa probabilidade de serem voz.
Conforme demonstrado nos graficos alinhados temporalmente da Figura 11,
nos pontos em que ha deteccao de F0, a energia do sinal e menor e ha uma maior
taxa de passagem por zero. Na Figura 11(a), em que e apresentado um oscilograma
(forma de onda) para um trecho de sinal de fala com sobreposicao dos tracados de
STE (energia de curto termo) e de ZCR, pode-se visualizar que os trechos com maior
STE tambem apresentam menor ZCR.
Quando o oscilograma e comparado com o espectrograma (apresentado em
banda estreita para melhor observacao da curva de F0) da Figura 11(b), percebe-se
que tais pontos correspondem aqueles em que houve a deteccao de F0.
40
Assim, sao mantidos para as proximas analises aqueles pontos que
obedecerem a esse criterio, conforme ilustrado na Figura 11(c) (neste caso,
apresentado em banda larga, que destaca as curvas dos formantes). Ou seja, em
regioes vozeadas: F0∃, ZCR ↓ e STE ↑, logo os pontos F1 · ·Fn sao analisados.
Enquanto que em regioes desvozeadas: F0@, ZCR ↑ e STE ↓, sendo F1 · ·Fn
descartados.
0.5 1 1.5 2 2.5 3
-1
-0.5
0
0.5
1
t(s)
Oscilograma: Sinal de fala original - ZCR - STE
Fala
ZCR
STE
0.5 1 1.5 2 2.5 3
1000
2000
3000
4000
F(H
z)
t(s)
Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas
0.5 1 1.5 2 2.5 3
1000
2000
3000
4000
F(H
z)
t(s)
Espectrograma banda larga com curvas dos formantes F1 a F
4 sobrepostos nas áreas vozeadas
V V V V V V V V V V V V V V V
F1
F2
F3
F4
F0
(a)
0.5 1 1.5 2 2.5 3
-1
-0.5
0
0.5
1
t(s)
Oscilograma: Sinal de fala original - ZCR - STE
Fala
ZCR
STE
0.5 1 1.5 2 2.5 3
1000
2000
3000
4000
F(H
z)
t(s)
Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas
0.5 1 1.5 2 2.5 3
1000
2000
3000
4000
F(H
z)
t(s)
Espectrograma banda larga com curvas dos formantes F1 a F
4 sobrepostos nas áreas vozeadas
V V V V V V V V V V V V V V V
F1
F2
F3
F4
F0
(b)
0.5 1 1.5 2 2.5 3
-1
-0.5
0
0.5
1
t(s)
Oscilograma: Sinal de fala original - ZCR - STE
Fala
ZCR
STE
0.5 1 1.5 2 2.5 3
1000
2000
3000
4000
F(H
z)
t(s)
Espectrograma banda estreita com sobreposição da curva de de F0 nas áreas vozeadas
0.5 1 1.5 2 2.5 3
1000
2000
3000
4000
F(H
z)
t(s)
Espectrograma banda larga com curvas dos formantes F1 a F
4 sobrepostos nas áreas vozeadas
V V V V V V V V V V V V V V V
F1
F2
F3
F4
F0
(c)
Figura 11: Trecho de audio com a repeticao: “nove, um, zero, quatro, zero, tres,dois, zero”. (a) Forma de onda em azul com sobreposicao dos graficos de STE emvermelho e de ZCR em preto; (b) Espectrograma de banda estreita com sobreposicaodos pontos de frequencia fundamental em preto; (c) Espectrograma de banda largacom sobreposicao dos formantes das areas vozeadas, conforme cores indicadas.
Em seguida, utiliza-se a funcao de busca por centroides, em que so sao
mantidos os pontos que pertencam a um agrupamento (cluster ) de tamanho mınimo.
Do resultado do agrupamento sao consideradas apenas as amostras que
apresentem valores de BW1 e BW2 (banda de passagem de F1 e F2) menores que a
media obtida para cada caso, e com continuidade, ou seja, aquelas em que o valor
41
da amostra presente nao tenha uma variacao maior que 15% em relacao aos blocos
vizinhos.
Com essa restricao, ha um favorecimento das vogais mais estaveis em
detrimento de ditongos e tritongos, nos quais a conexao entre vogal e semivogal
resulta em uma trajetoria crescente ou decrescente de F1 e F2. E feita uma nova busca
por agrupamentos, que resulta em uma matriz final e nos centroides identificados.
4.3.6 Continuidade
Apos encontrar uma nuvem de pontos provisoria, apura-se a continuidade
entre os pontos. No agrupamento descrito como “Metodo 1” na Subsecao 4.3.8,
trata-se de simplesmente manter apenas os trechos que apresentem no mınimo tres
pontos consecutivos que obedeceram aos criterios anteriores e que apresentem uma
variacao de F1 inferior ao limiar pre-determinado.
Conforme descrito na Subsecao 4.3.4, as funcoes utilizadas para calculo dos
formantes no software Praat envolvem, para cada janela de analise, uma atribuicao de
pesos para cada valor de formante obtido, com base em valores medios de formantes
fornecidos como parametros iniciais. Embora os resultados melhorem com a adocao
desse refinamento, ainda assim ha um desfavorecimento das vogais que se distanciam
desse ponto central do espaco F1×F2.
Por essa razao, no caso do “Metodo 2”, a etapa e realizada simultaneamente
para todas as trilhas presentes, as quais se referem a nuvens de F1 × F2 obtidas
considerando-se como referencia nao apenas um ponto central dos formantes, mas
tambem medias de vogais mais extremas (/i/, /a/ e /u/). E entao eleita a trilha
vencedora para cada trecho existente com base na menor variacao de F1.
No exemplo apresentado na Figura 12, e possıvel observar que em (a), se
apenas a “trilha 1” fosse utilizada, os trechos referentes as vogais altas superiores
(regiao superior direita dos graficos) nao seriam detectados. Quando considerada
tambem a “trilha 3”, foi possıvel compreender a area necessaria para compor a nuvem
final (na cor azul).
42
50010001500200025003000
200
400
600
800
1000
1200
1400
1600
1800
2000
2200
Exemplo GC7, trilha1
F2(Hz)
F1(Hz)
Pontos F1 × F
2 - trilha 1
Pontos F1 × F
2 resultantes
(a)
50010001500200025003000
200
400
600
800
1000
1200
1400
1600
1800
2000
2200
2400
Exemplo GC7, trilha3
F2(Hz)
F1(Hz)
Pontos F1 × F
2 - trilha 3
Pontos F1 × F
2 resultantes
(b)
10001500200025003000
200
400
600
800
1000
1200
Exemplo GC7, trilha3
F2(Hz)
F1(Hz)
10001500200025003000
200
400
600
800
1000
1200
Exemplo GC7, trilha1
F2(Hz)
F1(Hz)
10001500200025003000
200
400
600
800
1000
1200
Exemplo GC7, trilha3
F2(Hz)
F1(Hz)
10001500200025003000
200
400
600
800
1000
1200
Exemplo GC7, trilha1
F2(Hz)
F1(Hz)
(c)
10001500200025003000
200
400
600
800
1000
1200
Exemplo GC7, trilha3
F2(Hz)
F1(Hz)
10001500200025003000
200
400
600
800
1000
1200
Exemplo GC7, trilha1
F2(Hz)
F1(Hz)
10001500200025003000
200
400
600
800
1000
1200
Exemplo GC7, trilha3
F2(Hz)
F1(Hz)
10001500200025003000
200
400
600
800
1000
1200
Exemplo GC7, trilha1
F2(Hz)
F1(Hz)
(d)
Figura 12: Graficos de nuvens de pontos F1×F2 referentes a diferentes trilhas deformantes, com pontos na cor turquesa. Em (a) e (b) a nuvem resultante em azulsobreposta as nuvens das trilhas 1 e 3, respectivamente. Em (c) e (d) graficos dastrilhas 1 e 3, respectivamente, com aproximacao da area equivalente ao trapezioesperado. Observar, no canto superior direito de (a) e de (c), que a trilha 1 naocompreende a area necessaria para compor a nuvem final.
4.3.7 Modelo de Agrupamento
A busca de centroides e realizada atraves do metodo k-means. A principal
motivacao da escolha deste metodo no contexto deste trabalho e o fato do processo
garantir a minimizacao da distancia intra-grupos no final das iteracoes.
Os padroes de entrada para o agrupamento sao pares de formantes F1 e
F2. O numero de grupos K, na metodologia inicial (DRESCH et al., 2015), dependia
da quantidade de picos encontrados durante o processo de inicializacao. Contudo,
na continuidade dos experimentos, constatou-se um melhor resultado quando K era
fixado em cinco, e por essa razao foi a quantidade de centros adotada na metodologia
deste trabalho. Para tanto as referencias equivalentes as vogais anteriores alta e
43
media-alta (/i/ e /e/) foram agrupadas em uma unica, sendo considerada as medias
de seus valores, medida tambem adotada para as referencias equivalentes as vogais
posteriores alta e media-alta (/u/ e /o/).
Com relacao aos valores de inicializacao dos centroides, os mesmos sao
necessarios para garantir que o metodo k-means forneca resultados determinısticos
no final das iteracoes, que da forma convencional estabeleceria os primeiros centros
aleatoriamente, resultando em valores (ainda que convergentes) diferentes a cada
nova execucao. O processo de inicializacao foi realizada por meios de dois
metodos distintos, descritos na sequencia, os quais sao ilustrados nos fluxogramas
apresentados na Figura 13.
Entrada: Nuvemde pontos F1 e F2
Deteccao de picos e valesnas distribuicoes de F1 e F2
Identificacao do formante(F1, F2) com mais picos
Deteccao de picos nassub-regioes entre vales
Selecao provisoria deagrupamentos commınimo de amostras
Inicializacao do metodok-means com os
centroides provisorios
Descarte de clusterssem a quantidade
mınima de amostras
Saıda: centroides e nuvemde pontos resultante
Entrada: Nuvens depontos (trilhas) F1 e F2
Busca inicial?
Analise de continuidadedas trilhas (F1, F2),e escolha de trilha
em cada trecho
Referencia[F2 +F1 F2−F1]
Inicializacao dometodo k-means comvalores de referencia
Referencia[F2 F1]
Descarte de clustersinvalidos, referentes a altafrequencia (consoantes)
Saıda: centroides enuvem de pontos outrechos resultantes
S
N
Met
odo
1
Met
odo
2
Figura 13: Fluxogramas dos algoritmos para agrupamentos e buscade centroides implementados nos metodos de inicializacao utilizados nodecorrer dos experimentos.
44
4.3.8 Inicializacao dos Centroides - “Metodo 1”
Utilizado durante os experimentos iniciais, apresentados em (DRESCH et al.,
2015). Inicialmente sao gerados histogramas suavizados (de forma a evidenciar os
pontos maximos e mınimos das distribuicoes) para as matrizes de F1 e F2, conforme
codigo apresentado no Apendice B. Em seguida, e considerado o eixo referente ao
formante que apresente maior numero de maximos (o qual, intuitivamente mas nao
necessariamente, distinguiria melhor as regioes das diferentes vogais).
O grafico e entao dividido em regioes (horizontais se F1 tem mais picos, ou
verticais caso contrario), delimitadas pelos valores de mınimos, as quais sao mantidas
se possuırem um numero mınimo de pontos (> 10% do total). Para cada regiao valida
armazena-se o valor de maximo para a proxima etapa. Um exemplo dessa divisao
inicial de regioes pode ser visualizado na Figura 14.Materiais e métodos: algoritmos - MÉTODO 1
39
• Metodo 1: Utilizado durante os experimentos iniciais, apresentados em
(DRESCH et al., 2015). Inicialmente sao gerados histogramas suavizados
(de forma a evidenciar os pontos maximos e mınimos das distribuicoes) para
as matrizes de F1 e F2, conforme codigo apresentado no Apendice B. E
considerado aquele com maior numero de maximos (o qual, intuitivamente mas
nao necessariamente, distinguiria melhor as regioes das diferentes vogais).
A seguir, o grafico e dividido em regioes (horizontais se F1 tem mais picos,
ou verticais caso contrario) nas quais a geracao de histograma suavizado e
repetida. Tal divisao pode ser visualizada na Figura 13.
05001000150020002500300035004000
0
500
1000
1500
2000
2500
3000
F2(Hz)
F1(H
z)
Pontos F1 × F
2
Máximos de F1
Mínimos de F1
Distribuição de F1
Nuvem de pontos e distribuicões de F1 × F
2
Distribuição de F2
Regiao 1
Regiao 2
Regioes 3 e 4Quantidade ınfima de pontos:
Regiao descartada!
Figura 13: Divisao do espaco F1×F2 em regioes horizontais a partir dos mınimosobtidos atraves da funcao densidade de probabilidade. No exemplo as Regioes3 e 4 sao descartadas pela escassez de pontos, enquanto que as Regioes 1 e 2sao utilizadas para determinacao de sub-regioes verticais.
Com os valores desses maximos obtidos sao determinados centroides
temporarios, para uma area delimitada pelos mınimos locais, conforme pode
ser visualizado na Figura 14. Se essa area apresentar pelo menos 10% do
numero total de amostras, esse centroide e considerado valido. Caso o numero
36 / 54Figura 14: Divisao do espaco F1×F2 em regioes horizontais a partir dos mınimosobtidos atraves da funcao densidade de probabilidade. No exemplo as Regioes 3e 4 sao descartadas pela escassez de pontos.
Em cada regiao, o processo de geracao de histograma suavizado e repetido
no eixo oposto ao utilizado anteriormente, para delimitacao das sub-regioes (areas
45
compreendidas pelos mınimos locais). Nas sub-regioes, sao determinados os
centroides temporarios, conforme pode ser visualizado na Figura 15. Se essa
area apresentar pelo menos 10% do numero total de amostras, esse centroide e
considerado valido. Caso o numero de centroides obtidos seja nulo, a funcao e
repetida para o formante que inicialmente apresentou menor numero de maximos.Materiais e métodos: algoritmos - MÉTODO 1
40
de centroides obtidos seja nulo, a funcao e repetida para o formante que
inicialmente apresentou menor numero de maximos.
050010001500200025003000
0
100
200
300
400
500
600
F2(Hz)
F1(H
z)
Pontos F1 × F
2
Máximos
Mínimos
Centroides
Nuvem de pontos e distribuicões de F1 × F
2
Distribuição de F2
Sub-divisao 1 (Regiao 1) Sub-divisao 2 (Regiao 1)
Figura 14: Subdivisao de uma das regioes anteriormente definidas do espacoF1 × F2, novamente a partir dos mınimos e maximos da funcao densidade deprobabilidade, para inicializacao dos centroides.
• Metodo 2: Adotado apos constatacao de melhor identificacao dos centroides,
conforme resultados apresentados no Capıtulo 5. Quando a funcao e chamada
na etapa inicial, a funcao e alimentada por trilhas, correspondentes as nuvens
de F1×F2 geradas para diferentes valores de referencias.
Para cada trecho contınuo (apresentando no mınimo tres amostras consecutivas
com valores validos), e eleita uma trilha otima. A nuvem final gerada e entao
submetida a funcao de agrupamento. Como referencia sao fornecidos pares
de valores [(F2 + F1);(F2 − F1)] para as cinco referencias de vogais e um par
equivalente a regiao de frequencias consonantais. As amostras contidas no
agrupamento gerado a partir desse ultimo par sao consideradas invalidas, sendo
o agrupamento eliminado.
Esta funcao tambem e chamada na etapa final da selecao de amostras, quando
e alimentada pela nuvem resultante das etapas anteriores. Os agrupamentos
sao entao, nesta situacao, inicializados com valores de referencia de acordo com
Russo e Behlau (1993).
37 / 54
Figura 15: Subdivisao de uma das regioes anteriormente definidas do espacoF1 × F2, novamente a partir dos mınimos e maximos da funcao densidade deprobabilidade, para inicializacao dos centroides.
4.3.9 Inicializacao dos Centroides - “Metodo 2”
Adotado apos constatacao de melhor identificacao dos centroides, conforme
resultados apresentados no Capıtulo 6. Quando a funcao e chamada na etapa inicial,
a funcao e alimentada por trilhas, correspondentes as nuvens de F1×F2 geradas para
diferentes valores de referencias.
Para cada trecho contınuo (apresentando no mınimo tres amostras
consecutivas com valores validos), e eleita uma trilha otima. A nuvem final gerada
e entao submetida a funcao de agrupamento. Como referencia sao fornecidos pares
de valores [(F2+F1);(F2−F1)] para as cinco referencias de vogais e um par equivalente
a regiao de frequencias consonantais. As amostras contidas no agrupamento gerado
a partir desse ultimo par sao consideradas invalidas, sendo o agrupamento eliminado.
Esta funcao tambem e chamada na etapa final da selecao de amostras,
quando e alimentada pela nuvem resultante das etapas anteriores. Os agrupamentos
sao entao, nesta situacao, inicializados com valores de referencia de acordo com
Russo e Behlau (1993).
46
5 EXPERIMENTOS
Os experimentos, elencados nas sub-secoes a seguir, foram realizados com
o emprego dos metodos descritos na Secao 4.3, conforme os codigos apresentados
nos Apendices A e B.
5.1 COMPARACAO ENTRE OS METODOS DE INICIALIZACAO
Nesta etapa foram comparados os desempenhos dos metodos descritos em
funcao do numero de centros localizados, diferenca entre os valores obtidos e os
de referencia, assim como da distancia entre a fronteira das regioes localizadas a
cada centro de referencia (considerando-se cinco centros como referencia). Foram
utilizadas as amostras do grupo GC da base da UTFPR.
Foram considerados como referencias cinco centros, com agrupamento das
vogais altas e media-altas, tanto anteriores (/i/ e /e/) como posteriores (/o/ e /u/),
a partir dos valores medios de F1 e F2 obtidos de (RUSSO; BEHLAU, 1993), com
distincao entre grupos de mulheres e de homens.
5.2 ALOCACAO DOS CENTROIDES
A partir de amostras das bases UTFPR e Spoltech, analisou-se o numero de
centroides localizados, sendo calculado o erro de F1 e de F2 em relacao ao padrao-
ouro das vogais-alvo, ou seja, dos trechos pre-segmentados de vogais orais tonicas
especıficas na primeira base, e da totalidade das vogais orais na segunda.
5.3 RECONHECIMENTO DOS TRECHOS
A partir de amostras dos grupos da UTFPR, cujas vogais-alvo foram
segmentadas, foi comparada a quantidade de trechos identificados. Para cada trecho-
alvo identificado, calculou-se o percentual da duracao compreendida nas amostras
finalmente consideradas como vocalicas.
47
5.4 CODIFICACAO DOS SINAIS DE AUDIO
Foram realizados experimentos com submissao dos registros de audio a
diferentes codecs para simulacao de canais de transmissao e de compressao. Para
simulacao de canal telefonico de rede fixa, os arquivos de audio foram, por meio da
ferramenta SoX, recodificados com o formato G711a (ITU-T, 1988). Esse codec se
trata da variacao “a-law” da modulacao PCM, padrao de telefonia fixa utilizada no
Brasil.
Quanto a simulacao de canal de telefonico de rede movel, os arquivos
de audio foram recodificados por meio da ferramenta FFMPEG com a biblioteca
“libopencore” para o formato AMR-nb 4.750 kbps, o qual apresenta codificacao
adaptativa AMR especificada para utilizacao em redes de telefonia 3GPP (ETSI, 1999-
2014a; ETSI, 1999-2014b).
Tambem foram realizados experimentos com arquivos convertidos para o
formato MP3 com taxa de 24 kbps, por se tratar de compressao bastante popular
em equipamentos portateis de audio. Sua codificacao e baseada em criterios psico-
acusticos, que levam em consideracao limiares de mascaramento da audicao humana,
em funcao de proximidade temporal ou frequencial (MCLOUGHLIN, 2009).
5.5 ADICAO DE RUIDO
Os experimentos com simulacao de degradacao de canal foram realizados
com adicao de ruıdo por meio da ferramenta SoX. Foram selecionados os ruıdos
branco (espectro contınuo e uniforme), rosa (espectro uniforme no espaco logarıtmico,
com decaimento de 3 dB por oitava) (FED-STD-1037C, 1996) e marrom (espectro com
decaimento de 6 dB por oitava, possıvel de ser obtido atraves da integracao de ruıdo
branco), todos aplicados com uma amplitude de 20% do sinal normalizado.
5.6 COMPARACAO INTRAFALANTES
A partir de amostras da base C-ORAL, procedeu-se a busca de centroides
inicialmente para a duracao total de cada arquivo. Na sequencia, os arquivos foram
subdivididos em sete trechos de igual duracao e nova busca foi realizada, sendo os
resultados comparados com os valores iniciais.
48
6 RESULTADOS E DISCUSSOES
A seguir sao detalhados os resultados dos experimentos, que abrangeram
a comparacao dos metodos de inicializacao dos centroides, desempenho da tecnica
aplicada frente a distorcoes resultantes de diferentes codificacoes/compactacoes e a
adicao de ruıdo ao sinal, e variacao intrafalante na identificacao de centroides.
6.1 COMPARACAO ENTRE OS METODOS DE INICIALIZACAO
Foram comparados os metodos de inicializacao de centroides descritos na
Subsecao 4.3.7, sendo utilizadas as amostras do grupo GC do corpus da UTFPR,
com codificacao G711a (simulacao de canal de telefonia fixa).
Apos realizacao da etapa de busca de clusters, obteve-se um melhor resultado
para o “Metodo 2”, em termos de numero de centroides identificados e reconhecimento
dos trechos correspondentes as vogais-alvo, conforme descrito a seguir.
6.1.1 Alocacao dos Centroides
Na Tabela 2 sao apresentados os percentuais de centroides encontrados para
cada metodo. No Apendice C.1 os dados sao apresentados com maior detalhamento,
sendo expostos para cada amostra a quantidade de centroides identificados e seus
os valores F1×F2, assim como os desvios padrao dos pontos pertencentes a cada
agrupamento.
Tabela 2: Resultados dos centroides obtidos para amostras do grupo GC da UTFPR,apos agrupamento com cinco centros de referencia, por meio dos Metodos 1 e 2.
/i/,/e/ /E/ /a/ /O/ /o/, /u/ Media Maximo
Metodo 1 100% 90% 30% 100% 0% 3,2 (64%) 4,0 (80%)
Metodo 2 100% 100% 100% 100% 100% 5,0 (100%) 5,0 (100%)
Tais valores foram comparados com os valores de referencia, advindos dos
resultados da pesquisa realizada pelo Grupo de Estudos de Sons da Fala da UTFPR
49
(GOMES, 2013). Para cada centro foi calculado, atraves de distancia euclidiana,
o valor de referencia mais proximo, sendo determinada a vogal mais provavel
correspondente. E importante ressaltar que os valores de referencia correspondem,
nesse caso, apenas a vogais orais especıficas com caracterısticas de tonicidade.
Com a aplicacao do “Metodo 1” obteve-se um maximo de quatro centroides
identificados, com uma media de tres. O “Metodo 2”, por sua vez, permitiu a
identificacao da totalidade (cinco) em todos os casos, apresentando, portanto, uma
melhor eficacia com relacao a quantidade de centroides detectados.
Prosseguindo com a avaliacao dos resultados, calculou-se para cada amostra,
conforme apresentado no Apendice C.2, a distancia euclidiana ∆F1F2 entre os valores
de F1 e F2 das referencias e dos centroides obtidos. Na Tabela 3 sao apresentados os
valores medios para os centroides alocados, sendo que para o “Metodo 1” obteve-
se uma media de 176,6 Hz com desvio padrao de 79,0 Hz, enquanto que para o
“Metodo 2” a media foi 200,4 Hz e o desvio padrao 124,7 Hz.
Tabela 3: Diferenca entre os centros obtidos e os valores de referencia e asrespectivas percentagens para amostras do grupo GC da UTFPR, apos agrupamentocom cinco centros de referencia, por meio dos Metodos 1 e 2.
/i/,/e/ /E/ /a/ /O/ /o/, /u/ Media
∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) (σF1F2)
Metodo 1 194,8 186,9 167,5 151,9 ND 176,6 (79,0)Metodo 2 132,9 192,7 228,2 282,7 165,4 200,4 (124,7)
ND: valor nao disponıvel (nao houve alocacao do centroide em qualquer das amostras).
Houve, todavia, variacao na exatidao que ambos metodos alcancaram para os
centroides referentes as diferentes regioes. Enquanto que com o “Metodo 1” obteve-
se uma distancia media inferior (mais proximo, portanto) para as regioes associadas
as vogais baixas e medias-baixas, o “Metodo 2” propiciou uma alocacao melhor para
as regioes altas.
Por essa razao buscou-se comparar tal desempenho atraves da razao entre as
distancias. Na Figura 16 e possıvel observar a distribuicao das razoes, sendo que na
parte esquerda do grafico, na cor vermelha, esta presente a curva denominada ∆M1
referente a −∆F1F2(M2)∆F1F2(M1) , com a distribuicao das razoes em se obteve menor distancia
(melhor resultado) com o “Metodo 1”.
Da mesma forma, na parte direita do grafico e na cor azul, esta a curva
50
-20 -15 -10 -5 0 5 10 15 200
0.02
0.04
0.06
0.08
0.1
0.12
0.14Distribuição da razão entre as distâncias do Método 1 e Método 2
∆M2
∆M1
µ = 0.0303
Figura 16: Distribuicao dos valores de razao entre asdistancias resultantes dos Metodos 1 e 2, a partir doApendice C.2, com ∆M1 em vermelho e com ∆M2 nacor azul. A linha tracejada em cor preta indica a mediaµ, praticamente centralizado.
denominada ∆M2, na cor azul, que se refere a +∆F1F2(M1)∆F1F2(M2) , nas situacoes em que se
obteve menor distancia ∆F1F2 com “Metodo 2”. Tambem consta no grafico uma linha
tracejada em cor preta indica a media µ (0,0303), praticamente centralizado, indicando
equivalencia de desempenho dos metodos quando considerado esse parametro em
especıfico.
Quando se leva em conta nao apenas o ponto central, mas tambem a area
da regiao correspondente atraves do desvio padrao das amostras referentes a cada
agrupamento (Apendice C.1), a distancia entre o limite das regioes as referencias
(valores apresentados na Tabela 4) pode ser utilizada como um parametro de
acerto/erro para cada Metodo.
Na Tabela 4 sao apresentados como “OK” aqueles casos em a regiao
associada ao centroide (delimitada pelo desvio padrao dos valores de F1 e de F2)
compreendia a referencia em questao, como “ND” os casos em que o centroide
nao foi alocado, e nos demais sao indicados os percentuais de erro de F1 ou de F2.
Assim obteve-se o percentual da quantidade de acertos de cada metodo, conforme
apresentado na primeira linha da Tabela 5.
51
Tabela 4: Diferenca percentual da distancia entre a fronteira de cada regiao e o valorde referencia mais proximo, apos agrupamento com cinco centros de referencia, pormeio dos Metodos 1 e 2 (valores do ultimo em negrito). Valores localizados no interiorda regiao indicados por “OK”, e centros nao encontrados como “ND”.
Amostra /i/,/e/ /E/ /a/ /O/ /o/, /u/
F1(%) F2(%) F1(%) F2(%) F1(%) F2(%) F1(%) F2(%) F1(%) F2(%)
GC1(M1) OK OK ND ND ND ND OK OK ND ND(M2) OK OK OK OK 6,7% OK 13,4% 16,2% OK 12,2%
GC2(M1) OK 4,6% 0,5% OK ND ND 11,6% OK ND ND(M2) OK 5,6% 20,1% OK 0,7% 1,1% OK 19,5% OK 2,2%
GC3(M1) OK OK OK 4,1% ND ND OK OK ND ND(M2) OK OK OK OK 26,2% OK OK 5,3% OK 5,6%
GC4(M1) OK OK OK 1,4% ND ND OK OK ND ND(M2) OK OK OK OK 16,4% 2,2% OK 6,3% OK OK
GC5(M1) OK 3,3% OK 2,1% ND ND OK OK ND ND(M2) OK OK OK 0,1% 3,6% OK OK OK OK 7,1%
GC6(M1) OK OK OK 3,9% 8,5% OK OK OK ND ND(M2) OK OK OK 3,2% 20,3% OK OK 4,0% OK OK
GC7(M1) OK 1,2% OK 0,6% 1,2% OK 4,0% OK ND ND(M2) OK 0,5% OK 0,3% 2,3% OK OK 3,9% OK OK
GC8(M1) OK OK OK 8,3% ND ND 16,5% OK ND ND(M2) OK OK 8,7% 4,4% 2,1% OK 2,5% 18,1% OK 11,6%
GC9(M1) OK OK OK OK ND ND OK OK ND ND(M2) OK OK OK 9,3% OK 0,7% OK 4,7% OK OK
GC10(M1) OK OK OK OK OK OK OK OK ND ND(M2) OK 12,7% 23,2% OK 13,0% 18,5% 5,9% 27,6% OK 8,6%
ND: valor nao disponıvel (centroide nao alocado).OK: referencia no interior da regiao localizada.M1: Metodo 1.M2: Metodo 2.
Conforme demonstrado na Tabela 5, o resultado melhora para ambos os
metodos quando se considera uma dilatacao das fronteiras das regioes. A partir de
5% os metodos atingem valores acima de 50%, sendo o desempenho do “Metodo 2”
superior. Na Figura 17 e possıvel visualizar uma nuvem de F1×F2 com cores indicando
a distribuicoes dos pontos nas respectivas regioes, sendo a regiao referente a 0%
ilustrada por cırculo na cor preta, e a regiao equivalente a 21% na cor azul.
Tabela 5: Quantidade de referencias localizadas internamente as regioes delimitadaspor meio dos Metodos 1 e 2. Resultados obtidos a partir dos valores presentesna Tabela 4, levando em consideracao os percentuais indicados para dilatacao dasfronteiras.
Dilatacao Metodo 1 Metodo 2 Ambos Nenhum
(0,0%) 32,0% 30,0% 14,0% 52,0%(2,0%) 46,0% 38,0% 20,0% 36,0%(5,0%) 56,0% 56,0% 36,0% 24,0%(10,0%) 60,0% 74,0% 46,0% 12,0%(21,0%) 62,0% 92,0% 56,0% 2,0%
52
1000150020002500
400
600
800
1000
F2(Hz)
F1(Hz)
Agrupamento 1Agrupamento 2Agrupamento 3Agrupamento 4Agrupamento 5CentroidesRegião limitada pelo desvio PadraoRegião dilatada (21%)
Figura 17: Grafico de nuvem F1 × F2 com cores distintas paraindicacao do centroide a que cada ponto esta associado. Cırculoscom tracejado na cor preta indicando o area delimitada pelo desviopadrao das distancias entre os pontos e o centroide de cadaagrupamento. Cırculos na cor azul indicando essa area dilatada em21%.
No intuito de exemplificar os dados discutidos, graficos resultantes sao
apresentados na Figura 18, nos quais se observa que as distribuicoes dos valores
F1×F2 das amostras GC4 e GC7 assemelham-se a trapezios. Os centroides obtidos
durante a aplicacao dos metodos (“Metodo 1” - (a) e (c) - a esquerda, “Metodo 2” - (b)
e (d) - a direita) estao identificados pelos pontos em preto, enquanto que os valores
de referencia estao indicados pelos pontos vermelhos.
Para o primeiro metodo e possıvel observar em (a) a proximidade dos centros
com os valores de referencia correspondentes, da esquerda para direita, as vogais
/e/ (agrupado com /i/), /a/ e /O/. Entretanto, em (c), muito embora mais centros
tenham sido reconhecidos, a nao-eliminacao de pontos de alta frequencia (regiao
inferior direita do grafico) causa confusao na identificacao do centro referente a /e/
e /i/.
Nos exemplos da Figura 18 tambem se observa que, para o segundo metodo,
em ambas as amostras as identificacoes foram mais proximas as referencias, ficando
os centroides localizados mais “internamente” ao trapezio. Tal comportamento pode
ser atribuıdo ao fato de que as referencias dessas amostras sao vogais tonicas
especıficas, enquanto que o reconhecimento busca todos os elementos vocalicos sem
distincao.
53
1000150020002500
400
600
800
1000
UTFPR GC4 orig: Método2
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosReferênciasCentroides
1000150020002500
400
600
800
1000
UTFPR GC4 orig: Método1
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosReferênciasCentroides
Metodo 1 (GC4):
(a)
1000150020002500
400
600
800
1000
UTFPR GC4 orig: Método2
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosReferênciasCentroides
1000150020002500
400
600
800
1000
UTFPR GC4 orig: Método1
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosReferênciasCentroides
Metodo 2 (GC4):
(b)
1000150020002500
400
600
800
1000
UTFPR GC7 orig: Método2
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosReferênciasCentroides
1000150020002500
400
600
800
1000
UTFPR GC7 orig: Método1
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosReferênciasCentroides
Metodo 1 (GC7):
(c)
1000150020002500
400
600
800
1000
UTFPR GC7 orig: Método2
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosReferênciasCentroides
1000150020002500
400
600
800
1000
UTFPR GC7 orig: Método1
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosReferênciasCentroides
Metodo 2 (GC7):
(d)
Figura 18: Graficos de nuvens de pontos (na cor turquesa) e media dos trechosF1×F2 (na cor azul) obtidos para as amostras GC4 (a,b - superiores) e GC7 (c,d -inferiores). A esquerda graficos obtidos por meio do Metodo 1, e a direita por meiodo Metodo 2. Em vermelho estao indicadas os valores medios e desvio padrao dasreferencias. Em preto estao indicados os centroides resultante, sendo importantefazer a ressalva da diferenca na proporcao dos eixos de F1 e F2 nos graficos, o quetorna as distribuicoes visualmente mais alongadas.
6.1.2 Reconhecimento dos Trechos
Na Tabela 6 sao apresentados os resultados quanto a quantidade de
vogais-alvo reconhecidas, assim como, dessas vogais, a duracao das mesmas
compreendidas na nuvem resultante.
Para o “Metodo 2” obteve-se sucesso no reconhecimento de 92,1% da
54
Tabela 6: Corpus UTFPR - percentual de vogais-alvo representadas na nuvem final epercentual medio das amostras dessas vogais.
Vogal Anterioridade AlturaQuantidade Vogais-alvo Duracao Vogais-alvo
M1 M2 M1 M2
/i/ Anterior Alta 62,5% 77,5% 35,3% 50,5%
/e/ Anterior Media−alta 95,0% 100,0% 61,9% 66,1%
/E/ Anterior Media−baixa 87,5% 100,0% 51,0% 65,3%
/a/ Central Baixa 47,5% 97,5% 25,7% 61,5%
/O/ Posterior Media−baixa 72,5% 82,5% 40,3% 69,8%
/o/ Posterior Media−alta 60,0% 95,0% 28,1% 62,5%
/u/ Posterior Alta 45,0% 95,0% 20,5% 59,5%
Media 67,1% 92,1% 44,3% 63,9%
quantidade dessas vogais, compreendendo 63,9% da duracao dos trechos em
questao, enquanto que o primeiro metodo atingiu 67,1% das vogais compreendendo
44,3% de sua duracao. Alem disso o “Metodo 2” demonstrou maior homogeneidade
no reconhecimento das diferentes vogais, com melhor deteccao das altas.
Sendo assim, pelo desempenho manifestamente melhor do “Metodo 2” para
reconhecimento dos trechos, associado aos resultados anteriormente expostos, o
mesmo foi o adotado para os demais experimentos.
6.1.3 Media Espectral apos o Reconhecimento dos Trechos
O comportamento espectral de um sinal de audio pode ser visualizado
por meio de graficos LTAS (Long Term Average Spectrum), os quais representam
justamente uma media espectral para um perıodo determinado. Na Figura 19 sao
apresentados LTAS de uma amostra para comparacao dos segmentos reconhecidos
como vocalicos e nao-vocalicos por meio do “Metodo 2”, da duracao total do arquivo
de audio nao segmentado, assim como dos trechos de referencia (vogais-alvo).
Na Figura 19 (a) sao apresentados os LTAS mencionados para a faixa ate
3000Hz, e em (b) e (c) tem-se aproximacoes das areas que compreendem primeiro
e segundo formante, respectivamente, com indicacao em vermelho dos valores de
referencia e em preto os valores obtidos para o centroides. E possıvel observar como
a media espectral da regiao vocalica e que mais se aproxima da media espectral dos
trechos de referencia.
55
Frequency (Hz)0 3000
Sou
nd p
ress
ure
leve
l (dB/
Hz)
10
60
Frequency (Hz)0 3000
Sou
nd p
ress
ure
leve
l (dB/
Hz)
10
60
Frequency (Hz)0 3000
Sou
nd p
ress
ure
leve
l (dB/
Hz)
10
60
0 250 500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000Frequency (Hz)
0 3000
Sou
nd p
ress
ure
leve
l (dB/
Hz)
10
60
LTAS amostra GC4
LTAS referência
LTAS região vocálica
LTAS região não-vocálicaFrequencia(Hz)
Nıv
elde
Pre
ssao
Son
ora(
dB/H
z)
(a)
Frequency (Hz)0 1500
Sou
nd p
ress
ure
leve
l (dB/
Hz)
20
60
Frequency (Hz)0 1500
Sou
nd p
ress
ure
leve
l (dB/
Hz)
20
60
Frequency (Hz)0 1500
Sou
nd p
ress
ure
leve
l (dB/
Hz)
20
60
Frequency (Hz)0 1500
Sou
nd p
ress
ure
leve
l (dB/
Hz)
20
60
437
Hz
329
Hz
613
Hz
556
Hz
752
Hz
886
Hz
633
Hz
619
Hz
528
Hz
413
Hz
0 125 250 375 500 625 750 875 1000 1125 1250 1375 1500
LTAS amostra GC4
LTAS referência
LTAS região vocálica
LTAS região não-vocálica
Frequencia(Hz)
Nıv
elde
Pre
ssao
Son
ora(
dB/H
z)
(b)
Frequency (Hz)900 2400
Sou
nd p
ress
ure
leve
l (dB/
Hz)
10
50
Frequency (Hz)900 2400
Sou
nd p
ress
ure
leve
l (dB/
Hz)
10
60
Frequency (Hz)900 2400
Sou
nd p
ress
ure
leve
l (dB/
Hz)
10
60
Frequency (Hz)900 2400
Sou
nd p
ress
ure
leve
l (dB/
Hz)
10
60
2273
Hz
2315
Hz17
95 H
z
2055
Hz15
13 H
z
1624
Hz12
30 H
z11
87 H
z
959
Hz
1004
Hz
900 1025 1150 1275 1400 1525 1650 1775 1900 2025 2150 2275 2400
LTAS amostra GC4
LTAS referência
LTAS região vocálica
LTAS região não-vocálica
Frequencia(Hz)
Nıv
elde
Pre
ssao
Son
ora(
dB/H
z)
(c)
Figura 19: Graficos LTAS para demonstrar a diferenca espectral das regioesvocalicas e nao-vocalicas em relacao a duracao total, e aos trechos de referencia.(a) Amostra GC4; (b) Regiao de F1; (c) Regiao de F2.
6.2 RESULTADOS PARA DEGRADACOES
A busca por centroides, para as amostras sem degradacao dos grupos
discriminados dos corpora UTFPR e SPOLTECH, resultou nos valores apresentados
no Apendice C.3. Na Tabela 7 sao sintetizados os valores medios e desvios padrao
dos grupos para os cinco centroides. Nesses experimentos obteve-se erros medios
de 25,5% e 16,2%, para F1 e F2 respectivamente.
No que se refere ao reconhecimento das vogais-alvo, no Apendice C.4 sao
apresentados os resultados para as amostras dos grupos do corpus UTFPR sem
degradacao. Os valores das medias obtidas para cada vogal estao sumarizados na
Tabela 8, onde pode-se observar que houve um reconhecimento medio de 87,9%,
56
compreendendo 75,3% da duracao desses trechos de interesse.
Tais valores, obtidos para as amostras sem degradacao, serviram como
parametro de comparacao para as etapas seguintes que consistiram de experimentos
com codificacao e com adicao de ruıdo aos sinais de audio.
Tabela 7: Diferenca dos valores F1 e F2 dos centroides em relacao aos valores dereferencia - amostras dos corpora UTFPR e SPOLTECH sem degradacao.
Media Desvio padraoCentroide ∆F1×∆F2 σ∆F1×σ∆F2
1 36,9×12,9% (47,4×9,6%)
2 25,1×12,6% (19,4×24,3%)
3 22,7×11,6% (13,0×9,4%)
4 18,6×22,1% (13,0×15,3%)
5 24,4×21,8% (15,7×14,1%)
Media 222555,,,555×××111666,,,222% (((222555,,,999×××111666,,,111%)))
Tabela 8: Percentual de vogais-alvo representadas na nuvem final e percentual daduracao dessas vogais - grupos do corpus UTFPR sem degradacao.
Vogal Trechos Duracao
/i/ 82,0% 65,8%/e/ 95,5% 81,7%/E/ 95,0% 75,7%/a/ 92,0% 71,4%/O/ 88,0% 79,9%/o/ 78,5% 76,9%/u/ 84,5% 70,4%
Media 888777,,,999% 777555,,,333%
6.2.1 Codificacao
As amostras dos grupos dos corpora UTFPR e SPOLTECH foram submetidas
aos tres tipos de codificacao/compressao selecionados: G711a, MP3 24 kbps e AMR-
nb 4.750 kbps.
No Apendice C.5 sao apresentados os erros percentuais dos centroides
obtidos em relacao aos valores de referencia para cada grupo. Cumpre referir que
para todos os casos o numero de centroides obtidos foi cinco (100%). Na Tabela 9
sao sintetizados as medias dos centroides para codificacoes adotadas.
Observa-se que os erros medios de F1×F2, para as variacoes em questao,
sejam (28,4 × 17,3%) para codificacao G711a, (27,7 × 17,8%) para compressao
57
Tabela 9: Diferenca dos valores F1 e F2 dos centroides em relacao aos valores dereferencia - amostras dos corpora UTFPR e SPOLTECH com codificacao. Na primeiralinha referente a cada grupo estao indicados os valores medios, e na segunda osvalores de desvio padrao.
G711A MP3 24kHz AMR-nb 4.750kbps
Media Desviopadrao Media Desvio
padrao Media Desviopadrao
Centroide ∆F1×∆F2 σ∆F1×σ∆F2 ∆F1×∆F2 σ∆F1×σ∆F2 ∆F1×∆F2 σ∆F1×σ∆F2
1 35,4×11,8% 49,8×9,0% 32,8×13,1% 33,5×9,3% 29,4×12,8% 41,5×10,2%2 40,7×13,2% 42,2×22,9% 33,1×12,5% 33,5×22,8% 28,6×11,8% 29,7×18,9%3 25,0×13,3% 15,7×10,4% 25,1×13,1% 13,0×9,6% 22,3×12,3% 14,8×10,2%4 17,0×24,3% 11,9×15,7% 20,2×27,3% 14,3×16,7% 15,4×20,2% 12,6×13,8%5 24,1×23,7% 16,3×17,3% 27,5×23,1% 17,8×14,6% 22,7×20,8% 16,3×13,6%
Media 222888,,,444×××111777,,,333% 333222,,,333×××111666,,,777% 222777,,,777×××111777,,,888% 222444,,,666×××111666,,,555% 222333,,,777×××111555,,,666% 222555,,,888×××111444,,,222%
MP3 e (23,7 × 15,6 %) para codificacao AMR-nb, sao proximos do erro medio para a
condicao original (25,5% × 16,2%).
Sendo assim realizou-se o teste t de Student para determinar se as amostras
com essas codificacoes estao relacionadas aos valores daquelas sem degradacao.
Com base nos p-values obtidos superiores ao ponto de corte (0,05), conforme exposto
na Tabela 10, nao e possıvel rejeitar a hipotese nula (de que nao ha diferenca
significativa entre os valores).
Tabela 10: Teste t de Student para comparar os valores obtidos com amostrassubmetidas a codificacoes, apresentados no Apendice C.5.
CodecMedia Desvio Padrao Teste t de Student
∆F1×∆F2 σ∆F1×σ∆F2 F1 F2
Sem degradacao 25,5×16,2% 25,9×16,1%G711a 28,4×17,3% 32,3×16,7% 0,315 0,602MP3 24kpbs 27,7×17,8% 24,6×16,5% 0,292 0,457AMR-nb 4.750kbps 23,7×15,6% 25,8×14,2% 0,468 0,751
No que diz respeito ao reconhecimento das vogais-alvo para as referidas
codificacoes, na Tabela 11 sao demonstrados os resultados obtidos. Os percentuais
de identificacao (numero de trechos-alvos reconhecidos) - 85,9%, 81,1% e 82,3%,
assim como a duracao dessas vogais compreendidas nos trechos identificados -
72,8%, 74,4% e 69,9%, tambem guardaram proximidade aos percentuais obtidos para
as amostras sem degradacao.
58
Tabela 11: Percentual de vogais-alvo representadas na nuvem final e percentual daduracao dessas vogais - grupos do corpus UTFPR com codificacao.
G711A MP3 24kHz AMR-nb 4.750kbpsVogal Trechos Duracao Trechos Duracao Trechos Duracao
/i/ 76,0% 62,7% 56,0% 73,2% 61,0% 55,8%/e/ 94,5% 77,4% 92,5% 80,7% 92,0% 77,3%/E/ 95,0% 76,3% 90,0% 78,5% 94,0% 72,8%/a/ 91,5% 69,0% 89,5% 68,5% 92,0% 68,1%/O/ 88,0% 76,8% 84,0% 75,8% 87,5% 75,0%/o/ 76,0% 74,8% 75,5% 72,9% 75,0% 68,2%/u/ 80,0% 68,1% 80,0% 68,1% 74,5% 58,2%
Media 888555,,,999% 777222,,,888% 888111,,,111% 777444,,,444% 888222,,,333% 666999,,,999%
6.2.2 Adicao de Ruıdo
As amostras dos grupos dos corpora UTFPR e SPOLTECH procedeu-se a
adicao de tres tipos de ruıdo: marrom, rosa e branco, em ordem decrescente de
agressividade ao sinal de audio.
A adicao de ruıdo marrom nao afetou a quantidade de centroides
reconhecidos em relacao a situacao sem degradacao, diferentemente das demais
condicoes, conforme resultados apresentados na Tabela 12. E possıvel observar
que a adicao de ruıdo rosa afeta de forma branda o reconhecimento dos centroides
das extremidades (correspondentes as regioes das vogais altas), enquanto que
com adicao de ruıdo branco ha exito apenas no reconhecimento nos centros
correspondentes as regioes das vogais baixas e medias-baixas.
Tabela 12: Numero de centroides reconhecidos nos grupos analisados apos adicaode ruıdo ao sinal das amostras.
Centroide RUIDO MARROM RUIDO ROSA RUIDO BRANCO
1 100,0% 97,8% 5,6%2 100,0% 100,0% 100,0%3 100,0% 100,0% 100,0%4 100,0% 100,0% 69,1%5 100,0% 88,5% 0,0%
Media 555,,,000(((111000000%))) 444,,,999(((999888%))) 222,,,777(((555444%)))
No Apendice C.8 sao apresentados os erros percentuais dos centroides
obtidos em relacao aos valores de referencia para cada grupo. Na Tabela 13 sao
sintetizados as medias dos centroides para as degradacoes utilizadas. Obteve-se os
seguintes valores medios de erro de F1×F2, para as tres variacoes, sejam eles (42,3
59
× 21,6 %) para ruıdo marrom, (50,5 × 20,6 %) para ruıdo rosa e (28,1 × 19,1 %) para
ruıdo branco.
Tabela 13: Diferenca dos valores F1 e F2 dos centroides em relacao aos valores dereferencia - amostras dos corpora UTFPR e SPOLTECH com adicao de ruıdo.
RUIDO MARROM RUIDO ROSA RUIDO BRANCO
Media Desviopadrao Media Desvio
padrao Media Desviopadrao
Centroide ∆F1×∆F2 σ∆F1×σ∆F2 ∆F1×∆F2 σ∆F1×σ∆F2 ∆F1×∆F2 σ∆F1×σ∆F2
1 45,3×12,0% 34,7×9,3% 165,0×14,6% 120,2×10,1% ND ND2 93,2×22,5% 66,0×20,9% 26,0×14,6% 38,9×16,8% 38,2×16,8% 70,3×18,4%3 26,5×15,6% 13,1×10,4% 21,6×9,3% 14,3×6,7% 22,5×12,7% 13,3×11,3%4 19,4×20,3% 13,0×14,8% 13,6×18,1% 10,1×11,2% 20,5×33,5% 15,0×16,5%5 26,9×37,5% 20,2×24,4% 27,1×49,6% 23,9×31,8% ND ND
Media 444222,,,333×××222111,,,666% 444444,,,444×××111999,,,000% 555000,,,555×××222000,,,666% 888111,,,444×××222222,,,222% 222888,,,111×××111999,,,111% 444555,,,555×××111777,,,555%
ND: valor nao disponıvel (nenhum centroide nao alocado).
O ultimo caso, referente a adicao de ruıdo branco, nao apresenta condicoes de
ser considerado devido a baixa eficiencia durante o reconhecimento dos centroides.
Quanto aos primeiros, e possıvel notar uma piora expressiva dos valores obtidos para
F1 em relacao ao obtido para a condicao sem degradacao.
Para determinar se a diferenca observada e significativa, realizou-se o teste
t de Student. Com base nos p-values obtidos superiores ao ponto de corte (0,05),
conforme exposto na Tabela 14, a hipotese nula foi rejeitada (ou seja, ha de fato uma
diferenca significativa entre os valores).
Tabela 14: Teste t de Student para comparar os valores obtidos com amostras comadicao de ruıdo, apresentados no Apendice C.8.
CodecMedia Desvio Padrao Teste t de Student
∆F1×∆F2 σ∆F1×σ∆F2 F1 F2
Sem degradacao 25,5×16,2% 25,9×16,1%Ruıdo marrom 42,3×21,6% 44,4×19,0% 0,007 0,038Ruıdo rosa 50,5×20,6% 81,4×22,2% 0,018 0,150
No Apendice C.9 sao demonstrados os valores obtidos de percentuais de
vogais-alvo reconhecidos em cada tipo de ruıdo adicionado, com as medias para cada
tipo de ruıdo sumarizadas na Tabela 15. Quanto aos percentuais de identificacao
obtidos - 83,1%, 82,6% e 37,6%, assim como a duracao dessas vogais compreendidas
nos trechos identificados - 64,6%, 66,6% e 45,2%, observa-se que, com excecao da
situacao de ruıdo branco, nos demais casos houve desempenho similar aquele obtido
no caso de amostras sem degradacao.
60
Tabela 15: Percentual de vogais-alvo representadas na nuvem final e percentual daduracao dessas vogais - grupos do corpus UTFPR com adicao de ruıdo.
RUIDO MARROM (20%) RUIDO ROSA (20%) RUIDO BRANCO (20%)Vogal Trechos Duracao Trechos Duracao Trechos Duracao
/i/ 72,5% 57,9% 71,5% 51,9% 14,0% 29,9%/e/ 91,5% 71,9% 91,0% 76,3% 42,0% 44,7%/E/ 90,5% 64,4% 90,0% 72,2% 44,0% 52,2%/a/ 88,5% 57,3% 89,5% 67,9% 60,0% 49,6%/O/ 88,0% 72,8% 77,5% 75,0% 42,0% 55,9%/o/ 71,0% 61,1% 74,5% 54,8% 28,0% 39,4%/u/ 79,5% 60,3% 84,5% 54,9% 33,5% 38,8%
Media 888333,,,111% 666444,,,666% 888222,,,666% 666666,,,666% 333777,,,666% 444555,,,222%
Nos exemplos presentes na Figura 20, referentes as amostras GC4 e GC7,
pode-se visualizar mais claramente a distribuicao de F1 e de F2 de acordo com o tipo
de degradacao sofrida pela amostra.
200
400
600
800
1000
1200
1400
1600
ream ctel cmp1 cam1 np02 nb02 nw02
F1(H
z)
GC4: distribuicoes de F1
500
1000
1500
2000
2500
3000
ream ctel cmp1 cam1 np02 nb02 nw02
F2(H
z)
GC4: distribuicoes de F2
200
400
600
800
1000
1200
1400
1600
ream ctel cmp1 cam1 np02 nb02 nw02
F1(H
z)
GC7: distribuicoes de F1
500
1000
1500
2000
2500
3000
ream ctel cmp1 cam1 np02 nb02 nw02
F2(H
z)
GC7: distribuicoes de F2
(a)
200
400
600
800
1000
1200
1400
1600
ream ctel cmp1 cam1 np02 nb02 nw02
F1(H
z)
GC4: distribuicoes de F1
500
1000
1500
2000
2500
3000
ream ctel cmp1 cam1 np02 nb02 nw02
F2(H
z)
GC4: distribuicoes de F2
200
400
600
800
1000
1200
1400
1600
ream ctel cmp1 cam1 np02 nb02 nw02
F1(H
z)
GC7: distribuicoes de F1
500
1000
1500
2000
2500
3000
ream ctel cmp1 cam1 np02 nb02 nw02
F2(H
z)
GC7: distribuicoes de F2
(b)
200
400
600
800
1000
1200
1400
1600
ream ctel cmp1 cam1 np02 nb02 nw02
F1(H
z)
GC4: distribuicoes de F1
500
1000
1500
2000
2500
3000
ream ctel cmp1 cam1 np02 nb02 nw02
F2(H
z)
GC4: distribuicoes de F2
200
400
600
800
1000
1200
1400
1600
ream ctel cmp1 cam1 np02 nb02 nw02
F1(H
z)
GC7: distribuicoes de F1
500
1000
1500
2000
2500
3000
ream ctel cmp1 cam1 np02 nb02 nw02
F2(H
z)
GC7: distribuicoes de F2
(c)
200
400
600
800
1000
1200
1400
1600
ream ctel cmp1 cam1 np02 nb02 nw02
F1(H
z)
GC4: distribuicoes de F1
500
1000
1500
2000
2500
3000
ream ctel cmp1 cam1 np02 nb02 nw02
F2(H
z)
GC4: distribuicoes de F2
200
400
600
800
1000
1200
1400
1600
ream ctel cmp1 cam1 np02 nb02 nw02
F1(H
z)
GC7: distribuicoes de F1
500
1000
1500
2000
2500
3000
ream ctel cmp1 cam1 np02 nb02 nw02
F2(H
z)
GC7: distribuicoes de F2
(d)
Figura 20: Boxplots com comparativo das distribuicoes de F1× F2 de amostras dogrupo GC com degradacoes. (a,b) Distribuicoes para amostra GC4; (c,d) Distribuicoespara GC7, sendo F1 e F2 respectivamente.Observacoes: “ream”: sinal apenas reamostrado em 8 kHz; “ctel”: sinal com codificacao G711a; “cmp1”:sinal com compressao MP3 24 kbps; “cam1”: sinal com codificacao AMR-nb 4.750 kbps; “nb02”: sinalcom adicao de ruıdo marrom; “np02”: sinal com adicao de ruıdo rosa; “nw02”: sinal com adicao de ruıdobranco.
E possıvel observar que a adicao de ruıdo tem um efeito mais dramatico sobre
o sinal do que codificacoes aplicadas. Nota-se ainda, que, com excecao do ruıdo
61
branco, para os exemplos considerados a distribuicao de F1 manteve-se mais estavel
frente as degradacoes.
Entretanto, cabe esclarecer que o reconhecimento se da em um espaco
bidimensional, dependente da distribuicao dos pontos em relacao a ambos os eixos.
Mesmo com uma distribuicao aparentemente mais estavel de F1, uma deformacao
no formato do “trapezio” justifica os erros maiores para F1 observados no resultados
apresentados na Tabela 13 (p. 59).
6.3 RESULTADOS PARA COMPARACAO INTRAFALANTES
Para comparacao intrafalante foram utilizadas amostras do corpus C-ORAL,
por apresentarem maior duracao, ou seja, serem passıveis de serem subdivididas em
trechos com duracao adequada. Cada amostra foi subdividida em sete trechos, de
modo que cada um apresentasse duracao superior a um minuto.
No Apendice C.10 sao apresentados os resultados obtidos, sendo: valores
F1× F2 dos centros para duracao total da amostra (utilizado como referencia), erro
percentual medio de F1×F2 e erro percentual maximo, sendo um resumo das medias
encontradas para as amostras avaliadas apresentado na Tabela 16.
Tabela 16: Diferenca dos valores de centroides em comparacoes intrafalantes paraamostras do corpus C-ORAL.
AmostraDiferenca media Diferenca maxima
∆F1×∆F2(%) ∆F1×∆F2(%)
BFAMMN01M 3,0%×2,2% 9,7%×6,7%
BFAMMN02M 4,2%×2,3% 13,8%×4,1%
BFAMMN04M 4,2%×2,4% 14,2%×8,4%
BFAMMN08M 4,5%×3,0% 23,5%×6,7%
BFAMMN03H 8,4%×4,9% 72,6%×14,6%
BFAMMN06H 3,0%×2,3% 6,7%×9,5%
Por outro lado, percebe-se que duas amostras apresentam ocorrencias com
valores de erro maximo indicativos de afastamento de um dos centros em questao
(72,6% para o centro 1 da amostra BFAMMN03H e 23,5% para o centro 3 da amostra
BFAMMN08M), um dos trechos daquela amostra em especıfico. Nesses dois casos
especıficos, a distribuicao no espaco F1 × F2 nao havia se mostrado conformada
62
adequadamente ao trapezio esperado.
A analise dos erros percentuais medios demonstra um comportamento de
baixa variacao intrafalantes, como o que se visualiza no exemplo apresentado na
Figura 21, em que ha constancia na distribuicao da nuvem de pontos e da localizacao
dos centroides encontrados.
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
(a) 50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
(b)
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
(c)
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
(d)
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
(e)
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
50010001500200025003000
200
400
600
800
1000
1200
1400
CORAL bfammn01M ream
F2(Hz)
F1(Hz)
Pontos F1 × F
2
Media dos trechosCentroides
500
1000
1500
2000
2500
F1 F2
(f)
Figura 21: Comparacao de diferentes intervalos de uma das amostras do grupo “C-ORAL M”. (a,c,d) Nuvem de pontos F1×F2 com indicacao das medias dos trechos ecentroides; (b,d,f) Boxplots com as distribuicoes de F1 e de F2.
63
7 CONCLUSAO
No ambito forense o exame Comparacao de Locutores tem grande
importancia por possibilitar a vinculacao de autoria de crimes. Todavia, devido a
complexidade das analises, e um exame consideravelmente dispendioso. Portanto, e
digno de atencao qualquer desenvolvimento que permita otimizar a realizacao desse
exame. Nesse trabalho foi proposto um metodo para reconhecimento automatico de
vogais, com a finalidade de segmentar e extrair caracterısticas acusticas de fonemas
vocalicos automaticamente.
Foram selecionadas amostras de audio com viabilidade para extracao e
analise de parametros acusticos, a partir de tres diferentes corpora: UTFPR,
SPOLTECH e C-ORAL. Para programacao das funcoes envolvidas na implementacao
dos metodos, foram utilizados os softwares Praat e Matlab. Adicionalmente, para
codificacao, compressao ou adicao de ruıdo as amostras, utilizou-se as ferramentas
de tratamento de audio SoX e FFMPEG.
Os algoritmos foram implementados partindo-se do pressuposto de que
fonemas vocalicos sao caracteristicamente vozeados, isto e, durante sua producao
se observara a frequencia fundamental, e que tambem apresentam uma taxa de
passagem por zero (ZCR) menor do que segmentos consonantais. O processo
envolveu o calculo dos parametros acusticos F0, F1..3 e BW1..3, e a segmentacao em
trechos vocalicos e nao-vocalicos (nesses ultimos as amostras irrelevantes para o
contexto eram descartadas da nuvem resultante).
Durante os experimentos foram avaliados dois metodos de inicializacao para
a etapa de agrupamento dos pontos F1 × F2 baseada no modelo k-means. No
“Metodo 1” a busca de centroides e inicializada com os picos encontrados na
distribuicao, enquanto que no “Metodo 2” a inicializacao e feita com valores pre-
fixados, correspondentes aos valores medios de formantes para as diferentes vogais
orais tonicas do PB, conforme pesquisa de Russo e Behlau (1993).
Outra diferenca entre os metodos, e que no primeiro foi feita selecao dos
valores de formantes em cada janela de tempo (funcao “Formant track” do Praat),
com atribuicao dos valores de formantes de referencia como sendo a media de todas
64
as vogais. Para o segundo metodo foram consideradas trilhas, ou seja, realizou-se
a selecao de forma paralela, sendo fixadas referencias que englobassem tambem as
regioes extremas do trapezio (nao somente a regiao central do mesmo), sendo eleita
em cada trecho segmentado a melhor trilha com base na continuidade da curva de F1.
Na comparacao entre os dois metodos citados, com amostras do grupo GC
da UTFPR, o segundo apresentou melhores resultados quanto relacao ao numero
de centroides localizados, assim como a quantidade de trechos-alvo reconhecidos
e a duracao dos mesmos. Por essa razao foi o adotado no prosseguimento dos
experimentos.
Foram realizados experimentos com as amostras das bases UTFPR e
SPOLTECH submetidas a diversos tipos de degradacao do canal.
Para simulacao de canal telefonico foram selecionados os codecs G711a,
AMR-nb 4.750 kbps, e para compressao o codec MP3 24 kbps. Nesses casos o
desempenho do metodo nao teve alteracao em relacao ao sinal sem degradacao,
tanto em termos de deteccao de centroides quanto a diferenca de seus valores em
relacao as referencias, assim como a quantidade de trechos-alvo reconhecidos.
No que concerne os experimentos com adicao de ruıdo, foram selecionados
sinais do tipo marrom, rosa e branco. No caso do ruıdo branco, o desempenho foi
severamente prejudicado para todos os criterios. No caso do ruıdo marrom e rosa,
embora o numero de trechos-alvo reconhecidos e a quantidade de centroides alocados
tenha permanecido alta, a diferenca em relacao a referencia foi significativa (conforme
observado por meio de aplicacao de teste estatıstico t de Student).
Foram realizados ainda experimentos para verificar a constancia dos
resultados em comparacoes intrafalantes. Para tanto, as amostras selecionadas do
corpus C-ORAL, de maior duracao que as anteriores, foram subdivididas em intervalos
menores e os valores dos centroides obtidos comparados. Observou-se robustez do
desempenho, com apenas duas situacoes de afastamento dos valores medios dos
formantes do centroide alocado, justamente em casos em que o formato da nuvem de
pontos afastou-se do trapezio almejado.
E importante ressaltar que certa variacao durante a producao de fonemas
e esperado. Entretanto, para utilizacao de dados com a finalidade de comparar
a producao de dois sujeitos, e imprescindıvel que o comportamento formantico
seja estavel no caso em questao. Devido alguns dos casos terem apresentado
65
outliers ou distanciamento do formato de trapezio, entende-se como necessario refinar
o metodo para melhor adequacao da nuvem. Tais melhorias podem incluir, por
exemplo, a aplicacao de linha definida pelo usuario para corte de regiao do espaco
F1 × F2, ou ainda novas iteracoes para melhor convergencia dos valores utilizados
como referencia nas trilhas e localizacao de centroides. Alem disso, e importante
apontar que casos praticos demandam a analise preliminar da influencia do canal,
especialmente daqueles ruidosos.
Sendo assim, considera-se que o trabalho atingiu parcialmente os objetivos
delineados, uma vez que depende de sua integracao em ferramenta ser efetivamente
utilizado para atender as necessidades forenses. Apesar da aplicacao estar restrita a
amostras de audio de apenas um falante, ou que contenham arquivos de delimitacao
entre os turnos de fala, acredita-se que tera utilidade em muitos casos.
Com os resultados obtidos, o metodo demonstra-se apropriado para trazer
melhorias quantitativas e qualitativas ao exame de Comparacao de Locutores, ao
permitir a reducao do tempo empregado para segmentacao de vogais, extracao de
caracterısticas acusticas, auxılio para eliminacao de amostras inservıveis, bem como
oferecimento de graficos que demonstrem padroes acusticos e relatorios para melhor
embasamento e apresentacao de laudos.
A pesquisa realizada durante os experimentos preliminares, com utilizacao
do “Metodo 1”, resultou no aceite do artigo intitulado “Metodo para analise acustica
e reconhecimento de vogais em exames de comparacao de locutores” na Nona
Conferencia Internacional em Computacao Forense (ICoFCS 2015).
7.1 TRABALHOS FUTUROS
Dadas as condicoes da maioria dos materiais encaminhados para exames de
CL, posteriormente sera imprescindıvel dar continuidade na avaliacao do desempenho
do metodo frente a condicoes de degradacao, tais como: presenca de ruıdo,
compressoes e limitacoes de frequencia de canais telefonicos. Isso requer tanto
analises considerando tentativas de reducao do ruıdo, como experimentos em
situacoes combinadas (canais diversos e adicao de ruıdo).
Trabalhos futuros envolvem a integracao com o software R, a possibilidade
de interacao com os graficos para navegacao dos trechos do audio indicados atraves
de pontos ou regioes selecionadas, a geracao de relatorios e de registros de eventos
66
(logs) para facilitar o elaboracao de laudos e garantir a reprodutibilidade das etapas
realizadas.
Uma vez que o intuito e facilitar a visualizacao das caracterısticas acusticas de
um dado falante, futuramente pretende-se, alem dos valores de F0, F1 e F2, acrescentar
outras dimensoes para analise e agrupamento. Para tanto poderiam ser incluıdas
medidas como duracao, intensidade, banda de cada formante e sua evolucao no
decorrer da producao de um fonema (ascendencia ou descendencia da curva). Faz-
se necessario ainda, buscar novos ındices de desempenho para o k-means e outras
tecnicas de agrupamento.
Tambem e importante permitir formas de validacao dos resultados, como a
possibilidade de treinamento ou de particionamento de uma amostra de audio para
verificar a coerencia entre os resultados obtidos para cada segmento. O mecanismo
deve propiciar analises de variacoes intra e inter-sujeito, importantıssimas de serem
diferenciadas em exames de CL, permitindo que o perito exclua elementos nao-
servıveis (isto e, que tenham grande variacao intra-sujeito).
Posteriormente tais codigos devem ser migrados para rotinas do software
Praat ou outra linguagem que permita que todos os pacotes programados estejam
em plataforma de software livre. A finalizacao de um ambiente de testes requer
ainda que o examinador possa salvar um projeto com configuracoes realizadas, e
a disponibilizacao de relatorios com as rotinas executadas e parametros utilizados.
67
REFERENCIAS
ADAMI, A. G. Modeling Prosodic Differences for Speaker and LanguageRecognition. Tese (Doutorado) — Oregon Health & Science University, 2004.
ALOTAIBI, Y. A.; HUSSAIN, A. Comparative analysis of arabic vowels using formantsand an automatic speech recognition system. International Journal of SignalProcessing, Image Processing and Pattern Recognition, v. 3, p. 11–22, 2010.
BARBOSA, L. M. J.; REIS, P. M. G. I. Processamento de Sinais em FoneticaForense. Brasılia, DF: Departamento da Polıcia Federal, 2012.
BEKE, A.; HORVARTH, V. Hidden markov model-based approach for nasalized vowelsrecognition in spontaneous speech. In: Proceedings of the 18th InternationalCongress of Phonetic Sciences. Glasgow,UK: ICPhS 2015, 2015.
BISHOP, C. M. Neural Networks for Pattern Recognition. New York: OxfordUniversity Press, 1995.
BOERSMA, P. Accurate short-term analysis of the fundamental frequency and theharmonics-to-noise ratio of a sampled sound. IFA Proceedings, v. 17, 1993.
BOERSMA, P.; WEENINK, D. PRAAT, doing phonetics by computer (Version5.4.08). 2015. Disponıvel em: <http://www.praat.org/>.
BRAID, A. C. M. Fonetica Forense. 2. ed. Campinas, SP: Editora Millenium, 2003.(Tratado de Perıcias Criminalısticas).
BRASIL. Decreto lei no 2.848 (Codigo Penal), de 7 de dezembro de 1940. DiarioOficial da Republica Federativa do Brasil, Rio de Janeiro, RJ, 1940.
BRASIL. Decreto lei no 3.689 (Codigo de Processo Penal), de 3 de outubro de 1941.Diario Oficial da Republica Federativa do Brasil, Rio de Janeiro, RJ, 1941.
BRASIL. Lei no 9.296 (Lei das Interceptacoes Telefonicas), de 24 de julho de 1996.Diario Oficial da Republica Federativa do Brasil, Brasılia, DF, 1996.
68
BRASIL. Lei no 11.690 (Alteracoes do Codigo de Processo Penal relativos a prova),de 9 de junho de 2008. Diario Oficial da Republica Federativa do Brasil, Brasılia,DF, 2008.
CAMPBELL JR, J. Speaker recognition: A tutorial. Proceedings of the IEEE, v. 85,n. 9, p. 1437–1462, 1997.
CNJ. Resolucao no 59, de 9 de setembro de 2008. Conselho Nacional de Justica,Brasılia, DF, 2008.
CNJ. Resolucao no 84, de 6 de julho de 2009. Conselho Nacional de Justica,Brasılia, DF, 2009.
COLLOMB, C. Burg’s Method, Algorithm and Recursion. 2009. Disponıvel em:<http://ccollomb.free.fr/>.
CRISTOFARO-SILVA, T. Dicionario de Fonetica e Fonologia. Sao Paulo, SP: EditoraContexto, 2011.
CRISTOFARO-SILVA, T.; YEHIA, H. C. Sonoridade em Artes, Saude eTecnologia. Belo Horizonte, MG, 2009. Acesso em: 20 ago. 2015. Disponıvel em:<http://fonologia.org>.
DEEKSHITHA, G.; LEENA, M. Broad phoneme classification using signal basedfeatures. International Journal on Soft Computing, v. 5, 2014.
DELLER, J. R.; HANSEN, J. H. L.; PROAKIS, J. G. Discrete-Time Processing ofSpeech Signals. Piscataway, NJ: Wiley-IEEE Press, 2000.
DRESCH, A. A. G.; VIERA NETO, H.; LAZZARETTI, A. E.; FARIA, R. A. Metodo paraanalise acustica e reconhecimento de vogais em exames de comparacao de locutores.In: Proceedings of the Ninth International Conference on Forensic ComputerScience. Brasılia, DF: ICoFCS, 2015.
DRYGAJLO, A. Automatic speaker recognition for forensic case assessment andinterpretation. In: Law Enforcement and Counter-Terrorism. New York: Springer,2012. cap. 2, p. 21–39.
69
ENASP. Relatorio Nacional da Execucao da Meta 2: um diagnostico dainvestigacao de homicıdios no paıs. Brasılia, DF, 2012.
ENGELBERT, A. P. P. F. Fonetica e Fonologia da Lıngua Portuguesa. Curitiba:IBPEX, 2011.
ESCUDERO, P.; BOERSMA, P.; RAUBER, A. S.; BION, R. A. H. A cross-dialectacoustic description of vowels: Brazilian and European Portuguese. Journal of theAcoustical Society of America, v. 126, p. 1379–1393, 2009.
ETSI. 3GPP TS 26.071, Mandatory speech codec speech processing functions;AMR speech codec; General description. 1999–2014. Disponıvel em:<http://www.3gpp.org/ftp/Specs/html-info/26071.htm>.
ETSI. 3GPP TS 26.090, Mandatory speech codec speech processing functions;AMR speech codec; Transcoding functions. 1999–2014. Disponıvel em:<http://www.3gpp.org/ftp/Specs/html-info/26090.htm>.
FANT, G. Acoustic Theory of Speech Production. The Hague: Mouton, 1960.
FED-STD-1037C. Telecommunications: Glossary of Telecommunications Terms.1996.
FFMPEG. (FFMPEG version N-74286-ge5774f2). 2015. Acesso em: 17 ago. 2015.Disponıvel em: <https://www.ffmpeg.org/>.
FURUI, S. 50 years of progress in speech and speaker recognition research. ECTITransactions on computer and Information technology, v. 1, p. 64–74, 2005.
GOLD, E.; FRENCH, P. International practices in forensic speaker comparison. TheInternational Journal of Speech, Language and the Law, v. 18, p. 293–307, 2011.
GOMES, M. L. C. An acoustic description of vowels Brazilian Portuguese in normaland disguised voice. In: IAFPA 2013 Annual Conference. Tampa, FL: IAFPA, 2013.
GOMES, M. L. C.; CARNEIRO, D. O. A fonetica no Brasil: cenarios e atores. Languageand Law / Linguagem e Direito, v. 1.1, p. 22–36, 2014.
70
GOMES, M. L. C.; RICHERT, L.; MALAKOSKI, J. Identificacao de locutor na areaforense: a importancia da pesquisa interdisciplinar. In: Anais do X Encontro doCELSUL. Cascavel, PR: CELSUL, 2012.
GONCALVES, C. S.; BRESCANCINI, C. R. Consideracoes sobre o papel dasociofonetica na comparacao forense de locutores. Language and Law / Linguageme Direito, v. 1.2, p. 67–87, 2014.
GONCALVES, C. S.; PETRY, T. Comparacao forense de locutor no ambito da perıciaoficial dos estados. In: REHDER, M. I. B. C.; CAZUMBA, L. A. F.; CAZUMBA, M. (Ed.).Identificacao de Falantes: uma introducao a fonoaudiologia forense. Sao Paulo,SP: Revinter, 2015. cap. 15.
GOPI, E. S. Digital Speech Processing Using Matlab. New Delhi: Springer, 2014.
GRECO, L. G. Perıcias em registros audiovisuais em fonetica forense. In: VELHO,J. A.; GEISER, G. C.; ESPINDULA, A. (Ed.). Ciencias Forenses: uma introducao asprincipais areas da criminalıstica moderna. 2. ed. Campinas, SP: Editora Millenium,2013. cap. 18, p. 359–369.
HERACLEOUS, P.; ABOUTABIT, N.; BEAUTEMPS, D. Hmm-based vowel andconsonant automatic recognition in cued speech for french. VECIMS99, 2009.
HOLMES, J.; HOLMES, W. Speech Synthesis and Recognition. New York, NY:Taylor & Francis, 2001.
IPA. The International Phonetic Alphabet. 2005. Acesso em: 20 ago. 2015.Disponıvel em: <https://www.internationalphoneticassociation.org/>.
ITU-T. G.711: Pulse code modulation (PCM) of voice frequencies. 1988.
KENT, R. D.; READ, C. Acoustic Analysis of Speech. 2nd. ed. Clifton Park, NY:Delmar Cengage Learning, 2002.
KINNUNEN, T.; LI, H. An overview of text-independent speaker recognition: fromfeatures to supervectors. Speech Communication, v. 52, p. 12–40, 2010.
LADEFOGED, P.; JOHNSON, K. A Course in Phonetics. 6th. ed. Boston, MA:Wadsworth, 2010.
71
MCLOUGHLIN, I. Applied Speech and Audio Processing. Cambridge, UK:Cambridge University Press, 2009.
MIQUILUSSI, P. A.; KOSLOVSKI, M. E.; CARNEIRO, D. O. Fonoaudiologia:Contribuicoes nos estudos forenses de comparacao de locutores. Language and Law/ Linguagem e Direito, v. 1.2, p. 88–99, 2014.
MORISSON, A. L. C. Verificacao de locutor: a identificacao humana pela voz. RevistaPerıcia Federal, n. 16, 2003.
MORISSON, A. L. C.; RIBEIRO, J. F.; SAMPAIO, J. F. Exames periciais em foneticaforense. In: TOCCHETTO, D.; ESPINDULA, A. (Ed.). Criminalıstica: Procedimentose Metodologias. 2. ed. Porto Alegre, RS: [s.n.], 2009. cap. XII, p. 275–306.
MORRISON, G. S.; SAHITO, F. H.; JARDINE, G.; DJOKIC, D.; CLAVET, S.; BERGHS,S.; GOEMANS, D. C. Interpol survey of the use of speaker identification by lawenforcement agencies. Poster. 2015. Disponıvel em: <http://geoff-morrison.net/>.
PRADHAN, G.; PRASANNA, S. R. M. Speaker verification by vowel and nonvowel likesegmentation. IEEE Transactions on Audio Speech and Language Processing,v. 21, p. 854–867, 2013.
RABINER, L. R.; SCHAFER, R. W. Theory and Applications of Digital SpeechProcessing. Uppler Saddle River, NJ: Pearson, 2011.
RASO, T.; MELLO, H. C-ORAL BRASIL I - Corpus de Referencia do PortuguesBrasileiro Falado Informal. Belo Horizonte, MG: Editora UFMG, 2012.
REYNOLDS, D. A. An overview of automatic speaker recognition technology. In:Procedings of the IEEE International Conference in Acoustics, Speech andSignal Process. Orlando: ICASSSP, 2002.
RUSSO, I.; BEHLAU, M. Percepcao da Fala: Analise Acustica do PortuguesBrasileiro. Sao Paulo, SP: Editora Lovise, 1993.
SCHRAMM, M. C.; FREITAS, L. F. R.; ZANUZ, A.; BARONE, D. A Brazilian Portugueselanguage corpus development. In: International Conference on Spoken LanguageProcessing 2000. Beijing: ISCA, 2000.
72
SENASP. Diagnostico da Perıcia Criminal no Brasil. Brasılia, DF, 2012.
SHIMAMURA, T.; KOBAYASHI, H. Weighted autocorrelation for pitch extraction of noisyspeech. IEEE Transactions on Speech and Audio Processing, v. 9, p. 727–730,2001.
SOX. SoX - Sound Exchange, the Swiss Army knife of sound processingprograms (SoX v14.4.2). 2015. Acesso em: 17 ago. 2015. Disponıvel em:<http://sox.sourceforge.net/>.
VARGAS, J. D.; BLAVATSKY, I.; RIBEIRO, L. M. L. Metodologia de Tratamento doTempo e da Morosidade Processual na Justica Criminal. Brasılia, DF, 2006.
VRUBEL, A.; BRONDANI, A.; SILVA, M.; GROCHOCKI, L. Modelo matematico paraa gestao de recursos humanos baseados em controles estatısticos de demanda eprodutividade. In: Anais do VI Congresso CONSAD de Gestao Publica. Brasılia,DF: CONSAD, 2013.
73
APENDICE A - CODIGO DOS PROGRAMAS GERADOS NO PRAAT
A.1 ROTINA PARA CALCULO E GERACAO DE TABELAS COM VALORES DE STE,ZCR, F0 E TRILHAS DE F1,2,3 E BW1,2,3
1 # Rotina para gerar tabelas com valores de F0, STE, ZCR, formantes
2 # e bandas (F1 ate F5 se disponivel), sendo 3 trilhas de formantes
3 # para as referencias especificadas.
4 # Rodados para arquivos presentes no diretorio selecionado (*.wav ou ...
*.mp3)
5
6 select all
7 if numberOfSelected () > 0
8 Remove
9 endif
10
11 #Formulario para entrada conferencia dos parametros
12 form Parametros para Calculo de F0 e de Formantes
13 integer F0_Time_Step_(s) 0 (=auto)
14 positive F0_Floor_(Hz) 40
15 positive F0_Ceil_(Hz) 600
16 positive F0_Max_Candidates 15
17 optionmenu F0_Window: 2
18 option Hanning
19 option Gaussian
20 integer Formant_Time_Step_(s) 0 (=auto)
21 positive Formant_Max_candidates 5
22 positive Formant_Max_(Hz) 5500 (= mulher adulta)
23 positive Formant_WindowLength_(ms) 25
24 positive Formant_PreEmphasis_(Hz) 50
25 positive Formant_Track_Number 5
26 boolean Sinal_original 1
27 boolean Canal_telefonico 1 #2
28 boolean Codec_mp3 1 #3,4
29 boolean Codec_amrnb 1 #5,6
30 boolean Codec_gsm 1 #7
31 boolean Ruido_branco 1 #8,9
32 boolean Ruido_pink 1 #10,11
74
33 boolean Ruido_marrom 1 #12,13
34 endform
35
36 f1_ref1 = 550
37 f1_ref2 = 320 #(= anterior alta)
38 f1_ref3= 420 #(= posterior alta)
39 f2_ref1= 1650
40 f2_ref2 =2200 #(= anterior alta)
41 f2_ref3= 850 #(= posterior alta)
42 f3_ref= 2750
43 f4_ref = 3850
44 f5_ref = 4950
45 formant_BW_cost = 1
46 formant_Frequency_cost = 1
47 formant_Transition_cost = 1
48 f0_Silence_threshold = 0.03
49 f0_Voice_threshold = 0.45
50 f0_Octave_Cost = 0.01
51 f0_Octave_Jump_Cost = 0.35
52 f0_VUV_Cost = 0.14
53
54 dir$ = "C:\Andrea\PROJETO\_AMOSTRAS\teste"
55 Create Strings as file list: "fileList", "'dir$'\*.wav"
56 nS = Get number of strings
57 hora1$ = mid$(date$(),rindex(date$(), ":")-5,8)
58 nl$ = newline$
59
60 for j from 1 to nS
61 selectObject: "Strings fileList"
62 file$ = Get string: j
63 name$ = file$ - ".wav"
64 if rindex(name$,"_") > 1
65 name$ = left$(name$, rindex(name$,"_")-1)
66 endif
67 name$ = name$ - "_orig"
68 #Etapa de pre-processamento
69 Read from file: "'dir$'\'file$'"
70 Convert to mono
71 Resample: 8000, 50
72 Subtract mean
73 Scale peak... 0.99
74 Rename... 'name$'
75 Save as WAV file... 'dir$'\'name$'.wav
75
76 select all
77 minusObject: "Strings fileList"
78 Remove
79 file$ = name$ + ".wav"
80 log$ = "'dir$'\log_'name$'.txt"
81 data$ = mid$(date$(),5,7) + right$(date$(), 4)
82 f0_ts = (0.75/ f0_Floor) * 1000
83 f_ts = 0.25 * formant_WindowLength
84 fileappend 'log$' 'data$''nl$' 'dir$' 'nl$'Versao do Praat: ...
'praatVersion' 'nl$' Arquivo: 'file$' 'nl$'Parametros: 'nl$'F0: ...
'f0_Floor' a 'f0_Ceil' (Hz); Time Step = 'f0_ts' ms ...
'nl$'Formantes: max = 'formant_Max' Hz; Window Length = ...
'formant_WindowLength' ms; Time Step = 'f_ts' ms; Pre Emphasis ...
= 'formant_PreEmphasis' Hz 'nl$'
85 for m to 13
86 gTab = 0
87 cmd1$ = ""
88 cmd2$ = ""
89 cmd3$ = ""
90 msg$ = ""
91 if m == 1 && sinal_original == 1
92 n2$ = name$
93 file$ = n2$ + ".wav"
94 msg$ = "pre processado ..."
95 cmd1$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
96 gTab = 1
97 elsif m == 2 && canal_telefonico == 1
98 n2$ = name$ + "_ctel"
99 file$ = n2$ + ".wav"
100 msg$ = "(FPF 300-3400, A-law, 8000Hz)..."
101 cmd1$ = "sox 'dir$'\'name$'.wav -e a-law -r 8000 'dir$'\'n2$'.wav
102 ... bandpass 300 3400 >> 'dir$'\logsox.txt"
103 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
104 gTab = 1
105 elsif m == 3 && codec_mp3 == 1
106 n2$ = name$ + "_cmp1"
107 file$ = n2$ + ".mp3"
108 msg$ = "(MP3, 24 kbps, 8000Hz)..."
109 cmd1$ = "sox 'dir$'\'name$'.wav -r 8k -C 24 'dir$'\'n2$'.mp3 ...
>> 'dir$'\logsox.txt"
110 cmd2$ = "sox --i 'dir$'\'n2$'.mp3 >> 'dir$'\logsox.txt"
111 gTab = 1
112 elsif m == 4 && codec_mp3 == 1
76
113 n2$ = name$ + "_cmp2"
114 file$ = n2$ + ".mp3"
115 msg$ = "(MP3, 48 kbps, 8000Hz)..."
116 cmd1$ = "sox 'dir$'\'name$'.wav -r 8k -C 48 'dir$'\'n2$'.mp3 ...
>> 'dir$'\logsox.txt"
117 cmd2$ = "sox --i 'dir$'\'n2$'.mp3 >> 'dir$'\logsox.txt"
118 gTab = 1
119 elsif m == 5 && codec_amrnb == 1
120 n2$ = name$ + "_codec_cam1"
121 file$ = n2$ + ".wav"
122 msg$ = "(formato Amr-nb, 4.75kbps, 8000Hz)... "
123 cmd1$ = "ffmpeg -i 'dir$'\'name$'.wav -acodec ...
libopencore_amrnb -ac 1 -ar 8k -ab 4750 'dir$'\'n2$'.amr ...
2>> 'dir$'\logffmpeg.txt"
124 cmd2$ = "ffmpeg -i 'dir$'\'n2$'.amr 'dir$'\'n2$'.wav 2>> ...
'dir$'\logffmpeg.txt"
125 gTab = 1
126 elsif m == 6 && codec_amrnb == 1
127 n2$ = name$ + "_codec_cam2"
128 file$ = n2$ + ".wav"
129 msg$ = "(formato Amr-nb, 12.2kbps, 8000Hz)..."
130 cmd1$ = "ffmpeg -i 'dir$'\'name$'.wav -acodec ...
libopencore_amrnb -ac 1 -ar 8k -ab 12200 'dir$'\'n2$'.amr ...
2>> 'dir$'\logffmpeg.txt"
131 cmd2$ = "ffmpeg -i 'dir$'\'n2$'.amr 'dir$'\'n2$'.wav 2>> ...
'dir$'\logffmpeg.txt"
132 gTab = 1
133 elsif m == 7 && codec_gsm == 1
134 n2$ = name$ + "_codec_cgsm"
135 file$ = n2$ + ".wav"
136 msg$ = "(formato Gsm)..."
137 cmd1$ = "sox 'dir$'\'name$'.wav -r 8000 'dir$'\'n2$'.gsm >> ...
'dir$'\logsox.txt"
138 cmd2$ = "sox 'dir$'\'n2$'.gsm -e unsigned-integer ...
'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
139 cmd3$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
140 gTab = 1
141 elsif m == 8 && ruido_branco == 1
142 n2$ = name$ + "_nw02"
143 file$ = n2$ + ".wav"
144 msg$ = "(Ruido branco, 20%)..."
145 cmd1$ = "sox 'dir$'\'name$'.wav -p synth whitenoise vol 0.2 | ...
sox --norm=-6 -m 'dir$'\'name$'.wav - -r 8000 ...
77
'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
146 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
147 gTab = 1
148 elsif m == 9 && ruido_branco == 1
149 n2$ = name$ + "_nw04"
150 file$ = n2$ + ".wav"
151 msg$ = "(Ruido branco, 40%)..."
152 cmd1$ = "sox 'dir$'\'name$'.wav -p synth whitenoise vol 0.4 | ...
sox --norm=-6 -m 'dir$'\'name$'.wav - -r 8000 ...
'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
153 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
154 gTab = 1
155 elsif m == 10 && ruido_pink == 1
156 n2$ = name$ + "_np02"
157 file$ = n2$ + ".wav"
158 msg$ = "(Ruido pink, 20%)..."
159 cmd1$ = "sox 'dir$'\'name$'.wav -p synth pinknoise vol 0.2 | ...
sox --norm=-6 -m 'dir$'\'name$'.wav - -r 8000 ...
'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
160 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
161 gTab = 1
162 elsif m == 11 && ruido_pink == 1
163 n2$ = name$ + "_np04"
164 file$ = n2$ + ".wav"
165 msg$ = "(Ruido pink, 40%)..."
166 cmd1$ = "sox 'dir$'\'name$'.wav -p synth pinknoise vol 0.4 | ...
sox --norm=-6 -m 'dir$'\'name$'.wav - -r 8000 ...
'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
167 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
168 gTab = 1
169 elsif m == 12 && ruido_marrom == 1
170 n2$ = name$ + "_nb02"
171 file$ = n2$ + ".wav"
172 msg$ = "(Ruido marrom, 20%)..."
173 cmd1$ = "sox 'dir$'\'name$'.wav -p synth brownnoise vol 0.2 | ...
sox --norm=-6 -m 'dir$'\'name$'.wav - -r 8000 ...
'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
174 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
175 gTab = 1
176 elsif m == 13 && ruido_marrom == 1
177 n2$ = name$ + "_nb04"
178 file$ = n2$ + ".wav"
179 msg$ = "(Ruido marrom, 40%)..."
78
180 cmd1$ = "sox 'dir$'\'name$'.wav -p synth brownnoise vol 0.4 | ...
sox --norm=-6 -m 'dir$'\'name$'.wav - -r 8000 ...
'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
181 cmd2$ = "sox --i 'dir$'\'n2$'.wav >> 'dir$'\logsox.txt"
182 gTab = 1
183 endif
184
185 if gTab == 1
186 gTab = 0
187 fileappend 'log$' 'nl$' ...
******************************************************* 'nl$'
188 hora$ = mid$(date$(),rindex(date$(), ":")-5,8)
189 fileappend 'log$' 'nl$' Hora inicio: 'hora$' 'nl$' ...
'nl$'Convertendo arquivo original para 'n2$' 'msg$' 'nl$'
190 if cmd1$ <> ""
191 fileappend 'log$' 'nl$' 'cmd1$''nl$'
192 runSystem: cmd1$
193 endif
194 if cmd2$ <> ""
195 fileappend 'log$' 'nl$' 'cmd2$''nl$'
196 runSystem: cmd2$
197 endif
198 if cmd3$ <> ""
199 fileappend 'log$' 'nl$' 'cmd3$''nl$'
200 runSystem: cmd3$
201 endif
202 fileappend 'log$' 'nl$'Gerando tabelas para 'n2$'...
203 call measures 'dir$' 'file$' 'n2$' 'log$' f0_Time_Step f0_Floor
204 ... f0_Max_Candidates f0_Window f0_Silence_threshold
205 ... f0_Voice_threshold f0_Octave_Cost f0_Octave_Jump_Cost
206 ... f0_VUV_Cost f0_Ceil formant_Time_Step
207 ... formant_Max_candidates formant_Max formant_WindowLength
208 ... formant_PreEmphasis formant_Track_Number f1_ref1 f2_ref1
209 ... f3_ref f4_ref f5_ref f1_ref2 f2_ref2 f1_ref3 f2_ref3
210 ... formant_BW_cost formant_Frequency_cost ...
formant_Transition_cost
211 hora$ = mid$(date$(),rindex(date$(), ":")-5,8)
212 fileappend 'log$' 'nl$' Hora final: 'hora$'
213 fileappend 'log$' 'nl$' ...
******************************************************* 'nl$'
214 endif
215 endfor
216 select all
79
217 minusObject: "Strings fileList"
218 if numberOfSelected () > 0
219 Remove
220 endif
221 endfor
222 select all
223 Remove
224 writeInfoLine: "Fim! Processados 'nS' arquivos entre 'hora1$' e 'hora$'"
225
226 procedure measures dir$ file$ n2$ log$ f0_Time_Step
227 ... f0_Floor f0_Max_Candidates f0_Window f0_Silence_threshold
228 ... f0_Voice_threshold f0_Octave_Cost f0_Octave_Jump_Cost
229 ... f0_VUV_Cost f0_Ceil formant_Time_Step formant_Max_candidates
230 ... formant_Max formant_WindowLength formant_PreEmphasis
231 ... formant_Track_Number f1_ref1 f2_ref1 f3_ref f4_ref f5_ref
232 ... f1_ref2 f2_ref2 f1_ref3 f2_ref3
233 ... formant_BW_cost formant_Frequency_cost formant_Transition_cost
234 Read from file: "'dir$'\'file$'"
235 selectObject: "Sound 'n2$'"
236 Rename: "Sound"
237 fileappend 'log$' 'nl$' Tabela de F0...
238 call measureF0 'log$' 'dir$' 'n2$' f0_Time_Step f0_Floor
239 ... f0_Max_Candidates f0_Window f0_Silence_threshold
240 ... f0_Voice_threshold f0_Octave_Cost f0_Octave_Jump_Cost
241 ... f0_VUV_Cost f0_Ceil
242 if measureF0.a > 0
243 fileappend 'log$' 'nl$' Tabela de ZCR (zero crossing rate)...
244 call measureZCR 'dir$' 'n2$'
245 fileappend 'log$' 'nl$' Tabela de Formantes...
246 call measureFormant 'log$' 'dir$' 'n2$'
247 ... formant_Time_Step formant_Max_candidates formant_Max
248 ... (formant_WindowLength/1000) formant_PreEmphasis
249 selectObject: "Formant Formant"
250 f_nTracks = Get minimum number of formants
251 if f_nTracks > 0
252 fileappend 'log$' 'nl$' Trilha 1 (550 1650 2750 3850 4950)...
253 call measureFormantTrack "1" 'log$' 'dir$' 'n2$'
254 ... formant_Track_Number f1_ref1 f2_ref1 f3_ref f4_ref f5_ref
255 ... formant_BW_cost formant_Frequency_cost ...
formant_Transition_cost
256 fileappend 'log$' 'nl$' Trilha 2 (320 850 2750 3850 4950)...
257 call measureFormantTrack "2" 'log$' 'dir$' 'n2$'
258 ... formant_Track_Number f1_ref2 f2_ref2 f3_ref f4_ref f5_ref
80
259 ... formant_BW_cost formant_Frequency_cost ...
formant_Transition_cost
260 fileappend 'log$' 'nl$' Trilha 3 (420 2200 2750 3850 4950)...
261 call measureFormantTrack "3" 'log$' 'dir$' 'n2$'
262 ... formant_Track_Number f1_ref3 f2_ref3 f3_ref f4_ref f5_ref
263 ... formant_BW_cost formant_Frequency_cost ...
formant_Transition_cost
264 for x to 3
265 selectObject: "Table Formant"
266 for y to 3
267 colunas = Get number of columns
268 Insert column... (colunas+1) Tr'x'_F'y'
269 Insert column... (colunas+2) Tr'x'_BW'y'
270 coluna = y*2-1
271 coluna2 = y*2
272 Formula... Tr'x'_F'y' Table_FormantTrack'x'[row,'coluna']
273 Formula... Tr'x'_BW'y' Table_FormantTrack'x'[row,'coluna2']
274 endfor
275 selectObject: "Table FormantTrack'x'"
276 Remove
277 endfor
278 endif
279 selectObject: "Formant Formant"
280 Remove
281 selectObject: "Table Formant"
282 Insert column... 4 zcr
283 Formula... zcr Table_zcr[row,1]
284 nC = Get number of columns
285 for i from 6 to nC
286 label$ = Get column label... i
287 Formula... 'label$' if self=undefined then 0 else self endif
288 endfor
289 Save as tab-separated file: "'dir$'\'n2$'_PraatForm"
290 plusObject: "Table zcr"
291 Remove
292 else
293 fileappend 'log$' 'nl$' Nao foi possivel gerar tabelas de F0 e ...
de Formantes para essa opcao!
294 endif
295 selectObject: "Sound Sound"
296 Remove
297 endproc
298
81
299 procedure measureF0 l$ d$ n$ f0_ts f0_f f0_mx f0_w f0_s_th f0_v_th ...
f0_oc_c f0_oj_c f0_vuv_c f0_c
300 fo_accur$ = "yes"
301 if f0_w = 1
302 f0_accur$ = "no"
303 endif
304 To Pitch (ac): f0_ts,f0_f, f0_mx, fo_accur$,
305 ... f0_s_th, f0_v_th, f0_oc_c, f0_oj_c, f0_vuv_c, f0_c
306 Rename: "F0_Tier"
307 Down to PitchTier
308 .a = Get number of points
309 if .a > 0
310 Down to TableOfReal: "Hertz"
311 To Table: "rowLabel"
312 Remove column: "rowLabel"
313 Save as tab-separated file: "'d$'\'n$'_PraatF0"
314 selectObject: "TableOfReal F0_Tier"
315 plusObject: "Table F0_Tier"
316 Remove
317 endif
318 selectObject: "PitchTier F0_Tier"
319 plusObject: "Pitch F0_Tier"
320 Remove
321 endproc
322
323 procedure measureFormant l$ d$ n$ f_ts f_max_cand f_max f_wl f_pre
324 selectObject: "Sound Sound"
325 To Formant (burg): f_ts, f_max_cand, f_max, f_wl, f_pre
326 Rename: "Formant"
327 Down to Table: "yes", "yes",8, "yes",3, "yes",3,"yes"
328 endproc
329
330 procedure measureFormantTrack i$ l$ d$ n$ f_nTr f1_ref f2_ref f3_ref ...
f4_ref f5_ref bw_cost fr_cost ft_tr_cost
331 selectObject: "Formant Formant"
332 f_nTr1 = Get minimum number of formants
333 if f_nTr1 > f_nTr
334 f_nTr1 = f_nTr
335 endif
336 Track: f_nTr1,f1_ref, f2_ref, f3_ref, f4_ref, f5_ref, bw_cost, ...
fr_cost, ft_tr_cost
337 Rename: "FormantTrack'i$'"
338 Down to Table: "no", "no",8, "no",3, "no",3,"yes"
82
339 selectObject: "Formant FormantTrack'i$'"
340 Remove
341 endproc
342
343 procedure measureZCR d$ n$
344 selectObject: "Sound Sound"
345 fs = Get sampling frequency
346 w = 25/1000
347 nCol = Get number of samples
348 # multiplicando por 4 para ter overlap de 75%
349 nFrames = round (nCol*4/(fs*w))
350 Create Table with column names: "zcr", nFrames, "zc"
351 for k to nFrames
352 ini = ((k-1)*w/4)
353 fim = ini+w
354 selectObject: "Sound Sound"
355 Extract part: ini, fim, "Gaussian1", 1, "yes"
356 Rename... part
357 Down to Matrix
358 # valor 1 nas amostras em que houve passagem por zero
359 Formula: "if self ≥0 then 1 else -1 endif"
360 #diff do resultado
361 Formula: "round(abs(self [row, col] - self [row, col+1])/2)"
362 x = Get sum
363 plusObject: "Sound part"
364 Remove
365 selectObject: "Table zcr"
366 Set numeric value... k "zc" x
367 endfor
368 endproc
A.2 ROTINA PARA CRIACAO DE TEXTGRIDS COM VALORES DE TRECHOS
1 #praat_table to textgrid versao 25/10/2015
2 #carrega os arquivos de audio e tabelas com resultados de F0, F1 e f2
3 # (gerada no Matlab) e salva TextGrids com delimitacoes das regioes
4 # vocalicas encontradas. Em seguida gera graficos LTAS, comparando as
5 # regioes vocalicas e nao vocalicas com a duracao total do audio.
6 # Graficos gerados em tabelas 4x3, para cada grupo e tipo de degradacao.
7
8 grupo$[1] = "UTFPR_GC"
83
9 grupo$[2] = "UTFPR_GG"
10 grupo$[3] = "UTFPR_GH"
11 grupo$[4] = "UTFPR_GM"
12 grupo$[5] = "UTFPR_GR"
13 grupo$[6] = "SPOLTECH_H"
14 grupo$[7] = "SPOLTECH_M"
15 grupo$[8] = "CORAL_H"
16 grupo$[9] = "CORAL_M"
17 dirn$ = "C:\Andrea\MESTRADO\_AMOSTRAS\"
18 deg$ = "ream"
19 dBinf = -20
20 for g from 1 to 7
21 x$ = grupo$[g]
22 Create Strings as file list: "'x$'_fileList", ...
"'dirn$'TABELAS_2\'x$'\*'deg$'.Table"
23 nString = Get number of strings
24 Erase all
25 Solid line
26 for nS from 1 to nString
27 selectObject: "Strings 'x$'_fileList"
28 name$ = Get string: nS
29 name$ = name$ - ".Table"
30 Read from file: "'dirn$'AUDIO\'x$'\'name$'.wav"
31 Read Table from comma-separated file: ...
"'dirn$'TABELAS_2\'x$'\'name$'.Table"
32 select Table 'name$'
33 r = Get number of rows
34 c = Get number of columns
35 select Sound 'name$'
36 To TextGrid: "F0 F1 F2", ""
37 for linha from 1 to r
38 select Table 'name$'
39 start = Get value... linha i
40 stop = Get value... linha f
41 middle = (start + stop)/2
42 for col from 2 to 4
43 select Table 'name$'
44 coluna$ = Get column label... col
45 f$ = Get value... linha 'coluna$'
46 select TextGrid 'name$'
47 Insert boundary... (col-1) start
48 Insert boundary... (col-1) stop
49 n = Get interval at time... (col-1) middle
84
50 Set interval text... (col-1) n 'f$'
51 endfor
52 endfor
53 select TextGrid 'name$'
54 Save as text file: "'dirn$'TABELAS_2\'x$'\'name$'.TextGrid"
55 plusObject: "Sound 'name$'"
56 Extract non-empty intervals: 1, "no"
57 Concatenate
58 Rename: "'name$'_v"
59 selectObject: "Sound 'name$'"
60 plusObject: "TextGrid 'name$'"
61 Extract intervals where: 1, "no", "is equal to", ""
62 Concatenate
63 Rename: "'name$'_nv"
64 select all
65 minusObject: "Strings 'x$'_fileList"
66 minusObject: "Sound 'name$'"
67 minusObject: "Sound 'name$'_v"
68 minusObject: "Sound 'name$'_nv"
69 Remove
70 selectObject: "Sound 'name$'"
71 plusObject: "Sound 'name$'_v"
72 plusObject: "Sound 'name$'_nv"
73 To Ltas: 20
74 x1 = ((nS - 1) mod 3)*4 + 0.5
75 x2 = x1 + 3.2
76 y1 = ((nS - 1) div 3)*3 + 0.5
77 y2 = y1 + 2.2
78 Select inner viewport: x1, x2, y1, y2
79 selectObject: "Ltas 'name$'"
80 Blue
81 Draw: 0, 4000, dBinf, (dBinf + 80), "yes", "Curve"
82 selectObject: "Ltas 'name$'_v"
83 Red
84 Draw: 0, 4000, dBinf, (dBinf + 80), "yes", "Curve"
85 selectObject: "Ltas 'name$'_nv"
86 Green
87 Draw: 0, 4000, dBinf, (dBinf + 80), "yes", "Curve"
88 Marks bottom: 9, "yes", "yes", "no"
89 Marks left: 9, "yes", "yes", "no"
90 Line width: 1.0
91 Font size... 10
92 Draw rectangle: 500, 1150, -11, 0
85
93 Line width: 1
94 Blue
95 Text: 650, "Left", 0, "Top", deg$
96 Draw line: 530, -2.5, 640, -2.5
97 Red
98 Text: 650, "Left", -3, "Top", "'deg$' v"
99 Draw line: 530, -5.5, 640, -5.5
100 Green
101 Text: 650, "Left", -6, "Top", "'deg$' nv"
102 Draw line: 530, -8.5, 640, -8.5
103 Font size... 14
104 Paint rectangle: "white", 800, 3000, -30, -40
105 Paint rectangle: "white", -950, -450, -22, 62
106 Black
107 Text special: -350, "right", 63, "bottom", "Times", 14, "90", ...
"Nivel de pressao sonora (dB/Hz)"
108 Text special: 2000, "centre", dBinf-20, "bottom", "Times", 14, ...
"0", "Frequencia (Hz)"
109 Font size... 14
110 Text: 2500, "Left", 50, "Top", (name$ - "_'deg$'")
111 select all
112 minusObject: "Strings 'x$'_fileList"
113 Remove
114 endfor
115
116 Save as praat picture file: ...
"'dirn$'FIGURAS\IntraFalantes\'x$'\'x$'_'deg$'.prapic"
117 endfor
118 select all
119 Remove
120 Erase all
86
APENDICE B - CODIGO DOS PROGRAMAS GERADOS NO MATLAB
B.1 FUNCAO PRINCIPAL
1 %Projeto para dissertacao de mestrado Versao: 12/10/2015
2 % UTFPR - Universidade Tecnologica Federal do Parana
3 % PPGEB - Programa de Pos-Graduacao em Engenharia Biomedica
4 % Orientador: Hugo Vieira Neto Co-orientador: Rubens Alexandre Faria
5 % Aluna: Andrea Alves Guimaraes Dresch
6 %-----------------------------------------------------------------------
7 clear;clc;c = fix(clock); close all;
8 disp('Projeto Reconhecimento automatico de vogais do PB');
9 tshd = [0.1 0.6 0.15 0.3 0.1 0.2];% STE(>sil) ZCR(<ruido) f0 f1a f1 f2
10 f0_floor = 40; % frequencia minima de medicao de fo
11 deg = ['_orig';'_ream';'_ctel';'_cgsm';'_cmp1';'_cmp2';'_cam1';...
12 '_cam2'; '_np02';'_np04';'_nb02';'_nb04';'_nw02';'_nw04'];
13 Y = true; N = false; trilhas = [Y N Y]; met = [Y Y]; sel= 2:13;
14
15 for rep1 = 3:3; %base 1-ut,2-sp,3;
16 for rep2=1:2;%gen 1-M/outro-H
17 [ref1,ref1a,ref2,lp1,lp2,sd,nm2,base,g]=a_nom(rep1,rep2);
18 %lp1 = 'C'; lp2 = 4; % para teste
19 for j = sel; arq = deg(j,:);
20 for nm = lp1; i=0; % rodando para cada grupo
21 figname = [num2str(c(1)) num2str(c(2),'%02d') ...
num2str(c(3),'%02d') '_' sd nm];
22 if(rel==1);h1= figure('Position',fpos,'Name',figname);end;
23 for nm1 = lp2; % rodando para cada informante
24 i=i+1; dirn = [pwd '\_AMOSTRAS\TABELAS\' sd nm '\'];
25 if base==1; name = [nm2 nm int2str(nm1) arq];
26 else name=[nm2 num2str(nm1,'%02d') lp1 arq]; end
27 sprintf('Importando tabelas geradas do para %s...', name)
28 [TFr2,TFreqAux,TFrTr] = a_tabelas(dirn, name,f0_floor);
29 %Metodo 1:
30 if met(1); [∼,∼,F1F2,F1F2_cent] = a_met1(...
31 [TFrTr(:,[1 3 2 4]) TFr2(:,[6 1 4 ...
])],0.05,0.1,ref1); end
32 %Metodo 2:
87
33 if met(2) %obtendo valores para 5 e 7
34 M = true(size(TFr2,1),1);
35 [TFr2,m1,m2,m3,m3_cl,m3_cent, ...
36 m3_tr,m3_tr_cl,m3_tr_cent] ...
37 = a_met2(M,trilhas,TFr2,TFrTr,tshd,ref1,ref2);
38 [∼,∼,∼,∼,m3_cla,m3_centa,...39 m3_tra,m3_tr_cla,m3_tr_centa] = ...
40 a_met2(M,trilhas,TFr2,TFrTr,tshd,ref1a,ref2);
41 end
42 save([pwd '\_AMOSTRAS\RESULTADOS\' name])
43 end
44 end
45 end
46 end
47 end
1 function [R1,R1a,R2,lp1,lp2,sd,nm2,base,g] = a_nom(base, g)
2 %Funcao para formatacao de nome, de acordo com base e genero selecionado
3 %R1 = [[/i/];[/e/];[/eh/];[/a/];[/oh/];[/o/];[/u/]]; %F1 x F2
4 %R1a = 5pts
5 %R2 = [[0,0];[cons];[/i/];[/eh/];[/a/];[/oh/];[/u/]]; % F2+F1 x F2-F1
6 if base == 1; sd = 'UTFPR_G'; nm2 = 'G'; lp2 = 1:10;
7 if g==1; lp1(1:3)= ['C';'G';'M']; else lp1(1:2)= ['R';'H']; end;
8 elseif base ==2; sd = 'SPOLTECH_'; nm2='BR-000';
9 if g==1; lp1 = 'M'; lp2 = [5 8 10 11 13 14 17 19 20];
10 else lp1 = 'H'; lp2 = [1:4 6:7 9 12 15:16 18]; end;
11 elseif base ==3; sd = 'CORAL_'; nm2 = 'bfammn';
12 if g==1; lp1 ='M'; lp2 = [1 2 4 8]; else lp1='H'; lp2=[3 6]; end;
13 end
14 R1=[[300;400;600;850;650;400;350] [2200;2100;1900;1500;1000;850;900]];
15 R1a=zeros(5,2); R1a(2:4,:) = R1(3:5,:);
16 R1a(1,:)=mean(R1(1:2,:));R1a(5,:)= mean(R1(6:7,:));
17 R2 = [R1(:,2)+R1(:,1) R1(:,2)-R1(:,1)]; R2(3:6,:) = R2([1 3:5],:);
18 if g==1; R2(1:2,:) = [[0 0];[5000 2500]];
19 else R2(1:2,:) = [[0 0];[3000 2500]]; end;
20 end
B.2 FUNCAO PARA FORMATAR TABELAS GERADAS NO PRAAT
1 function [TFr2,TFrAux,TFrTr] = a_tabelas(dirn, name,f0_floor)
2 %Funcao para leitura das tabelas geradas no Praat e formatacao
88
3 % Tabelas do Praat:
4 % Form: obs: jan formante = 25ms, TimeStep = 25% Jan = 6,25ms
5 % 1-frame 2-t(s) 3-int 4-zcr 5-nfmts
6 % 6-F1 7-BW1 8-F2 9-BW2 10-F3 11-BW3 12-F4 13-BW4 14-F5 15-BW5
7 % 16-Tr1_F1 17-Tr1_BW1 18-Tr1_F2 19-Tr1_BW2 20-Tr1_F3 21-Tr1_BW3
8 % 22-Tr2_F1 23-Tr2_BW1 24-Tr2_F2 25-Tr2_BW2 26-Tr2_F3 27-Tr2_BW3
9 % 28-Tr3_F1 29-Tr3_BW1 30-Tr3_F2 31-Tr3_BW2 32-Tr3_F3 33-Tr3_BW3
10 % F0: 1-t(s) 2-F0, obs: JanF0 = 3* TimeStepForm = 28,7ms
11 % Saida:
12 % TFr2: %1-frame 2-t(s) 3-int 4-zcr 5-nfmts 6-F0
13 %7-F1 8-BW1 9-F2 10-BW2 11-F3 12-BW3
14 % TFrAux: %1-F1 2-BW1 3-F2 4-BW2 5-F3 6-BW3 7-F4 8-BW4 9-F5 10-BW5
15 % TFrTr: %1-Tr1_F1 2-Tr1_BW1 3-Tr1_F2 4-Tr1_BW2 5-Tr1_F3 6-Tr1_BW3
16 %7-Tr2_F1 8-Tr2_BW1 9-Tr2_F2 10-Tr2_BW2 11-Tr2_F3 12-Tr2_BW3
17 %13-Tr3_F1 14-Tr3_BW1 15-Tr3_F2 16-Tr3_BW2 17-Tr3_F3 18-Tr3_BW3
18 F0Name = [dirn name '_PraatF0']; F0 = importdata (F0Name);
19 FormName = [dirn name '_PraatForm']; Form = importdata (FormName);
20 %Matrizes com formante (c/ col de F0) e aux com valores de track
21 TFr2 = zeros(size(Form.data,1),12);TFr2(:,1:5)= Form.data(:,1:5);%F1:3
22 TFrAux= zeros(size(Form.data,1),10);TFrAux(:,:)= Form.data(:,6:15);
23 TFrTr = zeros(size(Form.data,1),18);TFrTr(:,:) = Form.data(:,16:33);
24 %Vetor com expansao de F0 para o mesmo n. de frames dos formantes
25 Tp1 = floor(F0.data(:,1)/(0.75/f0_floor)); F0 = F0.data(:,2);
26 TFr2([3*Tp1-2 3*Tp1-1 3*Tp1],6)=[F0; F0; F0];
27 TFr2(:,4) = TFr2(:,4)/ max(TFr2(:,4) ); %Normalizacao de ZCR
28 end
B.3 FUNCOES PARA GERAR NUVEM DE PONTOS F1×F2 - METODO 1
1 function [F,F2,F2_cl2,F2_cent2] = a_met1( F,tshd_f1,tshd_f2,ref1)
2 %Calculo dos cl, conforme metodo descrito em [DRESCH et al,2015]
3 % Entrada:
4 % F: vetor [F1 F2 BW1 BW2 F0 n ZCR]
5 % Saida:
6 % F: pontos F1xF2 apenas para frames em que F0,F1,F2>0
7 % F2: pontos F1xF2 apos cluster inicial, lim. de BW e continuidade
8 % F2_cl2,F2_cent2: pontos F1xF2 apos cluster final, centroides
9 % F2_tr: valores dos trechos apos aplicar filtros
10 % F2_tr_cl2: pontos F1XF2 para trechos apos clusterizacao
11 % F2_tr_cent2: centroides dos trechos
12 sprintf('Gerando vetores de metodo de ref. [DRESCH et al,2015] ... ')
89
13 F(∼(F(:,5)>0&F(:,2)>0&F(:,1)>0),:) = 0; F_cent = a_cent(F(:,[1 2]));
14 LimBW1 = mean(F((F(:,3)>0&F(:,1)>0),3)./F((F(:,1)>0&F(:,1)>0),1));
15 LimBW2 = mean(F((F(:,4)>0&F(:,2)>0),4)./F((F(:,2)>0&F(:,2)>0),2));
16 [F2,∼] = a_cent_kmeans(F,F_cent); F = F(:,1:2);
17 F2((F2(:,3)>(LimBW1.*F2(:,1)))| (F2(:,4)>(LimBW2.*F2(:,2))),1:6)= 0;
18 F2(:,1:2) = (a_met1_ct((F2(:,1:2))',tshd_f1,tshd_f2))';
19 F2(F2(:,1)≤0 | F2(:,2)≤0 | isnan(F2(:,1)) | isnan(F2(:,2)),:) = 0;
20 F2_cent = a_cent(F2(:,[1 2]));
21 [F2_cl2,F2_cent2,∼] = a_cent_kmeans(F2,F2_cent);
22 sprintf('F0 = %d, clustering inicial = %d, k-means = %d', ...
23 numel(F(:,1)>0),size(F2(F2(:,1)>0),1),size(F2_cl2(F2_cl2(:,1)>0),1))
24 sortrows(a_cent_ref(F2_cent2,ref1),3)
25 end
1 function [F2] = a_met1_ct( F,tshd_f1,tshd_f2)
2 %Funcao para continuidade de F1 e F2
3 F2 = zeros(size(F)); F2(:,:) = NaN;
4 for j=2:size(F,2)-2; teste = 0;
5 for i=1:size(F,1)
6 if ∼isnan(F(i,j))7 x=F(i,j); x1=abs(F(i,j)-F(i,j+1)); x2=abs(F(i,j)-F(i,j+2));
8 if x1>tshd_f1*x && x2>tshd_f2*x; teste = 1; end;
9 end
10 end
11 if teste ==0; F2(:,j)= F(:,j); end;
12 end
13 for j=2:size(F,2)-2
14 if isnan(F2(1,j-1)) && (isnan(F2(1,j+1)) || isnan(F2(1,j+2)));
15 F2(:,j)= NaN; end;
16 if size(F2,1)>10 && isnan(F2(2,j-1)) && (isnan(F2(2,j+1)) || ...
isnan(F2(2,j+2)));
17 F2(:,j)= NaN; end
18 end
19 end
1 function [ct] = a_cent (F)
2 %Funcao repete para formante com menos picos, caso o formante com ...
mais picos retorne vetor nulo
3 F = F(:,[1 2]); [ct,a] = a_cent2(F,0);
4 if isempty(ct); if a==1; a=2; else a=1; end; [ct,∼]=a_cent2(F,a); end
5 if isempty(ct); ct = []; end;
6 end
90
1 function [ct,f1] = a_cent2(F,f1)
2 %chama funcao que analisa quantidade de picos em F1 e F2, utiliza o que
3 %tiver maior numero de picos como referencia e procura os picos do outro
4 %numero maximo de ctroide nao ultrapassara 10 (cluster limitado a %10)
5 [f1mx,f1mn] ...
=a_picos(F(F(:,1)>0,1));[f2mx,f2mn]=a_picos(F(F(:,2)>0,2));
6 N = size(F(F(:,1)>0,1,1),1); n=1; ct =zeros(20,2); fmn = [];
7 if (((length(f1mx)>length(f2mx))&&(∼f1)) || ...
((f1==1)&&(∼isempty(f1mx))) || (((f1 ==2) && (∼isempty(f1mx))) ...
&& (isempty(f2mx)))|| ((length(f1mx)==length(f2mx))&& ...
(∼isempty(f1mx))&& (∼f1)))8 if ∼isempty(f1mn); fmn = f1mn; end
9 fmx = f1mx; f1 = 1; f2 = 2;
10 elseif (((length(f2mx)>length(f1mx))&& (f1==0))|| ((f1==2 && ...
11 ∼isempty(f2mx)))||((f1==1&&(∼isempty(f2mx)))&&(isempty(f1mx))))12 if ∼isempty(f2mn); fmn = f2mn; end
13 fmx = f2mx; f1 = 2; f2 = 1;
14 else f1 = 0;
15 end
16 if f1>0
17 fmn = [0,fmn,max(F(:,f1))];
18 for i=1:length(fmn)-1
19 inf = fmn(i); sup = fmn(i+1); clear f2mx2 f2mn2
20 [fmx2,fmn2]= a_picos(F((F(:,f1)>inf)&(F(:,f1)<sup),f2));
21 if size(F(F(:,f1)≥inf & F(:,f1)<sup,f1),f1)>0.15*N && ...
22 ∼isempty(fmx2) &&length(fmx)≥i
23 m = n; m2 = 0; fmn2 = [0,fmn2,max(F(:,f2))];
24 for j=1:length(fmn2)-1
25 inf2 = fmn2(j); sup2 = fmn2(j+1);
26 m1 = size(F(F(:,f1)≥ inf & F(:,f1)<sup & ...
27 F(:,f2)≥ inf2 & F(:,f2)<sup2,f1),f1);
28 if m1> m2; m2 = j; end; %arm. maximo local com mais pts
29 if m1> 0.15*N;ct(n,1)=fmx(i);ct(n,2)=fmx2(j);n=n+1; end
30 end
31 if m==n;ct(n,1)=fmx(i);ct(n,2)=fmx2(m2);n=n+1; end
32 end
33 end
34 end
35 if n ≤1; ct = []; else ct = ct(1:n-1,:); end
36 end
91
1 function [maximos,minimos,u] = a_picos(F)
2 %Para encontrar picos de frequencia
3 %F = vetor de entrada; xi =locais dos picos; u = banda
4 maximos = []; minimos = []; u = [];
5 if ∼isempty(F);6 [f,xi,u]= ksdensity(F);
7 f1 = [0,sign(diff(sign(diff(f/max(f))))),0]; f1 (f<0.01*max(f))=0;
8 maximos = xi(f1==-1); minimos = xi(f1==1);
9 end
10 end
1 function [F1,F_kmeans,y1] = a_cent_kmeans(F,F_cent)
2 %calcula os centros k-means a partir dos valores de inicializacao
3 %calculados pelas distribuicao de F1 e F2
4 if ∼isempty(F_cent)5 y = F(F(:,1)>0&F(:,2)>0,:);tam = size(F_cent,1);
6 [y1,y2] = kmeans(y(:,1:2),tam,'start',F_cent,'emptyaction','drop');
7 d = hist(y1(y1>0),max(y1)); x = find(d<ceil(0.1* (size(y,1))));
8 if ∼isempty(x);for i=1:size(x);y1(y1==x(i))=0;y2(x(i),:)=0;end;end
9 if ∼isempty(y1(y1>0)); F1 = y(y1>0,:);
10 F_kmeans(:,:)= y2(y2(:,1)>0,1:2); y1=y1(y1>0,:);
11 else F1 = []; F_kmeans = [];
12 end
13 else F1 = []; F_kmeans = [];
14 end
15 end
1 function [d] = a_cent_ref(cent, ref)
2 %FuCao que calcula a refereCia mais proxima de cada centro
3 cent = cent(cent(:,1)>0 & cent(:,2)>0,:);
4 C=size(cent,1); R=size(ref,1); b= zeros(R,C);
5 for i=1:C
6 b(:,i)=((cent(i,1)-ref(1:R,1)).ˆ2+(cent(i,2)-ref(1:R,2)).ˆ2).ˆ0.5;
7 end
8 c=zeros(C,2);
9 for i=1:C
10 c(i,2) =find((b==min(min(b)))); c(i,1) = ceil(c(i,2)/R);
11 if mod(c(i,2),R) >0; c(i,2)=mod(c(i,2),R);else c(i,2)=R;end;
12 b(:,c(i,1)) = NaN; b(c(i,2),:) = NaN;
13 end
14 c = sortrows(c); d = zeros(C,3); d(:,1:2) = cent; d(:,3) = c(:,2);
92
15 end
B.4 FUNCOES PARA GERAR NUVEM DE PONTOS F1×F2 - METODO 2
1 function [ TFr2,m1,m2,m3,m3_cl,m3_cent,m3_tr,m3_tr_cl,m3_tr_cent] = ...
a_met2(M,trilhas,TFr2,TFrTr,tshd,ref1,ref2)
2 %Funcao para escolha dos valores de formantes, com base nas trilhas, e
3 % Entrada: M: mascara inicial
4 % TFr2: [fr t(s) int zcr nfmts F0 F1 BW1 F2 BW2 F3 BW3],form. vazios
5 % TFrTr: [tr1[F1 BW1 F2 BW2 F3 BW3] tr2[F1 BW1 F2 BW2 F3 BW3] ...
tr3[F1 BW1 F2 BW2 F3 BW3]]
6 % tshd: limiares para selecao [STE(>sil) ZCR(<ruido) f0 f1a f1 f2]
7 % ref1, ref2: valores de referenca F1xF2 e (F1+F2)x(F1-F2)
8 % Saida:
9 % TFr2: [fr t(s) int zcr nfmts F0 F1 BW1 F2 BW2 F3 BW3],c/ formantes
10 % m1: mascara F1xF2 p/ frames com F0 e ZCR < limiar
11 % m2: mascara F1xF2 p/ frames vizinhos com variacao de F1 < tshd_f1a
12 % m3: mascara F1xF2, apos m1 e m2, elimando frames em que F1|F2 =0,
13 % e tbm pontos agrupados fora do trapezio (possiveis consoantes)
14 % m3_cl,m3_cent: vetores com indicacao de clusters e centros
15 % m3_tr,m3_tr_cl,m3_tr_cent: trechos, indicando clusters e centros
16 sprintf('Gerando vetores para metodo otimizado ... ')
17 m1=false(size(TFr2,1),1);m1(TFr2(:,6)>0&TFr2(:,4)<tshd(2))=1;
18 m1(∼M)=0;19 %Trilhas para selecao de valores de F1 x F2:
20 [TFr2(:,7:12) ,m2] = a_met2_trilhas(trilhas,m1, TFrTr(: ,1:6), ...
TFrTr(: ,7:12), TFrTr(: ,13:18), ...
TFr2(:,6),tshd(4),tshd(5),tshd(6));
21 %Metodo com eliminacao inicial de alta frequencia por (F1+F2)x(F1-F2):
22 m4 = false(size(TFr2,1),1); m4 (TFr2(:,7)>0 & TFr2(:,9)>0) = 1;
23 aux_m3 = [TFr2(:,9)+TFr2(:,7) TFr2(:,9)-TFr2(:,7)]; aux_m3(∼m4,:)=0;24 aux_m3_cl = ...
kmeans(aux_m3,size(ref2,1),'start',ref2,'emptyaction','drop');
25 m3 = false(size(TFr2,1),1); m3 (aux_m3_cl>2)= 1; % eliminados ...
centros 1 e 2 (0,0) e (5000, 1800)
26 m3(∼a_met2_ct(TFr2(:,7),a_met2_ct(TFr2(:,9),m3,1),1)) = 0;
27 m3_tr = a_trechos(m3,(TFr2(:,[7 9 8 10 6 1 4 ])));
28 m3_cent = []; m3_cl=[]; m3_tr_cent = [];m3_tr_cl=[];
29 if sum(m3)>size(ref1,1); [m3_cl,m3_cent] = kmeans((TFr2(m3>0,[7 ...
9])), size(ref1,1),'start',ref1,'emptyaction','drop'); end;
30 if size(m3_tr,2)≥ 5
93
31 if size(m3_tr(m3_tr(:,5)>0,5),1)> size(ref1,1);
32 [m3_tr_cl,m3_tr_cent] = kmeans(m3_tr(:,[5 9]), ...
size(ref1,1),'start',ref1,'emptyaction','drop');
33 end;
34 end
35 if isempty(m3_cent); m3_cent = NaN(size(ref1)); end;
36 if isempty(m3_tr_cent); m3_tr_cent = NaN(size(ref1)); end;
37 sprintf('Metodo otimizado: F0 e zcr = %d, clustering = %d, final = ...
%d', sum(m1), sum(m2), sum(m3))
38 [m3_cent m3_tr_cent ref1]
39 end
1 function [Cmask] = a_met2_ct(F,mask,tshd)
2 % F = formante a ser ajustado
3 % mask = pontos a serem considerados
4 % tshd = % em relacao aos pontos vizinhos para ser considerado continuo
5 % Cmask = masc. para valores validos, com menos 3 ptos consecutivos
6 F(mask==0,:)=0; F=F(:,1);y=zeros(size(F)); %considerar apenas a 1a ...
col.
7 Cmask = zeros (size(F)); %Cmask = zeros(size(mask,1)); % 13/10/15
8 if ∼isempty(F)9 Fa = [F(1);F(1:end-1)]; Fp = [F(2:end);F(end)];
10 y(F>0&((Fa==0|abs(F-Fa)<tshd*F) & (Fp==0|abs(F-Fp)<tshd*F)))=1;
11 ya1 = [y(1);y(1:end-1)]; ya2 = [y(1);y(1);y(1:end-2)];
12 yp1 = [y(2:end);y(end)]; yp2 = [y(3:end);y(end);y(end)];
13 Cmask = zeros (size(F));
14 Cmask((y==1)&((ya1==1&ya2==1 )|(yp1==1&yp2==1)|(ya1==1&yp1==1)))=1;
15 if Cmask(end) == 1 && Cmask(end-1) == 0; Cmask(end) =0; end;
16 if Cmask(1) == 1 && Cmask(2) == 0; Cmask(1) =0; end;
17 end
18 end
1 function [TFreq,m2] = a_met2_trilhas(tr, m1, tr1, tr2, tr3, ...
F0,tshd_f1a,tshd_f1,tshd_f2)
2 %Funcao para decisao de qual trilha escolher em cada trecho continuo
3 % Entrada:
4 % m1: mascara com eliminacao de valores em que F0 e ZCR < limiar
5 % tr1,tr2,tr3: trilha 1,trilha2,trilha3 (F1 BW1 F2 BW2 F3 BW3)
6 % F0: vetor de F0 para eliminacao de frames com confusao de F0 e F1
7 % tshd_f1a: limiar para considerar trecho com possibilidade de haver
8 % pelo menos uma trilha com valores viaveis
9 % tshd_f1,tshd_f2: limiares para continuidade de F1 e F2 em cada trilha
94
10 % Saida:
11 % TFreq: vetor com resultados para (F1 BW1 F2 BW2 F3 BW3)
12 % m2: mascara de F1xF2 para frames vizinhos com variacao de F1 < ...
tshd_f1a
13 tr1(∼m1|(abs(F0-tr1(:,1))./F0) <0.2,:)=0; if ∼tr(1);tr1(:,:)=0;end;14 tr2(∼m1|(abs(F0-tr2(:,1))./F0) <0.2,:)=0; if ∼tr(2);tr2(:,:)=0;end;15 tr3(∼m1|(abs(F0-tr3(:,1))./F0) <0.2,:)=0; if ∼tr(3);tr3(:,:)=0;end;16 TFreq = zeros(size(tr1)); TFrTr = [tr1 tr2 tr3];
17 m2 = (a_met2_ct(tr1,m1,tshd_f1a)| a_met2_ct(tr2,m1,tshd_f1a)| ...
a_met2_ct(tr3,m1,tshd_f1a));
18 %separar em tchs p/ das trilhas, encontrando blocos de transicao ...
entre voiced e unvoiced
19 tchs=[0;diff(m2)]; tchs_ini=find(tchs==1); tchs_fim=find(tchs==-1);
20 if (numel(tchs_ini)>0 && numel(tchs_fim)>0 && tchs_ini(1)>tchs_fim(1))
21 tchs_ini = tchs_ini (2:end);
22 end
23 nTr= min(length(tchs_ini),length(tchs_fim)); tchs_fim = ...
tchs_fim(1:nTr); tchs_ini = tchs_ini(1:nTr);
24 %mascaras para cada trilha, considerando m2 e tresholds para f1 e f2
25 % zeros(x,y,z): x=linhas; y=(BW1/F1, BW2/F2, ...
cont.);z=(trilha1,trilha2,trilha3)
26 tr = zeros(size(F0,1) , 3, 3);
27 tr(:,:,1) = [tr1(:,2)./(tr1(:,1)) tr1(:,4)./(tr1(:,3)) ...
a_met2_ct(tr1(:,1),m2,tshd_f1) & a_met2_ct(tr1(:,3),m2,tshd_f2)];
28 tr(:,:,2) = [tr2(:,2)./(tr2(:,1)) tr2(:,4)./(tr2(:,3)) ...
a_met2_ct(tr2(:,1),m2,tshd_f1) & a_met2_ct(tr2(:,3),m2,tshd_f2)];
29 tr(:,:,3) = [tr3(:,2)./(tr3(:,1)) tr3(:,4)./(tr3(:,3)) ...
a_met2_ct(tr3(:,1),m2,tshd_f1) & a_met2_ct(tr3(:,3),m2,tshd_f2)];
30 for i=1:nTr
31 tr_tch = zeros((tchs_fim(i) - tchs_ini(i) + 1 ),3,3);
32 tr_tch (:,:,[1 2 3])= tr(tchs_ini(i):tchs_fim(i),:,[1 2 3]);
33 %para manter apenas pontos com vizinhos
34 tr_tch(:,3,[1 2 3]) = [a_met2_ct(tr_tch(:,3,1),tr_tch(:,3,1),1) ...
a_met2_ct(tr_tch(:,3,2),tr_tch(:,3,2),1) ...
a_met2_ct(tr_tch(:,3,3),tr_tch(:,3,3),1)];
35 trilhas = [[1; 2; 3 ] [(mean(tr_tch(tr_tch(:,3,1)==1,1:2))); ...
(mean(tr_tch(tr_tch(:,3,2)==1,1:2))) ; ...
(mean(tr_tch(tr_tch(:,3,3)==1,1:2))) ]];
36 if size(trilhas,2)== 3
37 trilhas = sortrows(sortrows(trilhas,2),3);
38 trCol = (trilhas(1,1)-1)*6 +1;
39 tch = TFrTr(tchs_ini(i):tchs_fim(i),trCol:(trCol+5));
40 tch (tr_tch (:,3,trilhas(1,1))==0,:) = 0;
95
41 TFreq(tchs_ini(i):tchs_fim(i),1:6)=tch(:,:);%F1 BW1 .. F3 BW3
42 end
43 end
44 end
B.5 FUNCAO PARA CALCULAR VALORES MEDIOS NOS TRECHOS
1 function [F_tr] = a_trechos(mask,F)
2 %Funcoo que calcula media dos valores de cada trecho
3 % Entrada: vetor F = [1-F1 2-F2 3-BW1 4-BW2 5-F0 6-n 7-int(opcional)]
4 % Saida: Ftr = [1-n_in 2-n_fim 3-F0_med 4-F0_std 5-F1_med 6-F1_std
5 % 7-BW1_med 8-BW1_std 9-F2_med 10-F2_std 11-BW2_med 12-BW2_std ...
13-int_med...]
6 F_tr=[];
7 if mask == 1 % 02/11/2015
8 mask = true(size(F,1),1);
9 end
10 mask2 = a_trecho_ct(F(:,6)); %elimina pts isolados
11 mask = mask & mask2;
12 if sum(mask)>0
13 Fr(:,:)=F(mask>0,:); teste = [1;diff(Fr(:,6))]; teste(teste==0)=1;
14 teste1= [diff(teste);0]; teste1 = [-2;teste1(2:end-1);1];%03/10/15
15 UV = (Fr(teste1>1,6)); V = (Fr(teste1<-1,6));
16 if UV(1)<V(1); if UV(1)==1;UV=UV(2:end); else V=[Fr(1,6);V]; ...
end;end
17 if V(end)>UV(end);
18 if V(end)==Fr(end,6);V=V(1:end-1);else ...
UV=[UV(1:end);Fr(end,6)];end;
19 end
20 nRows=min(size(V,1),size(UV,1));F_tr=zeros(nRows,(size(F,2)+6));
21 F_tr(:,1) = V (1:nRows); F_tr(:,2) = UV (1:nRows);
22 for i=1:nRows
23 F_tr(i,3)= median(Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),5));%med de F0
24 F_tr(i,4)= std(Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),5)); %std de F0
25 for j=1:2 %apenas dois formantes
26 F_tr(i,4*j+1)= median(Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),j));%Fjmed
27 F_tr(i,4*j+2)= std (Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),j));%Fjstd
28 F_tr(i,4*j+3)= median(Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),j+2));%BWj
29 F_tr(i,4*j+4)= std (Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),j+2));%BWj
30 end
31 end
96
32 if size(F,2) == 7;
33 for i=1:nRows; ...
F_tr(i,13)=mean(Fr(Fr(:,6)≥V(i)&Fr(:,6)≤UV(i),7));end;
34 end
35 end
36 end
1 function [ m ] = a_trecho_ct(F)
2 %verifica continuidade de um trecho
3 % F: vetor com frames validos
4 % m: mascara de saida
5 x2= [0;diff(F)];
6 m = true (size(F,1),1);
7 x3 = F(x26=1);
8 for i = 1: (size(x3,1) -1)
9 y = F(F≥x3(i) & F< x3(i+1));
10 if (numel(y)<2)
11 for j=1: numel(y)
12 m(F==y(j))= 0;
13 end
14 end
15 end
16 end
97
APENDICE C - RESULTADOS OBTIDOS DURANTE OS EXPERIMENTOS
C.1 RESULTADOS OBTIDOS POR MEIO DOS METODOS 1 E 2
Numero de centroides obtidos (no), seus valores medios (F1×F2) e desvios padrao(σF1×σF2) para amostras do grupo GC da UTFPR, apos agrupamento com cincocentroides de referencia, por meio dos Metodos 1 e 2 (valores do ultimo em negrito).
/i/,/e/ /E/ /a/ /O/ /o/, /u/
Amostra F1×F2(Hz) F1×F2(Hz) F1×F2(Hz) F1×F2(Hz) F1×F2(Hz)no (σF1×σF2) (σF1×σF2) (σF1×σF2) (σF1×σF2) (σF1×σF2)
GC1(M1) 2
480,5×2286,5 ND ND 516,6×1209,5 ND(180,1×301,7) ND ND (198,1×221,0) ND
(MMM222) 5 400,4×2479,5 646,7×2000,1 814,2×1306,0 468,5×1439,2 442,9×1048,1(95,7×121,1) (268,1×156,0) (127,9×138,4) (91,9×151,5) (82,1×137,7)
GC2(M1) 3
400,1×2355,1 848,5×1663,1 ND 455,2×1190,4 ND(129,2×278,0) (140,9×178,1) ND (172,5×183,8) ND
(MMM222) 5 438,3×2245,6 485,2×1791,6 880,6×1701,8 548,8×1421,1 474,7×1059,3(113,6×151,5) (120,4×120,6) (150,1×163,1) (147,6×102,7) (132,1×124,0)
GC3(M1) 3
697,8×2450,5 612,1×1812,8 ND 527,7×1254,7 ND(490,6×156,8) (137,4×167,9) ND (102,8×137,9) ND
(MMM222) 5 418,9×2370,1 522,0×1992,3 582,1×1661,4 511,4×1350,2 440,4×1120,2(80,4×99,4) (100,6×103,0) (151,4×91,8) (114,0×90,9) (100,1×99,4)
GC4(M1) 3
442,0×2183,7 705,2×1630,0 ND 611,4×1117,5 ND(100,4×164,0) (117,2×155,7) ND (121,0×140,1) ND
(MMM222) 5 426,5×2299,2 615,0×1860,0 678,4×1524,0 641,0×1171,5 484,7×939,7(87,5×138,7) (119,4×108,9) (116,8×104,1) (94,8×90,6) (87,1×111,6)
GC5(M1) 3
523,1×2569,5 595,2×1793,7 ND 608,6×1297,7 ND(357,4×202,8) (136,3×148,0) ND (112,0×153,7) ND
(MMM222) 5 375,0×2319,7 500,2×1863,1 635,0×1602,0 525,8×1279,3 399,6×988,7(105,8×141,0) (137,2×114,4) (92,3×90,4) (139,4×102,4) (108,2×118,9)
GC6(M1) 4
476,5×2401,4 608,9×1878,1 595,4×1383,7 548,3×1066,1 ND(160,7×118,2) (131,5×134,3) (114,1×104,8) (64,4×107,8) ND
(MMM222) 5 446,9×2351,8 583,1×1909,5 539,2×1466,1 521,5×1171,2 460,1×885,8(83,7×116,9) (108,6×114,1) (111,4×113,6) (86,8×81,7) (69,9×114,0)
GC7(M1) 4
401,7×2293,5 654,5×1892,6 733,7×1415,1 508,1×1044,9 ND(113,8×113,5) (125,6×112,9) (134,8×116,9) (135,3×118,7) ND
(MMM222) 5 405,4×2283,7 597,9×1898,4 714,4×1485,0 587,5×1188,5 414,5×938,0(92,7×119,9) (129,7×125,9) (146,8×110,1) (126,0×98,0) (84,8×118,7)
GC8(M1) 3
454,8×2446,6 691,2×1805,5 ND 501,1×1239,3 ND(152,7×172,0) (224,3×140,6) ND (97,9×131,8) ND
(MMM222) 5 445,1×2384,7 525,0×1893,3 934,2×1662,8 550,6×1513,5 526,5×1167,6(70,8×156,6) (102,8×118,9) (109,6×193,4) (117,6×102,7) (100,7×105,7)
GC9(M1) 3
517,8×2449,7 697,4×1729,6 ND 533,2×1090,8 ND(347,6×207,4) (150,9×226,3) ND (178,9×159,1) ND
(MMM222) 5 461,1×2354,8 645,7×1902,9 779,3×1515,0 621,7×1224,5 461,9×938,4(162,5×131,0) (175,6×132,5) (145,5×117,1) (126,5×116,2) (93,7×99,3)
GC10(M1) 4
386,0×2539,5 493,8×1991,6 967,5×1938,8 596,0×1178,3 ND(82,2×139,4) (130,9×166,3) (184,9×235,1) (183,0×205,2) ND
(MMM222) 5 480,6×2027,8 1018,8×2002,7 811,4×1368,9 458,7×1608,8 468,2×1033,3(113,0×176,1) (169,5×129,8) (104,4×145,8) (128,3×141,6) (106,6×152,0)
ND: valor nao disponıvel (centroide nao alocado).M1: Metodo 1.M2: Metodo 2.
98
C.2 DISTANCIAS RESULTANTES APOS AGRUPAMENTO POR MEIO DOSMETODOS 1 E 2
Diferenca entre os centros obtidos e os valores de referencia e as respectivaspercentagens para amostras do grupo GC da UTFPR, apos agrupamento com cincocentros de referencia, por meio dos Metodos 1 e 2 (valores do ultimo em negrito).
/i/,/e/ /E/ /a/ /O/ /o/, /u/ Media
Amostra ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) ∆F1F2(Hz) (σF1F2)
GC1(M1) 175,7 ND ND 187,4 ND 181,5 (8,3)(((MMM222))) 57,3 65,6 194,2 413,9 270,4 200,3 (149,3)
GC2(M1) 387,7 172,4 ND 270,2 ND 276,8 (107,8)(((MMM222))) 283,6 220,8 239,3 402,1 172,1 263,6 (87,1)
GC3(M1) 336,7 248,6 ND 113,5 ND 233,0 (112,4)(((MMM222))) 48,7 71,2 306,2 195,3 162,7 156,8 (103,5)
GC4(M1) 38,7 178,8 ND 117,9 ND 111,8 (70,2)(((MMM222))) 82,9 107,1 266,8 164,5 110,4 146,3 (73,7)
GC5(M1) 322,0 185,8 ND 112,0 ND 206,6 (106,5)(((MMM222))) 37,5 159,0 134,4 155,8 190,0 135,3 (58,2)
GC6(M1) 129,6 208,3 174,4 39,0 ND 137,8 (73,4)(((MMM222))) 71,9 182,2 222,5 141,1 114,2 146,4 (58,5)
GC7(M1) 141,9 125,1 149,3 155,6 ND 143,0 (13,2)(((MMM222))) 132,2 143,0 165,8 163,6 54,8 131,9 (45,4)
GC8(M1) 135,8 290,5 ND 208,0 ND 211,4 (77,4)(((MMM222))) 73,6 250,9 129,6 399,4 249,7 220,6 (126,1)
GC9(M1) 202,0 137,2 ND 159,3 ND 166,2 (33,0)(((MMM222))) 97,6 317,4 171,7 186,2 77,9 170,1 (94,5)
GC10(M1) 77,9 135,7 178,8 155,6 ND 137,0 (43,2)(((MMM222))) 443,9 409,6 451,1 605,4 251,5 432,3 (126,2)
Media(M1) 194,8 186,9 167,5 151,9 ND 176,6 (79,0)(((MMM222))) 132,9 192,7 228,2 282,7 165,4 200,4 (124,7)
ND: valor nao disponıvel (centroide nao alocado).M1: Metodo 1.M2: Metodo 2.
99
C.3 DIFERENCA DOS VALORES F1 E F2 DOS CENTROIDES EM RELACAO AOSVALORES DE REFERENCIA
Diferenca dos valores F1 e F2 dos centroides em relacao aos valores de referencia- amostras dos corpora UTFPR e SPOLTECH sem degradacao. Na primeira linhareferente a cada grupo estao indicados os valores medios, e na segunda os valoresde desvio padrao.
Centroide 1 Centroide 2 Centroide 3 Centroide 4 Centroide 5 Media
Grupo∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%)
σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2
UT FPR : GC28,7×4,5% 16,9×9,1% 20,6×11,2% 16,5×25,5% 19,6×18,9% 20,5×13,9%(17,6×3,9%) (13,0×6,7%) (12,3×8,6%) (10,0×18,4%) (12,5×10,8%) (13,5×12,9%)
UT FPR : GG45,4×10,1% 20,7×9,6% 21,5×7,1% 14,0×27,9% 29,1×20,1% 26,2×15,0%(28,4×8,9%) (17,0×6,6%) (13,2×4,4%) (8,8×17,7%) (21,6×15,2%) (21,3×13,8%)
UT FPR : GM47,2×8,1% 26,4×28,4% 23,3×14,1% 17,2×21,7% 20,8×12,2% 27,0×16,9%(90,3×5,5%) (19,6×60,7%) (16,6×8,0%) (11,3×10,0%) (21,0×6,5%) (42,8×27,8%)
UT FPR : GR33,1×9,7% 34,7×8,1% 23,1×12,7% 21,9×28,4% 30,5×25,6% 28,7×16,9%(28,0×5,5%) (22,6×6,5%) (14,5×9,7%) (15,9×16,7%) (20,0×20,3%) (20,6×15,2%)
UT FPR : GH34,6×9,9% 35,5×10,4% 28,6×16,2% 21,1×32,6% 26,6×14,6% 29,3×16,7%(27,8×5,0%) (32,3×10,9%) (16,8×13,1%) (12,9×11,1%) (11,8×14,6%) (21,7×13,8%)
SPOLT ECH : M16,3×21,4% 19,8×5,4% 19,5×6,5% 29,4×12,0% 18,7×24,9% 20,7×14,0%(10,3×6,5%) (9,2×7,5%) (10,1×4,4%) (16,7×5,7%) (5,3×5,0%) (11,4×9,7%)
SPOLT ECH : H49,6×26,1% 21,7×16,3% 22,0×12,6% 11,6×7,4% 25,1×35,4% 26,0×19,6%(69,8×7,9%) (6,2×11,0%) (7,0×11,7%) (9,0×5,5%) (10,5×7,4%) (33,4×13,3%)
Media36,9×12,9% 25,1×12,6% 22,7×11,6% 18,6×22,1% 24,4×21,8% 25,5×16,2%(47,4×9,6%) (19,4×24,3%) (13,0×9,4%) (13,0×15,3%) (15,7×14,1%) (25,9×16,1%)
C.4 PERCENTUAL DE VOGAIS-ALVO REPRESENTADAS NA NUVEM FINAL -GRUPOS DO CORPUS UTFPR SEM DEGRADACAO
Percentual de vogais-alvo representadas na nuvem final e percentual da duracaodessas vogais - grupos do corpus UTFPR sem degradacao.
/i/ /e/ /E/ /a/ /O/ /o/ /u/ Media
GrupoNtr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%)
Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%)
UT FPR : GC80,0% 100,0% 100,0% 95,0% 95,0% 85,0% 90,0% 92,1%(58,0%) (80,8%) (74,8%) (65,2%) (80,0%) (84,8%) (65,4%) (73,6%)
UT FPR : GG75,0% 97,5% 100,0% 97,5% 85,0% 90,0% 82,5% 89,6%(58,2%) (79,2%) (75,2%) (70,1%) (91,3%) (80,4%) (66,7%) (76,5%)
UT FPR : GM87,5% 100,0% 92,5% 95,0% 87,5% 82,5% 90,0% 90,7%(53,4%) (80,9%) (68,8%) (69,9%) (78,0%) (73,6%) (67,3%) (71,2%)
UT FPR : GR92,5% 92,5% 95,0% 82,5% 92,5% 65,0% 75,0% 85,0%(87,2%) (86,6%) (76,1%) (76,0%) (76,5%) (63,9%) (79,3%) (78,3%)
UT FPR : GH75,0% 87,5% 87,5% 90,0% 80,0% 70,0% 85,0% 82,1%(72,0%) (81,0%) (83,7%) (75,7%) (73,6%) (81,8%) (73,6%) (77,0%)
Media82,0% 95,5% 95,0% 92,0% 88,0% 78,5% 84,5% 87,9%(65,8%) (81,7%) (75,7%) (71,4%) (79,9%) (76,9%) (70,4%) (75,3%)
100
C.5 DIFERENCA DOS VALORES F1 E F2 DOS CENTROIDES EM RELACAO AOSVALORES DE REFERENCIA, AMOSTRAS COM CODIFICACAO
Diferenca dos valores F1 e F2 dos centroides em relacao aos valores de referencia- amostras dos corpora UTFPR e SPOLTECH com codificacao. Na primeira linhareferente a cada grupo estao indicados os valores medios, e na segunda os valoresde desvio padrao.
Centroide 1 Centroide 2 Centroide 3 Centroide 4 Centroide 5 Media
Grupo∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%)
σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2
UT FPR : GC1 27,1×4,0% 28,9×7,8% 20,2×18,4% 14,3×27,9% 26,1×23,4% 23,3×16,3%(13,8×2,7%) (23,3×7,0%) (16,7×12,3%) (7,4×13,3%) (13,1×10,8%) (16,0×13,3%)
UT FPR : GG1 30,6×10,4% 23,5×8,7% 28,8×10,4% 13,2×26,9% 27,1×19,9% 24,6×15,2%(18,3×8,9%) (18,3×7,0%) (14,5×7,7%) (10,6×17,9%) (23,1×11,8%) (17,9×13,0%)
UT FPR : GM1 21,6×9,0% 45,0×24,8% 23,0×17,6% 13,1×32,2% 23,0×17,8% 25,2×20,3%(18,4×5,8%) (34,3×54,6%) (18,5×10,4%) (11,0×22,7%) (22,4×6,1%) (23,9×27,2%)
UT FPR : GR1 30,9×7,5% 58,6×16,1% 29,9×14,7% 17,7×27,8% 30,2×26,8% 33,4×18,6%(23,9×4,8%) (38,4×14,2%) (16,2×12,1%) (15,2×15,9%) (15,2×21,3%) (26,3×16,1%)
UT FPR : GH1 60,4×11,3% 64,8×15,1% 28,1×15,8% 22,9×30,4% 26,5×23,1% 40,5×19,1%(63,8×6,9%) (71,2×13,2%) (16,4×12,3%) (12,3×8,5%) (17,1×33,6%) (46,3×18,3%)
SPOLT ECH : M1 11,6×17,8% 31,0×5,1% 20,3×8,4% 27,3×14,0% 14,5×18,8% 20,9×12,8%(11,2×7,7%) (33,5×6,5%) (20,8×6,6%) (12,3×6,7%) (7,8×12,2%) (20,0×9,5%)
SPOLT ECH : H1 60,6×21,8% 32,9×14,1% 24,0×8,0% 11,7×11,1% 21,0×34,8% 30,0×18,0%(99,7×10,0%) (46,1×14,4%) (6,5×6,6%) (7,3×6,5%) (9,0×7,3%) (50,5×13,3%)
Media35,4×11,8% 40,7×13,2% 25,0×13,3% 17,0×24,3% 24,1×23,7% 28,4×17,3%(49,8×9,0%) (42,2×22,9%) (15,7×10,4%) (11,9×15,7%) (16,3×17,3%) (32,3×16,7%)
UT FPR : GC2 29,7×4,2% 28,3×10,3% 26,9×16,7% 22,7×34,1% 26,0×23,5% 26,7×17,8%(15,6×3,6%) (34,5×6,1%) (13,6×10,5%) (7,9×15,0%) (12,5×13,4%) (18,5×14,6%)
UT FPR : GG2 39,9×10,3% 24,3×8,9% 23,6×7,0% 19,5×32,4% 37,4×15,8% 28,9×14,9%(25,1×8,9%) (19,3×4,9%) (12,3×6,6%) (12,7×13,6%) (27,1×10,0%) (21,1×12,9%)
UT FPR : GM2 45,8×8,2% 46,0×25,7% 23,8×17,2% 17,7×33,0% 24,9×15,9% 31,6×20,0%(75,2×4,8%) (27,7×57,7%) (13,7×10,5%) (14,3×17,0%) (23,2×7,1%) (38,7×27,8%)
UT FPR : GR2 35,1×9,9% 39,4×10,6% 28,2×16,2% 20,7×32,3% 33,4×26,8% 31,4×19,2%(24,5×5,5%) (26,2×7,9%) (16,6×13,8%) (18,3×14,8%) (21,8×21,5%) (21,9×16,1%)
UT FPR : GH2 35,1×12,9% 53,9×13,1% 29,7×13,3% 22,9×36,5% 24,6×17,6% 33,2×18,7%(23,4×6,2%) (65,3×14,2%) (18,0×8,9%) (13,4×17,7%) (14,2×19,9%) (33,8×16,5%)
SPOLT ECH : M2 23,3×19,8% 16,8×4,8% 23,5×10,8% 30,2×13,4% 19,3×25,0% 22,6×14,7%(12,6×6,0%) (5,7×3,5%) (8,9×6,1%) (18,9×6,1%) (5,8×5,1%) (11,9×8,8%)
SPOLT ECH : H2 20,8×26,0% 22,5×13,2% 20,5×10,3% 9,6×9,6% 26,5×35,9% 20,0×19,0%(15,2×7,4%) (7,5×6,6%) (5,4×6,5%) (6,4×6,8%) (7,7×6,8%) (10,4×12,3%)
Media32,8×13,1% 33,1×12,5% 25,1×13,1% 20,2×27,3% 27,5×23,1% 27,7×17,8%(33,5×9,3%) (33,5×22,8%) (13,0×9,6%) (14,3×16,7%) (17,8×14,6%) (24,6×16,5%)
UT FPR : GC3 27,1×4,3% 17,8×9,5% 19,8×16,3% 11,6×20,2% 19,7×17,3% 19,2×13,5%(15,8×2,8%) (7,4×6,0%) (12,9×11,2%) (6,6×16,0%) (13,8×12,7%) (12,4×11,9%)
UT FPR : GG3 30,8×12,1% 23,2×8,3% 19,4×10,4% 11,5×27,3% 31,1×15,1% 23,2×14,6%(19,8×10,6%) (15,1×6,8%) (9,9×8,0%) (8,3×19,1%) (26,0×7,9%) (18,0×12,9%)
UT FPR : GM3 20,1×9,2% 22,4×18,8% 17,4×12,6% 11,1×20,6% 25,0×10,3% 19,2×14,3%(14,6×7,8%) (16,8×46,1%) (13,6×11,2%) (11,5×14,0%) (19,5×5,8%) (15,6×22,1%)
UT FPR : GR3 55,2×8,7% 50,1×13,0% 26,4×16,1% 21,8×25,0% 29,0×16,8% 36,5×15,9%(76,2×5,5%) (38,1×11,2%) (17,5×16,1%) (16,7×11,1%) (14,7×8,4%) (40,8×11,9%)
UT FPR : GH3 45,8×8,2% 50,0×12,0% 28,8×12,4% 21,1×26,8% 25,7×12,1% 34,3×14,3%(68,4×5,5%) (56,0×9,2%) (19,3×7,9%) (14,9×9,7%) (12,7×9,6%) (41,3×10,4%)
SPOLT ECH : M3 12,0×22,8% 15,4×4,4% 24,3×7,2% 20,9×9,5% 11,2×33,7% 16,7×15,5%(7,6×7,9%) (6,6×3,7%) (20,1×5,3%) (15,9×6,8%) (4,9×8,3%) (13,0×12,8%)
SPOLT ECH : H3 14,5×24,2% 20,9×15,7% 20,4×10,6% 10,7×11,6% 16,8×39,5% 16,7×20,3%(10,8×10,1%) (8,6×11,3%) (8,3×7,5%) (6,6×6,1%) (7,9×7,4%) (9,1×13,7%)
Media29,4×12,8% 28,6×11,8% 22,3×12,3% 15,4×20,2% 22,7×20,8% 23,7×15,6%(41,5×10,2%) (29,7×18,9%) (14,8×10,2%) (12,6×13,8%) (16,3×13,6%) (25,8×14,2%)
1 sinal com codificacao de canal telefonico: reamostragem em 8 kHz e quantizacao G711a.2 sinal com compressao MP3 24 kbps.3 sinal com compressao AMRnb 4.750 kbps.
101
C.6 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COMCODIFICACAO
Percentual de vogais-alvo representadas na nuvem final e percentual da duracaodessas vogais - grupos do corpus UTFPR com codificacao.
/i/ /e/ /E/ /a/ /O/ /o/ /u/ Media
GrupoNtr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%)
Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%)
UT FPR : GC1 77,5% 100,0% 100,0% 92,5% 97,5% 82,5% 95,0% 92,1%(57,3%) (74,2%) (70,5%) (64,2%) (75,9%) (76,2%) (66,1%) (69,8%)
UT FPR : GG1 77,5% 95,0% 97,5% 95,0% 85,0% 90,0% 82,5% 88,9%(54,9%) (82,1%) (81,2%) (70,6%) (80,3%) (77,9%) (60,9%) (74,8%)
UT FPR : GM1 87,5% 100,0% 97,5% 95,0% 92,5% 82,5% 90,0% 92,1%(60,8%) (76,7%) (75,7%) (67,5%) (78,2%) (70,7%) (63,1%) (71,4%)
UT FPR : GR1 77,5% 92,5% 95,0% 82,5% 90,0% 67,5% 67,5% 81,8%(80,3%) (82,2%) (76,5%) (73,1%) (79,3%) (69,1%) (83,8%) (76,8%)
UT FPR : GH1 60,0% 85,0% 87,5% 92,5% 75,0% 57,5% 65,0% 74,6%(60,2%) (71,9%) (77,4%) (69,4%) (70,4%) (80,2%) (66,4%) (71,3%)
Media76,0% 94,5% 95,5% 91,5% 88,0% 76,0% 80,0% 85,9%(62,7%) (77,4%) (76,3%) (69,0%) (76,8%) (74,8%) (68,1%) (72,8%)
UT FPR : GC2 45,0% 100,0% 95,0% 90,0% 92,5% 82,5% 85,0% 84,3%(60,0%) (78,0%) (79,9%) (61,2%) (71,2%) (75,1%) (62,9%) (70,5%)
UT FPR : GG2 42,5% 92,5% 97,5% 95,0% 85,0% 77,5% 70,0% 80,0%(71,9%) (82,8%) (75,6%) (69,2%) (76,9%) (74,2%) (68,5%) (75,0%)
UT FPR : GM2 42,5% 95,0% 90,0% 95,0% 85,0% 77,5% 82,5% 81,1%(68,3%) (74,5%) (76,7%) (64,3%) (73,2%) (66,7%) (60,4%) (70,6%)
UT FPR : GR2 80,0% 90,0% 92,5% 80,0% 90,0% 65,0% 77,5% 82,1%(89,4%) (88,6%) (78,0%) (74,2%) (79,9%) (69,1%) (79,0%) (79,5%)
UT FPR : GH2 70,0% 85,0% 75,0% 87,5% 67,5% 75,0% 85,0% 77,9%(76,2%) (79,7%) (82,3%) (73,5%) (77,7%) (79,4%) (69,6%) (76,3%)
Media56,0% 92,5% 90,0% 89,5% 84,0% 75,5% 80,0% 81,1%(73,2%) (80,7%) (78,5%) (68,5%) (75,8%) (72,9%) (68,1%) (74,4%)
UT FPR : GC3 60,0% 100,0% 100,0% 90,0% 90,0% 85,0% 92,5% 88,2%(59,5%) (81,2%) (64,7%) (62,3%) (69,6%) (76,7%) (46,4%) (66,8%)
UT FPR : GG3 60,0% 97,5% 100,0% 95,0% 90,0% 90,0% 77,5% 87,1%(49,3%) (80,0%) (72,3%) (64,9%) (84,5%) (77,4%) (55,4%) (71,6%)
UT FPR : GM3 70,0% 100,0% 100,0% 97,5% 87,5% 87,5% 75,0% 88,2%(43,3%) (74,4%) (72,6%) (64,1%) (73,4%) (68,2%) (62,9%) (67,4%)
UT FPR : GR3 60,0% 80,0% 95,0% 87,5% 92,5% 52,5% 67,5% 76,4%(71,0%) (75,9%) (73,1%) (74,4%) (74,2%) (62,8%) (62,2%) (72,2%)
UT FPR : GH3 55,0% 82,5% 75,0% 90,0% 77,5% 60,0% 60,0% 71,4%(55,9%) (74,8%) (81,3%) (74,7%) (73,2%) (56,0%) (64,0%) (71,2%)
Media61,0% 92,0% 94,0% 92,0% 87,5% 75,0% 74,5% 82,3%(55,8%) (77,3%) (72,8%) (68,1%) (75,0%) (68,2%) (58,2%) (69,9%)
1 sinal com codificacao de canal telefonico: reamostragem em 8kHz e quantizacao G711a.2 sinal com compressao MP3 24kbps.3 sinal com compressao AMRnb 4,750kbps.
102
C.7 NUMERO DE CENTROIDES RECONHECIDOS APOS ADICAO DE RUIDO AOSINAL
Numero de centroides reconhecidos nos grupos analisados apos adicao de ruıdo aosinal das amostras.
Grupo nocentros Centroide 1 Centroide 2 Centroide 3 Centroide 4 Centroide 5
UT FPR : GC1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
UT FPR : GG1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
UT FPR : GM1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
UT FPR : GR1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
UT FPR : GH1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
SPOLT ECH : M1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
SPOLT ECH : H1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
CORAL : M1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
CORAL : H1 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
Media 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
UT FPR : GC2 4,9 100,0% 100,0% 100,0% 100,0% 90,0%
UT FPR : GG2 4,6 100,0% 100,0% 100,0% 100,0% 60,0%
UT FPR : GM2 4,8 90,0% 100,0% 100,0% 100,0% 90,0%
UT FPR : GR2 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
UT FPR : GH2 4,9 90,0% 100,0% 100,0% 100,0% 100,0%
SPOLT ECH : M2 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
SPOLT ECH : H2 4,8 100,0% 100,0% 100,0% 100,0% 81,8%
CORAL : M2 4,8 100,0% 100,0% 100,0% 100,0% 75,0%
CORAL : H2 5,0 100,0% 100,0% 100,0% 100,0% 100,0%
Media 4,9 97,8% 100,0% 100,0% 100,0% 88,5%
UT FPR : GC3 2,8 0,0% 100,0% 100,0% 80,0% 0,0%
UT FPR : GG3 2,7 0,0% 100,0% 100,0% 70,0% 0,0%
UT FPR : GM3 2,6 0,0% 100,0% 100,0% 60,0% 0,0%
UT FPR : GR3 2,7 0,0% 100,0% 100,0% 70,0% 0,0%
UT FPR : GH3 2,5 0,0% 100,0% 100,0% 50,0% 0,0%
SPOLT ECH : M3 2,6 0,0% 100,0% 100,0% 55,6% 0,0%
SPOLT ECH : H3 2,4 0,0% 100,0% 100,0% 36,4% 0,0%
CORAL : M3 3,5 50,0% 100,0% 100,0% 100,0% 0,0%
CORAL : H3 3,0 0,0% 100,0% 100,0% 100,0% 0,0%
Media 2,7 5,6% 100,0% 100,0% 69,1% 0,0%
1 sinal degradado por meio de adicao de ruıdo marrom (20%).2 sinal degradado por meio de adicao de ruıdo rosa (20%).3 sinal degradado por meio de adicao de ruıdo branco (20%).
103
C.8 DIFERENCA DOS VALORES F1 E F2 DOS CENTROIDES EM RELACAO AOSVALORES DE REFERENCIA, AMOSTRAS COM ADICAO DE RUIDO
Diferenca dos valores F1 e F2 dos centroides em relacao aos valores de referencia -amostras dos corpora UTFPR e SPOLTECH com adicao de ruıdo. Na primeira linhareferente a cada grupo estao indicados os valores medios, e na segunda os valoresde desvio padrao.
Grupo Centroide 1 Centroide 2 Centroide 3 Centroide 4 Centroide 5 Media
∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%)σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2 σ∆F1×σ∆F2
UT FPR : GC1 42,0×4,9% 72,6×15,7% 27,4×22,0% 19,6×26,2% 29,8×40,5% 38,3×21,9%(19,7×4,7%) (36,8×10,9%) (11,7×7,4%) (11,0×14,6%) (15,2×23,2%) (27,6×17,7%)
UT FPR : GG1 72,2×8,8% 93,1×14,7% 24,3×7,2% 14,9×19,1% 25,8×49,5% 46,1×19,8%(34,0×6,3%) (51,5×10,1%) (10,2×4,5%) (9,0×14,5%) (24,7×25,2%) (42,6×20,7%)
UT FPR : GM1 53,8×9,1% 47,4×20,5% 24,1×17,4% 21,4×16,1% 20,0×44,9% 33,3×21,6%(61,4×5,6%) (35,0×41,8%) (15,8×8,7%) (13,9×14,6%) (20,0×27,0%) (35,8×25,8%)
UT FPR : GR1 47,0×9,8% 115,3×28,5% 30,2×15,6% 19,4×21,4% 29,9×49,7% 48,4×25,0%(31,0×5,4%) (47,4×11,4%) (16,2×13,4%) (13,5×14,9%) (28,6×20,9%) (45,2×19,5%)
UT FPR : GH1 45,4×7,5% 149,8×36,8% 35,5×20,0% 27,1×35,6% 32,4×31,8% 58,0×26,3%(31,0×6,4%) (37,1×12,6%) (15,5×10,1%) (17,9×11,8%) (22,8×34,4%) (53,0×20,6%)
SPOLT ECH : M1 24,2×17,6% 27,8×7,3% 23,9×10,5% 21,6×13,6% 22,4×20,6% 24,0×13,9%(10,7×6,4%) (41,2×4,5%) (10,2×5,9%) (13,9×6,8%) (9,5×6,6%) (20,1×7,5%)
SPOLT ECH : H1 31,5×25,4% 136,0×31,4% 20,2×15,7% 12,7×10,7% 27,7×25,1% 45,6×21,7%(16,9×9,6%) (93,2×17,7%) (7,0×13,3%) (8,4×11,7%) (17,6×9,0%) (62,1×14,3%)
Media45,3×12,0% 93,2×22,5% 26,5×15,6% 19,4×20,3% 26,9×37,5% 42,3×21,6%(34,7×9,3%) (66,0×20,9%) (13,1×10,4%) (13,0×14,8%) (20,2×24,4%) (44,4×19,0%)
UT FPR : GC2 198,8×6,7% 12,2×12,4% 30,3×11,8% 12,2×19,4% 23,2×65,7% 56,0×22,3%(104,6×6,0%) (9,9×6,1%) (14,0×5,5%) (4,7×11,7%) (19,3×26,1%) (86,9×24,7%)
UT FPR : GG2 167,6×10,0% 13,5×15,4% 22,5×6,9% 9,4×19,2% 22,0×66,3% 49,1×19,8%(78,4×6,0%) (9,3×5,5%) (11,7×4,4%) (9,9×9,9%) (19,8×15,4%) (73,1×20,3%)
UT FPR : GM2 155,1×12,1% 41,8×22,5% 30,8×6,6% 12,4×14,6% 16,0×61,3% 49,8×22,9%(77,4×8,2%) (45,9×36,3%) (18,9×5,5%) (8,8×7,3%) (15,1×24,9%) (65,4×27,6%)
UT FPR : GR2 192,4×13,9% 49,0×14,9% 19,1×11,7% 13,7×24,1% 35,2×72,0% 61,9×27,3%(159,7×6,7%) (52,2×12,5%) (14,5×8,8%) (8,5×10,8%) (41,8×22,5%) (100,3×26,3%)
UT FPR : GH2 190,7×14,9% 28,2×15,2% 20,0×13,6% 19,1×28,9% 31,6×60,1% 55,2×26,8%(156,4×8,1%) (34,0×10,1%) (16,2×8,1%) (17,6×11,2%) (17,5×28,9%) (93,3×23,4%)
SPOLT ECH : M2 147,8×19,4% 9,1×9,1% 17,7×6,8% 10,2×8,0% 28,2×12,8% 42,6×11,2%(115,0×8,5%) (5,4×5,9%) (4,3×4,8%) (7,5×6,9%) (25,5×4,9%) (73,6×7,6%)
SPOLT ECH : H2 108,1×24,8% 26,3×12,2% 11,7×8,0% 17,3×12,4% 30,3×10,9% 39,1×13,7%(130,6×13,9%) (59,0×18,5%) (6,9×6,5%) (8,1×8,0%) (15,5×10,6%) (73,0×13,3%)
Media165,0×14,6% 26,0×14,6% 21,6×9,3% 13,6×18,1% 27,1×49,6% 50,5×20,6%(120,2×10,1%) (38,9×16,8%) (14,3×6,7%) (10,1×11,2%) (23,9×31,8%) (81,4×22,2%)
UT FPR : GC3 ND 38,0×15,6% 19,8×12,6% 20,0×39,6% ND 26,4×21,4%ND (50,7×9,1%) (10,5×7,9%) (16,1×15,7%) ND (32,2×15,9%)
UT FPR : GG3 ND 13,1×13,9% 15,7×6,7% 23,7×37,3% ND 16,8×17,3%ND (10,7×7,1%) (7,4×7,7%) (14,8×11,6%) ND (11,3×15,0%)
UT FPR : GM3 ND 15,8×28,6% 22,1×7,3% 18,8×31,3% ND 18,9×21,0%ND (7,2×35,6%) (7,8×5,4%) (14,0×13,9%) ND (9,4×25,1%)
UT FPR : GR3 ND 66,8×16,7% 17,8×19,1% 28,4×45,4% ND 38,7×25,0%ND (86,6×18,6%) (11,1×7,7%) (21,5×8,0%) ND (57,0×17,5%)
UT FPR : GH3 ND 38,5×10,7% 29,6×25,1% 8,7×44,8% ND 29,0×23,3%ND (82,5×9,2%) (20,5×18,0%) (7,8×3,9%) ND (53,3×17,9%)
SPOLT ECH : M3 ND 7,6×13,9% 25,8×4,5% 15,4×13,6% ND 16,4×10,1%ND (3,8×5,4%) (14,8×3,8%) (8,1×8,6%) ND (12,8×7,1%)
SPOLT ECH : H3 ND 80,5×18,1% 26,6×12,6% 25,6×7,7% ND 49,3×14,2%ND (118,1×21,8%) (14,0×8,4%) (11,2×8,7%) ND (80,1×15,5%)
MediaND 38,2×16,8% 22,5×12,7% 20,5×33,5% ND 28,1×19,1%ND (70,3×18,4%) (13,3×11,3%) (15,0×16,5%) ND (45,5×17,5%)
1 sinal degradado por meio de adicao de ruıdo marrom (20%).2 sinal degradado por meio de adicao de ruıdo rosa (20%).3 sinal degradado por meio de adicao de ruıdo branco (20%).ND: valor nao disponıvel (centroide nao alocado).
104
C.9 PERCENTUAL DE ACERTO DE VOGAIS-ALVO PARA AMOSTRAS COMADICAO DE RUIDO
Percentual de vogais-alvo representadas na nuvem final e percentual da duracaodessas vogais - grupos do corpus UTFPR com adicao de ruıdo.
/i/ /e/ /E/ /a/ /O/ /o/ /u/ Media
GrupoNtr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%) Ntr(%)
Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%) Dur(%)
UT FPR : GC1 67,5% 97,5% 97,5% 85,0% 97,5% 82,5% 97,5% 89,3%(53,6%) (65,6%) (63,4%) (38,1%) (69,6%) (64,8%) (56,0%) (59,7%)
UT FPR : GG1 67,5% 97,5% 100,0% 92,5% 87,5% 87,5% 82,5% 87,9%(45,5%) (70,0%) (65,1%) (60,5%) (81,4%) (57,5%) (51,5%) (64,4%)
UT FPR : GM1 82,5% 97,5% 100,0% 92,5% 95,0% 77,5% 82,5% 89,6%(58,7%) (75,2%) (69,0%) (60,2%) (81,4%) (66,3%) (62,4%) (68,7%)
UT FPR : GR1 77,5% 85,0% 82,5% 80,0% 82,5% 67,5% 85,0% 80,0%(67,7%) (69,0%) (58,4%) (59,2%) (72,3%) (49,6%) (58,9%) (63,1%)
UT FPR : GH1 67,5% 80,0% 72,5% 92,5% 77,5% 40,0% 50,0% 68,6%(63,9%) (79,5%) (66,2%) (68,7%) (59,5%) (67,1%) (72,5%) (67,3%)
Media72,5% 91,5% 90,5% 88,5% 88,0% 71,0% 79,5% 83,1%(57,9%) (71,9%) (64,4%) (57,3%) (72,8%) (61,1%) (60,3%) (64,6%)
UT FPR : GC2 67,5% 92,5% 95,0% 90,0% 85,0% 82,5% 90,0% 86,1%(50,8%) (77,7%) (66,8%) (63,4%) (73,5%) (62,4%) (59,5%) (66,5%)
UT FPR : GG2 67,5% 95,0% 95,0% 90,0% 82,5% 85,0% 82,5% 85,4%(39,9%) (78,9%) (77,6%) (75,7%) (79,6%) (53,3%) (44,3%) (67,3%)
UT FPR : GM2 75,0% 95,0% 92,5% 97,5% 72,5% 77,5% 87,5% 85,4%(54,7%) (81,7%) (67,7%) (60,2%) (77,3%) (49,8%) (55,8%) (66,0%)
UT FPR : GR2 75,0% 80,0% 90,0% 82,5% 80,0% 67,5% 82,5% 79,6%(55,7%) (61,8%) (70,8%) (68,5%) (75,9%) (47,2%) (49,9%) (63,1%)
UT FPR : GH2 72,5% 92,5% 77,5% 87,5% 67,5% 60,0% 80,0% 76,8%(58,5%) (81,6%) (77,9%) (72,0%) (68,6%) (61,1%) (64,9%) (70,1%)
Media71,5% 91,0% 90,0% 89,5% 77,5% 74,5% 84,5% 82,6%(51,9%) (76,3%) (72,2%) (67,9%) (75,0%) (54,8%) (54,9%) (66,6%)
UT FPR : GC3 15,0% 57,5% 57,5% 57,5% 40,0% 30,0% 40,0% 42,5%(18,3%) (38,3%) (48,0%) (51,7%) (49,9%) (40,1%) (43,1%) (43,2%)
UT FPR : GG3 2,5% 37,5% 45,0% 72,5% 52,5% 10,0% 17,5% 33,9%(12,4%) (48,3%) (50,9%) (38,6%) (50,8%) (36,0%) (26,6%) (44,5%)
UT FPR : GM3 17,5% 45,0% 40,0% 57,5% 45,0% 45,0% 35,0% 40,7%(31,9%) (48,2%) (60,4%) (44,1%) (66,9%) (40,2%) (40,4%) (45,2%)
UT FPR : GR3 15,0% 25,0% 37,5% 57,5% 47,5% 17,5% 32,5% 33,2%(50,2%) (37,2%) (51,6%) (61,0%) (50,3%) (32,1%) (36,0%) (44,4%)
UT FPR : GH3 20,0% 45,0% 40,0% 55,0% 25,0% 37,5% 42,5% 37,9%(36,6%) (51,6%) (50,0%) (52,4%) (61,7%) (48,7%) (47,8%) (48,8%)
Media14,0% 42,0% 44,0% 60,0% 42,0% 28,0% 33,5% 37,6%(29,9%) (44,7%) (52,2%) (49,6%) (55,9%) (39,4%) (38,8%) (45,2%)
1 sinal degradado por meio de adicao de ruıdo marrom (20%).2 sinal degradado por meio de adicao de ruıdo rosa (20%).3 sinal degradado por meio de adicao de ruıdo branco (20%).
105
C.10 DIFERENCA DOS VALORES DE CENTROIDES EM COMPARACOES INTRA-FALANTES
Diferenca dos valores de centroides em comparacoes intrafalantes para amostras docorpus C-ORAL.
Amostra
Centroide 1 Centroide 2 Centroide 3 Centroide 4 Centroide 5
F1×F2(Hz) F1×F2(Hz) F1×F2(Hz) F1×F2(Hz) F1×F2(Hz)∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%) ∆F1×∆F2(%)
max∆F1×∆F2 max∆F1×∆F2 max∆F1×∆F2 max∆F1×∆F2 max∆F1×∆F2
BFAMMN01M420,4×2206,0 490,5×1804,3 724,4×1439,3 420,7×1404,5 500,6×1038,12,5%×1,0% 1,9%×2,4% 1,5%×2,1% 4,3%×2,6% 5,0%×3,1%4,6%×1,8% 3,9%×8,2% 3,0%×4,7% 8,1%×5,7% 9,7%×6,7%
BFAMMN02M407,7×2167,0 465,2×1863,8 929,9×1930,2 530,0×1469,2 464,0×1005,43,0%×1,3% 4,3%×2,0% 7,1%×1,9% 4,0%×3,8% 2,8%×2,6%7,9%×2,4% 8,4%×3,7% 13,8%×4,1% 10,5%×8,7% 5,8%×4,1%
BFAMMN04M542,4×2237,3 671,5×1877,6 816,1×1390,3 536,4×1493,7 570,5×1142,42,5%×1,0% 2,9%×1,3% 3,0%×2,3% 5,7%×3,4% 6,9%×4,0%5,1%×1,9% 5,2%×2,4% 6,7%×4,0% 9,8%×5,7% 14,2%×8,4%
BFAMMN08M563,3×2207,3 726,3×1864,5 698,5×1475,6 501,7×1389,9 604,6×1153,53,8%×1,1% 3,3%×2,3% 7,9%×4,8% 3,8%×2,4% 3,8%×4,4%7,5%×2,1% 6,9%×5,7% 23,5%×6,7% 11,8%×6,5% 8,1%×7,6%
BFAMMN03H386,5×2192,0 386,8×1874,0 439,0×1540,1 512,6×1276,6 383,0×1023,114,2%×6,0% 8,1%×7,7% 5,4%×5,7% 9,8%×1,8% 4,6%×3,5%72,6%×14,6% 20,0%×17,6% 10,2%×14,4% 16,9%×4,7% 8,2%×8,1%
BFAMMN06H378,8×2291,8 357,8×1894,6 393,9×1581,0 491,5×1266,8 389,5×950,84,5%×1,6% 2,6%×3,4% 2,3%×3,4% 2,3%×1,4% 3,5%×1,5%8,5%×2,9% 6,7%×9,5% 3,6%×8,9% 4,6%×2,4% 7,0%×4,4%
Media 555,,,111%×××222,,,000% 333,,,888%×××333,,,222% 444,,,555%×××333,,,333% 555,,,000%×××222,,,666% 444,,,444%×××333,,,222%
top related