identificaÇÃo de padrÕes de vogais em registros...

9
PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785 | 27 IDENTIFICAÇÃO DE PADRÕES DE VOGAIS EM REGISTROS ACÚSTICOS: análise por componentes cepstrais e redes neurais ADELINO PINHEIRO SILVA FLÁVIO LÚCIO DE SOUZA VINÍCIUS RODRIGO MAY RESUMO: Os estudos referentes à biometria vocal são as principais fontes motivadoras desta pesquisa acadêmica. A identificação de vogais presentes em registros acústicos do português brasileiro é o primeiro passo na proposta de técnicas alternativas de identificação de locutores, permitindo consolidar informações referentes a condução da fala, em especial, para falantes perceptualmente próximos. A partir de amostras de corpus, trechos de áudios foram isolados e analisados com intuito de encontrar características acústicas capazes de caracterizar as vogais do português brasileiro em posição tônica. A etapa final de classificação proposta foi por meio de redes neurais artificiais. PALAVRAS-CHAVE: Análise de Voz e Fala. Identificação de Vogais. Redes neurais Artificiais. Análise Cepstral. Reconhecimento de Padrões. 1 - INTRODUÇÃO Plataformas que oferecem suporte aos comandos de voz já são realidade; os atuais dispositivos eletrônicos são prova disso. Entre- tanto, o reconhecimento de padrões de voz e de fala em registros acústicos é uma tecnologia ainda em desenvolvimento, sendo em- pregada em diferentes áreas desde o entretenimento, passando por aplicações de segurança, avaliação de saúde e sistemas de telefonia. Maiores avanços mostram-se possíveis; interfaces interativas são es- senciais para aproximarem, ainda mais, homens e máquinas. O reconhecimento biométrico por comandos de voz e de fala faz parte dessa tecnologia em ascensão. Estudos realizados à cerca deste tema proporcionam integração com diversos ramos do conhe- cimento e, prova disto é a quantidade significativa de áreas multidis- ciplinares envolvidas no processo, como por exemplo a fonética, a microeletrônica e o processamento de sinais (CAMBELL, 2009; TOG- NERI; PULLELLA, 2011) As técnicas à serem apresentadas neste trabalho, visam fazer parte de uma tarefa maior que é a implementação de um sistema de identificação de locutor. Tais técnicas, baseadas em redes neurais artificiais (RNA), mais especificamente o Perceptron Multi Camadas (MLP - Multi Layer Perceptron), são os modelos de reconhecimento de padrões de base para este estudo. O objetivo do presente estudo é realizar a classificação, reco- nhecimento e análise de padrões acústicos em vogais cardinais do português brasileiro, em posição tônica, buscando identificar padrões capazes de recortar as vogais dos trecho de áudio. Para esta tarefa realizou-se: levantamento de corpus de falantes do português, com aleatorização de gênero e idade, utilizando protocolo padronizado; análise e identificação dos trechos de áudio de interesse e implemen- tar redes neurais com base nas características relevantes para sepa- ração dos grupos de vogais. 2 - PRINCÍPIOS DA PRODUÇÃO DA VOZ E FALA O processo de comunicação inicia-se no cérebro falante por um processo linguístico de geração do significado através de palavras e frases, em seguida um comando fisiológico ativa o trato vocal para gerar os sinais acústicos, que consistem em flutuações da pressão de ar que são geradas pelas pregas vocais são moduladas pelo trato vocal e irradiadas pela boca. A mensa- gem gerada é transmitida através de um canal de comunicação, como o ar por exemplo, até o ouvinte. A mensagem é detectada pelo ouvido, a flutuação de pressão no ar presente na mensagem transmitida é interpretada pelo cérebro do ouvinte. A figura 1 a seguir ilustra de forma resumida o processo de comunicação por um canal com ruído interferente. Nos estudos dos processos de comunicação é importante ain- da definir o conceito de linguagem como a base de transmissão de significado através de sinais, sons, gestos, ou marcas entendidas dentro de um grupo ou comunidade (PIERANGELO; GIULIANI, 2007). Com o passar dos tempos a humanidade esforçou-se para comuni- car-se através de grandes distâncias, utilizando diferentes linguagens como batidas de tambores, sinais de fogo ou os telégrafos, ótico de Chappe e elétrico de Morse (GLEICK, 2013). A transmissão elétrica dos registros acústicos ocorreu a partir dos desenvolvimentos de Bell que realizou estudos dos mecanismos da fala e da audição para aprimorar o processo de comunicação por voz em longas distâncias. Inicialmente as te- lecomunicações eram realizadas preservando a forma de onda acústica, entretanto, o desenvolvimento de técnicas matemáticas de análise e processamento de sinais permitiu realizar a codi- ficação da onda acústica alcançar longas distâncias com mais eficiência (GLEICK, 2013).

Upload: duongthuan

Post on 05-Dec-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: IDENTIFICAÇÃO DE PADRÕES DE VOGAIS EM REGISTROS …blog.newtonpaiva.br/pos/wp-content/uploads/2017/04/POS13-04.pdf · falamos. seja por sons cuja pronuncia varia, ... posição

PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785 | 27

IDENTIFICAÇÃO DE PADRÕES DE VOGAIS EM REGISTROS ACÚSTICOS:

análise por componentes cepstrais e redes neuraisAdelino Pinheiro SilvA

Flávio lúcio de SouzA

viníciuS rodrigo MAy

Resumo: os estudos referentes à biometria vocal são as principais fontes motivadoras desta pesquisa acadêmica. A identificação de vogais presentes em registros acústicos do português brasileiro é o primeiro passo na proposta de técnicas alternativas de identificação de locutores, permitindo consolidar informações referentes a condução da fala, em especial, para falantes perceptualmente próximos. A partir de amostras de corpus, trechos de áudios foram isolados e analisados com intuito de encontrar características acústicas capazes de caracterizar as vogais do português brasileiro em posição tônica. A etapa final de classificação proposta foi por meio de redes neurais artificiais.

PAlAvRAs-chAve: Análise de voz e Fala. Identificação de vogais. Redes neurais Artificiais. Análise cepstral. Reconhecimento de Padrões.

1 - Introdução

Plataformas que oferecem suporte aos comandos de voz já são realidade; os atuais dispositivos eletrônicos são prova disso. entre-tanto, o reconhecimento de padrões de voz e de fala em registros acústicos é uma tecnologia ainda em desenvolvimento, sendo em-pregada em diferentes áreas desde o entretenimento, passando por aplicações de segurança, avaliação de saúde e sistemas de telefonia. maiores avanços mostram-se possíveis; interfaces interativas são es-senciais para aproximarem, ainda mais, homens e máquinas.

o reconhecimento biométrico por comandos de voz e de fala faz parte dessa tecnologia em ascensão. estudos realizados à cerca deste tema proporcionam integração com diversos ramos do conhe-cimento e, prova disto é a quantidade significativa de áreas multidis-ciplinares envolvidas no processo, como por exemplo a fonética, a microeletrônica e o processamento de sinais (cAmBell, 2009; ToG-NeRI; PullellA, 2011)

As técnicas à serem apresentadas neste trabalho, visam fazer parte de uma tarefa maior que é a implementação de um sistema de identificação de locutor. Tais técnicas, baseadas em redes neurais artificiais (RNA), mais especificamente o Perceptron multi camadas (mlP - multi layer Perceptron), são os modelos de reconhecimento de padrões de base para este estudo.

o objetivo do presente estudo é realizar a classificação, reco-nhecimento e análise de padrões acústicos em vogais cardinais do português brasileiro, em posição tônica, buscando identificar padrões capazes de recortar as vogais dos trecho de áudio. Para esta tarefa realizou-se: levantamento de corpus de falantes do português, com aleatorização de gênero e idade, utilizando protocolo padronizado; análise e identificação dos trechos de áudio de interesse e implemen-tar redes neurais com base nas características relevantes para sepa-ração dos grupos de vogais.

2 - PrIncíPIos da Produção da Voz e Fala

o processo de comunicação inicia-se no cérebro falante por um processo linguístico de geração do significado através de palavras e frases, em seguida um comando fisiológico ativa o trato vocal para gerar os sinais acústicos, que consistem em flutuações da pressão de ar que são geradas pelas pregas vocais são moduladas pelo trato vocal e irradiadas pela boca. A mensa-gem gerada é transmitida através de um canal de comunicação, como o ar por exemplo, até o ouvinte. A mensagem é detectada pelo ouvido, a flutuação de pressão no ar presente na mensagem transmitida é interpretada pelo cérebro do ouvinte. A figura 1 a seguir ilustra de forma resumida o processo de comunicação por um canal com ruído interferente.

Nos estudos dos processos de comunicação é importante ain-da definir o conceito de linguagem como a base de transmissão de significado através de sinais, sons, gestos, ou marcas entendidas dentro de um grupo ou comunidade (PIeRANGelo; GIulIANI, 2007). com o passar dos tempos a humanidade esforçou-se para comuni-car-se através de grandes distâncias, utilizando diferentes linguagens como batidas de tambores, sinais de fogo ou os telégrafos, ótico de chappe e elétrico de morse (GleIcK, 2013).

A transmissão elétrica dos registros acústicos ocorreu a partir dos desenvolvimentos de Bell que realizou estudos dos mecanismos da fala e da audição para aprimorar o processo de comunicação por voz em longas distâncias. Inicialmente as te-lecomunicações eram realizadas preservando a forma de onda acústica, entretanto, o desenvolvimento de técnicas matemáticas de análise e processamento de sinais permitiu realizar a codi-ficação da onda acústica alcançar longas distâncias com mais eficiência (GleIcK, 2013).

Page 2: IDENTIFICAÇÃO DE PADRÕES DE VOGAIS EM REGISTROS …blog.newtonpaiva.br/pos/wp-content/uploads/2017/04/POS13-04.pdf · falamos. seja por sons cuja pronuncia varia, ... posição

28 | PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785

2.1 - Sons da FalaA fala é um resultado dos movimentos realizados pelos órgãos

do aparelho respiratório e digestivo do nosso organismo. Flanagan (2013) acrescenta que: os sons da fala sonora são produzidos por ação de vibração das pregas vocais. Produção de som desta maneira é chamado fonação. Qualitativamente, a ação das pregas vocais é muito parecido com o bater de uma bandeira, ou a vibração da palhe-ta em um instrumento de sopro. (FlANAGAN, 2013, p. 17)

então os sons da fala propriamente dito é a propagação do som modelado pelo trato vocal e que é identificado pela percepção hu-mana no seu processo de recepção. silva (2007) esclarece através de exemplo que os sons da fala: constituem o primeiro aspecto que chama a nossa atenção quando depara-se com uma língua qualquer ou com um dialeto de nossa própria língua, diferente daquele que falamos. seja por sons cuja pronuncia varia, relativamente a nossa própria pronuncia, seja por sons “diferentes”

daqueles de nossa língua e que existem numa língua estrangei-

ra que nos propomos a aprender, seja ainda por diferenças na prosó-dia, que fazem uma língua ou um dialeto parecerem mais ou menos “cantados” do que nossa língua ou nosso dialeto. (sIlvA, 2007, p. 5)

o estudo dos sons da fala se divide em duas partes, sendo uma parte ligada a área da fonética e a outra na área da fonologia. Fonética é o estudo dos sons como entidades físico-articulatórias do apare-lho fonador. sendo seu objetivo descrever os sons da linguagem e analisar suas particularidades articulatórias, acústicas e perceptivas (cAllou, 1990), ou seja, a fonética tem como objetivo identificar todo mecanismo que é envolvido pelo organismo na produção e recepção dos sons da fala.

A Fonologia é o estudo de diferenças fônicas (intencionais e dis-tintivas) que geram significados e suas relações entre os elementos e condições de diferenciação que combinados podem formar morfemas, palavras e frases (cAllou, 1990). A representação das duas aborda-gens no estudo dos sons segue a codificação proposta pela Associa-ção Fonética Internacional (IPA - International Phonetic Association).

Figura 1 – Processo de comunicação.Fonte: elaborada pelos autores.

Figura 2 - Representação acústico-articulatória das vogais com relação ao quadrilátero vocálico do português brasileiro em com relação ao diagrama da IPA.

Fonte: Russo; BehlAu, (1993, p. 36).

Page 3: IDENTIFICAÇÃO DE PADRÕES DE VOGAIS EM REGISTROS …blog.newtonpaiva.br/pos/wp-content/uploads/2017/04/POS13-04.pdf · falamos. seja por sons cuja pronuncia varia, ... posição

PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785 | 29

2.2 - VogaisAs vogais são sons produzidos com o estreitamento da cavidade

oral devido à aproximação do corpo da língua e do palato sem que haja fricção de ar. As vogais se opõem às consoantes por 1) serem acusti-camente sons periódicos complexos; 2) constituírem núcleo de sílaba e sobre elas poder incidir acento de tom e/ou intensidade (cAllou,1990).

Descrevem-se as vogais, do ponto de vista articulatório nos se-guintes aspectos: posição da língua em termos de sua altura, sendo baixa ou alta; posição da língua em termos anterior/posterior; e arre-dondamento ou não dos lábios.

A altura da língua refere-se a sua posição durante a articulação. A altura representa a posição vertical ocupada pela língua na cavi-dade oral. existe um ponto alto, mais próximo do céu da boca, em oposição a um ponto baixo, mais próximo do maxilar, existindo ainda posições verticais intermediárias. segundo silva (2007), na descrição das vogais do português deve-se considerar quatro níveis básicos de altura, que referem-se também na abertura do maxilar (lábios) como sendo (lADeFoGeD; JohNsoN, 2014): fechada (alta), meio-fechada (média-alta), meio-aberta (média-baixa), aberta (baixa).

em relação a anterioridade e posterioridade da língua, pode-se dizer que é um parâmetro que avalia sua posição horizontal duran-te a articulação de vogais. ladefoged e Johnson (2014), divide-se a cavidade bucal em três posições horizontais, a primeira localizada a frente, ou anterior, da cavidade oral, próximo aos lábios; a segunda localizada na parte final, ou posterior, da cavidade oral, próximo ao véu palatino; e a terceira, cavidade central, entre estas duas partes.

silva (2007) e ladefoged (2014) concordam que durante a arti-culação de uma vogal lábios podem estar entendidos (distensos ou estriados) ou podem estar arredondados. A tabela 1 ilustra o arredon-damento ou não dos lábios em relação à altura da língua (ou abertura dos lábios) na articulação das vogais.

Para que se pudesse fazer comparações entre as vogais de di-ferentes dialetos, foram determinados pontos ideais de articulação de vogais, que servem como referência para a localização no espaço arti-culatório, estabelecidos a partir de seus limites. essas vogais são cha-madas de cardeais e, em princípio, não pertencem a nenhum dialeto específico. (seARA; NuNes; lAZZARoTTo-volcÃo, 2015, p. 32)

De acordo com Abercrombie et al. (1967) uma vogal cardeal é: um ponto de referência fixo e imutável estabelecido dentro do limite da área vocálica, ao qual qualquer outro som vocálico pode ser relaciona-do diretamente. um conjunto destes pontos de referência constitui um sistema de vogais cardeais e qualquer vogal em qualquer língua pode ser "identificada"neste sistema. (ABeRcRomBIe et al., 1967, p. 151).

Na padronização de vogais cardeais, define-se pontos de refe-rência para descrevê-las e classificá-las. esses pontos são determina-dos de acordo com os três parâmetros anteriormente explicado (altura da língua, anterioridade e posterioridade da língua e arredondamento ou não dos lábios) e em cada ponto localiza-se uma vogal específica, formando na ligação desses pontos um tipo de figura geométrica na forma de trapézio, como é mostrada na figura 3.

Tratando-se da língua do português brasileiro, uma vogal sem-pre compõe uma sílaba e essa vogal em termos fonéticos ocorre em uma intensidade sonora mais elevada que as outras letras que for-mam a sílaba, tornando-se então o núcleo, que para efeitos práticos, ajuda na sua identificação por meios de análise de frequência.

As quantidades de vogais no português brasileiro são refinadas em relação ao modelo internacional em um total de quinze tipos de vo-gais, dividindo entre dez orais (entre tensas e frouxas) e cinco nasais. Na figura 4 está representado o diagrama tridimensional em forma de trapézio que mostra a relação dos parâmetros articulatórios do trato vocal (alta ou baixa, anterior ou posterior, arredondado ou não arre-dondado) indicando as posições das vogais em determinados pontos do diagrama, caracterizando dessa maneira, na padronização de vo-gais cardeais do português brasileiro.

Figura 4 - Representação do diagrama tridimensional das vo-gais cardeais orais.

Fonte: elaborado pelos autores, adaptado de (sIlvA, 1999, p. 5)

Na articulação dos sons da fala, além das propriedades já apre-sentadas, é possível enumerar algumas características secundárias que também qualificam uma vogal, principalmente em relação a outros sons da fala, sendo elas: a duração, desvozeamento, nasalização e tensão.

3 - reconhecImento de Padrões de VogaIs

em regIstros acústIcos

3.1 - Componentes Cepstraiso trabalho de silva (2015) apresenta o cepstrum como a transfor-

mada inversa de Fourier do logaritmo da magnitude espectral do sinal, conforme a definição inicial de (BoRGeRT; heAlY; TuKeY, 1963). esta abordagem foi utilizada para detecção de reflexões e ecos em um sinal e permite extrair do sinal analisado suas componentes reflexivas.

Para Zwetsch et al. (2006) temos a seguinte aplicação para o cepstrum: A análise cepstral do sinal de voz permite trabalhar com o sinal da glote (excitação) e do trato vocal (ressonância) separadamen-te, pelas suas propriedades homomórficas, separando das caracterís-ticas do filtro do trato vocal da sequência de excitação, o que facilita o estudo das alterações das pregas vocais. Dentro das propriedades matemáticas envolvidas no processo, salienta-se principalmente as transformadas de Fourier e funções logarítmicas que resultará em uma função chamada cepstral ou cepstro, responsável pela dissocia-ção do sinal de voz. (ZWeTsch et al., 2006, p. 110).

em outra abordagem realizada por oppenheim Alan; schafer (2010) define o ceptrum discreto como a transformada inversa de Fourier (IFT) do logaritmo do módulo da transformada de Fourier de tempo discreto (DTFT) de um sinal, e o cepstrum complexo como a IFT do logaritmo da DTFT.

Figura 3 – Diagrama das vogais cardeais, Associação Internacional de Fonética.

Fonte: seara; Nunes; lazzarotto-volcão (2015, p. 30 e 31)

Page 4: IDENTIFICAÇÃO DE PADRÕES DE VOGAIS EM REGISTROS …blog.newtonpaiva.br/pos/wp-content/uploads/2017/04/POS13-04.pdf · falamos. seja por sons cuja pronuncia varia, ... posição

30 | PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785

o cepstrum real, que é a parte real do cepstrum complexo, permite o desacoplamento das amplitudes dos modelos fonte-filtro, sendo com y[n] a correlação do sinal x[n] com o filtro h[n], tem-se a seguinte relação cepstral (chIlDeRs; sKINNeR; KemeRAIT,1977):

em seguida, tomando o logaritmo e em seguida a transformada inversa de Fourier:

3.2 - Redes Neurais Artificiaiso modelo das redes neurais artificiais (RNA) foi baseado e,

ainda é estudado, tendo como referência as redes neurais biológi-cas. o cérebro humano, resumidamente, é o responsável por gerir as funções do corpo, mesmo aquelas que são involuntárias ao homem. esta gerência só é possível devida existência dos neurônios, células ramificadas, presentes no encéfalo, na medula espinhal e nos nervos, cuja função é transmitir sinais elétricos provenientes dos receptores sensoriais e enviar sinais para o controle de atividade orgânica.

o corpo humano possui grande quantidade de neurônios que se interligam formando diferentes padrões de acordo com os impul-sos nervosos à serem transmitidos e, na tentativa de modelar essa circuitaria é que foram desenvolvidos os primeiros modelos das redes neurais artificiais.

Figura 5 – comparação entre o neurônio biológico e o modelo de neurônio artificial.

Fonte: elaborado pelos autores.

o primeiro modelo de neurônio artificial foi proposto por mc-culloch e Pitts (1943) e foi baseado nas estruturas físicas do neurônio biológico. A figura 4 faz um comparativo entre um neurônio biológico e o neurônio artificial proposto na época.

3.2.1 - PeRcePTRoN

o perceptron é um modelo matemático de sinapse humana, de múltiplos neurônios (Barreto 2002), o modelo de multicamadas, contemplando além das camadas de entarda e saída, adequa-se em processos de sistemas linearmente separáveis.

A interconexão das entradas à camada de saída por pelo menos uma camada de neurônios intermediária, tipicamente denominada de camada oculta, remove a limitação do perceptron e amplia o leque de problemas solucionados por estas redes. Definido um vetor de entradas x = [x0, x1, x2, x3, ..., xN ] e saídas y = [y0, y1, y2, ..., yN], uma rede neural multicamadas realiza um mapeamento y = f(w,x), da entrada x na primeira camada a saída y, ponderada pelos pesos sinápticos w. As redes multicamadas são, portanto, ferramentas po-derosas, e dado um número suficiente de neurônios elas conseguem

aproximar qualquer função contínua e linear por partes. (sIlvA, 2004)mas como o perceptron só tem viabilidade em processos line-

armente separáveis, foi necessário e proposto métodos para melhoria dessa aplicação, esses métodos se basearam em algoritmos de apren-dizado relacionando a topologia da rede e o aspecto do problema.

Dessa forma de acordo com silva (2004), existem diversas maneiras de se classificar uma rede neural artificial. uma das mais importantes é a classificação pelo processo ou algoritmo de aprendi-zado empregado para treiná-la, que pode ser supervisionado ou não supervisionado.

No aprendizado supervisionado a rede recebe uma série de pa-drões ou vetores de entradas associada a resposta ou saída desejada. o erro gerado entre a saída desejada e a saída gerada pela rede é utilizada para alterar os parâmetros internos (ou pesos sinápticos) da mesma de modo a aproximar sua resposta a saída desejada. este procedimento é repetido até o fim da etapa de treinamento ou até que o erro entre a saída geradas a resposta desejada seja inferior a um limiar predefinido. o processo de treinamento ou aprendizado supervisionado de uma rede neural consiste, essencialmente, em minimizar o erro entre a saída da rede para um determinado padrão de entrada (sIlvA, 2004).

As técnicas ultimamente mais utiliza das para implementação de algoritmos em processos supervisionados que facilita o reconheci-mento de padrões são: backpropagation, feedforward.

o algoritmo backpropagation tornou-se possível a resolução de problemas em sistemas não linearmente separáveis. segundo Barreto (2002), o método de aprendizado backpropagation pode ser aplicado a qualquer rede que usufrui de uma função de ativação diferencial e aprendizado supervisionado.

Durante a fase de treinamento, os sinais/padrões de entrada são apresentados a rede artificial em uma determinada ordem. cada pa-drão de treinamento é propagado adiante, camada após camada, até a produção do sinal/padrão de saída. A saída computada pela rede é então comparada com uma saída desejada. esta comparação irá ge-rar um valor que determinará o erro. este erro será utilizado como uma realimentação para as conexões, que resultará no ajuste dos pesos sinápticos de cada camada num sentido oposto à propagação dos sinais de treinamento.

os acoplamentos retrógrados somente existirão na fase de trei-namento, considerando que as conexões adiante (sentido entrada e saída) serão usadas durante a fase de treinamento e uso da rede.

Fazendo o uso do backpropagation, as camadas ocultas terão os seus pesos ajustados de acordo com as camadas subsequentes, i.e, com as camadas seguintes. Deste modo, os erros computados na camada de saída serão usados para ajustar os pesos entre a última camada escondida ou oculta com a camada de saída. Assim, o erro calculado de uma camada escondida será usado para ajustar os pe-sos da camada oculta anterior. este processo será repetido até que a primeira camada oculta seja ajustada. Desta forma, os erros serão re-tropropagados camada a camada com as devidas correções. Rotina esta que será realizada de uma maneira repetitiva, ajustando os pesos das respectivas camadas.

o processo é repetido por um número determinado de vezes para cada padrão de dados durante o treinamento até que o erro total da saída tenha convergido a um valor mínimo, ou até que algum limite pre-determinado de iterações tenha sido completado. (BARReTo, 2002.)

Portanto, a técnica que implementa o algoritmo backpropaga-tion para Tissot, camargo e Pozo (2012), é um método baseado no gradiente descendente, o que significa que este algoritmo não ga-rante encontrar um mínimo global e pode estagnar em soluções de mínimos locais, onde ficaria preso indefinidamente. contudo, é muito popular e amplamente utilizado no treinamento de RNAs.

Page 5: IDENTIFICAÇÃO DE PADRÕES DE VOGAIS EM REGISTROS …blog.newtonpaiva.br/pos/wp-content/uploads/2017/04/POS13-04.pdf · falamos. seja por sons cuja pronuncia varia, ... posição

PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785 | 31

4 - análIses resultados

4.1 - Análise Exploratória dos parâmetros acústicosAnterior a implementação do sistema de classificação por redes

neurais os autores presentam na presente seção uma análise estatísti-ca do comportamento das características extraídas a partir da análise cepstral.

Partindo do conhecimento prévio que o valor das frequências de ressonância do trato vocal, obtidas pela análise dos formantes, apresentam evidências acústicas da vogal presente no registro de áu-dio (PeTeRsoN; BARNeY, 1952) foi elaborado o processamento dos registros de voz conforme os passos a seguir:

os registros de voz, gravados em uma frequência de amostra-gem de 8 khz e 16 bits de profundidade, contendo palavras isoladas foi delimitado no tempo indicando os trechos que continham vogais de acordo com a codificação anteriormente citada;

- em seguida o áudio foi dividido em quadros (frames), cada frame contendo 20ms (160 amostras) separados por 10ms;

- De cada quadro foi extraído o cepstrum que possuía um tama-nho, excluindo a redundância, de 80 amostras;

- cada quadro foi elencado como uma amostra de áudio de dimensão 80, sendo cada dimensão classificada como um índice cepstral que varia no tempo de acordo com a variação dos quadros;

- os quadros pertencentes a trechos com as diferentes vogais cardinais orais foram agrupados em suas respectivas classes (clus-ters) e o restante do áudio foi agrupado em uma classe denominada "demais sons"e indicada pelo sinal -".

Realizando a análise estatística dos índices cepstrais, ou seja, avaliando o comporta mento da magnitude cepstral de cada índice para cada classe temos suas densidades de probabilidade estima-das. A estimação de densidade de probabilidade não paramétrica é realizada pela ponderação de uma função de núcleo. silverman (1986) e scott(2015) mostram que a densidade de probabilidade esti-mada f(x) é definida da forma:

onde N é o número de amostras da variável aleatória e h o inter-valo do domínio de x que a função kernel K(x) abrange. Para o caso em que a função K(x) é uma distribuição uniforme com h constante, f(x) será o histograma das N amostras. A figura 5 apresenta a dis-tribuição de probabilidade de alguns índices cepstrais, neste caso os índices que apresentaram melhor separabilidade entre as vogais. como esperado os índices cepstrais de menor ordem permitem uma distinção melhor das classes de vogais.

Figura 6 – Distribuição estimada dos componentes cepstrais.Fonte: elaborado pelos autores.

Page 6: IDENTIFICAÇÃO DE PADRÕES DE VOGAIS EM REGISTROS …blog.newtonpaiva.br/pos/wp-content/uploads/2017/04/POS13-04.pdf · falamos. seja por sons cuja pronuncia varia, ... posição

32 | PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785

os gráficos foram traçados de acordo com as componentes responsáveis por mostrar determinadas características das vogais do português brasileiro. A intenção é analisar se existe alguma relação entre uma determinada componente e sua respectiva informação grá-

fica, que auxiliem a distinção entre as vogais, na qual uma componen-te pode servir de complemento à outra.

um resumo qualitativo da capacidade de distinção dos princi-pais incides cepstrais é apresentado na tabela 1 a seguir.

Tabela 1 – Tabela de classificação subjetiva da capacidade de distinção dos índices cepstrais.

Fonte: elaborado pelos autores.

Para verificar o agrupamento das características extraídas de cada amostra os autores optaram por utilizar a distância euclidiana (DuDA; hART; sToRK, 2004), entre as médias das características de cada indivíduo, conforme as equações a seguir.

onde D é a dimensionalidade das classes, e neste caso D = 24.

Figura 07 – Distância euclidiana entre as vogais.

Fonte: elaborado pelos autores.

4.2 - Separação de Vogais Utilizando Redes NeuraisA topologia da rede neural escolhida para a separação de vo-

gais foi a perceptron, com uma camada de entrada com dez neurô-nios ativados por uma função tangencial e um neurônio de saída. Foram selecionadas como características de entrada os primeiros 24 índices cepstrais.

Para cada classe de vogais e para os demais sons a serem classificados uma rede neural distinta foi treinada, utilizando a técnica backpropagation com gradiente conjugado escalonado, para separar uma determinada classe das demais. Para verificar a performance de cada rede neural, tem-se a curva Roc (Receiver operating charac-teristic) da figura 8. A curva Roc apresenta a performance indicando

em seu eixo das abcissas a taxa de falso positivo e no eixo das orde-nadas a taxa de verdadeiro positivo.

Na análise da curva Roc, quanto mais próxima a curva passar do ponto (0,1) melhor será a distinção da classe desejada. Nota-se na figura 19 performance um pouco abaixo de 85% para o /u/ e para os demais sons e de pelo menos 90% nas demais classes.

Figura 08 – característica de operação do Receptor (Roc).

Fonte: elaborado pelos autores.

A distribuição do erro quadrático médio de classificação, apre-sentados na figuras 09 e 10 mostram que os classificadores possuem a maioria das ocorrências centradas em

zero, com exceção do classificador projetado para separa as vogais dos demais sons, que apresentou espalhamento.

Page 7: IDENTIFICAÇÃO DE PADRÕES DE VOGAIS EM REGISTROS …blog.newtonpaiva.br/pos/wp-content/uploads/2017/04/POS13-04.pdf · falamos. seja por sons cuja pronuncia varia, ... posição

PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785 | 33

Figura 09 – Distribuição do erro de classificação.

Fonte: elaborado pelos autores.

Figura 10 – Distribuição do erro de classificação.

Fonte: elaborado pelos autores.

Page 8: IDENTIFICAÇÃO DE PADRÕES DE VOGAIS EM REGISTROS …blog.newtonpaiva.br/pos/wp-content/uploads/2017/04/POS13-04.pdf · falamos. seja por sons cuja pronuncia varia, ... posição

34 | PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785

entretanto, analisando as matrizes de confusão da tabela 2 é possível explorar algumas características importantes dos classifi-cadores que são um pouco mais difíceis de visualizar. A matriz de confusão apresenta basicamente a distinção entre duas classes, nas colunas são apresentados os valores reais e conhecidos e nas linhas os valores classificados.

Na tabela 2, na diagonal principal apresentam as amostras que são de um determinado grupo e foram classificadas corretamente, sen-do eles o verdadeiro positivo e o verdadeiro negativo. Na contra diago-nal tem-se os grupos que foram classificados de forma incorreta, sendo eles o falsos positivo e o falso negativo. Nestas células da tabela o valor em negrito é o numero de amostras e o valor abaixo a percentagem de dentre o total de amostras que aquela célula representa.

Na primeira célula da terceira coluna de cada matriz, é possível encontrar valores da precisão (em negrito) e a taxa de detecção falsa,

a precisão é a relação entre o número de verdadeiros positivos pelo número de classificações positivas enquanto a taxa de detecção falsa é a relação entre o número de falsos positivos pelo número de classi-ficações positivas.

Na segunda célula abaixo tem-se a taxa de omissão falsa (em negrito) e o valor de predição negativa. o primeiro relaciona o nu-mero de falsos negativos pelo número de classificações negativas, enquanto o segundo relaciona o numero de verdadeiro negativos pelo número de classificações negativas.

Na primeira célula horizontal da terceira linha, tem-se os valo-res da sensibilidade (em negrito), e a taxa de falso negativo. A sen-sibilidade é a relação entre o numero de verdadeiros positivos pelo número de valores positivos, enquanto a taxa de falso negativo é a relação entre o número de falsos negativos pela número de valores realmente positivos.

Na segunda célula horizontal de cor azul, tem-se os valores da taxa de falso positivo e a especificidade (em negrito). A taxa de falso positivo é a relação entre o numero de falso positivos pelo número de valores negativo, enquanto a especificidade é a relação entre o número de verdadeiros negativos pela número de valores realmente negativos.

Por fim, na célula da terceira linha e terceira coluna tem-se a acurácia (em negrito) que é a soma da taxa de verdadeiro positivo e verdadeiro negativo enquanto a imprecisão é a soma das taxa de falso positivo e falso negativo.

em relação aos valores obtidos na tabela 4 é importante apontar que a detecção de vogais por redes neurais apresenta uma acurácia elevada, com valores acima de 95% para as vogais específicas e aci-ma de 84% para separação genérica de vogais.

entretanto as taxas de omissão falsa é acima de 79% apenas para a vogal /a/ e para a distinção de vogais. Também vale a pena

citar a especificidade que possui a com a maioria dos valores abaixo de 80%, a a sensibilidade com valores elevados e a precisão, que no caso da vogal /u/ foi em torno de 10%.

5 - conclusão

o presente trabalho apresentou resultados satisfatórios, uma vez que todos objetivos apresentados foram cumpridos. vale ressaltar a importância de uma análise prévia dos registros acústicos pois, des-te ponto em diante além de confirmar-se a possibilidade da separação de vogais de registros de áudio também obteve-se um esboço dos resultados que viriam ao utilizar-se uma modelagem adequada, no caso optou-se pelas RNA’s.

Após estabelecer as diretrizes, utilizou-se da técnica de extração do cepstrum dos registros gravados. Isto propiciou a correta separa-ção dos dados, sendo fator essencial para o treinamento das redes neurais artificiais, pois além de qualificar os parâmetros de entrada da

Tabela 2 – matriz de confusão das redes neurais.

Fonte: elaborado pelos autores.

Page 9: IDENTIFICAÇÃO DE PADRÕES DE VOGAIS EM REGISTROS …blog.newtonpaiva.br/pos/wp-content/uploads/2017/04/POS13-04.pdf · falamos. seja por sons cuja pronuncia varia, ... posição

PÓS EM REVISTA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA 2016/2 - NÚMERO 13 - ISSN 2176 7785 | 35

rede, as componentes do cepstrum possibilitou identificar o grau de dificuldade de separação de determinada vogal de outra e/ou demais sons, cujo resultado foi exposto em uma matriz representando a dis-tância euclidiana entre as classes (vogais e demais sons).

utilizando-se de todos estes precursores foi implementada uma rede neural artificial, do tipo perceptron multi-camadas, que após o devido treinamento, foi capaz de identificar vogais imersas em quais-quer trechos de áudios e classificá-las com bom percentual de acerto. os resultados da rede foram normalizados e traduzidos em percentu-ais e, por intermédio da matriz de confusão se tornou possível analisá-los de forma clara e objetiva.

Desta forma, através dos estudos realizados, foi possível identifi-car, mapear e separar qualquer uma das vogais cardeais que estejam presentes em registros acústicos, independente do falante; abrindo caminho para implementações futuras que auxiliem a identificação do indivíduo por meio da biometria vocal.

Ficam como propostas para a continuidade a exploração mais profunda da técnica de detecção de vogais utilizando redes neurais, utilizando técnicas de classificação cruzada; enriquecer o conjunto de vocábulos do corpus visando aprimorar o poder de aprendizado das redes neurais; e explorar mais características, em especial vocais pre-sentes em contexto de fala contínua;

reFerencIasBARReTo, J. m. Introdução às redes neurais artificiais. [s.l.]: Florianópolis: uFsc, 2002.

BoRGeRT, B.; heAlY, m.; TuKeY, J. The quefrency analysis of time series for echoes: cepstrum, pseudo-autocovariance, cross-cepstrum and saphe craking: Proc. symp. on Time series Analysis, Rosenblatt, m. ed. [s.l.]: John Wiley and sons, Inc, 1963.

BRAGA, P. d. l. Reconhecimento de voz dependente de locutor utilizando Redes Neurais Artificiais. Trabalho de conclusão de curso. (Bacharelado). [s.l.]: engenharia da computação, universidade de Pernambuco, Recife, 2006.

cAllou, D. Iniciação à fonética e à fonologia. Zahar, 1990. IsBN 9788537804124. Disponível em: <https://books.google.com.br/books?id=lo-14f6vxYxoc>.

cAmBell, J. Forensic speaker recognition: A need for caution. Ieee sig. Process. mag, p.95–103, 2009.

chIlDeRs, D. G.; sKINNeR, D. P.; KemeRAIT, R. c. The cepstrum: A guide to processing. Proceedings of the Ieee, Ieee, v. 65, n. 10, p. 1428–1443, 1977.

DuDA, R. o.; hART, P. e.; sToRK, D. G. Pattern classification. [s.l.]: John Wiley & sons., 2004.

FlANAGAN, J. l. Speech analysis synthesis and perception. [s.l.]: springer science & Business media, 2013.

GleIcK, J. A informação: um história, uma teoria, uma exurrada. Tradução de Augusto calil. são Paulo: companhia das letras, 2013.

lADeFoGeD, P.; JohNsoN, K. A course in phonetics. [s.l.]: Nelson educa-tion, 2014.

mcculloch, W. s.; PITTs, W. A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, springer, v. 5, n. 4, p. 115–133, 1943.

oPPeNheIm AlAN; schAFeR, R. Discrete-Time Signal Processing. [s.l.]: Pearson, 2010.

PeTeRsoN, G. e.; BARNeY, h. l. Control methods used in a study of the vowels. The Journal of the acoustical society of America, Acoustical society of

America, v. 24, n. 2, p. 175–184, 1952.

Russo, Iêda; BehlAu, mara. Percepção da fala: análise acústica. são Paulo: lovise, 1993.

scoTT, D. W. Multivariate density estimation: theory, practice, and visualiza-tion. [s.l.]: John Wiley & sons, 2015.

seARA, I. c.; NuNes, v. G.; lAZZARoTTo-volcÃo, c. Fonética e fonologia do português brasileiro. [s.l.]: editora contexta, 2015.

sIlvA, A. P. Componentes mel cepstrais. 2015. Disponível em: <https://www.scribd.com/d o c u m e n t _ d o w n l o a d s / d i r e c t / 3 0 1 7 0 8 7 6 0 ? e x t e n s i o n = p d f & f -t=1456928201&lt=1456931811&user_id=2215059&uahk=Jjo3uwcQc4uYcmbri8uNTFYnm/e>.

sIlvA, R. m. Redes Neurais Artificiais Aplicadas a Detecção de Intrusos em Redes TCP/IP.

Dissertação (mestrado) — Pontificia universidade catolica do Rio de Janeiro, 2004.

sIlvA, T. c. O método das vogais cardeais e as vogais do português brasi-leiro. Revista de Estudos da Linguagem, v. 8, n. 2, p. 127–153, 1999.

sIlvA, T. c. Fonética e fonologia do português: roteiro de estudos e guia de exercícios. [s.l.]: contexto, 2007.

sIlveRmAN, B. W. Density estimation for statistics and data analysis. [s.l.]: cRc press, 1986.

TIssoT, h. c.; cAmARGo, l. c.; PoZo, A. Treinamento de redes neurais fee-dforward: comparativo dos algoritmos backpropagation e differential evolution. In: Brazilian conference on Intelligent systems. [s.l.: s.n.], 2012.

ToGNeRI, R.; PullellA, D. An overview of speaker identification: Accu-racy and robustness issues. Ieee circuits And systems magazine, second Quarter 2011.

ZWeTsch, I. c. et al. Processamento digital de sinais no diagnóstico di-ferencial de doenças laríngeas benignas. scientia medica, v. 16, n. 3, p. 109–114, 2006.

notas de FIm1 - Adelino Pinheiro silva: é bacharel (2004) e mestre (2007) em engenharia elétrica pela universidade Federal de minas Gerais, e capacitado (2009) em Fonética Forense junto a secretaria Nacional de segurança Pública. membro efetivo da Associação de criminalística do estado de minas Gerais - AcemG. Atualmente cursa o Doutorado no ceFAlA/uFmG (centro de estudos da Fala, Acústica, linguagem e música) atua na seção de engenharia legal no Instituto de criminalística de minas Gerais, onde realiza exames técnicos e pesquisas, leciona no centro universitário Newton Paiva e na Academia de Polícia civil. e-mail: [email protected].

2 - Flávio lúcio de souza: é bacharel (2016) em engenharia elétrica pelo centro universitário Newton Paiva. Atualmente trabalha na maxtrack Industrial lTDA com análise e reparo de equipamentos eletrônicos. e-mail: [email protected].

3 - vinícius Rodrigo may: é bacharel (2016) em engenharia de controle & Auto-mação pelo centro universitário Newton Paiva. Atualmente trabalha na maxtrack Industrial lTDA com automação de testes voltados à sistemas embarcados; Atua também como free-lancer, na criação de sistemas embarcados, desenvol-vendo tanto o hardware (printed circuit board) quanto o Firmware (utilizando-se da linguagem c-ANsI). e-mail: [email protected].