sistema biométrico para reconhecimento de orador pela segmentação convex hull

Upload: damibard

Post on 09-Jan-2016

8 views

Category:

Documents


0 download

DESCRIPTION

Trabalho de conclusão de curso

TRANSCRIPT

  • Dami Doria Narayana Duarte

    Sistema Biomtrico para Reconhecimento deOrador pela Segmentao Convex Hull

    So Cristovo

    Fevereiro de 2014

  • Dami Doria Narayana Duarte

    Sistema Biomtrico para Reconhecimento de Orador pelaSegmentao Convex Hull

    Trabalho de Concluso de Curso de Gradua-o apresentado ao Departamento de Enge-nharia Eltrica (DEL) da Universidade Fede-ral de Sergipe, como parte dos requisitos ne-cessrios obteno do ttulo de Engenheiroem Eletrnica.

    Universidade Federal de Sergipe UFS

    Centro de Cincias Exatas e Tecnologia CCET

    Departamento de Engenharia Eltrica DEL

    Orientador: Prof. Dr. Jugurta Rosa Montalvo Filho

    So CristovoFevereiro de 2014

  • Dami Doria Narayana Duarte

    Sistema Biomtrico para Reconhecimento de Orador pelaSegmentao Convex Hull

    Trabalho de Concluso de Curso de Gradua-o apresentado ao Departamento de Enge-nharia Eltrica (DEL) da Universidade Fede-ral de Sergipe, como parte dos requisitos ne-cessrios obteno do ttulo de Engenheiroem Eletrnica.

    So Cristovo, 21 de fevereiro de 2014:

    Prof. Dr. Jugurta Rosa MontalvoFilho

    Orientador

    Prof. Dr. Leocarlos Bezerra da SilvaLima

    Convidado 1

    Profa. Ma. Rassa Bezerra RochaConvidada 2

    So CristovoFevereiro de 2014

  • Agradecimentos

    Agradecimentos principais ao professor Jugurta Montalvo, pelas ideias e pelapacincia, aos meus colegas e amigos, Matheus Garcia, Marcelo Botelho, caro Vasconcelos,Tarciana Almeida, Isla Costa, Denisson de Carvalho, Albert Firmo, Diego Dda, LuizNeto, Stephany Kamarry, minha companheira Brbara Brando e minha famlia.

  • ResumoEste trabalho de concluso de curso tem por objetivo desenvolver e testar um sistemade verificao de orador, utilizando segmentao da fala em unidades silbicas. Para aimplementao do sistema, ferramentas clssicas de processamento de voz foram utilizadas.A representao em baixa dimenso dos sinais analisados foi baseada nos Coeficientescepstrais de frequncia mel (MFCC), relativos etapa de extrao de caractersticas.Para comparao de sinais de voz, foram utilizados um pr-alinhamento baseado nocontorno de energia, e o alinhamento DTW. Testes foram efetuados numa base de dadoscom vocabulrio definido, em problemas de verificao de orador dependente de texto esemi-dependente de texto. Os resultados obtidos indicam que o sistema aqui proposto seequipara, em termos de desempenho, a sistemas encontrados na literatura.

    Palavras-chaves: reconhecimento de orador. segmentao da voz. mfcc. dtw. convex hull.

  • AbstractThis study aims at developing and testing a speaker verification system, using speechsegmentation into syllabic units. To implement the system, classical tools of speechprocessing were used. The low-dimentional representation of the analysed signals werebased on Mel Frequency Cepstral Coefficients (MFCC) on the feature extraction step. Forcomparison of voice signals, a pre-alignment based on the energy contour, and the DTWalignment were used. Tests were carried out on a database of well-defined vocabulary,for text-dependent and semi-dependent verification problems. The results indicate thatthe system proposed here is comparable, in terms of performance, to systems found inliterature.

    Key-words: speaker recognition. speech segmentation. mfcc. dtw. convex hull.

  • Lista de ilustraes

    Figura 1 Produo e reconhecimento de voz . . . . . . . . . . . . . . . . . . . . 20Figura 2 Viso geral da anatomia do sistema auditivo humano (modificado de

    Kollmeier (HAVELOCK; KUWANO; VORLNDER, 2008)) . . . . . . 21Figura 3 Onda estacionria (linha escura contnua) formada em um tubo fechado 22Figura 4 Cclea estirada. Resposta a frequncias mais altas se concentram no

    incio da cclea enquanto a resposta a frequncias mais baixas se con-centram no pice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    Figura 5 Padro auditivo de Fletcher de um apito de barco a vapor a esquerda,e a relao entre posio da terminao nervosa na cclea e frequncia(retirado de (Fletcher, 1940)). . . . . . . . . . . . . . . . . . . . . . . . 24

    Figura 6 Vista esquemtica do trato vocal humano (modificado de (RABINER;JUANG, 1993)). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    Figura 7 Banco de Filtros Triangulares . . . . . . . . . . . . . . . . . . . . . . . 29Figura 8 Calculando o MFCC sobre o sinal (a) encontra-se um espectro (b) (em

    azul) puro, em (c) temos as energia de sada de cada filtro em azul. Ossinais em vermelho em (b) e em (c) representam a suavizao de baixadimenso dos coeficientes MFCC. . . . . . . . . . . . . . . . . . . . . . 29

    Figura 9 Diagrama de Blocos do MFCC . . . . . . . . . . . . . . . . . . . . . . 30Figura 10 Matriz de custo para duas sequncias x (na vertical) e y (na horizontal),

    utilizando distncia euclidiana como funo de custo c. Regies escurasso de baixo custo, enquanto regies de alto custo so mais claras. . . . 32

    Figura 11 A esquerda, a matriz de custo acumulado e a direita a matriz de custocom o caminho timo em branco. . . . . . . . . . . . . . . . . . . . . . 33

    Figura 12 Etapas do pr-alinhamento. . . . . . . . . . . . . . . . . . . . . . . . . 35Figura 13 Processo de segmentao sobre a funo de intensidade de um sinal

    com trs slabas. A abcissa dos grficos o tempo, e a ordenada aintensidade do sinal. A funo convex hull a linha pontilhada, enquantoa funo a linha contnua. . . . . . . . . . . . . . . . . . . . . . . . 38

    Figura 14 Estrutura genrica de um sistema de verificao de orador. . . . . . . . 39Figura 15 Resultado dos testes do Sistema 1 para a base de dados. . . . . . . . . 41Figura 16 Histograma das distncias acumuladas para oradores iguais e pala-

    vras quaisquer (linha contnua) e para oradores diferentes e palavrasquaisquer (linha tracejada). . . . . . . . . . . . . . . . . . . . . . . . . 41

    Figura 17 Histograma de todas as distncias disponveis em SD (mesma pala-vra), para oradores iguais (linha contnua) e oradores diferentes (linhatracejada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

  • Figura 18 Espao de caractersticas dos segmentos de fala, representado em duasdimenses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    Figura 19 Resultado dos testes do Sistema 2 para a base de dados, com scorebaseado na mdia de MinSD . . . . . . . . . . . . . . . . . . . . . . . . 44

    Figura 20 Histograma dos scores obtidos na comparao entre oradores diferentes,utilizando a abordagem binomial. . . . . . . . . . . . . . . . . . . . . . 45

    Figura 21 Resultado dos testes do Sistema 2 para a base de dados, com scorebaseado em verossimilhana. . . . . . . . . . . . . . . . . . . . . . . . . 46

    Figura 22 Histograma das distnciasMinSD , comparao entre oradores diferentes(linha tracejada), e comparao entre oradores iguais (linha contnua). . 47

    Figura 23 Resultado dos testes do Sistema 2 para base de sinais embaralhados,com score baseado em verossimilhana. . . . . . . . . . . . . . . . . . . 48

    Figura 24 Resultado dos testes do Sistema 2 para base de sinais normal, com scorebaseado em verossimilhana e verificao independente de texto. . . . . 49

  • Lista de tabelas

    Tabela 1 Variao do EER em funo da durao do sinal. . . . . . . . . . . . . 17Tabela 2 Teste com palavras de 3 slabas (esquerda e direita). . . . . . . . . . 37

  • Sumrio

    1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.1 Estado da arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.3 Estrutura do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2 O Sistema Auditivo e O Aparelho Fonador . . . . . . . . . . . . . . 192.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2 Sistema Auditivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.3 Aparelho Fonador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    3 Coeficientes Cepstrais de Frequncia Mel . . . . . . . . . . . . . . . 273.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2 Implementao clssica do MFCC . . . . . . . . . . . . . . . . . . . . . 27

    4 Pr-alinhamento e Alinhamento DTW . . . . . . . . . . . . . . . . . 314.1 Implementao Clssica do DTW . . . . . . . . . . . . . . . . . . . . . 314.2 Pr-alinhamento baseado em perfil de energia . . . . . . . . . . . . . . . 33

    5 Segmentao da fala . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    6 Implementao e Resultados Obtidos . . . . . . . . . . . . . . . . . 396.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396.2 Descrio da base de dados . . . . . . . . . . . . . . . . . . . . . . . . . 396.3 Sistema 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406.4 Sistema 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406.4.1 Experimento com palavras embaralhadas (semi-independentes do texto) 466.4.2 Sobre as limitaes mais evidente do Sistema 2 . . . . . . . . . . . . . . 48

    7 Concluses e trabalho futuros . . . . . . . . . . . . . . . . . . . . . 51

    Referncias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

  • 15

    1 Introduo

    Processamento de voz um campo da engenharia com diversas aplicaes que,basicamente, se dividem em: sntese de voz, reconhecimento de fala/orador e codificao(JR, 1997). Reconhecimento de orador trata da tarefa de estabelecer, ou verificar, aidentidade de um orador atravs da sua voz. Sistemas de reconhecimento de oradorencontram-se no mbito de sistemas biomtricos, mais especificamente em biometria decomportamento, em que um indivduo deve executar uma tarefa para ser reconhecido(MENDES et al., 2011).

    Existem duas tarefas principais em reconhecimento de orador: identificao deorador e verificao de orador (JR, 1997). Nesta ltima, pretende-se confirmar que osegmento de voz em anlise foi produzido por determinada pessoa, cuja identidade clamada de antemo, tomando-se apenas uma deciso binria de aceitao ou rejeio.Em identificao de orador, o objetivo selecionar o orador de um universo de oradoresconhecidos, sem qualquer indicao prvia da sua identidade. As aplicaes mais imple-mentadas so baseadas em cenrios em que usurios pronunciam senhas ou frases fixasde um pequeno vocabulrio. Isso implica o que conhecido como sistemas dependentesdo texto (BIMBOT et al., 2004). Tais restries so bem razoveis e podem melhorar apreciso de sistemas desse tipo, no entanto h casos em que complicado (ou impossvel)obedecer essas restries. Um exemplo o background verification, no qual um orador verificado por trs da cena, enquanto ele conduz outras interaes de fala. Para casos dessetipo, um sistema mais flexvel apto a operar sem a necessria cooperao do orador, eindependente do que dito torna-se necessrio.

    Nas ltimas duas dcadas, tecnologias de reconhecimento de orador tm sidolanadas em diversos produtos comerciais, principalmente na tarefa de verificao. Aaplicao principal na rea de segurana. Grandes empresas utilizam reconhecimento deorador como forma de redefinio peridica de senhas dos funcionrios. Um exemplo oTelephone banking, servio que disponibiliza as operaes de consulta de saldo, transfernciabancria e pagamentos atravs do telefone. A autenticao da voz pode substituir autilizao de PINs para controle das chamadas efetuadas por indivduos em liberdadecondicional (MENDES et al., 2011).

    Uma caracterstica importante do reconhecimento de orador, que a distingue deoutros mtodos de biometria, o uso de equipamento pouco especializado para recolhi-mento de dados biomtricos. possvel implementar sistemas desse tipo na maioria dosSmartphones disponveis no mercado atualmente.

  • 16 Captulo 1. Introduo

    1.1 Estado da arteUm sistema de reconhecimento de orador geralmente constitudo pelos seguintes

    componentes: extrao de caractersticas, pattern matching e deciso. A etapa de extraode caractersticas d-se no processo de capturar as informaes mais relevantes de umsinal de voz. Pattern matching a etapa de comparao entre os vetores de caractersticasda etapa de extrao. A deciso o processo no qual a mquina, por meio de um mtodobem definido, aceita ou rejeita o orador de teste em questo.

    As primeiras tentativas para reconhecimento automtico de orador foram desen-volvidas na dcada de 1960, aproximadamente uma dcada depois do reconhecimentoautomtico de fala (FURUI, 2005). Deste ento, uma grande variedade de tcnicas eferramentas foram desenvolvidas e analisadas para cada etapa do reconhecimento de voz.

    Dentre os extratores de caractersticas mais utilizados, esto: Coeficientes cepstraisde frequncia mel (MFCC), Coeficientes cepstrais de frequncia linear (LFCC), Cdigospreditivos lineares (LPC) e Cruzamento por zero com amplitude de pico (ZCPA) (JR,1997), (BIMBOT et al., 2004). As ferramentas de pattern matching reconhecidamenteutilizadas so: Dynamic Time Warping (DTW), Gaussian Mixture Models (GMM) eCadeias de Markov escondidas (HMM) (MENDES et al., 2011).

    O desempenho de sistemas biomtricos, incluindo sistemas de verificao de orador, frequentemente medido em termos de Equal Error Rate. O EER o ponto em que a taxade falso negativo (FRR) e taxa de falso positivo (FAR) so iguais. A taxa de falso negativocorresponde probabilidade do sistema rejeitar o orador em teste, quando na realidade oorador se encontra-se inscrito na base de dados. Falso positivo o caso em que o sistemaaceita um orador como sendo um dos oradores inscritos erroneamente (MENDES et al.,2011).

    A avaliao comparativa do desempenho de sistemas de reconhecimento de oradorindependente de texto tem sido conduzida, em grande parte, pelas avaliaes do NationalInstitute of Standards and Technology (NIST). Baseado nos dados do evento NIST-NSE2008 1, a tabela 1 apresenta a variao dos EER de um sistema em funo da duraodos sinais analisados. notvel o acrscimo no desempenho do sistema com a durao dosinal.

    1.2 ObjetivosO presente trabalho consiste na anlise e implementao de um sistema de reconhe-

    cimento de orador (mais especificamente, de avaliao de orador) semi-dependente de texto

    1 Disponvel publicamente em http://www.itl.nist.gov/iad/mig/tests/sre/2008/official_results/index.html

  • 1.3. Estrutura do texto 17

    Durao (segundos) EER(%)2 22,484 17,968 13,4310 12,1120 7,650 4,54150 3,37

    Tabela 1 Variao do EER em funo da durao do sinal.

    (em que um vocabulrio de palavras levado em conta, no entanto, so usadas sequnciasde palavras aleatoriamente ordenadas) utilizando a segmentao da fala em unidadessilbicas por meio do mtodo Convex Hull. Para tanto, foram estudadas formas de anlisee teste dos mtodos j existentes, e extensamente utilizados na literatura, e dos mtodosadaptados para este trabalho. Visando o foco nas consequncias da segmentao silbicapara a tarefa de reconhecimento de orador, a organizao do sistema aqui implementado simplificada, o extrator de caractersticas utilizado o MFCC, para a etapa de PatternMatching utilizado o DTW potencializado com um pr-alinhamento baseado em perfilde energia.

    1.3 Estrutura do textoNo captulo 2 feita uma reviso do processo de produo e reconhecimento da

    voz pelo ser humano, apresentando conceitos fundamentais para o processamento desinais de voz. Nos captulos 3, 4 e 5, so apresentadas as ferramentas utilizadas para aimplementao do sistema de reconhecimento de orador. No captulo 6 apresentada ametodologia do trabalho, os testes realizados e os resultados obtidos. No captulo 7 soapresentadas as concluses e os possveis trabalhos futuros.

  • 2 O Sistema Auditivo e O Aparelho Fonador

    2.1 IntroduoA compreenso dos mecanismos de produo, recepo e percepo do som

    particularmente para os humanos conduz naturalmente a diversas abordagens diferentespara o reconhecimento automtico de fala e de orador. O processo de produo/percepoda fala, ilustrado na figura 1, pode ser dividido nas seguintes etapas (RABINER; JUANG,1993):

    1. Formulao da mensagem: a ideia que o orador quer transmitir, via ondas sonoras,ao ouvinte. Pode ser representado de forma textual e produzido pelo crebro doorador. o incio da etapa de gerao;

    2. Codificao: se tratando de fala, a codificao desempenhada pela linguagem. Demodo grosseiro, a etapa em que a mensagem textual transformada em umasequncia de fonemas que correspondem ao som da palavra, no qual a entonao escolhida usando variao de timbre, volume e pitch, que tambm refletem parterelevante da mensagem;

    3. Controle neuro-muscular: aps a codificao pela linguagem, o orador deve executaruma srie de comando musculares gerando movimento em regies do corpo que seestendem desde o diafragma at os lbios, utilizando como sistema de controle oprprio aparelho auditivo e ps-auditivo;

    4. Transmisso: uma vez gerado o sinal acstico, ele dever passar pelo canal at oouvinte, em direo etapa de percepo;

    5. Recepo: primeiramente o ouvinte processa o sinal acstico pelo movimento damembrana basilar, gerando uma anlise espectral e temporal corrente;

    6. Transduo neural: converte o sinal espectral da sada da membrana basilar em sinaisativo nos nervos auditivos, correspondendo grosseiramente ao processo de extraode caractersticas;

    7. Decodificao: etapa no bem compreendida pela comunidade cientfica, nela aatividade neural do nervo auditivo convertida em cdigos de linguagem nos centrossuperiores do crebro e finalmente a mensagem recebida.

  • 2.2. Sistema Auditivo 19

    Formulao da Mensagem

    Codificao

    Controle neuro muscular Transmisso

    Canal

    Recepo

    Transduo neural

    Decodificao

    Figura 1 Produo e reconhecimento de voz

    2.2 Sistema Auditivo

    O sistema auditivo humano dividido em trs partes distintas: o ouvido externo(orelha, canal auditivo e membrana timpnica), o ouvido mdio (ossculos martelo, bigornae estribo) e ouvido interno (cclea, labirinto e nervo auditivo). A figura 2 uma ilustraoda seo transversal do ouvido. O ouvido externo tem a funo de concentrar a onda sonoraincidente de uma grande rea para a pequena rea do canal auditivo por meio da orelha,funcionando como um funil, especialmente em altas frequncias (HAVELOCK; KUWANO;VORLNDER, 2008), em que as dimenses da orelha so da mesma ordem de magnitudedo comprimento de onda. Alm disso, um processo de filtragem, a depender da posio daorelha em relao direo da onda incidente, e a diferena de tempo (fase) interaural sousados pelo crebro para a percepo de localizao da fonte. Na extremidade interna docanal auditivo encontra-se o tmpano, uma membrana fina em forma de cone que separa oouvido externo e o ouvido interno, e tem a funo de transmitir a vibrao sonora do araos ossculos. O tmpano separa duas regies preenchidas com ar (o canal auditivo e o tubode Eustquio), no entanto pode haver variao de presso entre os dois lados, resultandonuma movimentao da membrana. Ao bocejar ou engolir permitimos a equalizao depresso do ouvido externo e o ouvido mdio. A manuteno do equilbrio de presso importante para o livre movimento da membrana timpnica.

    A funo do ouvido mdio, por meio dos ossculos, o casamento de impednciasentre a impedncia da propagao do som no ar (mais baixa) e a impedncia da propagaodo som no lquido que preenche o ouvido interno (mais alta). Isso possvel dado o formatodo ossculo martelo (com maior extenso) que ao vibrar com a membrana timpnica, move

  • 20 Captulo 2. O Sistema Auditivo e O Aparelho Fonador

    Figura 2 Viso geral da anatomia do sistema auditivo humano (modificado de Kollmeier(HAVELOCK; KUWANO; VORLNDER, 2008))

    a bigorna, que imediatamente move o estribo (o menor dos ossculos). Alm disso, a razoentre a rea da membrana timpnica ( 80mm2) e a rea da membrana da janela oval( 3mm2) tambm influencia no casamento de impedncias (BERANEK, 1993). O efeitototal produz um aumento aproximado de fora por unidade de rea em um fator de 50(HAVELOCK; KUWANO; VORLNDER, 2008). Embora o ajuste de impedncias noseja perfeito, pois um fator de aproximadamente 3500 seria requerido para um casamentoentre as impedncias do ar e da gua (usada como aproximao para o lquido interno dacclea, a perilinfa), de acordo com a equao 2.1 ( a densidade do meio, c velocidadedo som no meio e z a impedncia do meio), o ajuste desempenhado pelo ouvido mdio suficiente para uma transmisso eficiente com o mnimo de esforo biolgico.

    cagua 1450[m/s]car 340[m/s]

    agua 997[kg/m3]ar 1, 2[kg/m3]

    z = c zaguazar

    = aguacaguaarcar

    3543 (2.1)

    O ouvido interno a seo mais importante do sistema auditivo. l que o som analisado em termos espectrais, temporais e de intensidade. O ouvido interno tambm tem

  • 2.2. Sistema Auditivo 21

    a funo de balano e posicionamento do corpo, como um acelermetro. Cercado pelo ossotemporal, o ouvido interno consiste de um tubo enrolado em forma de concha a cclea e trs canais semicirculares que se juntam na regio do vestbulo o aparelho vestibular.A anlise a seguir est concentrada na cclea e nas suas funes para a audio.

    A cclea tem duas aberturas: a janela oval, uma membrana na interseco entre oouvido mdio e a cclea, que recebe as vibraes do ossculo estribo e permite a propagaoda onda sonora na perilinfa; a janela redonda, tambm uma membrana na intersecodo ouvido interno com a cclea, que no entanto no recebe as vibraes dos ossculos edessa forma vibra com fase oposta fase da janela oval, permitindo a movimentao daperilinfa, que por sua vez assegura que as clulas ciliadas da membrana basilar sejamestimuladas e que a audio ocorra. A membrana basilar uma estrutura que separa doiscompartimentos ao longo da cclea em que as ondas se propagam. A movimentao dofluido desses compartimentos estimula clulas sensoriais na membrana basilar (clulasciliadas internas) que so conectadas aos neurnios do nervo auditivo.

    Para elucidar como a cclea realiza a anlise espectral do som, podemos fazer umaanalogia da cclea com um tubo sonoro fechado considerando a distncia do incio dacclea at o pice , uma analogia a um tubo aberto seria semelhante, considerando ajuno do duto vestibular e do duto timpnico (helicotrema). A frequncia fundamental deressonncia (f) de um tubo cilndrico com uma extremidade fechada (vide figura 3) estrelacionada com o tamanho do tubo (L), pela equao f = v4L (v a velocidade do som).Dessa forma, nota-se uma correspondncia espacial (L) com a frequncia do som (f).

    L

    Figura 3 Onda estacionria (linha escura contnua) formada em um tubo fechado

    Se, no entanto, o tubo no tiver um formato cilndrico, e sim quase cnico (diminui-o da largura com o aumento do comprimento), a frequncia de ressonncia no ser maisa mesma. Na realidade, cada trecho do tubo criar uma pequena frequncia de ressonnciarelacionada sua posio. De fato, se representarmos a cclea de forma desenrolada,seu formato se assemelhar ao de um tubo quase cnico como ilustrado na figura 4, e aposio da membrana basilar estimulada, correspondente a um ventre de deslocamentodo fluido (ou n de presso hidrulica), depender da frequncia associada posio.Frequncias mais baixas concentram-se no pice da cclea, enquanto frequncias maisbaixas concentram-se no incio da cclea. As clulas ciliadas interna da membrana basilar

  • 22 Captulo 2. O Sistema Auditivo e O Aparelho Fonador

    reagem ao movimento da membrana com disparos nervosos, no entanto esses disparos noocorrem no mesmo nvel para cada clula. De fato, os limiares de disparo de regies comalta taxa espontnea de disparo tendem a ser de 5 a 20 dB menores que as regies combaixa taxa espontnea de disparo (GHITZA, 1994). Os disparos espontneos ocorrem emtaxas de 0 a 100 descargas por segundo e so inervados por aproximadamente dez fibras donervo auditivo, que indicam a atividade espectral na frequncia caracterstica da regio.

    Janela Oval

    Janela RedondaMembrana Basilar

    Helicotrema

    Figura 4 Cclea estirada. Resposta a frequncias mais altas se concentram no incio dacclea enquanto a resposta a frequncias mais baixas se concentram no pice.

    Em 1940, Harvey Fletcher discutiu o processo de audio em seu artigo "AuditoryPattern"(Fletcher, 1940) e l ele props uma representao em formato espiral da atividadeneural da cclea chamada "Padro Auditivo", em que a distncia ao longo das duasextremidades da espiral (de aproximadamente 3 centmetros para a cclea humana) eradisposta de zero a 100, referenciando posio das terminaes nervosas (figura 5).Utilizando dados de experimentos anteriores, Fletcher exps as curvas de limite de audioe de limite da dor, representando o limiar em que um tom puro comeara a ser percebido e olimiar em que um tom puro podia causar danos ao sistema auditivo, respectivamente. Taiscurvas no eram constantes ao longo do espectro auditivo, evidenciando que a percepode intensidade de um som era um aspecto psicofsico. Sendo assim, com experimentossemelhantes aos que deram origem s curvas de limite de audio e limite da dor, oautor desenvolveu as curvas de igual intensidade, que seriam aquelas em que um ouvinteperceberia um tom varrendo todas as frequncias numa mesma intensidade.

    Outro conceito discutido por Fletcher que gerou uma srie de consequncias parao processamento de som foi o de mascaramento auditivo. Mascaramento auditivo frequentemente observado na vida cotidiana quando, por exemplo, um rudo de um aviopassando inibe uma conversao entre duas pessoas, ou quando um celular ao tocar emuma sala de concerto nitidamente percebido pelos intrpretes, mesmo que relativamentedistantes da fonte sonora, enquanto o mesmo celular tocando no seria percebido pelosindivduos mais prximos, em um ambiente fortemente ruidoso de uma boate. Isto ,

  • 2.2. Sistema Auditivo 23

    Figura 5 Padro auditivo de Fletcher de um apito de barco a vapor a esquerda, e arelao entre posio da terminao nervosa na cclea e frequncia (retiradode (Fletcher, 1940)).

    componentes de um som interagem com componentes de outro som similar em frequnciae/ou tempo e os torna inaudveis ou parcialmente inaudveis (HAVELOCK; KUWANO;VORLNDER, 2008). Uma variedade de experimentos psicoacsticos pode ser realizadapara se verificar e quantizar o efeito do mascaramento. Em geral, um sinal com intensidadefixa (mascarador) confrontado simultaneamente a outro sinal de intensidade varivel(mascarado), para determinar um limiar de audio do sinal mascarado. Repetindo-se essametodologia para frequncias prximas frequncia do sinal mascarador, produzido umpadro de mascaramento (HAVELOCK; KUWANO; VORLNDER, 2008).

    Experimentos de mascaramento podem ser feitos com sinais de tons puros. Noentanto, quando o sinal mascarador um rudo de largura de faixa estreita, um resultadoparticular observado. Se a banda do rudo (com densidade espectral constante) foralargada, o limiar de um tom mascarado pelo rudo ir crescer mais lentamente alm deuma determinada largura de faixa. Ao que parece, a energia do rudo que interfere no sinalmascarado est integrada a uma banda crtica e a energia fora desta banda desprezada.Fazendo uma correspondncia com a cclea (em que frequncia est associada posio),a banda crtica sempre corresponde a um nico elemento de largura na membrana basilar( 0, 5 mm) (Fletcher, 1940). Essa organizao significa que frequncias diferentes ressonamcom amplitudes diferentes ao longo da membrana, ou seja, a banda crtica define umfiltro auditivo adaptativo. O formato e a largura de faixa do filtro auditivo assunto dediscusso at hoje, usando a aproximao simplificada de um filtro retangular, Glasbergand Moore (GLASBERG; MOORE, 1990) sugeriram uma frmula para a largura de faixado filtro auditivo denominada de Equivalente Rectangular Bandwidth (ERB), usada comoreferncia em diversos trabalhos.

  • 24 Captulo 2. O Sistema Auditivo e O Aparelho Fonador

    2.3 Aparelho FonadorO conjunto de rgos que se estende desde o pulmo at a boca e o nariz, respon-

    sveis pela fonao humana, denominado Aparelho Fonador. Um diagrama do tratovocal est ilustrado na figura 6. O ar expelido pelos pulmes passa pela traquia e vibraas pregas vocais (ou cordas vocais) na laringe, a depender da tenso aplicada nas pregasvocais. O fluxo de ar fica ento fatiado em pulsos quasi-peridicos de presso (chamadosde pulsos glotais), que em seguida so modulados pela faringe, cavidade nasal e cavidadeoral. Dependendo do movimento de articuladores (como lngua, dentes, lbios e glote)diferentes sons so produzidos. Uma das caractersticas predominante da fala a altura davoz (referenciada recorrentemente na literatura com pitch). Numa descrio simplificada,quem determina o pitch a frequncia fundamental do pulso glotal. Isto , quanto maior atenso nas pregas, mais alto o som produzido.

    Figura 6 Vista esquemtica do trato vocal humano (modificado de (RABINER; JUANG,1993)).

    A fala produzida como uma sequncia de sons, portanto a mudana do estado eda posio das cordas vocais, assim como dos articuladores, reflete na produo da fala.Fonema a menor unidade sonora de uma lngua, e o nmero de fonemas distintos, mesmoem uma dada lngua, no fruto de consenso. Todavia, a diviso de fonemas nas categoriasde vogais e consoantes til para a caracterizao de alguns aspectos da fala.

    Os fonemas voclicos so frutos da ressonncia das cavidades do trato vocal, notada-mente a cavidade oral e a cavidade nasal. O modo como a rea da seo transversal de cadacavidade varia ao longo do trato vocal determina as frequncias de ressonncia (formantes)do som produzido. Ento, de modo simplificado, as vogais podem ser caracterizadas por

  • 2.3. Aparelho Fonador 25

    um conjunto de poucos formantes (tipicamente de dois a quatro).

    Os fonemas consonantais so frutos principalmente da variao temporal de forman-tes, da insero de silncios, exploses de energia e rudo. As consoantes so naturalmentemais complexas de caracterizar comparadas s vogais (caracterizadas simplesmente pelosformantes). No entanto, em 1939, Homer Dudley (DUDLEY, 1939) foi capaz de demonstrarque a informao essencial da fala est encapsulada em padres de modulao com taxasde variaes mais lentas que 25 ciclos por segundo, distribudos em 10 canais. Sua ideiaprincipal foi a de particionar o espectro acstico num nmero relativamente baixo decanais e analisar as flutuaes de energia na sada de cada um desses canais.

  • 3 Coeficientes Cepstrais de Frequncia Mel

    3.1 IntroduoEm 1980, Davis e Mermelstein (1980) formalizaram o mtodo de extrao de carac-

    tersticas para sinais de udio Mel-Frequency Cepstral Coefficients (MFCC), influenciadopelo trabalho de Bridle e Brown (1974). No artigo original de 1974 An ExperimentalAutomatic Word-Recognition System, a descrio do mtodo j era muito semelhante aoprocesso usado atualmente, isto , a partir da sada de uma srie de filtros passa-faixaespaados no-uniformemente, 19 coeficientes so calculados pela transformada cosseno(MERMELSTEIN, 1976).

    Desde ento, o MFCC vem sendo utilizado como uma poderosa ferramenta derepresentao do som, por conseguir condensar as caractersticas timbrsticas da fala emvetores de baixa dimenso, tipicamente entre 5 e 20 coeficientes Cuadros et al. (2007)e Sigurdsson, Petersen e Lehn-Schiler (2006) computam 15 coeficientes a partir dasrespostas aos filtros triangulares, enquanto Logan et al. (2000) utiliza 13 coeficientes eHasan, Jamil e Rahman (2004) 20 coeficientes. O MFCC tornou-se popular entre sistemasde reconhecimento de orador e de fala por ser relativamente simples de computar epor obter altas taxas de reconhecimento, principalmente em ambientes controlados. Noentanto, a fragilidade do MFCC em relao a mudanas nas caractersticas do canal (comoreverberao, tipo de microfone de aquisio do sinal) e rudo aditivo bem conhecida ediversos tipos de abordagens no intuito de compensar tais distores foram estudadas emtrabalhos diversos (MONTALVO; ARAUJO, 2012).

    3.2 Implementao clssica do MFCCComo o MFCC tem a tarefa de representao de sinais acsticos de voz, na intenso

    de reconhecimento, seja de fala ou de orador, o MFCC incorpora diversas caractersticasdo sistema auditivo humano. O processamento do sinal d-se no domnio da frequncia,portanto o primeiro passo em direo ao clculo do MFCC aplicar a TransformadaDiscreta de Fourier, geralmente utilizando o mtodo FFT (Fast Fourier Transform). Emseguida, para simular o modo como o sistema auditivo humano percebe a variao defrequncia de maneira logartmica, o sinal filtrado por um banco de filtros triangularessobrepostos com espaamento baseado na escala Mel. Tais filtros recorrem ao conceito debanda crtica, pela similaridade no formato e visto que sua largura varia em funo dafrequncia. A escala Mel uma escala psicoacstica de frequncia em que as percepes dedissimilaridades de altura entre sons harmnicos com frequncias distitas so julgadas iguais

  • 3.2. Implementao clssica do MFCC 27

    em testes de audio. Seu nome deriva da palavra melodia, indicando um paralelismocom a msica. Fletcher (1940) props uma aproximao simplificada para o formato dosfiltros auditivos da Membrana Basilar, assumindo um forma retangular, e em que a largurade banda poderia ser aproximada pela funo Equivalent Rectangular Bandwidth (ERB).Isto , um sinal com largura de faixa menor que o relativo ERB excita uma regio limitadada Membrana Basilar, e o limiar de audio absoluto nessa regio consequentementeaumentado (MONTALVO; ARAUJO, 2012), gerando o efeito de mascaramento auditivo.Dessa forma, a escala Mel encaixa-se bem para a disposio dos filtros cocleares visto queela gera um ERB aproximadamente constante em sua graduao. A relao entre a escalade frequncia em Hertz e em Mel descrita na equao 3.1.

    fmel = 2595 log10(

    1 + fHz700

    )(3.1)

    Apesar de diversos estudos proporem modelos mais refinados dos filtros cocleares como o Traveling Wave Filters utilizado por Kim, Lee e Kil (1999) e o MultibandpassNonlinear Filter utilizado por Ghitza (1994) a simplificao para o formato triangularno representa significativas perdas no desempenho do MFCC, de acordo com uma sriede experimentos desenvolvidos no artigo "Comparison of Different Implementations ofMFCC "(ZHENG; ZHANG; SONG, 2001). De fato, alm do formato do filtro no prejudicarconsideravelmente o MFCC, outras caractersticas tambm so pouco relevantes, tais comonmero de filtros, o espaamento no eixo da frequncia (seja em Mel, em Bark ou emoutra escala equivalente) e o nmero de coeficientes cepstrais utilizados. No entanto,uma caracterstica mostra-se altamente relevante no mtodo do MFCC: a sobreposiodos filtros. No processamento clssico, a sobreposio dos filtros de 50%. At 1KHz oespaamento dos filtros linear uma aproximao da escala Mel, para dar maior resoluoa essa faixa de frequncia. A partir de 1KHz o espaamento logartmico seguindo aescala Mel. Cada filtro tem energia unitria. Dessa forma a amplitude dos filtros lineares constante, enquanto a amplitude dos filtros com espaamento logartmico decai como aumento da frequncia de acordo com a figura 7. A amplitude dos filtros pode serconstante, como foi utilizado por Davis e Mermelstein (1980) em 1980, mas filtros comenergia unitria fazem mais sentido porque no amplificam nem atenuam sinais em suabanda de atuao.

    Para simular a percepo logartmica de intensidade sonora do ouvido humano, calculado o logaritmo de base dez da energia de sada de cada filtro triangular e, finalmente,os coeficientes cepstrais de frequncia mel so obtidos calculando a transformada cossenodiscreta tipo II (DCT-II) das energias logartmicas dos filtros. A representao em baixadimenso dos coeficientes da DCT pode ser vista como uma suavizao do espectro, dandofoco ao contorno de energia, exemplificado na figura 8. Supondo o processamento de umsinal de voz qualquer ilustrado na figura 8 (a) com n amostras, o espectro do sinal ter

  • 28 Captulo 3. Coeficientes Cepstrais de Frequncia Mel

    10000

    Amplitu

    de

    Frequncia

    Figura 7 Banco de Filtros Triangulares

    tambm n amostras entre zero e a frequncia de amostragem do sinal ilustrado na figura8 (b) em azul. Dessa forma, o espectro ter muitos detalhes, no entanto a representao doespectro pela energia de sada de cada filtro triangular figura 8 (c) em azul j diminuio nvel de detalhamento em relao ao espectro puro. J a representao do espectro eda energia de sada dos filtros por alguns coeficientes da DCT figura 8 (b) e (c) emvermelho indica as concentraes de energia no espectro do sinal.

    (a) Sinal. Eixo das abcissasrepresentando o tempo.

    (b) Espectro. Eixo dasabcissas representandofraquncia linear.

    (c) Sada do Banco de Filtros.Eixo das abcissas repre-sentando frequncia emescala Mel.

    Figura 8 Calculando o MFCC sobre o sinal (a) encontra-se um espectro (b) (em azul)puro, em (c) temos as energia de sada de cada filtro em azul. Os sinais emvermelho em (b) e em (c) representam a suavizao de baixa dimenso doscoeficientes MFCC.

    Para sintetizar o processamento do MFCC ser apresentada uma srie de passos,seguindo como referncia a implementao de Malcolm Slaney (disponvel publicamentena internet 1) no ambiente de programao MATLAB, tambm ilustrados na figura 9.

    1. Para analisar um sinal s(n), com n = 1, 2, 3...N amostras e frequncia de amostragem1 http://www.ee.columbia.edu/ dpwe/e6820/matlab/mfcc.m

  • 3.2. Implementao clssica do MFCC 29

    fa, deve-se dividir s(n) em fq sinais por segundo (taxa de quadros) de 400 amostras(sq(m) = s(nq + m 1),m = 1, 2, 3...400). Para cada quadro so calculados 13coeficientes MFCC;

    2. Pr-processamento: cada sq pr-enfatizado segundo a funo de transfernciaH(z) = 1 0, 97z1 e ponderado pela janela de Hamming de 400 amostras, sj(m) =sq(m)jh(m) = sq(m)

    (0, 54 0, 46 cos

    (2pi(m1)

    400

    )). Em seguida, sj(m) concatenado

    com zeros para o clculo da FFT de 512 pontos;

    3. Filtragem: o espectro Sq(k) do sinal sj(m) ento filtrado por 40 filtros triangulares,dos quais 13 so linearmente espaados entre 133,3 Hz e 1KHz, e 27 so log-espaadosentre 1KHz e 7KHz. As energias nas sadas de cada filtro so ento somadas, log10-transformadas e indexadas em um vetor Ef de dimenso 40;

    4. 13 coeficientes cepstrais so calculados a partir da DCT tipo II de Ef para cadaquadro do sinal s(n).

    Pr-processamento

    Pr-nfase Janelamento

    DFT

    Banco de FiltrosLogaritmo das EnergiasMFCC's a partir da DCT

    Sinal

    Figura 9 Diagrama de Blocos do MFCC

  • 4 Pr-alinhamento e Alinhamento DTW

    Dynamic Time Warping (DTW) um mtodo para medir a similaridade entreduas sequncias temporais. Para tanto, as duas sequncias so deformadas de forma nolinear para corresponder uma outra. O DTW tem sido usado para comparar sinaisem reconhecimento de assinatura (FAUNDEZ-ZANUY, 2007), reconhecimento pticode caracteres (LEVIN; PIERACCINI, 1992), reconhecimento de escrita cursiva (NIELS;VUURPIJL, 2005). Em reas como minerao de dados e recuperao de informao, oDTW aplicado com sucesso para lidar automaticamente com deformaes de tempoe velocidades diferentes associados a dados dependentes do tempo (MLLER, 2007).Alm disso, o DTW reconhecidamente utilizado para sinais de voz em sistemas dereconhecimento de fala/orador (RABINER; ROSENBERG; LEVINSON, 1978).

    4.1 Implementao Clssica do DTWO objetivo do DTW alinhar e comparar duas sequncias temporais, x = (x1, x2, ..., xN )

    de tamanho N e y = (y1, y2, ..., yM) de tamanho M , baseado em uma funo de custo,c, que mapeia um par de vetores (xn, ym) em um valor escalar. Tipicamente, c(xn, ym) pequeno se xn e ym so semelhantes, e c(xn, ym) grande se xn e ym so discrepantes.Calculando a funo de custo para cada par de elementos de x e y, gerada uma matriz decusto de ordem N por M , C(n,m) = c(xn, ym). A figura 10 ilustra uma matriz de custoscorriqueira para sinais de udio. Regies mais escuras representam custos menores.

    Podemos observar algumas linhas mais escuras (de baixo custo) na figura 10 e,intuitivamente, o alinhamento timo deve percorrer algumas dessas linhas. No entanto,algumas restries devem ser levadas em conta. Se o alinhamento entre x e y for representadocomo uma sequncia w = (w1, w2, ..., wL), com wl = (nl,ml), w deve seguir trs restries:

    1. Condio de fronteira: w1 = (1, 1) e wL = (N,M);

    2. Condio de monotonicidade: n1 n2 ... nL e m1 m2 ... mL;

    3. Condio de passo: wl+1 wl {(1, 0), (0, 1), (1, 1)}. 1

    Nota-se que a condio de passo implica a condio de monotonicidade. A condiode fronteira refora que os primeiros e os ltimos elementos de x e y so alinhados, vistoque wl representa o alinhamento de xnl com yml .1 Vale notar que a condio de passo pode variar, a depender do problema em questo e at para criar

    restries globais, como discutido por Rabiner e Juang (1993)

  • 4.1. Implementao Clssica do DTW 31

    Figura 10 Matriz de custo para duas sequncias x (na vertical) e y (na horizontal),utilizando distncia euclidiana como funo de custo c. Regies escuras sode baixo custo, enquanto regies de alto custo so mais claras.

    O custo total de um alinhamento w em respeito a x e y definido como

    cw(x, y) =Ll=1

    c(xnl , yml)

    Portanto o caminho timo, w, aquele com custo total mnimo dentre todos os caminhospossveis. Logo, a tarefa do DTW encontrar w e, consequentemente, cw(x, y).

    Uma alternativa para determinar w seria calcular todos os possveis caminhos w.Entretanto, este procedimento levaria a uma carga computacional que cresceria exponenci-almente com N e M . Desta forma, o mtodo de programao dinmica permite diminuira carga computacional para a ordem de N M . Definindo uma matriz de custo acumulado

    D(n,m) = cw(x(1 : n), y(1 : m))

    Nota-se que D(N,M) = cw(x, y). Mller (2007) expe a prova de que D pode sercomputado eficientemente utilizando um algoritmo recursivo baseado na expresso

    D(n,m) = min{D(n 1,m 1), D(n 1,m), D(n,m 1)}+ c(xn, ym)

    , para 1 n N e 1 m M , e definindo D(1 : N, 0) = e D(0, 1 : M) =.Para calcular o alinhamento timo w basta fazer o caminho inverso na matriz de

    custo acumulado, isto , partindo de wL = (N,M), wl1 ser a posio do custo acumulado

  • 32 Captulo 4. Pr-alinhamento e Alinhamento DTW

    20 40 60 80 100 120

    10

    20

    30

    40

    50

    60

    70

    80

    90

    2

    4

    6

    8

    10

    12

    20 40 60 80 100 120

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    200

    300

    400

    500

    600

    Figura 11 A esquerda, a matriz de custo acumulado e a direita a matriz de custo com ocaminho timo em branco.

    mnimo, dadas as condies de passo. A figura 11 ilustra uma matriz de custo acumuladoe o caminho timo desenhado sobre a matriz de custo.

    Para o propsito de reconhecimento de orador, o DTW tem um papel decisivoem comparar vetores de caractersticas advindos de sinais de voz. Por ser uma tcnicarelativamente antiga (trabalhos datam da dcada de 60 (VINTSYUK, 1968)) e bastanteutilizada, diversas formas de otimizao ligadas aos mais variados problemas foramdesenvolvidas, como demonstrado por Rabiner e Juang (1993). Reconhecidamente, asrestries de Itakura (1975) e Sakoe e Chiba (1978) se encaixam s caractersticas da fala,e produzem resultados satisfatrios. No entanto, neste trabalho, o DTW tradicional foiincorporado pois o tamanho dos vetores de caractersticas usados para comparao daordem de vinte unidades, fazendo com que o DTW com restries diminusse bastante aliberdade dos alinhamentos possveis.

    4.2 Pr-alinhamento baseado em perfil de energiaEm situaes em que as dinmicas dos sinais comparados diferem muito par-

    ticularmente quando a mesma palavra dita e ocorrem variaes na prosdia da falade forma radical o DTW tradicional pode no encontrar um alinhamento aceitvel,gerando um custo acumulado incompatvel com a realidade. Alm disso, no intuito decapturar as informaes mais importantes da fala e reduzir as redundncias por meio desub-amostragem, o processo de pr-alinhamento baseado em perfil de energia do sinal incorporado neste trabalho, baseado no algoritmo descrito por Montalvo, Montalvo eRaulino (2012).

    A seguir, a sequncia de passos para o pr-alinhamento de um sinal s apresentada.Vale salientar que este processo significativo no alinhamento do perfil de energia do sinalcom seus vetores de caractersticas (representado pelos MFCCs descrito anteriormente).

  • 4.2. Pr-alinhamento baseado em perfil de energia 33

    Isto , o pr-alinhamento efetuado para cada sinal individualmente:

    sendo a matriz Xs de ordem C por N (cada posio Xs(c, n) representando o c-simocoeficientes MFCC da n-sima janela do sinal s), obter o perfil de energia, s(n),correspondente primeira linha da matriz Xs. 2;

    construir um sinal que representa as variaes positivas de s, de acordo com afrmula

    (i) = s(i+ i) s(i) , s(i+ i) > s(i)0 , s(i+ i) < s(i)

    com i = 1, 2, 3, ..., N i e escolhendo arbitrariamente i = 5 (na verdade, ideve ser uma escolha em funo da frequncia de amostragem de s e da taxa desobreposio das janelas do MFCC). O sinal (i) tende a indicar, com valores maisaltos, o incio de slabas.

    combinar os sinais e na forma + 2. Como e no tem a mesmadimenso, dever ser concatenado com zeros;

    acumular o novo perfil de energia, seguindo

    A(n) = 1Nj=1

    (j)

    nj=1

    (j)

    finalmente, a sequncia de vetores MFCC sub-amostrada de acordo comXs(k) = X(ik)

    para ik = arg min(kA A(i)) em que k = 0, 1, 2, ..., 1A e 0 > A > 1.

    Aps a sub-amostragem, a matriz MFCC X ter um nmero fixo de colunasN0 = 1A . O parmetro de passo A deve ser escolhido baseado no tamanho do sinalanalisado, de forma que a sub-amostragem realmente reduza o nmero de amostras, masque no reduza tanto a ponto de perder informaes relevantes. A figura 12 ilustra asetapas do pr-alinhamento baseado em energia, com os formatos dos sinais correspondentesaos processos realizados. Apesar do sinal resultante do pr-alinhamento na figura 12 estarilustrado como o perfil de energia deformado, quem realmente sofre a sub-amostragemneste processo so os vetores de caractersticas do MFCC (descartando-se o coeficiente 0).No entanto, a representao do pr-alinhamento pela deformao do sinal de energia til para observar duas caractersticas fundamentais do mtodo: as regies de alta energia(creditadas a regies de fala) so alargadas, para fornecer o mximo de informao relevante;e as regies com rudo (notadamente no incio e no fim do sinal) so automaticamentedescartadas, ou comprimidas.2 Como alternativa ao perfil de energia baseado em MFCC, seria possvel utilizar o perfil quadrtico do

    sinal suavizado, a entropia de permutao do sinal (BANDT; POMPE, 2002), ou qualquer medida derepresente a localizao de fala no sinal

  • 34 Captulo 4. Pr-alinhamento e Alinhamento DTWC

    coeficientes MFCC

    N ja

    nela

    s

    Mat

    riz X

    Sub-

    amos

    trag

    em

    Sina

    l de

    varia

    o

    posi

    tiva

    Cont

    orno

    de

    ener

    gia

    com

    bina

    do c

    om v

    aria

    o

    posi

    tiva

    Pr-

    alin

    ham

    ento

    Acum

    ulad

    o da

    ene

    rgia

    2

    Figura 12 Etapas do pr-alinhamento.

  • 35

    5 Segmentao da fala

    Para reconhecimento de fala, muito til segmentar o sinal em slabas pois, apesardo nmero de fonemas silbicos ser bastante grande, possvel armazenar uma basede referncia de slabas para ser comparado (via DTW ou HMM) com o sinal de teste((ERIKSSON, 2009; XIE; NIYOGI, 2006)). No entanto, em sistemas de reconhecimento deorador, mais rara a utilizao de segmentao silbica, pois comum que o treinamentoesteja associado a um comando especfico e, sendo assim, as slabas sempre estaroordenadas na mesma sequncia. Todavia, sistemas desse tipo so frgeis a inseres de sonsindesejados no sinal (como um som de marteladas de uma obra, ou o bater de uma porta),gerando scores fortemente degradados, mesmo quando o sinal deveria ser reconhecidocomo autntico.

    O mtodo utilizado para segmentao da fala neste trabalho o chamado ConvexHull, desenvolvido por Mermelstein (1975) em 1975. Apesar do intuito da segmentao sera diviso da fala em slabas, Mermelstein mostra em seu artigo que, em se tratando domtodo Convex Hull, mais conveniente tratar de Unidades Silbicas do que de slabas.Uma unidade silbica consiste do ncleo da slaba (a vogal), mas pode conter tambmconsoantes das slabas vizinhas, como na frase "bem a tempo", aglutinada na forma [bem]- [nha] - [tem] - [po].

    Como descrito em (MERMELSTEIN, 1975), a fim de se determinar pontos deseparao no sinal de fala, preciso computar a funo de intensidade I. Primeiramenteo sinal filtrado entre 500Hz e 4KHz. Em seguida, calculada a energia quadrtica quelogo depois suavizada com uma janela deslizante de amplitude (VILLING; TIMONEY;WARD, 2004). Neste trabalho, ao invs de utilizar a funo de intensidade como descrita, utilizado o sinal (descrito na seo 4.2, pgina 33). Um teste para comparar a eficinciade ambas funes de intensidade foi realizado com 152 sinais, representando frases com 3unidades silbicas, os resultados esto expostos na tabela 2. Apesar de ambas funes deintensidade concentrarem os resultados no nmero correto de unidades silbicas, notvela superioridade de sobre I.

    Funo Nmero de slabas encontradas (%)de intensidade 1 2 3 4 5

    I 4,61 21,71 40,13 19,74 13,82 0 0,66 64,47 26,97 7,89

    Tabela 2 Teste com palavras de 3 slabas (esquerda e direita).

    O convex hull da funo de intensidade definido como a mnima magnitudemonotonicamente no-decrescente do incio at o mximo da funo de intensidade, e

  • 36 Captulo 5. Segmentao da fala

    monotonicamente no-crescente at o final. A diferena entre o convex hull e a funo deintensidade serve como uma medida de possvel segmentao, isto , se a diferena formaior que um dado limiar, um marco de fronteira ser sinalizado na posio. A figura 13ilustra um processo de segmentao comum. Inicialmente calculado o convex hull (linhapontilhada) da funo de intensidade (linha contnua). O marco p1 ento segmentado,pois d1 maior que o limiar de segmentao L. O processo de segmentao continuaiterativamente, at que d3 < L e o sinal dividido em trs segmentos temporais.

    p1 p1

    d1d2

    p2

    d3

    d1>L

    p2

    d2>L

    p3

    d3

  • 37

    6 Implementao e Resultados Obtidos

    6.1 Introduo

    O desenvolvimento do sistema partiu do pressuposto de que ferramentas clssi-cas de processamento de sinais de voz, organizadas de maneira simples, podiam gerarresultados satisfatrios na tarefa de verificao de locutor independente do texto. Dessaforma, as etapas principais de um sistema de reconhecimento de orador (figura 14) foramdesenvolvidas utilizando as ferramentas descritas nas sees anteriores deste trabalho, ouseja, o extrator de caractersticas utilizado foi o MFCC, a etapa de comparao deu-sepelo DTW e a etapa de deciso est exposta no decorrer desta seo.

    Extrao de Caractersticas

    Extrao de Caractersticas

    Cadastro

    Teste

    Modelagem do Orador

    Pattern Matching Deciso

    Aceitao

    Rejeio

    Figura 14 Estrutura genrica de um sistema de verificao de orador.

    A anlise foi desenvolvida por meio da implementao de dois sistemas. O Sistema 1 um sistema de reconhecimento de orador dependente de texto, sem segmentao silbicada fala, com etapa de deciso baseada em distncia acumulada do DTW. O Sistema 2 um sistema de reconhecimento de orador semi-dependente de texto, com segmentao dafala em unidades silbicas, com etapa de deciso baseada em verossimilhana.

    6.2 Descrio da base de dados

    Constituda por 375 registros de 5 palavras curtas (avance, esquerda, direita,pare e recue) pronunciadas 10 vezes por cada um dos 8 oradores (6 homens e 2 mulheres),as amostras da base foram coletadas em ambientes no controlados, como domiclios e salasde aula, numa taxa de 8000 amostras por segundo, e quantizao de 16 bits por amostra. Aaquisio das amostras foi efetuada com dispositivos mveis (como smartphones), utilizandoseus respectivos microfones embutidos (MONTALVO; MONTALVO; RAULINO, 2012).

  • 38 Captulo 6. Implementao e Resultados Obtidos

    6.3 Sistema 1Simplificando o problema, por ora, para fins de comparao e avaliao, um sistema

    de verificao de orador dependente de texto (Sistema 1) pode ser construdo da seguinteforma:

    Coeficientes MFCC foram calculados a partir de apenas um sinal de cadastro deorador (pronunciando uma nica palavra). A matriz de caractersticas foi entopr-alinhada (ver sec. 4.2, pag. 33) e armazenada como modelo do orador;

    Para cada sinal de teste foi calculada a matriz de caractersticas (MFCC), pr-alinhada e comparada com o modelo de orador via DTW;

    A distncia acumulada do DTW foi armazenada e utilizada como score para deciso;

    A etapa de deciso utilizada neste sistema foi, simplesmente, uma limiarizaoda distncia acumulada gerada da comparao via DTW, isto , se a distnciaacumulada da comparao fosse menor que um limiar dist, o sinal de teste seriaconsiderado como do mesmo orador, caso contrrio, o sinal de teste seria rejeitado. 1

    O grfico da figura 15a ilustra o histograma das distncias acumuladas para os sinaisda base de dados. A linha contnua representa a distribuio das distncias acumuladaspara comparaes corretas (orador de cadastro igual ao orador de teste), e a linha tracejadarepresenta a distribuio das distncias acumuladas para comparaes incorretas (oradorde cadastro diferente do orador de teste). O grfico da figura 15b representa a taxa defalsa rejeio (FRR) e a taxa de falsa aceitao (FAR) em funo do limiar dist. O EER(Equal Error Rate) encontrado foi de aproximadamente 4,6%, para dist 102. Ou seja, acada 100 comparaes biomtricas, menos de cinco deteces erradas de oradores ocorrem.

    Apesar do Sistema 1 no ser compatvel com o objetivo deste trabalho (poisconsidera a verificao de orador dependente de texto), os resultados obtidos com eleserviram como referncia para os modelos descritos em seguida.

    6.4 Sistema 2Comparar duas palavras diferentes, de um mesmo orador, utilizando o alinhamento

    DTW uma ferramenta claramente inadequada. Se o intuito for capturar as caractersticastimbrsticas do orador, provvel que o DTW encontre semelhanas locais, como slabas1 Vale lembrar que, em decorrncia do pr-alinhamento, a matriz de caractersticas de cada sinal analisado

    da mesma ordem (12 coeficientes MFCC por 84 janelas de anlise do sinal). Como a durao mdiados sinais da base de dados de aproximadamente 1,2 segundo (o que gera aproximadamente 120janelas de anlise por sinal), a subamostragem fixa do pr-alinhamento no degenera as caractersticasdo sinal.

  • 6.4. Sistema 2 39

    50 100 150 2000

    0.02

    0.04

    0.06

    0.08

    0.1

    0.12

    0.14

    Distncia acumulada

    Conc

    entra

    o

    (%)

    (a) Histograma de distncias acumuladaspara comparaes de mesmo orador (li-nha contnua) e comparaes de orado-res diferentes (linha tracejada).

    50 100 150 2000

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    EER 4,6%

    FRR

    FAR

    (b) Taxa de falsa aceitao (FAR) e taxade falsa rejeio (FRR) para dist en-tre 50 e 200. O EER encontrado foi deaproximadamente 4,6%.

    Figura 15 Resultado dos testes do Sistema 1 para a base de dados.

    ou entonaes parecidas mesmo em oradores diferentes. O grfico da figura 16 representao histograma das distncias acumuladas do alinhamento DTW para comparaes entreoradores iguais, pronunciando qualquer palavra (linha contnua) e distncias para oradoresdiferentes, pronunciando qualquer palavra (linha tracejada). notvel a confuso entre asduas distribuies, o que resulta em uma impossibilidade de discernimento entre oradorespor meio de limiarizao de distncia acumulada.

    50 100 150 200 250 300 3500

    0.02

    0.04

    0.06

    0.08

    0.1

    0.12

    0.14

    0.16

    Distncia acumulada

    Conc

    entra

    o

    (%)

    Figura 16 Histograma das distncias acumuladas para oradores iguais e palavras quais-quer (linha contnua) e para oradores diferentes e palavras quaisquer (linhatracejada).

    Uma alternativa para contornar este problema seria comparar slabas semelhantesentre os sinais de cadastro e de teste. Por exemplo, ao comparar as palavra lamentos ementores, verificam-se algumas slabas semelhantes. Ainda assim, quando no existemslabas perceptivelmente semelhantes entre as palavras comparadas, slabas diferentes

  • 40 Captulo 6. Implementao e Resultados Obtidos

    podem emitir distncias acumuladas pequenas, devido s redundncias existentes no somvoclico. Dessa forma, a segmentao da fala em unidades silbicas, utilizando o mtodoConvex Hull, mostra-se til.

    Sendo assim, um segundo sistema de verificao de orador dependente de texto(Sistema 2) organizado da seguinte forma:

    O sinal de cadastro segmentado utilizando a funo (seo 4.2, pgina 33) comlimiar de segmentao L = 0, 8. Cada matriz de caractersticas de cada segmentoencontrado pr-alinhada e armazenada como modelo do orador;

    Cada sinal de teste tambm segmentado utilizando a funo , com limiar desegmentao L = 0, 8. Cada matriz de caractersticas de cada segmento encontrado pr-alinhada e comparada com o modelo do orador; 2

    A comparao agora no to intuitiva, tendo em vista a segmentao da fala.Contudo, como o objetivo encontrar slabas semelhantes entre sinais, a comparaoexaustiva uma soluo. Se o sinal de cadastro tiver NC segmentos, e o sinal deteste tiver NT segmentos, ao comparar cada par de segmentos com o DTW, soobtidas NC NT distncias acumuladas no redundantes. Cada comparao podeser armazenada numa matriz SD de ordem NC por NT , ou seja, a comparao dosegmento nC do cadastro com o segmento nT do teste ser armazenada na posioSD(nD, nT );

    Com a matriz SD de distncias cruzadas em mos, no seria estranho utilizar todasas distncias para o clculo de scores. Entretanto, como era de se esperar, dentretodas as distncias de uma matriz SD de comparao entre oradores iguais, existeuma srie de distncias discordantes (entre slabas) que no deveriam ser levadasem conta. Isso refletido na distribuio bimodal de distncias para oradores iguaisda figura 17. Apesar de que um conjunto de distncias se aglomeram em volta de20, outro conjunto se comporta semelhantemente distribuio de distncias deoradores diferentes. Em concordncia com a estratgia de localizao de slabassemelhantes entre os sinais, e uma alternativa de filtrar as distncias esprias, pode-se considerar apenas as distncias mnimas entre segmentos de sinais comparados.A ttulo de ilustrao, em uma representao simplificada e bidimensional para oespao de caractersticas dos segmento de fala, como na figura 18, cada segmento decadastro tem trs distncias associadas aos trs segmentos de teste, mas apenas amenor distncia (linha escura) considerada no processo de deciso. Este processo equivalente a procurar por distncias mnimas nas colunas da matriz SD.

    2 Novamente, em decorrncia do pr-alinhamento, a matriz de caractersticas de cada segmento do sinalanalisado da mesma ordem (12 coeficientes MFCC por 21 janelas de anlise do sinal). Supondo umadurao mdia das slabas entre 300 e 400 ms (que gera entre 30 e 40 janelas de anlise do sinal), asubamostragem fixa do pr-alinhamento no degenera as caractersticas do sinal.

  • 6.4. Sistema 2 41

    10 20 30 40 50 60 70 80 900

    0.02

    0.04

    0.06

    0.08

    0.1

    0.12

    0.14

    Distncia acumulada

    Conc

    entra

    o

    (%)

    Figura 17 Histograma de todas as distncias disponveis em SD (mesma palavra), paraoradores iguais (linha contnua) e oradores diferentes (linha tracejada).

    Cadastro

    Teste

    Figura 18 Espao de caractersticas dos segmentos de fala, representado em duas dimen-ses.

    A etapa de deciso no pode ser mais uma simples limiarizao, afinal o resultadoda comparao de dois sinais um vetor (MinSD) de distncias mnimas de SD. Neste caso,aps a limiarizao, o vetor MinSD tornar-se- um vetor de nmeros binrios, indicandose cada segmento ou no advindo do orador de cadastro. Dessa forma, O processode deciso mais ingnuo seria o de calcular a percentagem de acertos no vetor MinSDlimiarizado, gerando um score entre zero (nenhum indcio do orador de cadastro no sinalde teste) e um (indcio mximo do orador de cadastro no sinal de teste). O grfico da figura19a representa o histograma das distncias acumuladas mnimas (MinSD), a linha contnuarepresentando o mesmo orador (dependente de texto) e a linha tracejada representandooradores diferentes. Visualmente estipula-se o limiar dist = 26. J o grfico da figura 19brepresenta a curva de FAR e FRR para o score baseado na mdia de MinSD , limiarizado

  • 42 Captulo 6. Implementao e Resultados Obtidos

    em dist = 26. O EER obtido com esse tipo de deciso foi de aproximadamente 11,4 %,um valor bem maior que o EER obtido com o Sistema 1.

    10 20 30 40 50 60 700

    0.02

    0.04

    0.06

    0.08

    0.1

    0.12

    0.14

    0.16

    0.18

    Distncia acumulada por segmento

    Conc

    entra

    o

    (%)

    (a) Histograma de distncias acumuladaspara comparaes de mesmo orador (li-nha contnua) e comparaes de orado-res diferentes (linha tracejada).

    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    Score

    FRR

    FAREER11,37%

    (b) Taxa de falsa aceitao (FAR) e taxade falsa rejeio (FRR) para o scoreentre 0 e 1. O EER encontrado deaproximadamente 11,4%.

    Figura 19 Resultado dos testes do Sistema 2 para a base de dados, com score baseadona mdia de MinSD .

    Com o vetor binrio (relativo limiarizao deMinSD), surge uma correspondnciaentre este trabalho e o processo de reconhecimento de ris, descrito no artigo de Daugman(2004). Sem muito aprofundamento, o reconhecimento de ris em (DAUGMAN, 2004)d-se a partir do cdigo de fase da ris (vetor de caractersticas binrio). Para compararduas ris, basta calcular a distncia de Hamming normalizada entre os dois cdigos deris. O autor mostra que a distribuio dos scores (distncia de Hamming normalizada)comporta-se de acordo com uma distribuio binomial, com mdia igual a 0,5 (p = 0, 5) e249 graus de liberdade (N = 249), para um teste com mais de 9 milhes de comparaesentre ris diferentes. Ou seja, cada comparao binria do cdigo de iris como um testede Bernoulli, com probabilidade de acerto p = 0, 5 e so realizados efetivamente N = 249testes. Para uma varivel aleatria comportar-se de acordo com uma distribuio binomial, necessrio que cada teste de Bernoulli seja independente um do outro. A respeito doteste de independncia estatstica, o autor afirma: "[...] virtualmente garantido que doiscdigos de ris diferentes passem no teste de independncia, em decorrncia dos tantosgraus de liberdade do problema, e que falhe, excepcionalmente quando um cdigo de fase comparado com outra verso dele mesmo."

    Se as comparaes entre segmentos de fala tambm forem independentes, a anlisedesenvolvida no artigo (DAUGMAN, 2004) servir para o reconhecimento de orador aquidiscutido. Se o limiar de distncia dist for igual mediana das distncias acumuladaspara comparaes entre oradores diferentes, espera-se que MinSD limiarizado tenha, emmdia, o mesmo nmero de uns e de zeros; ou melhor, espera-se que o nmero de uns secomporte como uma varivel aleatria com distribuio binomial.

  • 6.4. Sistema 2 43

    Baseado nos dados da figura 19a, a distribuio de distncias acumuladas emcomparaes de oradores diferentes tem uma mediana estatstica igual a 33,78. Fazendo,dist = 33, 78, limiarizando o vetor MinSD , e calculando o score como o nmero de uns,dividido pelo nmero de segmentos do sinal de cadastro (NC), podemos observar ascaractersticas do scores para comparaes entre oradores diferentes. A mdia estatsticados scores encontrada foi mscore = 0, 488 e o desvio padro foi score = 0.351. Se a varivelaleatria do score realmente comportar-se com uma distribuio binomial, ter um grau deliberdade (nmero de testes independentes de Bernoulli) deNb = mscore(1mscore)/2score 2. Isto , apesar da mdia de NC ser aproximadamente trs de segmentos, a distribuiobinomial indica que esses trs segmentos so de tal forma dependentes que valem porapenas dois efetivamente independentes. Como consequncia de Nb 2, os valores possveisde scores s poderiam ser ou 0, ou 1/2, ou 1, explicando a quantidade de scores acumuladosnos cantos do histograma da figura 20. Em (DAUGMAN, 2004), apenas um pequeno grupodos bits do cdigo de fase da ris so mutuamente independentes (2048 bits geram 249graus de liberdade da binomial). Isso quer dizer que, para gerar uma binomial com desviopadro pequeno, preciso muito mais segmentos por sinal analisado.

    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

    0

    500

    1000

    1500

    2000

    2500

    3000

    Contador

    Score

    Figura 20 Histograma dos scores obtidos na comparao entre oradores diferentes, utili-zando a abordagem binomial.

    De qualquer forma, tomar a deciso baseada na anlise binomial descrita no gerarresultados prticos. Um processo de deciso baseado na distribuio das distncias MinSDem comparaes entre oradores diferentes (figura 19a) mostra-se como melhor alternativa.Sendo a mdia estatstica desses dados mdist = 33, 78 e o desvio padro dist = 6, 27,uma medida (de verossimilhana) de que a distncia x (entre segmentos) seja de oradoresdiferentes pode ser dada por

    V ero(x) = exp((xmdist)

    2

    22dist

    ).

  • 44 Captulo 6. Implementao e Resultados Obtidos

    A verossimilhana para oradores iguais ser o complemento de V ero, isto , 1 V ero(sabendo que V ero uma medida de probabilidade). Finalmente, o score calculado deacordo com

    score =NCi=1 sign(MinSC (i)mer) (1 V ero(MinSC (i)))

    NC.

    A funo sign(x) a funo Sinal, que definida como +1 para valores positivos de x, ecomo -1, caso contrrio. Ela utilizada para que scores com valores negativos representemsegmentos muito diferentes, e scores com valores positivos representem segmentos muitosemelhantes.

    O resultado dos testes na base de dados, com os preceitos discutidos na pargrafoanterior ilustrado na figura 21. O EER desse teste muito semelhante, ou estatisticamenteigual, ao EER obtido nos grficos da figura 19, portanto ambas decises so equivalentespara o problema de verificao de orador dependente de texto. Contudo, a superioridadedesse ltimo tipo de deciso ser exposta no teste a seguir.

    1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 10

    0.05

    0.1

    0.15

    0.2

    0.25

    0.3

    0.35

    Score

    Conc

    entra

    o

    (%)

    (a) Histograma de scores para comparaesde mesmo orador (linha contnua) e deoradores diferentes (linha tracejada).

    1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1 FAR

    FRR

    EER11,44%

    score

    (b) Taxa de falsa aceitao (FAR) e taxade falsa rejeio (FRR) para o scoreentre -1 e 1. O EER encontrado deaproximadamente 11,4%.

    Figura 21 Resultado dos testes do Sistema 2 para a base de dados, com score baseadoem verossimilhana.

    6.4.1 Experimento com palavras embaralhadas (semi-independentes do texto)At aqui, em todos os testes efetuados, o comando de cadastro foi comparado com

    o mesmo comando de teste, ou seja, um sistema de verificao de orador dependente detexto foi construdo. Para simular testes independentes de texto, os dados da base foramsistematicamente embaralhados e concatenados. Isto , como explicado anteriormente,constam na base de dados cinco palavras diferentes (avance, direita, esquerda, recuee pare), para forar textos diferentes, as palavras foram concatenadas de forma aleatriapara cada orador. 77 sinais concatenados foram criados com esse procedimento. Neste

  • 6.4. Sistema 2 45

    contexto, o termo semi-independente do texto refere-se ao fato de que, apesar das palavrasestarem aleatoriamente permutadas, certeza que o sinal de cadastro ter as mesmaspalavras do sinal de teste.

    O grfico da figura 22, representa o histograma de distncias MinSD para o testecom palavras embaralhadas, utilizando o Sistema 2. Este histograma muito semelhanteao histograma da figura 19a. A distribuio das distncias para comparaes entre oradoresdiferentes foi usada como referncia para o clculo de score baseado em verossimilhana.

    10 15 20 25 30 35 40 45 50 55 600

    0.01

    0.02

    0.03

    0.04

    0.05

    0.06

    0.07

    0.08

    0.09

    Distncia acumulada

    Conc

    entra

    o

    (%)

    Figura 22 Histograma das distnciasMinSD , comparao entre oradores diferentes (linhatracejada), e comparao entre oradores iguais (linha contnua).

    A figura 23 ilustra os resultados da aplicao do Sistema 2 sobre as sequncias depalavras embaralhadas, utilizando o clculo de score baseado em verossimilhana. O EERencontrado substancialmente menor que os EERs encontrados anteriormente. menorat do que o EER encontrado no teste do Sistema 1 (sem segmentao e com reconhecimentodependente de texto). Naturalmente, vale notar que os sinais de teste e cadastro paraas palavras embaralhadas so maiores (6 segundos em mdia). O aperfeioamento dosresultados do Sistema 2 com as palavras embaralhadas est relacionado fortemente com oaumento no nmero de segmentos por sinal (de teste e cadastro). A nvel de comparao,um teste com as palavras embaralhadas, utilizando o Sistema 1, ser, antecipadamente,um fracasso (em virtude da impossibilidade do alinhamento DTW).

    Lembrando a anlise binomial, foi hipotetizado que para que o desvio padrodiminua, necessrio que haja mais segmentos por sinal. Sendo assim, os testes na basede dados de palavras embaralhadas so refeitos, com clculo de score como o nmero deMinSD menores que dist = 31, 88 (valor da mediana da distribuio de oradores diferentesda figura 22), dividido pelo nmero de segmentos do sinal de cadastro (NC). A mdiaestatstica dos scores foi mscore = 0, 491 e o desvio padro score = 0, 222. Com estesresultados, o grau de liberdade encontrado Nb = mscore(1mscore)/2score 5. Novamente,

  • 46 Captulo 6. Implementao e Resultados Obtidos

    0.5 0 0.5 10

    0. 02

    0. 04

    0. 06

    0. 08

    0.1

    0. 12

    Score

    Conc

    entra

    o

    (%)

    (a) Histograma de scores para comparaesde mesmo orador (linha contnua) e deoradores diferentes (linha tracejada).

    1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    FAR

    FRR

    EER 0, 82%

    Score

    (b) Taxa de falsa aceitao (FAR) e taxade falsa rejeio (FRR) para o scoreentre -1 e 1. O EER encontrado deaproximadamente 0,82%.

    Figura 23 Resultado dos testes do Sistema 2 para base de sinais embaralhados, comscore baseado em verossimilhana.

    o nmero de segmentos independentes (representado por Nb) menor que o nmero desegmentos mdio para esse teste (de aproximadamente 13 segmentos). Apesar do resultadoter melhorado, em comparao com a anlise binomial anterior, esses parmetros aindano so suficientemente apurados para desenvolver uma deciso satisfatria de verificaode orador.

    6.4.2 Sobre as limitaes mais evidente do Sistema 2Para finalizar, resta fazer uma anlise de desempenho do Sistema 2 para compara-

    es entre palavras isoladas da base de dados, sorteadas aleatoriamente, sem restriesde texto (como efetuado para o Sistema 1 na figura 16, pag. 41). Os grficos da figura24 representam os resultados obtidos para esse teste final. Est claro que a verificao deorador impossvel nestas condies, as distribuies de scores de oradores diferentes eoradores iguais so praticamente indissociveis. Isso sugere que o Sistema 2 ter um bomdesempenho para verificao de orador independente de texto se, ao menos, os sinais deteste e de cadastro tenham algumas slabas semelhantes e um bom nmero de segmentossilbicos.

  • 6.4. Sistema 2 47

    10 20 30 40 50 60 70 80 900

    0.01

    0.02

    0.03

    0.04

    0.05

    0.06

    0.07

    0.08

    Distncia acumulada

    Conc

    entra

    o

    (%)

    (a) Histograma de distncias MinSD paracomparaes de mesmo orador (linhacontnua) e comparaes de oradores di-ferentes (linha tracejada).

    1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 10

    0.02

    0.04

    0.06

    0.08

    0.1

    0.12

    0.14

    0.16

    0.18

    Score

    Conc

    entra

    o

    (%)

    (b) Histograma de scores para comparaesde mesmo orador (linha contnua) e deoradores diferentes (linha tracejada).

    1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    Score

    FRR

    EER43,67%

    FAR

    (c) Taxa de falsa aceitao (FAR) e taxa de falsa rejeio (FRR) para o score entre -1 e 1. OEER encontrado de aproximadamente 44%.

    Figura 24 Resultado dos testes do Sistema 2 para base de sinais normal, com scorebaseado em verossimilhana e verificao independente de texto.

  • 7 Concluses e trabalho futuros

    Foi desenvolvido neste trabalho um sistema de verificao de orador para sinaissemi-independentes de texto, utilizando ferramentas clssica de processamento de voz esegmentao em unidades silbicas da fala. Apesar das taxas de reconhecimento encontradasnos testes serem animadoras (ver sec. 6, pag. 39), os testes foram realizados com apenasuma base de sinais. Dessa forma, a continuao natural deste trabalho o teste combases diferentes (como a base MOBIO (MARCEL; GNTHER; KHOURY, 2012)) em trscondies distintas:

    1. Testes com as mesmas restries dos testes aqui desenvolvidos (em relao ao tamanhodos sinais, semi-independncia do texto e verificao de orador);

    2. Testes para verificar a conjectura proposta na seo 6.4.2 (a respeito do nmero desegmentos dos sinais e da correspondncia silbica entre sinais);

    3. Testes com bases completamente independentes de texto, para verificar se o sistemaaqui proposto uma alternativa para o reconhecimento independente de texto.

    Paralelamente, outras tcnicas podem ser introduzidas no sistema, para melhoraraspectos diversos (como melhorar a taxa de segmentao, analisar a correspondncia tem-poral das slabas usando HMM). Igualmente interessante, para aplicaes em TelevigilnciaMdica ((MEDJAHED et al., 2009; MONTALVO; ISTRATE; BOUDY, )), a adaptaodo sistema ao reconhecimento de sons moderadamente estruturados, como sons tpicos deambientes domsticos.

  • 49

    Referncias

    BANDT, C.; POMPE, B. Permutation entropy: a natural complexity measure for timeseries. Physical Review Letters, APS, v. 88, n. 17, p. 174102, 2002. Citado na pgina 34.

    BERANEK, L. L. Acoustics. [S.l.]: Acoustical Society os America, 1993. Citado na pgina21.

    BIMBOT, F. et al. A tutorial on text-independent speaker verification. EURASIP journalon applied signal processing, Hindawi Publishing Corp., v. 2004, p. 430451, 2004. Citado2 vezes nas pginas 15 e 16.

    BRIDLE, J. S.; BROWN, M. D. An experimental automatic word-recognition system.JSRU Report, 1974. Citado na pgina 27.

    CUADROS, C. D. et al. Comparaao entre as tcnicas de mfcc e zcpa para reconhecimentorobusto de locutor em ambientes ruidosos. Rio de Janeiro, RJ, 2007. Citado na pgina 27.

    DAUGMAN, J. How iris recognition works. Circuits and Systems for Video Technology,IEEE Transactions on, IEEE, v. 14, n. 1, p. 2130, 2004. Citado 2 vezes nas pginas 44e 45.

    DAVIS, S. B.; MERMELSTEIN, P. Comparison of parametric representations formonosyllabic word recognition in continuously spoken sentences. IEEE Transactions onAcoustics, Speech, and Signal Processing, v. 28, n. 4, 1980. Citado 2 vezes nas pginas 27e 28.

    DUDLEY, H. Remaking speech. The Journal of the Acoustical Society of America, v. 11,p. 169, 1939. Citado na pgina 26.

    ERIKSSON, L. Algorithms for automatic segmentation of speech. Lund Working Papersin Linguistics, v. 35, p. 5361, 2009. Citado 2 vezes nas pginas 37 e 38.

    FAUNDEZ-ZANUY, M. On-line signature recognition based on vq-dtw. PatternRecognition, Elsevier, v. 40, n. 3, p. 981992, 2007. Citado na pgina 31.

    Fletcher, H. Auditory Patterns. Reviews of Modern Physics, v. 12, p. 4765, jan. 1940.Citado 4 vezes nas pginas 9, 23, 24 e 28.

    FURUI, S. 50 years of progress in speech and speaker recognition. Proc. SPECOM 2005,p. 19, 2005. Citado na pgina 16.

    GHITZA, O. Auditory models and human performance in tasks related to speech codingand speech recognition. Speech and Audio Processing, IEEE Transactions on, IEEE, v. 2,n. 1, p. 115132, 1994. Citado 2 vezes nas pginas 23 e 28.

    GLASBERG, B. R.; MOORE, B. C. Derivation of auditory filter shapes from notched-noisedata. Hearing research, Elsevier, v. 47, n. 1, p. 103138, 1990. Citado na pgina 24.

    HASAN, M. R.; JAMIL, M.; RAHMAN, M. G. R. M. S. Speaker identification using melfrequency cepstral coefficients. variations, v. 1, p. 4, 2004. Citado na pgina 27.

  • 50 Referncias

    HAVELOCK, D.; KUWANO, S.; VORLNDER, M. Handbook of signal processing inacoustics. [S.l.]: Springer, 2008. Citado 4 vezes nas pginas 9, 20, 21 e 24.

    ITAKURA, F. Minimum prediction residual principle applied to speech recognition.Acoustics, Speech and Signal Processing, IEEE Transactions on, IEEE, v. 23, n. 1, p.6772, 1975. Citado na pgina 33.

    JR, J. P. C. Speaker recognition: A tutorial. Proceedings of the IEEE, IEEE, v. 85, n. 9, p.14371462, 1997. Citado 2 vezes nas pginas 15 e 16.

    KIM, D.-S.; LEE, S.-Y.; KIL, R. M. Auditory processing of speech signals for robustspeech recognition in real-world noisy environments. Speech and Audio Processing, IEEETransactions on, IEEE, v. 7, n. 1, p. 5569, 1999. Citado na pgina 28.

    LEVIN, E.; PIERACCINI, R. Dynamic planar warping for optical character recognition.In: IEEE. Acoustics, Speech, and Signal Processing, 1992. ICASSP-92., 1992 IEEEInternational Conference on. [S.l.], 1992. v. 3, p. 149152. Citado na pgina 31.

    LOGAN, B. et al. Mel frequency cepstral coefficients for music modeling. In: ISMIR. [S.l.:s.n.], 2000. Citado na pgina 27.

    MARCEL, S.; GNTHER, M.; KHOURY, E. ICB 2013-Competition on speakerrecognition in mobile environment using the MOBIO database: The Evaluation Plan. [S.l.],2012. Citado na pgina 51.

    MEDJAHED, H. et al. Human activities of daily living recognition using fuzzy logicfor elderly home monitoring. In: IEEE. Fuzzy Systems, 2009. FUZZ-IEEE 2009. IEEEInternational Conference on. [S.l.], 2009. p. 20012006. Citado na pgina 51.

    MENDES, D. R. et al. Reconhecimento de orador em dois segundos. Tese (Doutorado) Tese de mestrado, Faculdade de Engenharia da Universidade do Porto, 2011. Citado 2vezes nas pginas 15 e 16.

    MERMELSTEIN, P. Automatic segmentation of speech into syllabic units. The Journalof the Acoustical Society of America, v. 58, p. 880, 1975. Citado na pgina 37.

    MERMELSTEIN, P. Distance measures for speech recognition, psychological andinstrumental. Pattern recognition and artificial intelligence, New York: Academic, v. 116,p. 374388, 1976. Citado na pgina 27.

    MONTALVO, J.; ISTRATE, D.; BOUDY, J. Improved signal representation for eventdetection in remote health care through psychoanalytical masking. In: Proc. of XVIIICongresso Brasileiro de Automtica (CBA). [S.l.: s.n.]. Citado na pgina 51.

    MONTALVO, J.; ARAUJO, M. R. R. Is masking a missing aspect of mfcc? a speakerverification perspective. Pattern Recognition Letters (ELSEVIER), 2012. Citado 2 vezesnas pginas 27 e 28.

    MONTALVO, J.; MONTALVO, M.; RAULINO, C. Deteco de orador e palavras emtelevigilncia mdica com treinamento mnimo: uma amostra por palavra. XIX CongressoBrasileiro de Automtica, 2012. Citado 2 vezes nas pginas 33 e 39.

    MLLER, M. Information retrieval for music and motion. [S.l.]: Springer, 2007. Citado2 vezes nas pginas 31 e 32.

  • Referncias 51

    NIELS, R.; VUURPIJL, L. Using dynamic time warping for intuitive handwritingrecognition. In: CITESEER. Proc. IGS. [S.l.], 2005. p. 217221. Citado na pgina 31.

    RABINER, L.; JUANG, B.-H. Fundamentals of speech recognition. [S.l.]: Prentice hall,1993. Citado 5 vezes nas pginas 9, 19, 25, 31 e 33.

    RABINER, L.; ROSENBERG, A.; LEVINSON, S. Considerations in dynamic timewarping algorithms for discrete word recognition. Acoustics, Speech and Signal Processing,IEEE Transactions on, IEEE, v. 26, n. 6, p. 575582, 1978. Citado na pgina 31.

    SAKOE, H.; CHIBA, S. Dynamic programming algorithm optimization for spoken wordrecognition. Acoustics, Speech and Signal Processing, IEEE Transactions on, IEEE, v. 26,n. 1, p. 4349, 1978. Citado na pgina 33.

    SIGURDSSON, S.; PETERSEN, K. B.; LEHN-SCHILER, T. Mel frequency cepstralcoefficients: An evaluation of robustness of mp3 encoded music. 2006. Citado na pgina27.

    VILLING, R.; TIMONEY, J.; WARD, T. Automatic blind syllable segmentation forcontinuous speech. 2004. Citado na pgina 37.

    VINTSYUK, T. Speech discrimination by dynamic programming. Cybernetics andSystems Analysis, Springer, v. 4, n. 1, p. 5257, 1968. Citado na pgina 33.

    XIE, Z.; NIYOGI, P. Robust acoustic-based syllable detection. In: CITESEER.INTERSPEECH. [S.l.], 2006. Citado na pgina 37.

    ZHENG, F.; ZHANG, G.; SONG, Z. Comparison of different implementations of mfcc.Journal of Computer Science and Technology, Springer, v. 16, n. 6, p. 582589, 2001.Citado na pgina 28.

    Folha de rostoFolha de aprovaoAgradecimentosResumoAbstractLista de ilustraesLista de tabelasSumrioIntroduoEstado da arteObjetivosEstrutura do texto

    O Sistema Auditivo e O Aparelho FonadorIntroduoSistema AuditivoAparelho Fonador

    Coeficientes Cepstrais de Frequncia MelIntroduoImplementao clssica do MFCC

    Pr-alinhamento e Alinhamento DTWImplementao Clssica do DTWPr-alinhamento baseado em perfil de energia

    Segmentao da falaImplementao e Resultados ObtidosIntroduoDescrio da base de dadosSistema 1Sistema 2Experimento com palavras embaralhadas (semi-independentes do texto)Sobre as limitaes mais evidente do Sistema 2

    Concluses e trabalho futurosReferncias